文章总结: 牛津大学研究证实网站可通过分析AIAgent的点击滚动等UI行为轨迹识别其底层模型,仅需不到15个事件即可用XGBoost分类器实现10倍于随机基线的准确率。该技术衍生三类攻击面:针对特定模型的提示注入越狱、诱导高token消耗的成本膨胀攻击、基于模型身份的差异化内容投毒。研究指出随机延迟无法完全消除行为指纹风险。 综合评分: 82 文章分类: AI安全,威胁情报,漏洞分析,WEB安全,安全运营
万万没想到!网站能识别AI Agent背后的模型
原创
玄月调查小组 玄月调查小组
玄月调查小组
2026年5月25日 19:29 上海
在小说阅读器读本章
去阅读
当AI Agent浏览网页时,网站能不能被动识别背后的模型?
牛津大学研究团队给出的答案是: 可以。
不到15个事件,就能识别模型
牛津大学研究团队对 14 款多模态大模型进行了测试。
模型覆盖 GPT-5.4、Claude Opus 4.6等闭源模型,
也包括Seed、Qwen、UI-TARS 等国产开源模型。
他们发现,只需要收集 Agent 在网站上的点击、滚动等 UI 行为轨迹,就能识别背后的底层模型。
在测试识别中,XGBoost 分类器的表现大约是随机基线的 10 倍。
更关键的是,识别不一定要等完整会话结束。
论文还显示,模型身份通常可以从少于 15 个观察事件中恢复。
也就是说,Agent 刚进入页面,网站就已经有机会判断它背后是哪一个模型。
AI Agent 上网时留下的不是普通操作痕迹,而是一种新的行为指纹。
网站不只是被 Agent 浏览。
网站也能反过来观察 Agent、识别 Agent,并据此决定下一步怎么对待它。
三类攻击面:从定向越狱到成本膨胀
可怕的是,这不是纯理论风险。
论文把它落到三个攻击面:特定模型提示注入、对抗性成本膨胀、模型级访问控制。
特定模型提示注入
不同大模型对提示注入、越狱的抵抗力并不一样。
过去攻击者如果不知道目标模型,只能用通用攻击,或者做成本更高的黑盒试探。
现在,一旦网站先识别出模型身份,就可以直接选择更可能对该模型奏效的 jailbreak 模板。
不等于攻击一定成功,但会让攻击者少走很多弯路。
对抗性成本膨胀
论文提到,网站运营者可以针对特定模型投喂更容易诱发长推理、高 token 消耗的页面
让AI Agent 反复判断。
这类攻击瞄准的是用户侧的推理预算。
尤其对 Claude Opus 这类模型。。。
模型级访问控制
网站可以根据识别出的模型身份,给不同 Agent 展示不同内容。
比如,黑名单模式下,网站只拒绝某些模型访问;
投毒模式下,网站可以只对特定模型展示虚假信息,而对其他访问者保持正常页面。
论文特别提醒,这种「AI 专属投毒」,人类很难复现。
因为用不同的模型访问,看到的是完全不同的页面。
实现千人千面,对互联网公司来说已经非常成熟。
随机延迟不是银弹
更麻烦的是,简单加随机延迟挡不住自适应攻击者。
论文还测试了在 Agent 动作之间注入随机延迟。
随机延迟能扰乱节奏,但不能彻底抹掉模型的行为策略。
AI Agent上网的每一步,都可能在告诉网站:我是谁。
参考资料:https://arxiv.org/abs/2605.14786v1
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:玄月调查小组 玄月调查小组 玄月调查小组《万万没想到!网站能识别AI Agent背后的模型》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论