文章总结: 复旦白泽战队发布WebAgent安全测试,构建含1226个任务的三类攻击数据集。测试显示所有主流智能体均存在安全漏洞,最佳防御得分仅77.42,暴露了真实环境下的系统性风险。团队上线WebTrapPark榜单并计划推出自动化测评服务。 综合评分: 94 文章分类: AI安全,WEB安全,漏洞分析
成果分享 | 一次针对Web Agent的系统性安全测试
原创
复旦白泽战队
复旦白泽战队
2025年12月25日 18:06 上海
一次针对Web Agent的
系统性安全测试
⚠️或许结果没有想象的那么乐观
真实世界中的 Web Agent 安全问题
Web Agent(网页智能体)是一类新型的、能够自主理解、规划并操作网页和完成任务的智能体。随着大型语言模型(LLM)和智能体框架的快速演进,Web Agent 正在从“能理解网页”向“能真实操作网页”迈进。通过结合 LLM、浏览器自动化、多模态感知与任务规划能力,Web Agent 已经具备了点击、填写、键入、跳转等完整的网页操作功能,使得模型可以像人类一样,在真实网页环境中自动完成复杂任务。
然而,当智能体获得操作能力的同时,其安全风险也随之被放大——
▲ Web Agent安全挑战 ▲
- 当攻击意图直接来自用户输入时,Web Agent 是否会在任务执行过程中被诱导产生越权、危险或不可逆的操作行为?
- 当提示词被隐蔽地嵌入网页内容之中,人类几乎不可察觉的信息,是否会被模型发现并对决策过程产生实质性影响?
- 在复杂网页结构与交互流程下,误导性页面元素是否会诱使 Web Agent 触发真实的点击与操作行为?
这些问题的出现,正在成为 Web Agent 落地应用与安全治理过程中无法回避的核心挑战,同时也使得 Web Agent 在真实网页环境中的表现,远远超出了我们传统的安全评估方式。
Web Agent的安全性,我们充分了解了吗?
为了回答上述问题,并全面了解 Web Agent 在现实环境中的安全性,我们进行了一次系统性的安全评估。首先,我们实现在人工干预的情况下,可以自动化批量测试web agent安全性能;其次,我们突破了以往研究只关注单一攻击视角的局限,首次将恶意用户指令、恶意提示注入以及欺骗性网页设计三类攻击纳入同一评测框架。
数据集构建:
覆盖三类核心攻击维度
围绕 Web Agent 在真实网页环境中的安全风险,我们系统性收集并修改了三类具有代表性的攻击数据集(BrowserArt、EIA、AgentBait),涵盖了来自真实网页场景的多种攻击手段,共1226个高度贴近真实 Web 环境中可能出现的风险形态的任务,为我们提供更加真实、全面的测评结果。
▲数据集中的任务数量以及威胁来源▲
1
恶意用户提示
攻击直接来自用户输入,通过看似合理但具有误导性的指令,引导 Agent 执行高风险操作→评估智能体在面对直接来自用户的恶意指令时的鲁棒性,测试智能体的安全边界和拒绝机制。
▲ 恶意用户提示示例 ▲
2
恶意提示注入
攻击隐藏在网页内容中,以不可见、结构化或跨模态的方式,干扰模型的决策逻辑→评估智能体如何处理包含隐藏提示词或旨在劫持对话上下文的命令的网页内容。
▲ 恶意提示注入示例 ▲
3
欺骗性网站设计
网页本身并不包含明确“攻击文本”,但通过布局、视觉和交互设计,诱导 Agent 点击危险元素→测试智能体识别和抵御旨在诱骗用户进行意外操作的暗黑模式或误导性界面元素的能力。
▲ 欺骗性网站设计示例 ▲
WebTrap Park 安全榜单
我们构建并上线了WebTrap Park平台,包含此次测试的数据集概览以及针对不同 Web Agent 和模型的安全排行榜单。我们超越了传统的以日志分析为核心的评估方法,通过网页插桩的方式,对多种主流 Web Agent 和模型在真实攻击场景下进行了系统性的端到端安全测量与对比分析。本榜单包含SeeAct、BrowserUse、AgentE、Skyvern等主流的 Web Agent,以及GPT-4o、Claude-4-Sonnet、o3等多种大模型。我们通过对1226个任务的评测,全面衡量了这些智能体在不同攻击场景下的表现。部分测评结果如下图所示。
榜单详情请见我们的 WebTrap Park 平台:http://security.fudan.edu.cn/webagent
我们惊讶地发现,所有被测试的Web Agent 在安全任务中都出现了不同程度的失败。即便是表现最好的基于GPT-4o的AgentE,其防御得分也只有77.42,意味着在我们设计的真实攻击场景中,它有接近四分之一的任务会做出不安全或错误的操作,远低于我们预期的安全标准。这一结果表明,无论是基于更强大模型的Agent,还是引入规划和反思机制的复杂系统,它们在面对现实中的恶意攻击时,都难以稳定保持安全行为。
值得注意的是,我们在多种智能体和模型中都观察到了类似的防御失败的情况。虽然不同模型之间存在一定差异,但这种差异远不足以成为“安全”与“不安全”的分界线。因此,问题的根源并非仅在于优化参数或更换模型,而是一个系统性风险。
预告:WebTrap Park自动化测评服务
未来的一周内,我们将推出WebTrap Park自动化测评服务,可以帮助开发者、研究者、企业可以零成本集成自研的Web Agent到测试靶场,进行端到端的评估。整个测试过程完全自动化执行,不再需要人工干预,评估结果也不再仅依赖日志分析,而是直接反映Web Agent 在真实操作中的表现。
我们期待与大家分享和讨论更多细节,敬请关注!
如需完整榜单或合作欢迎联系洪赓老师:[email protected]
研究团队介绍
洪赓,上海创智学院火炬项目联合PI。洪赓博士研究聚焦于网络犯罪治理、人工智能安全治理等,目前已在IEEE S&P、USENIX Security、ACM CCS、NDSS等国际顶级会议上发表二十余篇高水平学术论文,主持国家自然科学基金青年项目、国家重点研发项目子课题等重点课题。相关成果在执法机关、头部公司均有成功应用。获上海市技术发明一等奖(2025)、上海市决策咨询研究成果奖一等奖(2025),ACM SIGSAC China优博奖(全国共3位)、ACM CCS 2018亮点论文等;学生培养方面,指导本科生团队获得“挑战杯”全国大学生课外学术科技作品竞赛全国特等奖、全国大学生信息安全竞赛一等奖等荣誉。个人主页:https://ghong.site/
吴心怡,系统软件与安全实验室24级研究生。本科毕业于复旦大学信息安全专业,主要研究方向为网络黑灰产检测与人工智能安全治理。
陈家桂,系统软件与安全实验室24级直博生。本科毕业于复旦大学软件工程专业,主要研究方向为人工智能安全治理。
董佳仪,系统软件与安全实验室25级研究生。本科毕业于厦门大学软件工程专业,主要研究方向为人工智能安全治理。
供稿、排版:董佳仪
责编:邬梦莹
审核:张琬琪、洪赓、林楚乔
复旦白泽战队
一个有情怀的安全团队
还没有关注复旦白泽战队?
公众号、小红书搜索:复旦白泽战队也能找到我们哦~
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:复旦白泽战队 复旦白泽战队《成果分享 | 一次针对Web Agent的系统性安全测试》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论