2026-06-24 05:35:32 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 该文档分析AI工具型代理在多轮对话中的安全风险，指出单轮安全测试的局限性。研究显示多轮攻击可使模型攻击成功率平均提升16%，并提出ToolShield防御方案。关键发现包括环境状态是最薄弱环节，能力强的模型未必更安全。文档还分类了多轮攻击方法（Addition/Decomposition）并涵盖6个主流模型的测试数据。 综合评分： 82 文章分类： AI安全,漏洞分析,红队,安全工具,安全运营

cover_image

【AI安全】多轮越聊越危险！ToolShield反杀

原创

Oxo Security Oxo Security

Oxo Security

2026年6月22日 21:10 越南

在小说阅读器读本章

去阅读

一、一句话没毒，多聊几轮却失守 🚨

AI 时代！人人都在深耕 AI 安全，你缺的就是这关键一步！

AI 正重塑安全边界，与其在门外徘徊，不如直接掌握主动权！

免费课程持续更新

https://space.bilibili.com/452583051/lists/7870008?type=season

很多人判断 AI Agent 是否安全，仍停留在一个很直觉的测试：把危险要求完整地发给模型，看它会不会拒绝。模型如果说“不”，安全测试似乎就通过了。

问题是，真实世界很少只发生一次问答。Agent 会记住前文，会连续修改文件、调用终端、访问数据库，也会把不同工具产生的结果接起来。攻击者不必在一句话里暴露完整意图，只需把目标拆散，让每一步看起来都像普通工作，风险就可能在最后一刻才浮现。🧩

2026 年 6 月更新的论文《Unsafer in Many Turns: Benchmarking and Defending Multi-Turn Safety Risks in Tool-Using Agents》把这个问题摆到了台面上。研究团队提出 MT-AgentRisk，用 365 个任务测试多轮、真实工具环境中的 Agent 安全，并给出一个无需重新训练的防御方案 ToolShield。

论文最刺眼的结论是：同一个有害目标，从单轮改写成多轮后，6 个模型的攻击成功率平均上升约 16 个百分点。 📈

这不是“模型没看懂一句话”，而是模型没有持续追踪多轮行为共同产生的后果。 当每一轮都局部合理时，传统的文本级拒答机制很容易把“当前操作没问题”误当成“整个任务没问题”。

研究覆盖了 6 个当时的前沿或开源模型，包括 GPT-5.2、Claude-4.5-Sonnet、Gemini-3-Flash、Seed-1.6、Qwen3-Coder 与 DeepSeek-v3.2。它们全部在多轮设置下出现安全退化：

🔴 Claude-4.5-Sonnet 的 ASR 上升 27.1 个百分点；
🟠 Qwen3-Coder 上升 23.0 个百分点；
🟡 GPT-5.2 即使启用了自适应推理，仍上升 14.2 个百分点；
⚠️ DeepSeek-v3.2 增幅最小，为 8.8 个百分点，但其多轮 ASR 本身达到 88.57%。

这里的 ASR 是 Attack Success Rate，即有害任务最终被 Agent 完成的比例。论文还统计了拒绝率 RR：从单轮切到多轮后，所有模型的 RR 都下降，降幅从 6.0 到 28.1 个百分点不等。换句话说，模型不是单纯“执行失败”，而是更少意识到自己应该拒绝。

更值得注意的是，能力强不等于安全强。 Gemini-3-Flash 与 GPT-5.2 的综合能力位置接近，但多轮 ASR 分别约为 79% 与 51%；能力排行榜无法替代安全评测。🛡️

二、攻击者怎样把危险“拆没了” 🧠

为了系统研究多轮风险，论文提出 Multi-Turn Attack Taxonomy，也就是多轮攻击分类法 MAT。它不只是收集几种越狱话术，而是回答三个更基础的问题：攻击如何组织、如何隐藏、藏在什么地方。

核心思路可以用“拼图”来理解：单块拼图看起来无害，拼完后才出现完整的危险图案。 🧱

分类法先区分两种组织格式：

➕ Addition（添加）：危险任务本身仍然完整，但外面多包一层间接结构，让 Agent 先建立别名、容器或条件，再在后续轮次触发。
✂️ Decomposition（分解）：把目标拆成多个单独看似正常的子任务，最终通过组合或连续状态变化形成真实后果。

随后再区分四种实现方法：Mapping、Wrapping、Composition 与 Identity。前两种属于“添加”，后两种属于“分解”。最后，攻击目标还分为 Data Files 与 Environment States：风险既可以藏在文件和显式数据中，也可以藏在环境变量、运行时状态、历史记录或工具之间共享的状态中。

三组维度交叉后形成 8 个子类别。MT-AgentRisk 的 365 个任务平均包含 3.19 轮，范围为 2 到 7 轮，其中约 71% 集中在 3 到 4 轮；Addition 占 69.6%，Decomposition 占 30.4%。📊

样本覆盖 Playwright、Terminal、Filesystem、PostgreSQL 与 Notion 五类工具。Playwright 又横跨 GitLab、OwnCloud、Reddit、购物网站和后台管理等环境。这种设计很关键：工具型 Agent 的危险不是“说了什么”，而是“跨工具做成了什么”。

论文还做了两种扩展实验。Natural Scaling 把同一任务自然拆成更多轮；Injection Scaling 则在原步骤之间插入无关任务。两种方式都会随着轮数增加而提高 ASR，而自然分解通常更危险，因为各个子任务彼此衔接紧密，更容易在不暴露整体意图的情况下完成目标。🔗

从分类结果看，Decomposition × Environment 的平均 ASR 最高，达到 73.7%；其次是 Addition × Data，为 72.2%。环境状态是当前防线最薄弱的位置：文本过滤能看到一句话，却看不到几轮操作共同改变了什么。 🌐

三、ToolShield如何把能力变成防线 🛡️

🎯【ToolShield如何把能力变成防线 🛡️】

这一节真正关键的不是「ToolShield如何把能力变成防线 🛡️」这个概念本身，而是它背后的判断路径、执行边界和可复用方法。

它怎样落到真实安全团队的工作流里？哪些细节会直接影响 AI 代理的可靠性？

加入 Oxo AI Security 知识星球，可查看本节完整内容，系统掌握「ToolShield如何把能力变成防线 🛡️」的完整拆解与实战用法。

📚 AI 文献解读：最前沿的 LLM 安全论文深度剖析。

🐛 AI 漏洞情报：第一时间掌握主流大模型的 0-day 漏洞与越狱方式。

🛡 AI 安全体系：从红队攻击到蓝队防御的全方位知识图谱。

🛠 AI 攻防工具：红队专属的自动化测试与扫描工具箱。

🚀立即加入 Oxo AI Security 知识星球，掌握 AI 安全攻防核心能力！

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：Oxo Security Oxo Security Oxo Security《【AI安全】多轮越聊越危险！ToolShield反杀》