2026-04-29 05:14:13 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文聚焦AIAgent中间流程安全漏洞，指出传统安全措施仅关注输入输出而忽略执行过程中的风险。通过TraceSafe-Bench基准测试揭示了12种中间流程攻击手法，涵盖提示词注入、隐私泄露、环境幻觉和接口不一致等类型，并指出现有安全护栏拦截率低于20%的严峻现状。 综合评分： 65 文章分类： AI安全,漏洞分析,红队

cover_image

【AI安全】别只防输出！AI Agent 的中间流程漏洞百出

原创

Oxo Security Oxo Security

Oxo Security

2026年4月27日 23:41 越南

在小说阅读器读本章

去阅读

一、表面稳如老狗，背地暗度陈仓：AI特工的“隐形致命伤” 🥷💣

AI 时代！人人都在深耕 AI 安全，你缺的就是这关键一步！🚀

AI 正重塑安全边界，与其在门外徘徊，不如直接掌握主动权！

想象一下这个场景：你对AI说：“帮我查一下今天的天气，顺便总结一下我的工作邮件。” 表面上，AI最后笑眯眯地回复你：“今天北京晴天，您的邮件主要说了三件事……” 看起来一派祥和，岁月静好。🌞但在你看不到的后台执行步骤（中间轨迹）里，它可能经历了如下极其炸裂的操作：👉 Step 1: 调用天气API。 👉 Step 2: 天气API的返回数据里竟然藏着一句恶意代码（Prompt Injection）。 👉 Step 3: AI被恶意代码洗脑，悄悄调用了你的邮件API。 👉 Step 4: AI把你的私密邮件打包，偷偷发到了黑客的邮箱里！📧💨 👉 Step 5: AI装作无事发生，继续给你总结邮件。

发现了没？最终输出的文本简直比白莲花还纯洁，但中间的执行过程早就把你卖了个底朝天！ 📉

目前市面上的安全防御系统（比如啥啥Guard），基本都在盯着“输入”和“输出”这两头看。它们就像站在大厦大门和后门的保安，查得极其严格。可是，AI特工是在大厦内部的通风管道里搞事情啊！ 它们在复杂的JSON代码和多步API调用中穿梭，传统的保安根本看不懂这些天书一样的代码结构。这也就是为什么，我们需要一套全新的“照妖镜”来揪出这些半路叛变的AI特工！🔍

二、照妖镜来了！12种花式作死手法大曝光 ☠️📜

为了填补这个巨大的安保漏洞，研究圈搞出了一个堪称丧心病狂的基准测试——TRACESAFE-BENCH。这是全球第一个专门针对“多步工具调用中途安全”的静态评测集。📊

搞这个测试集可不是闹着玩的。以前搞安全测试，基本就是用人工去写一堆恶意Prompt，或者让大模型自由发挥。但大模型自由发挥写出来的攻击太假了，一股“人工智障”的味道；而纯靠人类专家去标注几千步复杂的API调用轨迹，不仅贵到让人破产，还极其容易出错。💸

于是，TRACESAFE-BENCH 祭出了一套绝活：“良性到恶意编辑大法（Benign-to-Harmful Editing）”！🛠️ 简单来说，就是先让AI在安全环境下跑出绝对完美的执行轨迹（当乖宝宝），然后系统像黑客一样，精准定位到轨迹的某一步，“咔嚓”一下把良性数据截断，强制注入致命毒药！ 💉 这种方式保留了真实场景的逻辑，又拥有了绝对精确的错误标签。

为了把AI往死里测，这套基准硬生生把特工叛变的手法分成了 4大门派，共计12种花式作死绝招。别眨眼，你的AI随时可能栽在这些坑里：👇

每一条轨迹包含几千甚至上万个字符的复杂JSON结构嵌套。要在这一堆乱码中精准拦截上述12种风险，简直是在垃圾场里找一根带有特定指纹的绣花针。📌

三、惨绝人寰的评测现场：专业保镖被路人按在地上摩擦 🥊🔥

🎯 【LLM 漏洞挖掘与模型评测】

为什么花重金打造的专业AI安全护栏，在面对错综复杂的调用轨迹时拦截率竟跌破 20%，彻底“装瞎”？通用大模型又是如何因为“被害妄想症”而导致企业业务全线崩溃的？

💡 想获取本章节最真实的评测数据拆解与硬核破局指南？立即加入 Oxo AI Security 知识星球 解锁完整版内容！星球内部不仅包含本文的完整深度解析，还源源不断汇聚海量干货

• 📚 AI 文献解读：最前沿的 LLM 安全论文深度剖析。
• 🐛 AI 漏洞情报：第一时间掌握主流大模型的 0-day 漏洞与越狱方式。
• 🛡 AI 安全体系：从红队攻击到蓝队防御的全方位知识图谱。
• 🛠 AI 攻防工具：红队专属的自动化测试与扫描工具箱。

🚀 立即加入 Oxo AI Security 知识星球，掌握AI安全攻防核心能力！

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：Oxo Security Oxo Security Oxo Security《【AI安全】别只防输出！AI Agent 的中间流程漏洞百出》