2026-05-28 04:06:17 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 该文档指出当前AI安全领域存在过度依赖模型自身安全的误区，提出应将智能体视为不可信系统而非可信软件组件。研究团队从传统系统安全提炼出五大核心准则：最小权限、可信计算基防篡改、完整中介、安全信息流和人类作为薄弱环节。同时提出三种实现机制：指令数据分离、可验证权限策略生成和信息流控制，并介绍了ADR框架在实战中实现67%新型攻击检测且零误报的突破性成果。 综合评分： 85 文章分类： AI安全,解决方案,安全建设,系统安全,政策法规

cover_image

智能体更像是系统而不是软件

数世咨询

2026年5月27日 15:23 河北

在小说阅读器读本章

去阅读

点亮上方「★星标」更多干货内容，不再错过！

本文关键看点：

#01

谷歌与多所大学的研究人员发表论文建议，应停止将智能体视为可信软件组件，而应将其看作为，运行在企业基础设施内的不可信系统来保护。

#02

论文作者提炼出系统安全的五个原则：最小权限、可信计算基的抗篡改性、完全中介、安全的信息流，以及将人类视为安全链条中的薄弱环节。

#03

三个实现机制：一是指令与数据分离；二是可验证的最小权限策略生成；三是信息流控制。

▍以下正文内容基于英文原文编译，可能存在语义偏差，请以原文为准。

✦

以下为正文

✦

走出误区：过去两年企业安全界最昂贵的假设

过去两年，整个企业安全界在部署 AI 场景时，普遍遵循着一个看似完美的假设——“只要 LLM 模型本身变得更聪明、对齐做得更好、提示词防线筑得更厚，AI系统就安全了。”

于是，大量的精力被投入到如何给大模型做 RLHF（人类反馈强化学习）、微调，或者在输入输出端死磕“提示词护栏”。

然而，本月由谷歌、加州大学圣迭戈分校（UCSD）、威斯康星大学麦迪逊分校等顶尖机构的研究人员（包括 Mihai Christodorescu、Earlence Fernandes 和 Somesh Jha）联合发表的一篇重磅论文，为整个行业带来了及时雨般的清醒剂。

这篇论文帮我们厘清了一个关键的范式转变：企业无法单靠让底层 AI 模型更稳健来保护智能体（AI Agents）。传统的“模型中心化”安全方法，已经与自主智能体在企业环境中的实际运行方式产生了错位。

当智能体开始接管工作流，提示词注入（Prompt Injection）就不再只是一个简单的“内容操纵”问题，而是上升到了工作流执行和系统完整性的新高度, 能够影响互联企业环境中的下游操作。

拨云见日：为什么 “ 层层堆叠安全模型 ” 是个走不通的闭环？

在目前的智能体架构中，AI大模型扮演着“大脑”的角色，连接着企业工具、内存、API、浏览器和执行环境。很多团队的第一反应是：既然一个模型不够安全，那我就在外面再套一个“安全模型”当护栏。

但这篇论文一针见血地指出了这种“套娃思维”的局限性：

“仅仅堆叠机器学习（ML）模型，并不构成真正的深度防御。”

原因在于：作为防线的“安全模型”，往往与它们所监控的主要智能体共享着相同的统计故障模式。 也就是说，如果底层的 Agent 大脑容易被越狱或欺骗，那么用来监控它的安全大模型，同样容易被新型的间接注入搞晕。用一个同样具备概率不确定性的算法去监督另一个算法，很容易陷入防御效能的死循环。

因此，研究人员提出了一个极具建设性的全新类比：我们应该把驱动智能体的 AI 模型视为“不可信组件”。这就像现代操作系统（OS）的设计哲学一样——操作系统从来不假设运行在它上面的进程是绝对安全的。相反，操作系统的做法是建立一整套外部的、系统级的机制来强制执行安全属性。保护智能体，同样需要这种“将安全防线筑在模型之外”的系统思维。

指路明灯：智能体安全的五大核心准则

为了帮企业安全架构师们找到抓手，论文从数十年的传统系统安全研究中，沉淀出了智能体系统应该遵循的五大核心准则。

最小权限（Least Privilege）：不能因为 Agent 拥有自主性，就赋予其超出当前任务所需的工具调用权限。
可信计算基（TCB）的防篡改性：核心的安全底座必须与模型层绝对隔离，确保其不可被绕过。
完整中介（Complete Mediation）：每一次工具的调用、每一个上下游的操作，都必须经过运行时检查。
安全信息流（Secure Information Flow）：必须具备能够跟踪和控制敏感数据在模型与外部系统之间流动的能力。
将人类视为薄弱环节（Human as a Weak Link）：合理设计“人在回路（Human-in-the-loop）”机制，避免让人类确认成为拖慢机器速度的响应瓶颈。

作为证据，研究团队还非常硬核地拆解了 ChatGPT macOS 应用数据泄露、Claude Code 漏洞、Microsoft Copilot 泄露漏洞，以及针对 Cursor 的 “AgentFlayer” 攻击等 11 起真实世界经典案例，发现它们基本上都违反了“安全信息流”原则，大多数还违反了最小权限原则。

为了将这些原则付诸实践，作者提出了三种安全机制，每一种都对应着社区尚未解决的一个开放研究问题。

第一种是指令与数据的分离，因为语言模型将两者混合在单一的token流中，而在源级别没有任何区分。

第二种是可验证的最小权限策略生成，这很难实现，因为面向智能体的安全策略是用自然语言编写，并且会随着任务演进而变化，这使得它们难以被转换为系统能够强制执行的规则。

第三是信息流控制，因为“跟踪敏感数据在模型中如何流动“”的问题仍未解决。

从 EDR 到 ADR ：下一代 AI 安全基础设施正在破局

除了理论上的拨云见日，行业在工程落地端也传来了好消息。这篇论文指出，现有的企业安全堆栈（如 SIEM、XDR、EDR）多是为监控确定性应用而设计的，缺乏对智能体“认知与推理轨迹”的运行时可见性。

为了破解这一谜局，另一项最新的前沿研究顺理成章地交出了答卷——智能体式检测与响应（Agentic Detection and Response，简称 ADR）框架。

这是一个专门为智能体环境量身定制的防御新物种。在生产环境中对每天超过 10,000 次智能体会话、分布在 7,200 台主机上的实战监控表明，ADR 框架成功识别出了数百起凭据暴露及其他智能体特有风险，覆盖 26 类新型攻击。

更令人振奋的是，根据官方的 ADR-Bench 基准测试数据显示：

该系统能够检测出 67% 的新型攻击，且误报率为零，F1 分数比 Meta 的 LlamaFirewall 等传统基线系统高出两到四倍。
在公开的提示符注入基准测试 AgentDojo 上，它在 93 个任务中达成了 100% 的攻击检测率，误报率仅为 3%。

这证明了，一旦我们将安全重心从“死磕模型”释放出来，转向“针对智能体运行时的观测与隔离”，或将缓解当前安全困境。

结语

这篇论文的出现，及时地帮整个行业捅破了那层窗户纸：AI安全的解药，不在模型内部，而在系统工程。

不要再试图通过无休止的 Prompt 拔河去训练一个完美不犯错的大模型了。当企业开始将智能体视为一个微型的“操作系统”或分布式系统，并着手加强对其的运行时隔离、隔离边界、最小权限执行以及工作流可观测性控制时，AI 安全的下半场才算真正走上了正轨。

技术演进的迷雾已经散去，属于系统级 AI 防御的新蓝海，才刚刚开始。

注：论文原文可在arXiv平台搜索2605.18991或直接点击阅读原文查看。

原文：https://arxiv.org/pdf/2605.18991

* 本文为泽钧编译，原文地址：https://www.csoonline.com/article/4176725/ai-security-needs-a-shift-from-models-to-systems-researchers-argue.html 注：图片均来源于网络，无法联系到版权持有者。如有侵权，请与后台联系，做删除处理。

— 【 THE END 】—

🎉 大家期盼很久的#数字安全交流群来了！快来加入我们的粉丝群吧！

🎁多种报告，产业趋势、技术趋势

这里汇聚了行业内的精英，共同探讨最新产业趋势、技术趋势等热门话题。我们还有准备了专属福利，只为回馈最忠实的您！

👉 扫码立即加入，精彩不容错过！

😄嘻嘻，我们群里见！

更多推荐

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：数世咨询《智能体更像是系统而不是软件》