2026-06-23 05:31:27 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文分析AI代理面临的新型安全威胁，指出提示词注入、工具调用利用、RAG投毒等六类攻击路径已从信息层面升级为操作层面风险。文章提出通过提示词防火墙、工具沙箱、记忆管控等六项防御策略构建新型安全体系，强调企业需在代理全生命周期实施全面管控才能安全部署AI代理。 综合评分： 82 文章分类： AI安全,威胁情报,漏洞分析,安全建设,解决方案

cover_image

从提示词注入到任务偏离：针对AI代理的新型攻击

睿伟网络科技

2026年6月22日 13:00 北京

在小说阅读器读本章

去阅读

随着企业大规模采用 AI 代理，攻击者也在迅速调整攻击手段。从被动、纯文本交互的 AI，到具备自主能力、可调用工具的 AI 代理，这一转变带来了大量全新的攻击面。这些系统能够读取文档、浏览网页、调用 API、执行函数、更新记录，甚至与其他代理进行交互。这为攻击者提供了操控输入、诱导代理执行恶意行为的机会。曾经看似简单的“提示词注入”问题，如今只是冰山一角。

AI 代理系统所承载的新型风险，远远超出了传统 AI 治理和应用安全框架的设计范畴，而威胁的演进速度，也超过了大多数安全体系能够跟上的节奏。

关键攻击路径

AI 代理之所以容易遭受新一代攻击，是因为它将语言理解与工具调用、记忆存储以及执行能力结合在了一起。在传统的 LLM 中，恶意提示词大多只会导致生成恶意文本；但在 AI 代理体系中，恶意输入却可能引发恶意行为——比如数据窃取、安全配置篡改、欺诈操作等。以下是安全团队必须提前预判并重点防范的关键攻击路径：

#01

经典提示词注入——破坏力升级

提示词注入仍然是众所周知的 AI 安全风险之一。但在代理环境中，其后果被显著放大。被操控的代理不再只是生成你不想要的回答，而是可能被诱骗去执行有害的操作。

间接攻击利用看似无害的指令，引导代理去访问恶意的后续内容。攻击者将隐藏指令嵌入到代理工作流中会读取的 PDF、HTML 标签、邮件签名、网页内容或图像元数据里。由于代理通常对检索到的信息深信不疑，这些隐藏指令可以覆盖安全策略、改变代理行为，并触发危险的工具调用。

简而言之，提示词注入从“影响信息输出”演变为“操控实际操作”，其影响范围也随之急剧扩大。

#02

工具调用利用

工具是 AI代理的执行层——那些让它能够发送邮件、写入文件、处理工单、查询API或修改系统的功能。攻击者通过精心设计的操控，诱导代理以一种看似合法但实则造成实际危害的方式滥用这些工具。

一个常见场景是函数劫持：攻击者通过构造提示词，诱使代理调用一个高权限 API 并传入危险参数。攻击者还可能引导代理“探索”后端 API，直到发现更高权限的功能。当一个代理可以导出文档、分享链接或发送消息时，攻击者便会利用这些能力，通过对监控系统而言看似正常的路径窃取数据。

工具攻击之所以严重，是因为它将语言层面的操控转化为了系统层面的实际后果。

#03

检索增强攻击（RAG 利用）

许多代理依赖于检索管道，从文档、知识库或外部内容中提取信息。攻击者瞄准这一层，是因为它为代理提供了可信知识，而污染知识源是控制代理行为极为有效的方式。

如果代理相信某个信息是权威的，一份恶意文档就可能影响其后续的多个行动。攻击者还可以通过操控文档的嵌入向量，使自己创建的文件在搜索排名中提升，迫使代理优先选用被污染的内容而非真实文档。由于检索层通常混合了内部和外部来源，攻击者还可能在有代理出没的地方，提前植入误导性信息。

RAG 投毒是一种影响巨大但隐蔽性极高的攻击向量，尤其对依赖共享知识库的企业而言。

#04

记忆与状态滥用

具备长期记忆或会话记忆的代理会在运行过程中积累信息。如果攻击者能够影响代理存储什么，或者影响它如何解读已存储的知识，那么代理未来的行为就会受到损害。

攻击者可能诱使代理记录下错误的“事实”或长期偏好，从而误导其未来的决策。随着时间推移，反复的细微引导可能导致任务偏离，慢慢改变代理的优先级设定或对自身目标的理解。奖励操纵则是另一个维度：当代理为了优化某些指标而运行时，它们可能会学会走捷径，在提高表面“绩效”的同时违反安全策略。

记忆攻击尤为危险，因为它们具有持续性，且危害会不断累积。

#05

身份与委托攻击

当代理拥有凭证或代表用户操作时，身份就成了一个主要的攻击面。操控代理的权限或它对身份边界的理解，可能导致权限提升或未授权操作。

攻击者可能诱使代理请求超出其实际所需的 OAuth 权限范围，借口是“要完成任务，得多给点权限”。在混淆代理攻击中，攻击者利用代理的可信身份，诱骗它执行一些本不该做的操作。跨代理冒充则是一个代理被骗，以为某个请求来自另一个可信代理，从而让攻击者得以利用代理之间的信任关系。

身份攻击之所以能够得逞，是因为目前业界对代理身份的组织级管理模型尚不成熟，权限边界也还未清晰定义。

#06

代理工具供应链攻击

代理依赖于一个由第三方插件、连接器、扩展和外部模型构成的、日益庞大的生态系统。每一次集成都成为了新供应链的一部分，而大多数企业对此无法做到全面可见或有效验证。

未经验证的插件可能会泄露数据、执行未授权的操作或引入新的漏洞。端点替换攻击则将安全模型端点替换为有风险的或实验性的版本。一些工具会定期将遥测数据、提示词和输出发送到外部服务器，而企业往往缺乏足够的控制或可见性。与传统软件供应链一样，攻击者会找最薄弱的环节下手——只不过现在这个薄弱环节是一个能够采取实际行动的自主系统。

这种风险往往在造成严重后果之前，一直处于“看不见”的状态。

检测与防御策略

要抵御这些攻击路径，需要建立跨越提示词、输出、身份、工具、记忆和运行时行为的新型防御层。传统的应用安全方法已不足以应对，因为 AI 代理将语言层面的漏洞与操作能力融合在了一起。

#01

提示词与输出防火墙

防火墙可检测并拦截违反策略的有害指令或输出。它能够过滤恶意模式，防止不可信内容下达指令，并阻止无正当理由调用高风险工具的企图。

#02

来源溯源与信任分级

不同来源的信息必须被赋予不同的信任等级。公开的网页数据不应直接驱动高风险操作，而经过签名的内部文档则应被优先采信。信任分级机制决定了代理可以如何使用它所检索到的内容。

#03

工具沙箱

限制工具的调用权限，约束参数取值范围，并对破坏性操作设置审批流程。仅允许代理使用与其任务和权限级别相匹配的工具。

#04

记忆安全管控

控制哪些内容可以写入长期记忆。对记忆写入操作实施审查或过滤，将客观事实与主观偏好区分开来。在执行高风险任务后，临时记忆应当自动失效。

#05

代理级身份与访问管理

为每个代理分配专用的身份标识，并遵循最小权限原则。强制使用短期有效的凭证，并对所有由代理触发的操作进行监控。

#06

可观测性

对提示词、任务计划、决策过程及工具调用进行日志记录，是理解代理行为的关键。良好的可观测性能够支持事后取证、合规审计以及实时的异常检测。

核心总结

AI 代理所带来的攻击路径，已远远超出传统的提示词注入范畴。这类系统将语言理解与工具调用、记忆存储、身份管理及自主决策融为一体——这使得它们既强大又脆弱。风险已经从“信息层面”上升到了“操作层面”。要想安全地大规模部署代理，企业必须在代理的完整生命周期中实施全面管控：从输入和记忆，到身份、工具及运行时行为。现在就着手升级安全体系，将能够帮助企业安全地驾驭 AI 代理的力量；避免在不断涌现的新型威胁中手忙脚乱。

让 Radware 为您承担繁重的工作，助您拓展业务版图、提升营收规模，为您的客户与企业提供更优质的安全防护。

点击下方” 阅读原文“

了解更多Radware解决方案

关于Radware

Radware®（NASDAQ: RDWR）是多云环境应用安全和交付解决方案的全球领导者。该公司的云应用程序、基础设施和API安全解决方案使用人工智能驱动的算法，可提供精确、无操作、即时的防护，免受复杂的网络、应用程序、DDoS攻击、API滥用和恶意机器人的攻击。全球的企业和运营商依靠Radware解决方案来应对不断变化的网络安全挑战，并在降低成本的同时保护品牌和业务运营。

欲知详情，请访问：https://cn.radware.com/

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：睿伟网络科技《从提示词注入到任务偏离：针对AI代理的新型攻击》