文章总结: 本文分析了针对AI代理的新型攻击技术‘提示控制’,其通过塑造代理的上下文(如邮件、文件)实现持续行为引导,无需传统C2基础设施。研究发现攻击者可利用初始提示注入将指令植入代理的工作上下文,使其持续检索并执行恶意任务,且控制具有隐蔽性(活动与正常操作融合)和持久性(重启后仍存在)。核心挑战在于检测需从孤立事件转向长期行为关联分析,而非依赖传统入侵指标。 综合评分: 86 文章分类: AI安全,威胁情报,社会工程学,安全运营,漏洞分析
提示控制:上下文如何成为AI代理的命令与控制层
幻泉之洲
2026年3月21日 12:01 北京
当AI代理开始自主运行时,攻击模式彻底改变了。传统的僵尸网络控制需要显式指令和网络通道,但针对AI代理的攻击只需要控制它“看到”什么。本文分析了这种被称为“提示控制”的新兴技术,它如何在一次攻击后持续影响代理行为,并讨论了其隐蔽性和检测上的根本性挑战。
从提示注入到提示控制
传统命令控制模式是直来直去的。一个被感染的系统向外呼叫,接收指令,执行,然后回传数据。就算通信加密了,基本逻辑没变——总有个外部的东西在指挥。
AI代理把这个模型废了。
它们不是被动等待指令,而是持续接收输入、理解、然后行动。邮件、聊天记录、API、文档……一切都成了上下文,一切都能影响它的行为。
控制面完全变了。攻击者不再需要维持一个稳定的通信通道,只要他们能塑造代理看到什么、记住什么、优先处理什么就行。控制变得间接、持续,并且嵌入了正常操作中。这就是提示控制的基础。
有研究已经展示了基于提示的命令控制框架Demo,被攻陷的代理可以仅靠提示和上下文接收任务、执行并返回结果,完全绕开传统C2基础设施。
现有的代理系统有个通病:它们过于信任外部内容,用真实的权限执行任务,还经常跨系统协调工作。每一点都在扩大攻击面。
安全领域早期的讨论都围着“提示注入”转——恶意指令藏在内容里,触发一个不该有的动作。这解释了攻击是怎么开始的,但解释不了攻击怎么持续。
最近的演示里,通过邮件或网页内容发送一次提示注入,就足以攻陷一个代理并修改它的工作上下文。从那一刻起,代理就开始持续从自己的环境中检索攻击者控制的指令,完全不需要二次入侵,控制就这么维持下来了。
一个OpenClaw调查案例更彻底。一个藏在网页里的间接提示注入不仅触发了一次动作,它还调用了一个执行工具,然后把指令“种”进了代理未来的上下文中。这让攻击者能在一段时间内持续发号施令,连重新接触系统都省了。
最初的注入消失了,但影响力还在。提示控制的关键,就是影响系统在初次接触之后如何继续运作。
作为行为影响的提示控制
提示控制的诀窍是不直接发命令,而是引导。
攻击者不发送具体指令,而是塑造代理认为什么是相关的,以及它如何构建自己的上下文。接下来,代理就会用自己已有的能力和权限去行动。
这和社会工程的原理一模一样:影响决策者,然后让决策者去执行动作。区别在于规模和持久性。AI代理持续运作,依赖任何可用的上下文,哪怕这个上下文已经被恶意塑造过了。
实战中的基于提示的命令控制
提示控制不只是施加影响,它能被体系化地运作。
有研究展示了被攻陷的代理如何被纳入一个集中控制系统。任务以提示的形式下达,结果通过代理正常的工作流返回。一旦代理被拿下,就不需要再次入侵了。指令被放在代理本来就要用的地方:文件、内存块、待检索的上下文中。执行循环直接变成了控制循环。
攻击者以提示形式发布任务。代理用自己的权限执行,再通过正常的工作流把结果吐出来。
举一个具体的例子。一些代理被配置为定期读取一个“心跳”文件。攻击者只需要把恶意指令塞进这个文件,就创造了一个周期性的执行点。每当代理处理这个文件时,就会读取新指令,继续在攻击者的影响下运作。
这模仿了传统C2的行为,但通信渠道不是网络信标,而是嵌在了代理自己的推理循环和执行路径里。
控制转移到了一个可以称为“认知控制平面”的地方。影响通过以下几种方式起作用:
- 代理定期读取的文件
- 用于检索的内存存储
- 代理信任的外部内容源
- 反馈回推理过程的工具输出
提示控制作为一种持久化手段
在代理系统里,持久化不是一个植入程序,而是持续被重新加载的上下文:内存条目、配置文件,或是代理反复读取的外部源。只要那个上下文还在,控制就还在。
实践中,持久化变成了一个上下文工程问题。挑战不是写一个恶意提示,而是把正确的指令,以正确的格式,放到正确的上下文层里,并且要有足够的优先级,让它们被反复加载和执行。
现代代理框架已经通过内存文件、规则、代理配置文件、定时或后台重入点来管理这种整体状态了。
OpenClaw的案例展示了这是怎么发生的。代理的内存存储通常平等对待所有输入,不管来源。一旦恶意上下文被引入,它就能一直存在,不加区分地持续影响决策。
把攻击者的访问权限砍掉也没用。只要代理还在读取被影响的上下文,控制就依然有效。观测到的案例里,这种持久性在系统重启后依然存在,直到底层上下文被显式清理才结束。
MITRE ATLAS 与持续影响
这里有个重要细节:提示控制不是确定性的。代理行为取决于概率性推理、上下文选择和检索质量。同一个提示在不同次运行中可能产生不同结果,攻击可能部分成功、失败,或者需要重复进行。
从攻击者角度看,这引入了变数,但并不妨碍利用。控制变成了概率性的:重复施加影响、加强指令、通过多条执行路径,来随时间推移提高成功率。
代理也可能露出马脚。有些观测案例里,代理在自我分析或记录日志时识别出了可疑指令或异常行为。这些可以作为早期入侵指标。
但问题在于,大多数代理目前还没有被训练或配置成把这些信号当作安全事件,并触发防御动作。这一点很可能会改变。随着检测逻辑被嵌入代理自身,这些微弱信号可能会变成有效的控制手段。不过目前,它们还不稳定,也很少被强制执行。
MITRE ATLAS描述了几种相关技术:
- 数据投毒影响输入
- 提示注入覆盖行为
- 模型操纵导向输出
代理系统带来的改变不是技术本身,而是它们的组合方式。提示注入变成了入口点,内存或上下文操纵提供持久性,工具使用赋能执行。三者合一,形成了一个持续的控制循环,而不是相互割裂的步骤。
当控制与正常活动融为一体
从检测角度看,这完全不像传统的入侵行为。
多数安全运营中心的工作流专注于检测执行痕迹,比如网络异常、进程行为、凭据滥用或横向移动。提示控制在早期很少触发这些信号。
代理使用合法的访问权限,调用被批准的API,遵循预期的工作流。从技术角度看,所有活动看起来都正常。
真正的区别在于行为是如何演变的。代理不是在执行攻击者的命令,它只是在做决策,而这些决策恰好符合攻击者的目标。
一个演示里,一个代理被要求总结一份包含了间接提示注入的文件。用户在Slack上收到了完全正常的回复,没有任何异常迹象。但与此同时,被攻陷的代理已经开始向攻击者控制的Telegram机器人发送敏感数据。
对用户来说,系统运转良好。对攻击者来说,控制已经建立。
同样的访问权限也能用来制造破坏。代理可以利用自己被授予的、原本用来“做好事”的权限,来检索、修改或删除数据。
单个动作看起来都有道理,但整体模式已经偏离了。没有哪一个单独的警报能解释这种行为,信号需要随时间推移才能浮现。
检测的重点需要从孤立事件,转向跟踪跨身份、网络、云和SaaS环境的活动是如何关联的。
这就是核心挑战。当控制被嵌入上下文,就没有一个可以一刀切的阻断点。唯一可靠的信号,是行为随时间发生了怎样的变化。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:幻泉之洲 《提示控制:上下文如何成为AI代理的命令与控制层》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论