2026-03-27 02:07:47 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文分析了针对AI代理的新型攻击技术‘提示控制’，其通过塑造代理的上下文（如邮件、文件）实现持续行为引导，无需传统C2基础设施。研究发现攻击者可利用初始提示注入将指令植入代理的工作上下文，使其持续检索并执行恶意任务，且控制具有隐蔽性（活动与正常操作融合）和持久性（重启后仍存在）。核心挑战在于检测需从孤立事件转向长期行为关联分析，而非依赖传统入侵指标。 综合评分： 86 文章分类： AI安全,威胁情报,社会工程学,安全运营,漏洞分析

cover_image

提示控制：上下文如何成为AI代理的命令与控制层

幻泉之洲

2026年3月21日 12:01 北京

当AI代理开始自主运行时，攻击模式彻底改变了。传统的僵尸网络控制需要显式指令和网络通道，但针对AI代理的攻击只需要控制它“看到”什么。本文分析了这种被称为“提示控制”的新兴技术，它如何在一次攻击后持续影响代理行为，并讨论了其隐蔽性和检测上的根本性挑战。

从提示注入到提示控制

传统命令控制模式是直来直去的。一个被感染的系统向外呼叫，接收指令，执行，然后回传数据。就算通信加密了，基本逻辑没变——总有个外部的东西在指挥。

AI代理把这个模型废了。

它们不是被动等待指令，而是持续接收输入、理解、然后行动。邮件、聊天记录、API、文档……一切都成了上下文，一切都能影响它的行为。

控制面完全变了。攻击者不再需要维持一个稳定的通信通道，只要他们能塑造代理看到什么、记住什么、优先处理什么就行。控制变得间接、持续，并且嵌入了正常操作中。这就是提示控制的基础。

有研究已经展示了基于提示的命令控制框架Demo，被攻陷的代理可以仅靠提示和上下文接收任务、执行并返回结果，完全绕开传统C2基础设施。

现有的代理系统有个通病：它们过于信任外部内容，用真实的权限执行任务，还经常跨系统协调工作。每一点都在扩大攻击面。

安全领域早期的讨论都围着“提示注入”转——恶意指令藏在内容里，触发一个不该有的动作。这解释了攻击是怎么开始的，但解释不了攻击怎么持续。

最近的演示里，通过邮件或网页内容发送一次提示注入，就足以攻陷一个代理并修改它的工作上下文。从那一刻起，代理就开始持续从自己的环境中检索攻击者控制的指令，完全不需要二次入侵，控制就这么维持下来了。

一个OpenClaw调查案例更彻底。一个藏在网页里的间接提示注入不仅触发了一次动作，它还调用了一个执行工具，然后把指令“种”进了代理未来的上下文中。这让攻击者能在一段时间内持续发号施令，连重新接触系统都省了。

最初的注入消失了，但影响力还在。提示控制的关键，就是影响系统在初次接触之后如何继续运作。

作为行为影响的提示控制

提示控制的诀窍是不直接发命令，而是引导。

攻击者不发送具体指令，而是塑造代理认为什么是相关的，以及它如何构建自己的上下文。接下来，代理就会用自己已有的能力和权限去行动。

这和社会工程的原理一模一样：影响决策者，然后让决策者去执行动作。区别在于规模和持久性。AI代理持续运作，依赖任何可用的上下文，哪怕这个上下文已经被恶意塑造过了。

实战中的基于提示的命令控制

提示控制不只是施加影响，它能被体系化地运作。

有研究展示了被攻陷的代理如何被纳入一个集中控制系统。任务以提示的形式下达，结果通过代理正常的工作流返回。一旦代理被拿下，就不需要再次入侵了。指令被放在代理本来就要用的地方：文件、内存块、待检索的上下文中。执行循环直接变成了控制循环。

攻击者以提示形式发布任务。代理用自己的权限执行，再通过正常的工作流把结果吐出来。

举一个具体的例子。一些代理被配置为定期读取一个“心跳”文件。攻击者只需要把恶意指令塞进这个文件，就创造了一个周期性的执行点。每当代理处理这个文件时，就会读取新指令，继续在攻击者的影响下运作。

这模仿了传统C2的行为，但通信渠道不是网络信标，而是嵌在了代理自己的推理循环和执行路径里。

控制转移到了一个可以称为“认知控制平面”的地方。影响通过以下几种方式起作用：

代理定期读取的文件
用于检索的内存存储
代理信任的外部内容源
反馈回推理过程的工具输出

提示控制作为一种持久化手段

在代理系统里，持久化不是一个植入程序，而是持续被重新加载的上下文：内存条目、配置文件，或是代理反复读取的外部源。只要那个上下文还在，控制就还在。

实践中，持久化变成了一个上下文工程问题。挑战不是写一个恶意提示，而是把正确的指令，以正确的格式，放到正确的上下文层里，并且要有足够的优先级，让它们被反复加载和执行。

现代代理框架已经通过内存文件、规则、代理配置文件、定时或后台重入点来管理这种整体状态了。

OpenClaw的案例展示了这是怎么发生的。代理的内存存储通常平等对待所有输入，不管来源。一旦恶意上下文被引入，它就能一直存在，不加区分地持续影响决策。

把攻击者的访问权限砍掉也没用。只要代理还在读取被影响的上下文，控制就依然有效。观测到的案例里，这种持久性在系统重启后依然存在，直到底层上下文被显式清理才结束。

MITRE ATLAS 与持续影响

这里有个重要细节：提示控制不是确定性的。代理行为取决于概率性推理、上下文选择和检索质量。同一个提示在不同次运行中可能产生不同结果，攻击可能部分成功、失败，或者需要重复进行。

从攻击者角度看，这引入了变数，但并不妨碍利用。控制变成了概率性的：重复施加影响、加强指令、通过多条执行路径，来随时间推移提高成功率。

代理也可能露出马脚。有些观测案例里，代理在自我分析或记录日志时识别出了可疑指令或异常行为。这些可以作为早期入侵指标。

但问题在于，大多数代理目前还没有被训练或配置成把这些信号当作安全事件，并触发防御动作。这一点很可能会改变。随着检测逻辑被嵌入代理自身，这些微弱信号可能会变成有效的控制手段。不过目前，它们还不稳定，也很少被强制执行。

MITRE ATLAS描述了几种相关技术：

数据投毒影响输入
提示注入覆盖行为
模型操纵导向输出

代理系统带来的改变不是技术本身，而是它们的组合方式。提示注入变成了入口点，内存或上下文操纵提供持久性，工具使用赋能执行。三者合一，形成了一个持续的控制循环，而不是相互割裂的步骤。

当控制与正常活动融为一体

从检测角度看，这完全不像传统的入侵行为。

多数安全运营中心的工作流专注于检测执行痕迹，比如网络异常、进程行为、凭据滥用或横向移动。提示控制在早期很少触发这些信号。

代理使用合法的访问权限，调用被批准的API，遵循预期的工作流。从技术角度看，所有活动看起来都正常。

真正的区别在于行为是如何演变的。代理不是在执行攻击者的命令，它只是在做决策，而这些决策恰好符合攻击者的目标。

一个演示里，一个代理被要求总结一份包含了间接提示注入的文件。用户在Slack上收到了完全正常的回复，没有任何异常迹象。但与此同时，被攻陷的代理已经开始向攻击者控制的Telegram机器人发送敏感数据。

对用户来说，系统运转良好。对攻击者来说，控制已经建立。

同样的访问权限也能用来制造破坏。代理可以利用自己被授予的、原本用来“做好事”的权限，来检索、修改或删除数据。

单个动作看起来都有道理，但整体模式已经偏离了。没有哪一个单独的警报能解释这种行为，信号需要随时间推移才能浮现。

检测的重点需要从孤立事件，转向跟踪跨身份、网络、云和SaaS环境的活动是如何关联的。

这就是核心挑战。当控制被嵌入上下文，就没有一个可以一刀切的阻断点。唯一可靠的信号，是行为随时间发生了怎样的变化。

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：幻泉之洲《提示控制：上下文如何成为AI代理的命令与控制层》