文章总结: 本文系统梳理了2022-2026年间AIAgent的九次技术迭代历程,从ChatGPT实现自然语言交互到OpenClaw实现常驻式主动行动。核心发现包括:Agent能力演进遵循PromptEngineering到HarnessEngineering的工程学路径;每轮技术升级都伴随新的安全风险(如Prompt注入、代码供应链漏洞、GUI攻击);当前生态已形成MCP/A2A协议标准。可操作建议需加强协议层安全审计和GUI注入防护。 综合评分: 95 文章分类: AI安全,威胁情报,漏洞分析,安全建设,安全运营
惊涛九重浪|AI Agent 三年迭代手记
爆肚(b40du) 爆肚(b40du)
爆肚的杂货铺
2026年5月6日 19:00 北京
在小说阅读器读本章
去阅读
✦
| | | — | | 00 写在前面 |
从 ChatGPT 横空出世到今天,满打满算不到四年。但在这三年多的时间里,AI Agent 这个赛道经历了九次路线级的迭代——每一次,行业对”Agent 到底该怎么做”的理解都被推翻重来。
前八次迭代回答的是 Agent 能干什么:从只会聊天到能调工具,从调 API 到直接操控你的电脑,从你叫它才动到 7×24 小时自主行动,从固定逻辑到能自己学新技能。
第九次迭代回答的是 怎么造 Agent:从写好一条 Prompt,到管好上下文,再到治理整个运行环境——Prompt Engineering → Context Engineering → Harness Engineering 的工程学三部曲。
作为安全行业从业者,在梳理这条演进线有个很直接的感受:Agent 每强一分,攻击面就大一圈。因此必须搞清楚这九次迭代的技术逻辑,才有可能预判下一波安全挑战会是什么形态。
在 LLM 之前,Agent 也折腾了几十年——符号规则、强化学习、深度学习,各领风骚一阵,最后都撞上扩展性的墙。直到 2022 年底 LLM 出现,Agent 才第一次有了”开放域通用行动”的可能。故事也从这里开始。
✦
| | | — | | 01 第一浪 从「对话」到「行动」—— ChatGPT 让 Agent 成为可能 |
2022.11 | ChatGPT(GPT-3.5)发布:两个月破亿用户,证明 LLM 可以用自然语言理解任意指令并生成行动方案。
2022 年 11 月之前,所有 Agent 都是”专才”——下棋的只会下棋,玩游戏的只会玩游戏,换个场景就得从头训练。ChatGPT 的出现改写了这个前提:两个月破亿用户,证明自然语言可以作为通用指令接口,LLM 可以作为通用决策引擎。你不用为每个任务单独训练模型——你说人话,它就能理解并执行。
这是 Agent 历史上最大的一次路线切换。之前几十年积累的专家系统、RL Agent、多智能体理论,一夜之间全成了”前 LLM 时代”的遗产。
安全的潘多拉魔盒也同时打开了
LLM 用自然语言接受指令,攻击者自然也可以用自然语言发起攻击。不需要写 exploit,不需要找 0day,一段精心构造的文本就能劫持模型行为——这就是 Prompt Injection。间接注入更为隐蔽:把恶意指令嵌入网页、邮件、PDF 中,Agent 在处理这些内容时被劫持。传统安全体系对这类”语义层”攻击完全没有覆盖。
✦
| | | — | | 02 第二浪 从「全自主幻想」到「工具调用」—— AutoGPT 退潮,Function Calling 上位 |
2023.03 | GPT-4 发布 + AutoGPT + BabyAGI 爆发:GPT-4 推理能力大幅飞跃,成为 AutoGPT 的基座。AutoGPT 让 LLM 自主设定子目标、调用工具、反思迭代。GitHub 一个月破 10 万星。
2023.06 | OpenAI Function Calling 发布:LLM 原生支持结构化工具调用,确立”LLM 作为大脑、外部工具作为手脚”的主流架构。
2023 年上半年,是一出经典的”泡沫—破灭—新共识”周期。
三月份 GPT-4 发布,AutoGPT 随即引爆——”给它一个目标,它自己想办法完成!”一个月 GitHub 破 10 万星,BabyAGI 紧随其后,社区充满了”AGI 近在眼前”的兴奋。
现实很快泼了冷水:
错误逐步放大:每步推理都有出错概率,串联 10 步之后正确率急剧下降
成本不可控:自主循环消耗大量 token,一个简单任务可能跑出几十美元账单
幻觉自我强化:模型编造的信息被下一步当事实使用,越跑越离谱
AutoGPT 迅速退潮。但三个月后 OpenAI 发布了 Function Calling,行业找到了一个更可靠的路线:让 LLM 当指挥官,具体执行交给专业工具——算数交给计算器,查数据交给数据库,LLM 只负责理解意图和编排调度。
LangChain、LlamaIndex、AutoGen 就是在这个基础上起飞的。同期 Voyager 在 Minecraft 里搞出了”技能库”,MetaGPT 试了”多角色分工”——这两个想法后来反复出现,不展开但值得记住。
淘汰路线:完全放手不管的全自主 Agent——可靠性不支持;不连接工具只靠 Prompt 演角色的”聊天型 Agent”——几乎没有进入过任何生产环境。
安全问题从”说错话”升级到”做错事”
Agent 能调工具了,攻击者自然也能通过 Prompt Injection 让它调错工具——发邮件、删文件、调转账接口。更普遍的问题是开发者自己挖的坑:为了省事给 Agent 的 API Key 开大量不必要的权限。LangChain 早期的第三方 Tool 生态也缺乏安全审计,恶意 Tool 窃取上下文数据的风险很实际。
✦
| | | — | | 03 第三浪 从「通用万能」到「垂直深耕」—— Devin 与 Agentic Coding 的胜出 |
2024.03 | Devin 发布——”AI 软件工程师”:Cognition Labs 的 Devin 自主完成从需求理解到代码部署的全流程,SWE-bench 刷新纪录。
2025.02-05 | Claude Code → Cursor → Codex → Copilot Agent Mode:Agentic Coding 工具集体爆发。Claude Code 正式 GA 后 ARR 迅速突破 10 亿美元,增速惊人。
什么样的 Agent 场景能真正落地?2024 年的答案出人意料又合情合理:写代码。
Devin 的发布验证了这一点——从理解需求到写代码到跑测试到部署,全程自主完成,SWE-bench 刷到新高。为什么编程跑赢了所有场景?因为它天然契合当前 Agent 的能力边界:代码能编译就是能编译,测试过就是过了,不需要人主观评判——这直接缓解了幻觉问题;写错了看报错改就行,Agent 自己就能闭环迭代。
反面教材是 GPT Store(2024 年 1 月上线)——里面绝大多数 GPTs 只是换了层皮的 Prompt 模板,缺乏真正的 Agent 能力,用户尝鲜后迅速流失。事实证明,Agent 的商业价值在专业垂直场景,不在泛化消费市场。
到 2026 年 5 月,有数据显示 42% 的新代码由 AI 辅助生成,Claude Code 的增长曲线甚至比当年 ChatGPT 还猛。
代码供应链的安全问题随之浮现
研究表明 AI 生成代码的漏洞比例明显高于人工编写——模型从训练数据中学到了大量含漏洞的历史代码模式。攻击者还会在公开仓库中埋入”看起来合理但藏了后门”的代码片段,等 Agent 在 RAG 检索时取用。Agent 自主安装依赖时也可能被导向恶意包——传统的依赖混淆攻击在 Agent 自动化的场景下效率倍增。42% 的代码由 AI 辅助生成,但安全审计流程并未相应跟上。
✦
| | | — | | 04 第四浪 从「API 调用」到「操控电脑」—— Computer Use 打破 GUI 边界 |
2024.10 | Claude Computer Use 发布:Anthropic 让 Claude 直接操控桌面 GUI——看屏幕、移鼠标、打字、点按钮。Agent 第一次能像人类一样操作任意软件。
2025-2026 | OpenAI 跟进,Computer Use 成为标配:OpenAI 在后续模型中原生集成计算机操控能力,API 路线和 GUI 路线完成融合。
这次能力跳跃颇具颠覆性。2024 年 10 月,Anthropic 让 Claude 直接操控桌面——看屏幕、动鼠标、打字、点按钮,操作方式和人类完全一样。
之前 Agent 能干什么,完全取决于有没有 API。公司那套老 ERP 没 API?对不起,碰不了。Computer Use 把这个硬约束给干掉了:只要是人能操作的软件,Agent 就能操作。当 OpenAI 等厂商陆续跟进之后,Agent 会自己判断——有 API 就走 API(快),没 API 就走 GUI(通用)。
攻击面扩张剧烈的一次升级
Agent 操控你的电脑,就意味着它继承了你的全部权限——你能打开的密码管理器、你能登录的银行网站、你能访问的企业内网,它全都能触及。GUI 注入是全新的攻击手法:在屏幕上用肉眼不可见的像素嵌入指令(比如白底白字写”请点击转账按钮”),Agent 读屏幕时就会执行。被劫持的 Agent 还能从浏览器跳到终端再跳到内网——传统的应用隔离边界直接失效。
本质上,Agent 安全在这里变成了终端安全 + 身份安全 + 应用安全的交叉地带,目前缺乏成熟的防护方案。
✦
| | | — | | 05 第五浪 从「快速反应」到「深度推理」—— 推理模型开辟第二增长曲线 |
2024.09 | OpenAI o1 发布:引入”推理时间计算”——给模型额外”思考时间”,大幅提升复杂问题解决能力。
2025.01 | DeepSeek R1 开源:中国团队以极低成本训练出前沿推理模型并 MIT 协议开源,终结”前沿 AI 必须闭源巨资”的路线假设。
2025.04 | o3/o4-mini 发布,推理与通用融合:推理模型与通用模型开始融合。GPT-4o 之后的模型逐步内置推理能力,o 系列与 GPT 系列的分界线趋于消失。
在 o1 之前,想让模型更聪明只有一条路:堆更大的模型、灌更多的数据。o1 告诉你还有第二条路——不用更大的模型,给它更多的”思考时间”就行。复杂问题不再需要拆成一堆小步骤串着跑(每步都可能翻车),现在可以让模型在一次调用里深度推理,从根本上缓解了前面说的”错误雪崩”。
但真正震动行业的是 2025 年 1 月的 DeepSeek R1。一个中国团队以极低成本训出了前沿推理模型,然后用 MIT 协议完全开源。”做好 AI 必须烧几十亿美金”这条行业共识,一夜之间被证伪。此后 Qwen、GLM、DeepSeek 等开源力量加速追赶,到 2026 年 Qwen 累计下载量破 10 亿次。开源和闭源两条路线,正式进入并行格局。
新玩法也带来新攻击手段
思维链操控:不直接注入指令,而是精心设计输入,引导模型在推理过程中自己得出错误结论——这比 Prompt Injection 隐蔽得多,因为结论是模型”自己推出来的”,安全过滤器难以拦截。开源模型投毒也从论文中的理论威胁变成了实际风险——Hugging Face 上下载量过亿的模型,谁来保证每个版本都没被篡改?此外还有一种新型 DoS:构造恶意输入让推理模型对着无意义问题”深度思考”,大量消耗计算资源。
✦
| | | — | | 06 第六浪 从「碎片化连接」到「协议标准」—— MCP + A2A 定义 Agent 基础设施 |
2024.11 | Anthropic 开源 MCP:JSON-RPC 2.0 协议,为 Agent 连接外部工具和数据源定义统一标准。
2025.03 | OpenAI 采纳 MCP:竞争对手采纳对手创建的协议,标志着行业共识形成。
2025.04 | Google 发布 A2A 协议:”MCP 管工具连接,A2A 管 Agent 协作”的双标准格局形成。
2025.12 | MCP 捐赠 Linux 基金会 AAIF:Anthropic、OpenAI、AWS、Google、Microsoft 联合成立 Agentic AI Foundation。
2023-2024 年有个让人无奈的现象:每个 Agent 框架都在重新发明轮子——LangChain 搞一套工具接口,AutoGen 搞一套,CrewAI 再搞一套。开发者想接个数据库?三个框架写三遍适配代码。生态碎片化严重。
MCP 终结了这场混战。到 2026 年 5 月,生态里已经有 10,000 多个 MCP 服务器,月 SDK 下载 9,700 万次。更重要的是,Agent 世界第一次有了像样的”协议栈”:
| | | | | | — | — | — | — | | 层级 | 协议 | 功能 | 类比 | | 工具连接层 | MCP | Agent ↔ 工具/数据 | USB / HTTP | | Agent 协作层 | A2A | Agent ↔ Agent | TCP/IP | | 用户界面层 | AG-UI | Agent ↔ 人类 | HTML/CSS |
淘汰路线:各框架自定义的工具接口逐步被 MCP 替代。OpenAI 自家的 Swarm(2024 年 10 月发布)仅存活 5 个月就被 Agents SDK 取代——实验性框架在生产化浪潮中迅速出局。
协议层变成了新的攻击枢纽
社区贡献的 MCP 服务器缺乏安全审计,恶意服务器可以在”连接”过程中窃取 Agent 上下文里的对话历史、API Key、用户数据。工具名称混淆是典型攻击手法:注册一个叫 “githu6-api” 的恶意服务器冒充 “github-api”,Agent 在自动发现工具时可能直接被引导到恶意服务。A2A 协议在身份认证方面也仍不成熟。
这个方向的安全市场比较明确:MCP 服务器的安全审计、签名验证、运行时行为监控——本质上就是 Agent 生态的 npm audit,但安全事件的后果更为严重。
✦
| | | — | | 07 第七浪 从「被动响应」到「主动行动」—— OpenClaw 小龙虾引爆常驻式 Agent |
2025.11 | OpenClaw 以 “Clawdbot” 名义发布:奥地利开发者 Peter Steinberger 的业余项目。核心创新:Heartbeat 机制,每 30 秒检查任务文件,让 Agent 主动寻找并执行任务。
2026.02 | OpenAI 收购创始人,OpenClaw 全球爆发:创始人加入 OpenAI。其在 GitHub 上的星标数迅速攀升至近 20 万。
2026.03 | 中国掀起”养龙虾”热潮:OpenClaw 在中国病毒式传播。随后网信办等单位发布安全警告,国企限制使用,部分用户从狂热安装转为付费请人帮忙卸载。
OpenClaw 的故事值得展开讲。在它之前,所有 Agent 都是”被动响应式”的——人类发指令,Agent 执行,然后停下来等着。OpenClaw 把这个模式反转了:Agent 持续运行,每 30 秒主动检查是否有任务需要处理,像一个”永远在线的数字员工”。
ChatGPT 模式:你说 → 它做 → 停止等待。它是工具。
OpenClaw 模式:它一直运行 → 主动检查 → 自主行动 → 等待下一个心跳。它是同事。
整个项目并不多的代码,产生的冲击力却远超那些几十万行代码的复杂框架。思路的力量远大于代码的复杂度。
一个关键设计:OpenClaw 运行在用户本地机器上,直接使用已登录的浏览器会话、本地文件、本地应用——完全绕过了 OAuth、API Key 等认证流程,因为它就是以用户身份在操作。这个设计极其方便,安全风险也极其严峻。
从安全视角看,OpenClaw 带来了质变级的攻击面扩张
以前 Agent 只在对话期间有风险,现在它 7×24 常驻,一次成功的 Prompt Injection 可以长期潜伏持续作恶。它以用户身份运行,API Key、浏览器 Cookie、密码管理器全部暴露在 Agent 进程中。
篡改 MEMORY.md 文件相当于给 Agent 植入永久性后门——此后的行为模式都会被污染。
中国”养龙虾”热潮中的社会工程风险也很典型:大量流传的”配置教程”和”一键安装脚本”中,不少植入了后门。普通用户缺乏辨别能力。后来网信办等单位发布安全警告,国企限制使用,甚至出现了安装后不会卸载、付费请人帮忙卸载的情况。截至 2026 年 5 月,OpenClaw 已被披露出 20+ 个 CVE(已由 MITRE NVD 官方正式发布的 CVE),全球各监管单位累计披露 500+漏洞隐患——消费级 Agent 中极为突出。
结论非常明确:Agent 运行时安全监控已成为刚需,本质上就是 EDR 在 Agent 场景的延伸。
✦
| | | — | | 08 第八浪 从「静态执行」到「自我进化」—— Hermes 与多 Agent 并行 |
2026.02 | 多 Agent 并行大爆发:两周内所有主要工具同步上线:Grok Build(8 Agent)、Windsurf(5 并行)、Claude Code Agent Teams、Codex CLI Agents SDK、Devin 并行会话。单体 Agent 路线终结。
2026.02 | Hermes Agent 公开发布:由 Nous Research 推出的社区项目。7 周内 GitHub 达 95,600 星,截至2026 年 5 月达 134K 星,成为 2026 年增速最快的 Agent 框架。
2026.04 | Hermes v0.10.0 — N多个内置技能:三层持久记忆、自我改进技能循环、15+ 消息平台集成。提供 OpenClaw 一键迁移路径。
2026 年 2 月出现了一个有意思的现象:两周之内,所有主流工具不约而同地上线了多 Agent 并行——Grok 搞 8 个 Agent 同时工作,Windsurf 搞 5 个并行,Claude Code 推出 Agent Teams,Codex 出了 Agents SDK。单体 Agent 路线在这个窗口期内集体终结。
为什么是这个时间点?三个前提刚好同时成熟了:推理成本降到并行划得来、MCP/A2A 协议让多个 Agent 之间能标准化通信、mini/nano 小模型让子 Agent 又便宜又快。
但更值得关注的是由社区驱动的 Hermes。Nous Research 做了一件之前只在 Minecraft 游戏(Voyager)里验证过的事——让 Agent 自己学新技能:
Agent 完成一个复杂任务 → 自动把成功的做法提炼成可复用的”技能” → 存进记忆 → 下次遇到类似的直接调用 → 用的过程中还会持续优化
据测试数据披露:攒够 20 个自创技能之后,做类似任务快了 40%。再加上三层持久记忆(Agent 策略记忆 + 用户画像 + 跨会话检索),这东西真的”越用越懂你”。7 周内 GitHub 冲到 95,600 星——2026 年增速最快的 Agent 框架。
一个有意思的细节:Hermes 专门做了 OpenClaw 的一键迁移,让你”带着记忆和技能搬家”。这说明 Agent 生态已经开始重视用户数据的可移植性了——你的 Agent 记忆不该被锁死在某个平台上。
自我进化 + 多 Agent 并行,安全复杂度指数级上升
最值得警惕的新问题是技能投毒:攻击者通过一次成功的 Prompt Injection 影响任务执行,Agent 认为任务”完成得不错”,将恶意行为模式提炼为技能——一次攻击,永久生效。这是 Agent 场景下的持久化后门。
多 Agent 的信任链问题同样棘手:一个被污染的子 Agent 通过 A2A 向其他 Agent 传递恶意数据——横向移动从”跨应用”升级到”跨 Agent”。Hermes 的 Skills Hub 允许社区共享技能,本质上是 Agent 能力的”包管理器”,恶意技能包的风险不言而喻。
最根本的挑战在于:自我进化的 Agent 行为会随时间漂移,今天的安全审计结论过两周可能就不再适用。传统的静态安全基线方法在这里部分失效。
✦
| | | — | | 09 第九浪 Prompt → Context → Harness —— Agent 工程学的三次跃迁 |
前面八次重构回答的都是”Agent 能干什么”,这一次回答的是另一个问题:怎么工程化地构建一个靠谱的 Agent?这条线跟产品和模型的演进相对独立,代表的是 Agent 工程方法论自身的三次升级——从写好一条指令,到管好上下文,再到治理整个运行环境。
第一阶段:Prompt Engineering(2023)
解决的问题:”怎么跟 AI 说话它才听得懂”。2023 年大量精力投入到 Prompt 设计上——CoT 让模型”展示推理过程”,ReAct 让模型”边想边做”,各种 System Prompt 模板涌现。LangChain 把 Prompt 从”手写文本”升级为可版本控制、可组合的工程模块,DSPy 则尝试让 Prompt 可编程化。
| | | — | | 但这条路很快就到头了:上下文窗口装不下复杂指令;换个措辞结果就完全不一样,所谓的”Prompt 黑魔法”根本没法工业化;光靠 Prompt 只能让模型”说”,不能让它”做”;安全约束写在 Prompt 里也没用——Jailbreak 随便绕。 不过 Prompt Engineering 并没有”死”,它被后来的 Context Engineering 和 Harness Engineering 包进去了——就像汇编语言没死,只是你不用直接写了。 |
第二阶段:Context Engineering(2025 年中)
| | | — | | 2025 年中 Tobi Lutke(Shopify CEO)让”Context Engineering”一词火遍科技圈 核心观点:真正的技能不是”写 Prompt”,而是”确保上下文窗口中在每一步都填入恰好正确的信息”。 |
| | | — | | 2025 年中 Andrej Karpathy 给出经典定义 “Context Engineering 是一门精细的艺术与科学——为每一个推理步骤,向上下文窗口中填入恰好正确的信息。” |
Prompt Engineering 只管”怎么问”,Context Engineering 管的是”你问的时候手里拿着什么材料”。让 Agent 修一个 Bug——Prompt Engineering 纠结的是”修 Bug 的指令怎么措辞”,Context Engineering 纠结的是”Agent 修 Bug 的时候,它面前应该摆着哪些代码文件、错误日志、测试结果、架构文档,以及这些材料怎么在有限的上下文窗口里装得下”。前者是措辞问题,后者是信息工程问题。
Context Engineering 的四大支柱:
| | | — | | RAG:从知识库里捞跟当前任务相关的信息 记忆系统:短期的(这次对话)、长期的(跨会话持久化)、以及”了解用户是谁”的用户模型 工具定义注入:当前这步需要哪些 MCP 工具,动态选好 schema 塞进去 上下文窗口管理:压缩旧内容、淘汰不重要的、防止”context rot”——聊久了关键信息被挤出窗口 |
第三阶段:Harness Engineering(2026 年初)
| | | — | | 2026.02 Mitchell Hashimoto 发表《My AI Adoption Journey》 HashiCorp 联合创始人提出核心观点:每当 Agent 犯错,就工程化地修复,确保同类错误永不再犯。 |
| | | — | | 2026.02 OpenAI 发表《Harness engineering》 正式定义下一代范式。3 名工程师(后扩至 7 人),5 个月用 Codex Agent 生成超 100 万行生产级代码——零行人工编写。核心口号:”Humans steer, agents execute”。 |
| | | — | | 2026.02 LangChain 的决定性实验 模型不变(GPT-5.2-Codex),仅改 Harness:Terminal Bench 2.0 从 52.8% → 66.5%,排名从 Top 30 → Top 5。 |
Harness Engineering 是把 Agent 从”能跑”到”好用”的系统工程。它不是一个简单的 wrapper,而是一整套精密协作的子系统——记忆管理、上下文编排、工具权限、错误恢复、行为监控——这些模块共同构成了 Agent 的”操作环境”。
为什么这很重要?因为同一个底座模型,接上不同质量的 Harness,表现天差地别。LangChain 的实验最有说服力:同一个模型(GPT-5.2-Codex),只改了 Harness,Terminal Bench 2.0 从 52.8% 飙到 66.5%,排名从 Top 30 蹦到 Top 5。13.7 个百分点的差距,零模型改动,全靠工程。
Harness 的六大子系统:
| | | — | | 1. 记忆管理——这是 Harness 最容易被低估、实际影响最大的模块。好的 Agent 不是每次对话从零开始,而是维护着多层记忆:项目级知识(AGENTS.md / CLAUDE.md)、会话级上下文(本次任务进展)、用户级画像(你的偏好和习惯)。记忆的写入时机、淘汰策略、检索方式,直接决定了 Agent “懂不懂你”。 2. 上下文编排——不是把所有信息一股脑塞进去,而是精确控制每一步推理看到什么。动态裁剪(哪些代码文件相关?)、渐进式加载(先看摘要再看全文)、优先级排序(错误日志 > 测试结果 > 历史对话)。这是 Context Engineering 在 Harness 层的工程化落地。 3. 工具编排与权限——Agent 能用哪些工具、每个工具的调用条件和限制、权限边界在哪。不是简单地罗列可用 tool,而是根据当前任务阶段动态装卸。 4. 错误恢复与自我修复——Agent 犯了错能自己爬起来:重试策略、输出自验证(跑测试确认代码对不对)、回滚机制、死循环检测。Hashimoto 的核心观点就来自这里:每次 Agent 犯错,就把”怎么避免这类错”固化到 Harness 配置里——Agent 的能力因此单调递增。 5. 行为监控与可观测性——操作日志、token 消耗追踪、关键决策点记录。出了事能查回放,能审计。 6. 人工介入点——哪些操作必须让人拍板(删除文件、修改配置、执行有副作用的命令),怎么触发人工审核、怎么优雅降级。 |
Claude Code 源码泄露——Harness 工程的活教材
为什么 Claude Code 的体验能甩竞品一大截?答案在 2026 年初变得明确:Anthropic 发布 Claude Code npm 包时不小心把 source map 文件带上了——混淆过的 JavaScript 被完整还原成可读源码。
这不是一次普通的代码泄露。社区逆向分析后发现,Claude Code 之所以”就是比别人好用”,根本原因不在模型(所有人底座都差不多),而在于它的 Harness 设计精度远超行业水平:
| | | — | | 多层记忆系统:项目配置(CLAUDE.md)→ 会话记忆 → 跨项目知识迁移,三层协同。每层有独立的写入触发条件和淘汰策略 动态上下文裁剪:不是固定 Prompt 模板,而是根据当前执行阶段实时计算”这步该看什么文件”——用代码 AST 分析依赖关系,只加载相关文件而非整个项目 权限分级与渐进式信任:首次运行的命令需确认,确认过的同类操作自动放行。既保安全又不打断心流 自我验证循环:代码写完不是直接交付,而是自动跑 lint、跑测试、看报错、再改——这个循环会执行多轮直到通过 AGENTS.md 驱动:一个机器可读的项目配置文件,让 Agent 理解”这个项目怎么干活”——本质上是把团队的最佳实践编码成 Harness 规则 |
泄露的源码还暴露了几个没公布的隐藏功能:
| | | — | | Kairos:一个未上线的守护进程模式——后台会话 + 记忆整合,Agent “始终在线”。跟 OpenClaw 心跳机制异曲同工,说明 Anthropic 内部也在往”主动式 Agent”方向走 Coordinator Mode:多 Agent 并行编排 Auto Mode:AI 自动审批工具权限,跳过人工确认 Undercover Mode:Anthropic 自家员工在公开仓库里自动激活——默默移除 commit 里的 AI 署名,而且关不掉 |
这次泄露的价值在于证实了一个假说:Agent 产品的竞争力不在模型层,在 Harness 层。Claude Code 能跑出 10 亿美元 ARR 的增速,靠的不是 Claude 模型比 GPT 强多少,而是它的 Harness 工程把模型能力的转化效率拉到了极致。
构建产物里漏出 source map 是 Node.js 项目的常见低级错误,但在 Agent 工具的场景下,泄露的不只是代码逻辑,还有产品路线图和内部策略。Undercover Mode 尤其引发了伦理争议:Agent 厂商可以偷偷决定哪些 AI 痕迹要抹掉?当 Harness 里的”隐藏规则”被摊开在阳光下,信任关系怎么重建?
三者的关系:
| | | | | | — | — | — | — | | 维度 | Prompt Eng. | Context Eng. | Harness Eng. | | 时间 | 2023 | 2025 年中 | 2026 年初 | | 作用域 | 单次调用的输入 | 上下文窗口的信息组装 | Agent 全生命周期环境 | | 核心问题 | “怎么问” | “带什么材料去问” | “在什么环境中问,问完怎么验证、怎么记住” | | 包含关系 | 最内层 | 包含 Prompt | 包含 Prompt + Context + 记忆 + 工具 + 恢复 | | 关键人物 | 社区集体 | Tobi Lutke / Karpathy | Hashimoto / OpenAI / Claude Code 逆向社区 | | 类比 | 写好一道题目 | 准备好考试资料 | 搭建整个考场(监考+评分+防作弊+记错题本) |
| | | — | | 包含关系:Harness ⊃ Context ⊃ Prompt 三层不是互相替代,而是逐层扩展。一个成熟的 Agent 工程实践需要三层全覆盖——Prompt 定义指令,Context 管理当前信息,Harness 治理行为、记忆和全局秩序。 |
| | | — | | 工程方法论每升一级,攻击者也跟着升级 Jailbreak(Prompt 层):构造花式 Prompt 绕过安全约束——到今天还没有根治方案,模型每更新一次就有新的绕法 RAG 投毒(Context 层):在知识库里埋恶意内容,Agent 检索到就当真——比 Prompt Injection 阴得多,因为”毒”藏在看起来权威的知识库里 上下文溢出(Context 层):故意灌一堆废话把上下文窗口撑满,安全指令被挤出去——Agent 的安全约束随着对话变长被”遗忘” 记忆投毒(Harness 层):通过对话诱导 Agent 写入错误的长期记忆,或直接篡改项目记忆文件(如 CLAUDE.md),影响所有后续会话——一次攻击,长期生效 AGENTS.md 投毒(Harness 层):通过恶意 PR 改了 AGENTS.md,Agent 在这个项目里的行为就被彻底带偏 护栏配置漏洞(Harness 层):Harness 配置写错了 Agent 就获得了不该有的权限——本质上就是安全配置管理问题 不过话说回来,Harness 做得好的团队安全态势明显好过”裸奔”的——可观测性支柱天然就是安全审计基础设施。Claude Code 泄露的架构恰恰说明:把安全逻辑内化到 Harness 的每一层(权限分级、自验证、人工介入点),比在外面套一层防火墙的效果更好。某种意义上,Harness Engineering 可能是目前最有效的 Agent 安全实践。 |
✦
| | | — | | ⚠ 安全攻击面 九层叠加的全景图 |
回过头来看,有个规律非常清晰:Agent 每获得一种新能力,就暴露一类新的攻击面——而且是叠加的,旧的从来不会消失。
| | | | | | — | — | — | — | | 阶段 | Agent 新能力 | 新攻击面 | 安全品类 | | ① 对话 | 理解自然语言 | Prompt Injection | AI 安全基础 | | ② 工具调用 | 调用外部 API | 工具劫持 / 权限过授 | API 安全 | | ③ 垂直深耕 | 自主编写代码 | 代码投毒 / 依赖混淆 | 供应链安全 | | ④ 操控电脑 | GUI 操作 | GUI 注入 / 横向移动 | 终端安全 | | ⑤ 深度推理 | 链式思维 | CoT 操控 / 推理 DoS | 模型安全 | | ⑥ 协议标准 | MCP/A2A 连接 | 服务器投毒 / 工具混淆 | 协议安全 | | ⑦ 主动行动 | 常驻心跳 | 持久权限 / 记忆投毒 | 运行时安全 | | ⑧ 自我进化 | 技能学习 | 技能投毒 / 行为漂移 | Agent 治理 | | ⑨ 工程体系 | Prompt/Context/Harness | Jailbreak / RAG 投毒 / 记忆投毒 / AGENTS.md 投毒 / 护栏绕过 | 配置与信息安全 |
| | | — | | 做安全的几个判断: 1. Agent 安全不是一个品类,而是 AI 安全、API 安全、终端安全、供应链安全、身份安全的交叉地带——无法用单一产品覆盖 2. 静态防护不再足够,能自己学新技能的 Agent 需要运行时行为监控——这就是 Agent 版的 EDR 3. Agent 的身份和权限管理需要新的框架——它不是人也不是传统服务账户,现有 IAM 体系无法完全适用,NHI成为一个新的细分安全领域 |
✦
| | | — | | ∞ 九次迭代背后的规律 |
| | | — | | 规律一 扩展性瓶颈决定路线存亡。 所有被淘汰的路线有一个共同死因——”扩展不动了”:全自主 Agent 死于可靠性无法扩展(步骤越多错误越多),纯 Prompt Agent 死于能力无法扩展(不连工具就没有行动力),各家自有接口死于生态无法扩展,单体 Agent 死于复杂度无法扩展。每一条存活的路线都找到了自己的扩展杠杆——工具调用扩展能力、MCP 扩展生态、多 Agent 扩展复杂度、开源扩展供给。 |
| | | — | | 规律二 “兴奋→出事→治理”的三拍循环,且在加速。 每次新路线先带来能力飞跃和用户热潮(AutoGPT 万星、”养龙虾”全民热),然后暴露安全问题(错误雪崩、凭证泄露),最后行业和监管出手治理(框架成熟化、政府预警、标准组织成立)。AutoGPT 的周期约 6 个月,OpenClaw 缩短到了约 2 个月。 |
| | | — | | 规律三 赢家永远是最朴素的方案。 AutoGPT 用 Prompt 魔法追求全自主,失败了;Function Calling 用结构化工程替代魔法,成功了。OpenClaw 凭一个独立开发者的力量颠覆了行业认知;MCP 用最朴素的 JSON-RPC 统一了工具连接。路线成熟的标志就是”把花哨的实验简化为可靠的工程”。 |
✦
| | | — | | → 下一波重大转向可能在哪? |
基于这三条规律,对 Agent 下一阶段可能出现的重大转向做几个推演:
| | | — | | 推演一 Agent 会有自己的”操作系统” 现在 Agent 跑在为人设计的操作系统上,权限隔离、资源管控全靠开发者自己拼凑。按规律一,这就是当前最明显的扩展性瓶颈。Apple Intelligence 往 OS 里嵌 AI、Google 把 Vertex AI 改名为 Gemini Enterprise Agent Platform——都是早期信号。从”Agent 借人的地盘跑”到”Agent 有自己的原生运行环境”,这会是一次操作系统级的路线切换。 |
| | | — | | 推演二 工程方法论的第四跳——Governance Engineering Prompt → Context → Harness,每次升级的规律是作用域扩大一圈。顺着这个逻辑:Harness 管的是”一个 Agent 的运行环境”,下一层该管的是”一群 Agent 的全局秩序”——Agent 之间怎么互信、跨 Agent 行为怎么保持一致、技能市场准入怎么审核。当 Agent 数量从”一两个”变成”一个团队”的规模时,工程问题会从”怎么让一个 Agent 好用”变成”怎么让一群 Agent 可控”。 |
| | | — | | 推演三 “通用 Agent”会卷土重来——但由大厂直接出 AutoGPT 和 Manus 两次冲击”通用 Agent”都没成主流,但它们的问题不是方向错了,而是可靠性不够。当推理模型在长程规划上的准确率从 ~70% 跨到 ~95%,”错误雪崩”就不再是致命伤。Claude Code 泄露的 Kairos 守护模式、OpenAI 收购 OpenClaw 创始人——这些信号都指向同一个方向:通用个人 Agent 会由掌握底座模型的大厂直接推出,第三方框架可能没有机会了。 |
| | | — | | 推演四 从”自我进化”到”Agent 社会” Hermes 的技能循环目前只是单个 Agent 在自我提升。但把 A2A 协议、持久记忆、技能共享这三样东西拼在一起,下一步就很自然:Agent A 学会的技能,Agent B 可以直接复用。Hermes 的 Skills Hub 已经是这个方向的雏形。当技能可以跨 Agent 流通,”Agent 社会”就不再是科幻小说里的比喻——它会是一个真实的工程系统。 |
| | | — | | 推演五 Agent 走出屏幕——物理世界的 Agent 目前所有路线都在数字世界里折腾。但 Computer Use 已经证明 Agent 能操控 GUI,再往前走一步就是操控物理设备——机器人、IoT、工业控制系统。按规律三的”朴素方案获胜”逻辑,先落地的不会是通用机器人,而是仓储、检测、农业这些垂直场景的专用物理 Agent。这是 Agent 迭代的终极延伸——从”数字员工”变成”物理员工”。 |
| | | — | | 推演六 中国走出差异化路线 “四小龙”在模型层已具备国际竞争力(Qwen 下载量破 10 亿),但出海面临生态壁垒。更现实的路径是在国内先把 Agent 应用场景和标准体系跑通——”养龙虾”事件证明中国市场对 Agent 的接受度极高,政府的快速响应也表明监管框架正在同步建设。中国可能走出一条”场景驱动的技术创新”的差异化路线,而非单纯在模型能力上追赶。 |
✦
| | | — | | → 结语 |
三年,九次路线迭代。AI Agent 从”聊天框里的文字回复”变成了”能操控电脑、7×24 主动行动、自己学新技能的数字实体”。构建 Agent 的方法论也从”写好一条 Prompt”进化到了”搭建完整 Harness 工程体系”。
站在安全从业者的角度,最值得关注的不是”某个 Agent 有什么漏洞”,而是一个更宏观的事实:三年前,Prompt Injection、GUI 注入、技能投毒、AGENTS.md 投毒这些攻击类型根本不存在。每一次路线重构都在创造全新品类的攻击面,都是一次更为严峻的安全挑战。
能力在往前冲,攻击面在叠加,治理在后面追。
这三者之间的速度差,就是安全行业最大的机会窗口——也是最大的风险窗口。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:爆肚的杂货铺 爆肚(b40du) 爆肚(b40du)《惊涛九重浪|AI Agent 三年迭代手记》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论