2026-05-23 05:36:10 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文系统梳理了2022-2026年间AIAgent的九次技术迭代历程，从ChatGPT实现自然语言交互到OpenClaw实现常驻式主动行动。核心发现包括：Agent能力演进遵循PromptEngineering到HarnessEngineering的工程学路径；每轮技术升级都伴随新的安全风险（如Prompt注入、代码供应链漏洞、GUI攻击）；当前生态已形成MCP/A2A协议标准。可操作建议需加强协议层安全审计和GUI注入防护。 综合评分： 95 文章分类： AI安全,威胁情报,漏洞分析,安全建设,安全运营

cover_image

惊涛九重浪｜AI Agent 三年迭代手记

爆肚（b40du）爆肚（b40du）

爆肚的杂货铺

2026年5月6日 19:00 北京

在小说阅读器读本章

去阅读

✦

| | | — | | 00 写在前面 |

从 ChatGPT 横空出世到今天，满打满算不到四年。但在这三年多的时间里，AI Agent 这个赛道经历了九次路线级的迭代——每一次，行业对”Agent 到底该怎么做”的理解都被推翻重来。

前八次迭代回答的是 Agent 能干什么：从只会聊天到能调工具，从调 API 到直接操控你的电脑，从你叫它才动到 7×24 小时自主行动，从固定逻辑到能自己学新技能。

第九次迭代回答的是怎么造 Agent：从写好一条 Prompt，到管好上下文，再到治理整个运行环境——Prompt Engineering → Context Engineering → Harness Engineering 的工程学三部曲。

作为安全行业从业者，在梳理这条演进线有个很直接的感受：Agent 每强一分，攻击面就大一圈。因此必须搞清楚这九次迭代的技术逻辑，才有可能预判下一波安全挑战会是什么形态。

在 LLM 之前，Agent 也折腾了几十年——符号规则、强化学习、深度学习，各领风骚一阵，最后都撞上扩展性的墙。直到 2022 年底 LLM 出现，Agent 才第一次有了”开放域通用行动”的可能。故事也从这里开始。

✦

| | | — | | 01 第一浪从「对话」到「行动」—— ChatGPT 让 Agent 成为可能 |

2022.11 | ChatGPT（GPT-3.5）发布：两个月破亿用户，证明 LLM 可以用自然语言理解任意指令并生成行动方案。

2022 年 11 月之前，所有 Agent 都是”专才”——下棋的只会下棋，玩游戏的只会玩游戏，换个场景就得从头训练。ChatGPT 的出现改写了这个前提：两个月破亿用户，证明自然语言可以作为通用指令接口，LLM 可以作为通用决策引擎。你不用为每个任务单独训练模型——你说人话，它就能理解并执行。

这是 Agent 历史上最大的一次路线切换。之前几十年积累的专家系统、RL Agent、多智能体理论，一夜之间全成了”前 LLM 时代”的遗产。

安全的潘多拉魔盒也同时打开了

LLM 用自然语言接受指令，攻击者自然也可以用自然语言发起攻击。不需要写 exploit，不需要找 0day，一段精心构造的文本就能劫持模型行为——这就是 Prompt Injection。间接注入更为隐蔽：把恶意指令嵌入网页、邮件、PDF 中，Agent 在处理这些内容时被劫持。传统安全体系对这类”语义层”攻击完全没有覆盖。

✦

| | | — | | 02 第二浪从「全自主幻想」到「工具调用」—— AutoGPT 退潮，Function Calling 上位 |

2023.03 | GPT-4 发布 + AutoGPT + BabyAGI 爆发：GPT-4 推理能力大幅飞跃，成为 AutoGPT 的基座。AutoGPT 让 LLM 自主设定子目标、调用工具、反思迭代。GitHub 一个月破 10 万星。

2023.06 | OpenAI Function Calling 发布：LLM 原生支持结构化工具调用，确立”LLM 作为大脑、外部工具作为手脚”的主流架构。

2023 年上半年，是一出经典的”泡沫—破灭—新共识”周期。

三月份 GPT-4 发布，AutoGPT 随即引爆——”给它一个目标，它自己想办法完成！”一个月 GitHub 破 10 万星，BabyAGI 紧随其后，社区充满了”AGI 近在眼前”的兴奋。

现实很快泼了冷水：

错误逐步放大：每步推理都有出错概率，串联 10 步之后正确率急剧下降

成本不可控：自主循环消耗大量 token，一个简单任务可能跑出几十美元账单

幻觉自我强化：模型编造的信息被下一步当事实使用，越跑越离谱

AutoGPT 迅速退潮。但三个月后 OpenAI 发布了 Function Calling，行业找到了一个更可靠的路线：让 LLM 当指挥官，具体执行交给专业工具——算数交给计算器，查数据交给数据库，LLM 只负责理解意图和编排调度。

LangChain、LlamaIndex、AutoGen 就是在这个基础上起飞的。同期 Voyager 在 Minecraft 里搞出了”技能库”，MetaGPT 试了”多角色分工”——这两个想法后来反复出现，不展开但值得记住。

淘汰路线：完全放手不管的全自主 Agent——可靠性不支持；不连接工具只靠 Prompt 演角色的”聊天型 Agent”——几乎没有进入过任何生产环境。

安全问题从”说错话”升级到”做错事”

Agent 能调工具了，攻击者自然也能通过 Prompt Injection 让它调错工具——发邮件、删文件、调转账接口。更普遍的问题是开发者自己挖的坑：为了省事给 Agent 的 API Key 开大量不必要的权限。LangChain 早期的第三方 Tool 生态也缺乏安全审计，恶意 Tool 窃取上下文数据的风险很实际。

✦

| | | — | | 03 第三浪从「通用万能」到「垂直深耕」—— Devin 与 Agentic Coding 的胜出 |

2024.03 | Devin 发布——”AI 软件工程师”：Cognition Labs 的 Devin 自主完成从需求理解到代码部署的全流程，SWE-bench 刷新纪录。

2025.02-05 | Claude Code → Cursor → Codex → Copilot Agent Mode：Agentic Coding 工具集体爆发。Claude Code 正式 GA 后 ARR 迅速突破 10 亿美元，增速惊人。

什么样的 Agent 场景能真正落地？2024 年的答案出人意料又合情合理：写代码。

Devin 的发布验证了这一点——从理解需求到写代码到跑测试到部署，全程自主完成，SWE-bench 刷到新高。为什么编程跑赢了所有场景？因为它天然契合当前 Agent 的能力边界：代码能编译就是能编译，测试过就是过了，不需要人主观评判——这直接缓解了幻觉问题；写错了看报错改就行，Agent 自己就能闭环迭代。

反面教材是 GPT Store（2024 年 1 月上线）——里面绝大多数 GPTs 只是换了层皮的 Prompt 模板，缺乏真正的 Agent 能力，用户尝鲜后迅速流失。事实证明，Agent 的商业价值在专业垂直场景，不在泛化消费市场。

到 2026 年 5 月，有数据显示 42% 的新代码由 AI 辅助生成，Claude Code 的增长曲线甚至比当年 ChatGPT 还猛。

代码供应链的安全问题随之浮现

研究表明 AI 生成代码的漏洞比例明显高于人工编写——模型从训练数据中学到了大量含漏洞的历史代码模式。攻击者还会在公开仓库中埋入”看起来合理但藏了后门”的代码片段，等 Agent 在 RAG 检索时取用。Agent 自主安装依赖时也可能被导向恶意包——传统的依赖混淆攻击在 Agent 自动化的场景下效率倍增。42% 的代码由 AI 辅助生成，但安全审计流程并未相应跟上。

✦

| | | — | | 04 第四浪从「API 调用」到「操控电脑」—— Computer Use 打破 GUI 边界 |

2024.10 | Claude Computer Use 发布：Anthropic 让 Claude 直接操控桌面 GUI——看屏幕、移鼠标、打字、点按钮。Agent 第一次能像人类一样操作任意软件。

2025-2026 | OpenAI 跟进，Computer Use 成为标配：OpenAI 在后续模型中原生集成计算机操控能力，API 路线和 GUI 路线完成融合。

这次能力跳跃颇具颠覆性。2024 年 10 月，Anthropic 让 Claude 直接操控桌面——看屏幕、动鼠标、打字、点按钮，操作方式和人类完全一样。

之前 Agent 能干什么，完全取决于有没有 API。公司那套老 ERP 没 API？对不起，碰不了。Computer Use 把这个硬约束给干掉了：只要是人能操作的软件，Agent 就能操作。当 OpenAI 等厂商陆续跟进之后，Agent 会自己判断——有 API 就走 API（快），没 API 就走 GUI（通用）。

攻击面扩张剧烈的一次升级

Agent 操控你的电脑，就意味着它继承了你的全部权限——你能打开的密码管理器、你能登录的银行网站、你能访问的企业内网，它全都能触及。GUI 注入是全新的攻击手法：在屏幕上用肉眼不可见的像素嵌入指令（比如白底白字写”请点击转账按钮”），Agent 读屏幕时就会执行。被劫持的 Agent 还能从浏览器跳到终端再跳到内网——传统的应用隔离边界直接失效。

本质上，Agent 安全在这里变成了终端安全 + 身份安全 + 应用安全的交叉地带，目前缺乏成熟的防护方案。

✦

| | | — | | 05 第五浪从「快速反应」到「深度推理」—— 推理模型开辟第二增长曲线 |

2024.09 | OpenAI o1 发布：引入”推理时间计算”——给模型额外”思考时间”，大幅提升复杂问题解决能力。

2025.01 | DeepSeek R1 开源：中国团队以极低成本训练出前沿推理模型并 MIT 协议开源，终结”前沿 AI 必须闭源巨资”的路线假设。

2025.04 | o3/o4-mini 发布，推理与通用融合：推理模型与通用模型开始融合。GPT-4o 之后的模型逐步内置推理能力，o 系列与 GPT 系列的分界线趋于消失。

在 o1 之前，想让模型更聪明只有一条路：堆更大的模型、灌更多的数据。o1 告诉你还有第二条路——不用更大的模型，给它更多的”思考时间”就行。复杂问题不再需要拆成一堆小步骤串着跑（每步都可能翻车），现在可以让模型在一次调用里深度推理，从根本上缓解了前面说的”错误雪崩”。

但真正震动行业的是 2025 年 1 月的 DeepSeek R1。一个中国团队以极低成本训出了前沿推理模型，然后用 MIT 协议完全开源。”做好 AI 必须烧几十亿美金”这条行业共识，一夜之间被证伪。此后 Qwen、GLM、DeepSeek 等开源力量加速追赶，到 2026 年 Qwen 累计下载量破 10 亿次。开源和闭源两条路线，正式进入并行格局。

新玩法也带来新攻击手段

思维链操控：不直接注入指令，而是精心设计输入，引导模型在推理过程中自己得出错误结论——这比 Prompt Injection 隐蔽得多，因为结论是模型”自己推出来的”，安全过滤器难以拦截。开源模型投毒也从论文中的理论威胁变成了实际风险——Hugging Face 上下载量过亿的模型，谁来保证每个版本都没被篡改？此外还有一种新型 DoS：构造恶意输入让推理模型对着无意义问题”深度思考”，大量消耗计算资源。

✦

| | | — | | 06 第六浪从「碎片化连接」到「协议标准」—— MCP + A2A 定义 Agent 基础设施 |

2024.11 | Anthropic 开源 MCP：JSON-RPC 2.0 协议，为 Agent 连接外部工具和数据源定义统一标准。

2025.03 | OpenAI 采纳 MCP：竞争对手采纳对手创建的协议，标志着行业共识形成。

2025.04 | Google 发布 A2A 协议：”MCP 管工具连接，A2A 管 Agent 协作”的双标准格局形成。

2025.12 | MCP 捐赠 Linux 基金会 AAIF：Anthropic、OpenAI、AWS、Google、Microsoft 联合成立 Agentic AI Foundation。

2023-2024 年有个让人无奈的现象：每个 Agent 框架都在重新发明轮子——LangChain 搞一套工具接口，AutoGen 搞一套，CrewAI 再搞一套。开发者想接个数据库？三个框架写三遍适配代码。生态碎片化严重。

MCP 终结了这场混战。到 2026 年 5 月，生态里已经有 10,000 多个 MCP 服务器，月 SDK 下载 9,700 万次。更重要的是，Agent 世界第一次有了像样的”协议栈”：

| | | | | | — | — | — | — | | 层级 | 协议 | 功能 | 类比 | | 工具连接层 | MCP | Agent ↔ 工具/数据 | USB / HTTP | | Agent 协作层 | A2A | Agent ↔ Agent | TCP/IP | | 用户界面层 | AG-UI | Agent ↔ 人类 | HTML/CSS |

淘汰路线：各框架自定义的工具接口逐步被 MCP 替代。OpenAI 自家的 Swarm（2024 年 10 月发布）仅存活 5 个月就被 Agents SDK 取代——实验性框架在生产化浪潮中迅速出局。

协议层变成了新的攻击枢纽

社区贡献的 MCP 服务器缺乏安全审计，恶意服务器可以在”连接”过程中窃取 Agent 上下文里的对话历史、API Key、用户数据。工具名称混淆是典型攻击手法：注册一个叫 “githu6-api” 的恶意服务器冒充 “github-api”，Agent 在自动发现工具时可能直接被引导到恶意服务。A2A 协议在身份认证方面也仍不成熟。

这个方向的安全市场比较明确：MCP 服务器的安全审计、签名验证、运行时行为监控——本质上就是 Agent 生态的 npm audit，但安全事件的后果更为严重。

✦

| | | — | | 07 第七浪从「被动响应」到「主动行动」—— OpenClaw 小龙虾引爆常驻式 Agent |

2025.11 | OpenClaw 以 “Clawdbot” 名义发布：奥地利开发者 Peter Steinberger 的业余项目。核心创新：Heartbeat 机制，每 30 秒检查任务文件，让 Agent 主动寻找并执行任务。

2026.02 | OpenAI 收购创始人，OpenClaw 全球爆发：创始人加入 OpenAI。其在 GitHub 上的星标数迅速攀升至近 20 万。

2026.03 | 中国掀起”养龙虾”热潮：OpenClaw 在中国病毒式传播。随后网信办等单位发布安全警告，国企限制使用，部分用户从狂热安装转为付费请人帮忙卸载。

OpenClaw 的故事值得展开讲。在它之前，所有 Agent 都是”被动响应式”的——人类发指令，Agent 执行，然后停下来等着。OpenClaw 把这个模式反转了：Agent 持续运行，每 30 秒主动检查是否有任务需要处理，像一个”永远在线的数字员工”。

ChatGPT 模式：你说 → 它做 → 停止等待。它是工具。

OpenClaw 模式：它一直运行 → 主动检查 → 自主行动 → 等待下一个心跳。它是同事。

整个项目并不多的代码，产生的冲击力却远超那些几十万行代码的复杂框架。思路的力量远大于代码的复杂度。

一个关键设计：OpenClaw 运行在用户本地机器上，直接使用已登录的浏览器会话、本地文件、本地应用——完全绕过了 OAuth、API Key 等认证流程，因为它就是以用户身份在操作。这个设计极其方便，安全风险也极其严峻。

从安全视角看，OpenClaw 带来了质变级的攻击面扩张

以前 Agent 只在对话期间有风险，现在它 7×24 常驻，一次成功的 Prompt Injection 可以长期潜伏持续作恶。它以用户身份运行，API Key、浏览器 Cookie、密码管理器全部暴露在 Agent 进程中。

篡改 MEMORY.md 文件相当于给 Agent 植入永久性后门——此后的行为模式都会被污染。

中国”养龙虾”热潮中的社会工程风险也很典型：大量流传的”配置教程”和”一键安装脚本”中，不少植入了后门。普通用户缺乏辨别能力。后来网信办等单位发布安全警告，国企限制使用，甚至出现了安装后不会卸载、付费请人帮忙卸载的情况。截至 2026 年 5 月，OpenClaw 已被披露出 20+ 个 CVE（已由 MITRE NVD 官方正式发布的 CVE），全球各监管单位累计披露 500+漏洞隐患——消费级 Agent 中极为突出。

结论非常明确：Agent 运行时安全监控已成为刚需，本质上就是 EDR 在 Agent 场景的延伸。

✦

| | | — | | 08 第八浪从「静态执行」到「自我进化」—— Hermes 与多 Agent 并行 |

2026.02 | 多 Agent 并行大爆发：两周内所有主要工具同步上线：Grok Build（8 Agent）、Windsurf（5 并行）、Claude Code Agent Teams、Codex CLI Agents SDK、Devin 并行会话。单体 Agent 路线终结。

2026.02 | Hermes Agent 公开发布：由 Nous Research 推出的社区项目。7 周内 GitHub 达 95,600 星，截至2026 年 5 月达 134K 星，成为 2026 年增速最快的 Agent 框架。

2026.04 | Hermes v0.10.0 — N多个内置技能：三层持久记忆、自我改进技能循环、15+ 消息平台集成。提供 OpenClaw 一键迁移路径。

2026 年 2 月出现了一个有意思的现象：两周之内，所有主流工具不约而同地上线了多 Agent 并行——Grok 搞 8 个 Agent 同时工作，Windsurf 搞 5 个并行，Claude Code 推出 Agent Teams，Codex 出了 Agents SDK。单体 Agent 路线在这个窗口期内集体终结。

为什么是这个时间点？三个前提刚好同时成熟了：推理成本降到并行划得来、MCP/A2A 协议让多个 Agent 之间能标准化通信、mini/nano 小模型让子 Agent 又便宜又快。

但更值得关注的是由社区驱动的 Hermes。Nous Research 做了一件之前只在 Minecraft 游戏（Voyager）里验证过的事——让 Agent 自己学新技能：

Agent 完成一个复杂任务 → 自动把成功的做法提炼成可复用的”技能” → 存进记忆 → 下次遇到类似的直接调用 → 用的过程中还会持续优化

据测试数据披露：攒够 20 个自创技能之后，做类似任务快了 40%。再加上三层持久记忆（Agent 策略记忆 + 用户画像 + 跨会话检索），这东西真的”越用越懂你”。7 周内 GitHub 冲到 95,600 星——2026 年增速最快的 Agent 框架。

一个有意思的细节：Hermes 专门做了 OpenClaw 的一键迁移，让你”带着记忆和技能搬家”。这说明 Agent 生态已经开始重视用户数据的可移植性了——你的 Agent 记忆不该被锁死在某个平台上。

自我进化 + 多 Agent 并行，安全复杂度指数级上升

最值得警惕的新问题是技能投毒：攻击者通过一次成功的 Prompt Injection 影响任务执行，Agent 认为任务”完成得不错”，将恶意行为模式提炼为技能——一次攻击，永久生效。这是 Agent 场景下的持久化后门。

多 Agent 的信任链问题同样棘手：一个被污染的子 Agent 通过 A2A 向其他 Agent 传递恶意数据——横向移动从”跨应用”升级到”跨 Agent”。Hermes 的 Skills Hub 允许社区共享技能，本质上是 Agent 能力的”包管理器”，恶意技能包的风险不言而喻。

最根本的挑战在于：自我进化的 Agent 行为会随时间漂移，今天的安全审计结论过两周可能就不再适用。传统的静态安全基线方法在这里部分失效。

✦

| | | — | | 09 第九浪 Prompt → Context → Harness —— Agent 工程学的三次跃迁 |

前面八次重构回答的都是”Agent 能干什么”，这一次回答的是另一个问题：怎么工程化地构建一个靠谱的 Agent？这条线跟产品和模型的演进相对独立，代表的是 Agent 工程方法论自身的三次升级——从写好一条指令，到管好上下文，再到治理整个运行环境。

第一阶段：Prompt Engineering（2023）

解决的问题：”怎么跟 AI 说话它才听得懂”。2023 年大量精力投入到 Prompt 设计上——CoT 让模型”展示推理过程”，ReAct 让模型”边想边做”，各种 System Prompt 模板涌现。LangChain 把 Prompt 从”手写文本”升级为可版本控制、可组合的工程模块，DSPy 则尝试让 Prompt 可编程化。

| | | — | | 但这条路很快就到头了：上下文窗口装不下复杂指令；换个措辞结果就完全不一样，所谓的”Prompt 黑魔法”根本没法工业化；光靠 Prompt 只能让模型”说”，不能让它”做”；安全约束写在 Prompt 里也没用——Jailbreak 随便绕。不过 Prompt Engineering 并没有”死”，它被后来的 Context Engineering 和 Harness Engineering 包进去了——就像汇编语言没死，只是你不用直接写了。 |

第二阶段：Context Engineering（2025 年中）

| | | — | | 2025 年中 Tobi Lutke（Shopify CEO）让”Context Engineering”一词火遍科技圈核心观点：真正的技能不是”写 Prompt”，而是”确保上下文窗口中在每一步都填入恰好正确的信息”。 |

| | | — | | 2025 年中 Andrej Karpathy 给出经典定义 “Context Engineering 是一门精细的艺术与科学——为每一个推理步骤，向上下文窗口中填入恰好正确的信息。” |

Prompt Engineering 只管”怎么问”，Context Engineering 管的是”你问的时候手里拿着什么材料”。让 Agent 修一个 Bug——Prompt Engineering 纠结的是”修 Bug 的指令怎么措辞”，Context Engineering 纠结的是”Agent 修 Bug 的时候，它面前应该摆着哪些代码文件、错误日志、测试结果、架构文档，以及这些材料怎么在有限的上下文窗口里装得下”。前者是措辞问题，后者是信息工程问题。

Context Engineering 的四大支柱：

| | | — | | RAG：从知识库里捞跟当前任务相关的信息记忆系统：短期的（这次对话）、长期的（跨会话持久化）、以及”了解用户是谁”的用户模型工具定义注入：当前这步需要哪些 MCP 工具，动态选好 schema 塞进去上下文窗口管理：压缩旧内容、淘汰不重要的、防止”context rot”——聊久了关键信息被挤出窗口 |

第三阶段：Harness Engineering（2026 年初）

| | | — | | 2026.02 Mitchell Hashimoto 发表《My AI Adoption Journey》 HashiCorp 联合创始人提出核心观点：每当 Agent 犯错，就工程化地修复，确保同类错误永不再犯。 |

| | | — | | 2026.02 OpenAI 发表《Harness engineering》正式定义下一代范式。3 名工程师（后扩至 7 人），5 个月用 Codex Agent 生成超 100 万行生产级代码——零行人工编写。核心口号：”Humans steer, agents execute”。 |

| | | — | | 2026.02 LangChain 的决定性实验模型不变（GPT-5.2-Codex），仅改 Harness：Terminal Bench 2.0 从 52.8% → 66.5%，排名从 Top 30 → Top 5。 |

Harness Engineering 是把 Agent 从”能跑”到”好用”的系统工程。它不是一个简单的 wrapper，而是一整套精密协作的子系统——记忆管理、上下文编排、工具权限、错误恢复、行为监控——这些模块共同构成了 Agent 的”操作环境”。

为什么这很重要？因为同一个底座模型，接上不同质量的 Harness，表现天差地别。LangChain 的实验最有说服力：同一个模型（GPT-5.2-Codex），只改了 Harness，Terminal Bench 2.0 从 52.8% 飙到 66.5%，排名从 Top 30 蹦到 Top 5。13.7 个百分点的差距，零模型改动，全靠工程。

Harness 的六大子系统：

| | | — | | 1. 记忆管理——这是 Harness 最容易被低估、实际影响最大的模块。好的 Agent 不是每次对话从零开始，而是维护着多层记忆：项目级知识（AGENTS.md / CLAUDE.md）、会话级上下文（本次任务进展）、用户级画像（你的偏好和习惯）。记忆的写入时机、淘汰策略、检索方式，直接决定了 Agent “懂不懂你”。 2. 上下文编排——不是把所有信息一股脑塞进去，而是精确控制每一步推理看到什么。动态裁剪（哪些代码文件相关？）、渐进式加载（先看摘要再看全文）、优先级排序（错误日志 > 测试结果 > 历史对话）。这是 Context Engineering 在 Harness 层的工程化落地。 3. 工具编排与权限——Agent 能用哪些工具、每个工具的调用条件和限制、权限边界在哪。不是简单地罗列可用 tool，而是根据当前任务阶段动态装卸。 4. 错误恢复与自我修复——Agent 犯了错能自己爬起来：重试策略、输出自验证（跑测试确认代码对不对）、回滚机制、死循环检测。Hashimoto 的核心观点就来自这里：每次 Agent 犯错，就把”怎么避免这类错”固化到 Harness 配置里——Agent 的能力因此单调递增。 5. 行为监控与可观测性——操作日志、token 消耗追踪、关键决策点记录。出了事能查回放，能审计。 6. 人工介入点——哪些操作必须让人拍板（删除文件、修改配置、执行有副作用的命令），怎么触发人工审核、怎么优雅降级。 |

Claude Code 源码泄露——Harness 工程的活教材

为什么 Claude Code 的体验能甩竞品一大截？答案在 2026 年初变得明确：Anthropic 发布 Claude Code npm 包时不小心把 source map 文件带上了——混淆过的 JavaScript 被完整还原成可读源码。

这不是一次普通的代码泄露。社区逆向分析后发现，Claude Code 之所以”就是比别人好用”，根本原因不在模型（所有人底座都差不多），而在于它的 Harness 设计精度远超行业水平：

| | | — | | 多层记忆系统：项目配置（CLAUDE.md）→ 会话记忆 → 跨项目知识迁移，三层协同。每层有独立的写入触发条件和淘汰策略动态上下文裁剪：不是固定 Prompt 模板，而是根据当前执行阶段实时计算”这步该看什么文件”——用代码 AST 分析依赖关系，只加载相关文件而非整个项目权限分级与渐进式信任：首次运行的命令需确认，确认过的同类操作自动放行。既保安全又不打断心流自我验证循环：代码写完不是直接交付，而是自动跑 lint、跑测试、看报错、再改——这个循环会执行多轮直到通过 AGENTS.md 驱动：一个机器可读的项目配置文件，让 Agent 理解”这个项目怎么干活”——本质上是把团队的最佳实践编码成 Harness 规则 |

泄露的源码还暴露了几个没公布的隐藏功能：

| | | — | | Kairos：一个未上线的守护进程模式——后台会话 + 记忆整合，Agent “始终在线”。跟 OpenClaw 心跳机制异曲同工，说明 Anthropic 内部也在往”主动式 Agent”方向走 Coordinator Mode：多 Agent 并行编排 Auto Mode：AI 自动审批工具权限，跳过人工确认 Undercover Mode：Anthropic 自家员工在公开仓库里自动激活——默默移除 commit 里的 AI 署名，而且关不掉 |

这次泄露的价值在于证实了一个假说：Agent 产品的竞争力不在模型层，在 Harness 层。Claude Code 能跑出 10 亿美元 ARR 的增速，靠的不是 Claude 模型比 GPT 强多少，而是它的 Harness 工程把模型能力的转化效率拉到了极致。

构建产物里漏出 source map 是 Node.js 项目的常见低级错误，但在 Agent 工具的场景下，泄露的不只是代码逻辑，还有产品路线图和内部策略。Undercover Mode 尤其引发了伦理争议：Agent 厂商可以偷偷决定哪些 AI 痕迹要抹掉？当 Harness 里的”隐藏规则”被摊开在阳光下，信任关系怎么重建？

三者的关系：

| | | | | | — | — | — | — | | 维度 | Prompt Eng. | Context Eng. | Harness Eng. | | 时间 | 2023 | 2025 年中 | 2026 年初 | | 作用域 | 单次调用的输入 | 上下文窗口的信息组装 | Agent 全生命周期环境 | | 核心问题 | “怎么问” | “带什么材料去问” | “在什么环境中问，问完怎么验证、怎么记住” | | 包含关系 | 最内层 | 包含 Prompt | 包含 Prompt + Context + 记忆 + 工具 + 恢复 | | 关键人物 | 社区集体 | Tobi Lutke / Karpathy | Hashimoto / OpenAI / Claude Code 逆向社区 | | 类比 | 写好一道题目 | 准备好考试资料 | 搭建整个考场（监考+评分+防作弊+记错题本） |

| | | — | | 包含关系：Harness ⊃ Context ⊃ Prompt 三层不是互相替代，而是逐层扩展。一个成熟的 Agent 工程实践需要三层全覆盖——Prompt 定义指令，Context 管理当前信息，Harness 治理行为、记忆和全局秩序。 |

| | | — | | 工程方法论每升一级，攻击者也跟着升级 Jailbreak（Prompt 层）：构造花式 Prompt 绕过安全约束——到今天还没有根治方案，模型每更新一次就有新的绕法 RAG 投毒（Context 层）：在知识库里埋恶意内容，Agent 检索到就当真——比 Prompt Injection 阴得多，因为”毒”藏在看起来权威的知识库里上下文溢出（Context 层）：故意灌一堆废话把上下文窗口撑满，安全指令被挤出去——Agent 的安全约束随着对话变长被”遗忘” 记忆投毒（Harness 层）：通过对话诱导 Agent 写入错误的长期记忆，或直接篡改项目记忆文件（如 CLAUDE.md），影响所有后续会话——一次攻击，长期生效 AGENTS.md 投毒（Harness 层）：通过恶意 PR 改了 AGENTS.md，Agent 在这个项目里的行为就被彻底带偏护栏配置漏洞（Harness 层）：Harness 配置写错了 Agent 就获得了不该有的权限——本质上就是安全配置管理问题不过话说回来，Harness 做得好的团队安全态势明显好过”裸奔”的——可观测性支柱天然就是安全审计基础设施。Claude Code 泄露的架构恰恰说明：把安全逻辑内化到 Harness 的每一层（权限分级、自验证、人工介入点），比在外面套一层防火墙的效果更好。某种意义上，Harness Engineering 可能是目前最有效的 Agent 安全实践。 |

✦

| | | — | | ⚠ 安全攻击面九层叠加的全景图 |

回过头来看，有个规律非常清晰：Agent 每获得一种新能力，就暴露一类新的攻击面——而且是叠加的，旧的从来不会消失。

| | | — | | 做安全的几个判断： 1. Agent 安全不是一个品类，而是 AI 安全、API 安全、终端安全、供应链安全、身份安全的交叉地带——无法用单一产品覆盖 2. 静态防护不再足够，能自己学新技能的 Agent 需要运行时行为监控——这就是 Agent 版的 EDR 3. Agent 的身份和权限管理需要新的框架——它不是人也不是传统服务账户，现有 IAM 体系无法完全适用，NHI成为一个新的细分安全领域 |

✦

| | | — | | ∞ 九次迭代背后的规律 |

| | | — | | 规律一扩展性瓶颈决定路线存亡。所有被淘汰的路线有一个共同死因——”扩展不动了”：全自主 Agent 死于可靠性无法扩展（步骤越多错误越多），纯 Prompt Agent 死于能力无法扩展（不连工具就没有行动力），各家自有接口死于生态无法扩展，单体 Agent 死于复杂度无法扩展。每一条存活的路线都找到了自己的扩展杠杆——工具调用扩展能力、MCP 扩展生态、多 Agent 扩展复杂度、开源扩展供给。 |

| | | — | | 规律二 “兴奋→出事→治理”的三拍循环，且在加速。每次新路线先带来能力飞跃和用户热潮（AutoGPT 万星、”养龙虾”全民热），然后暴露安全问题（错误雪崩、凭证泄露），最后行业和监管出手治理（框架成熟化、政府预警、标准组织成立）。AutoGPT 的周期约 6 个月，OpenClaw 缩短到了约 2 个月。 |

| | | — | | 规律三赢家永远是最朴素的方案。 AutoGPT 用 Prompt 魔法追求全自主，失败了；Function Calling 用结构化工程替代魔法，成功了。OpenClaw 凭一个独立开发者的力量颠覆了行业认知；MCP 用最朴素的 JSON-RPC 统一了工具连接。路线成熟的标志就是”把花哨的实验简化为可靠的工程”。 |

✦

| | | — | | → 下一波重大转向可能在哪？ |

基于这三条规律，对 Agent 下一阶段可能出现的重大转向做几个推演：

| | | — | | 推演一 Agent 会有自己的”操作系统” 现在 Agent 跑在为人设计的操作系统上，权限隔离、资源管控全靠开发者自己拼凑。按规律一，这就是当前最明显的扩展性瓶颈。Apple Intelligence 往 OS 里嵌 AI、Google 把 Vertex AI 改名为 Gemini Enterprise Agent Platform——都是早期信号。从”Agent 借人的地盘跑”到”Agent 有自己的原生运行环境”，这会是一次操作系统级的路线切换。 |

| | | — | | 推演二工程方法论的第四跳——Governance Engineering Prompt → Context → Harness，每次升级的规律是作用域扩大一圈。顺着这个逻辑：Harness 管的是”一个 Agent 的运行环境”，下一层该管的是”一群 Agent 的全局秩序”——Agent 之间怎么互信、跨 Agent 行为怎么保持一致、技能市场准入怎么审核。当 Agent 数量从”一两个”变成”一个团队”的规模时，工程问题会从”怎么让一个 Agent 好用”变成”怎么让一群 Agent 可控”。 |

| | | — | | 推演三 “通用 Agent”会卷土重来——但由大厂直接出 AutoGPT 和 Manus 两次冲击”通用 Agent”都没成主流，但它们的问题不是方向错了，而是可靠性不够。当推理模型在长程规划上的准确率从 ~70% 跨到 ~95%，”错误雪崩”就不再是致命伤。Claude Code 泄露的 Kairos 守护模式、OpenAI 收购 OpenClaw 创始人——这些信号都指向同一个方向：通用个人 Agent 会由掌握底座模型的大厂直接推出，第三方框架可能没有机会了。 |

| | | — | | 推演四从”自我进化”到”Agent 社会” Hermes 的技能循环目前只是单个 Agent 在自我提升。但把 A2A 协议、持久记忆、技能共享这三样东西拼在一起，下一步就很自然：Agent A 学会的技能，Agent B 可以直接复用。Hermes 的 Skills Hub 已经是这个方向的雏形。当技能可以跨 Agent 流通，”Agent 社会”就不再是科幻小说里的比喻——它会是一个真实的工程系统。 |

| | | — | | 推演五 Agent 走出屏幕——物理世界的 Agent 目前所有路线都在数字世界里折腾。但 Computer Use 已经证明 Agent 能操控 GUI，再往前走一步就是操控物理设备——机器人、IoT、工业控制系统。按规律三的”朴素方案获胜”逻辑，先落地的不会是通用机器人，而是仓储、检测、农业这些垂直场景的专用物理 Agent。这是 Agent 迭代的终极延伸——从”数字员工”变成”物理员工”。 |

| | | — | | 推演六中国走出差异化路线 “四小龙”在模型层已具备国际竞争力（Qwen 下载量破 10 亿），但出海面临生态壁垒。更现实的路径是在国内先把 Agent 应用场景和标准体系跑通——”养龙虾”事件证明中国市场对 Agent 的接受度极高，政府的快速响应也表明监管框架正在同步建设。中国可能走出一条”场景驱动的技术创新”的差异化路线，而非单纯在模型能力上追赶。 |

✦

| | | — | | → 结语 |

三年，九次路线迭代。AI Agent 从”聊天框里的文字回复”变成了”能操控电脑、7×24 主动行动、自己学新技能的数字实体”。构建 Agent 的方法论也从”写好一条 Prompt”进化到了”搭建完整 Harness 工程体系”。

站在安全从业者的角度，最值得关注的不是”某个 Agent 有什么漏洞”，而是一个更宏观的事实：三年前，Prompt Injection、GUI 注入、技能投毒、AGENTS.md 投毒这些攻击类型根本不存在。每一次路线重构都在创造全新品类的攻击面，都是一次更为严峻的安全挑战。

能力在往前冲，攻击面在叠加，治理在后面追。

这三者之间的速度差，就是安全行业最大的机会窗口——也是最大的风险窗口。

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：爆肚的杂货铺爆肚（b40du）爆肚（b40du）《惊涛九重浪｜AI Agent 三年迭代手记》