文章总结: 本报告系统梳理了大语言模型应用工程从提示词到循环的演进路径,揭示了技术谱系:提示词工程→上下文工程→脚手架工程→循环工程。报告指出思维链、ReAct框架、AutoGPT等关键突破推动了从单次推理到循环交互的转变,并分析了上下文腐化、循环失控等挑战,最终将智能体定义为基于环境反馈在循环中使用工具的LLM。 综合评分: 92 文章分类: AI安全,安全开发,解决方案,安全工具,技术标准
大语言模型从Prompt到Loop的演进分析报告
原创
夸父 夸父
穹苍经略
2026年6月21日 12:54 北京
在小说阅读器读本章
去阅读
摘要
本报告系统梳理了大语言模型(LLM)应用工程从”提示词”(Prompt)到”循环”(Loop)的演进路径。这一演进并非单点突破,而是一条清晰的、可追溯的技术谱系:提示词工程(Prompt Engineering)→ 上下文工程(Context Engineering)→ 脚手架工程(Harness Engineering)→ 循环工程(Loop Engineering)。每一层都建立在前一层之上,而非取代它——这是理解整个演进的关键前提。报告依据公开可查的论文、公司工程博客、行业访谈与一手社交媒体记录进行撰写,凡涉及具体日期、人物、数字的表述,均标注信息来源;对尚存争议或时间较新、未被广泛交叉验证的说法,会明确指出其不确定性。
第一部分:起点——提示词工程(约2020–2024)
1.1 从”参数微调”到”措辞优化”
提示词工程的兴起,本质上源于一次范式转移:OpenAI在2020 年发布的GPT-3论文《Language Models are Few-Shot Learners》(Brown et al., 2020)证明了一个此前未被充分验证的事实——只要模型规模足够大,仅通过在输入中提供少量示例(few-shot),无需更新模型参数,就能让模型完成各类任务。这开启了所谓的”少样本学习时代”。在此之前,让模型适应新任务的主流方法是微调(fine-tuning);GPT-3之后,”如何措辞”本身成为了决定任务效果的关键变量。
研究随即发现,提示词的具体表达方式对模型表现影响极大且不稳定。一项被广泛引用的研究指出,仅仅是调换少样本示例的顺序,就可能让GPT-3在SST-2情感分类任务上的准确率从93.4%骤降至54.3%。这种”提示敏感性”催生了一个独立的研究方向——专门研究如何系统性地组织、措辞、优化提示词,以稳定地获得期望输出。
1.2 思维链:让模型”先想后答”
提示词工程中最具影响力的单一突破是 思维链提示(Chain-of-Thought, CoT),由Google的 Wei 等人于2022 年在论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中提出。其核心思想极其简单:与其要求模型直接给出答案,不如在示例中展示”问题—推理过程—答案”的完整链条,引导模型在生成最终答案前先生成中间推理步骤。这一方法在算术、常识和符号推理任务上带来了显著的性能提升。
同年,Kojima等人进一步发现,甚至不需要提供任何示例,只需在问题末尾附加一句”Let’s think step by step”(让我们一步一步来思考),就能在零样本设置下复现类似效果,这被称为Zero-shot-CoT。此后,研究者围绕CoT衍生出大量变体,包括自洽性解码(self-consistency)、思维树(Tree-of-Thought)等,逐步把”提示词”从一句指令,发展成了一套系统性的认知引导技术。
1.3 提示词工程的天花板
这一阶段的工作建立了一条至今仍然成立的基本认知:提示词工程优化的是”表达”,而不是”信息”。一句措辞精妙的提示词,依然无法让模型获得它从未接收过的事实,也无法让模型在多步骤、长周期的任务中保持连贯——因为每一次提示词调用本质上仍是孤立的单次推理:模型不具备持久的上下文、无法访问中间结果,也无法跨步骤串联决策。这正是推动下一层演进的根本动因。
第二部分:模型学会”行动”——从思维链到 ReAct(2022)
2.1 推理与行动的割裂
在CoT提出后不久,研究者注意到一个结构性局限:CoT中的推理链条完全依赖模型内部的”自我陈述”,模型并未真正接入外部世界,因此无法在推理过程中动态获取新信息、修正错误认知,容易产生”幻觉”并不断累积误差。与此同时,另一条研究线索——如WebGPT、SayCan等——在探索如何让模型采取”行动”(调用工具、操作环境),但这条线索与”推理”这条线索长期是分离的。
2.2 ReAct 框架:推理与行动的协同
2022年10月,普林斯顿大学的Shunyu Yao与Google Research Brain团队的Jeffrey Zhao、Yuan Cao等人联合发表论文《ReAct: Synergizing Reasoning and Acting in Language Models》。这篇论文被广泛认为是”智能体型 LLM”(Agentic LLM)的奠基性工作之一,被认为是智能体式大语言模型的奠基之作。
ReAct的核心机制是让模型以交替的方式生成”推理痕迹”(reasoning traces)与”任务相关动作”(task-specific actions):推理痕迹帮助模型归纳、追踪和更新行动计划并处理异常情况,而动作则允许模型与外部资源(如知识库或环境)交互以收集额外信息。具体而言,在每一步,模型先生成一段”想法”(Thought)解释其推理,再生成一个”行动”(Action)调用某个工具,随后获得一个”观察”(Observation)作为该行动的结果,如此循环往复,直至任务完成。
这一框架在多个基准上验证了”边想边做”优于”只想不做”或”只做不想”:在问答(HotpotQA)和事实核查(Fever)任务上,ReAct通过与一个简单的维基百科API交互,克服了思维链推理中普遍存在的幻觉和错误传播问题,生成了比无推理痕迹基线更具可解释性的、类人的任务解决轨迹;在两个交互式决策基准(ALFWorld 和 WebShop)上,ReAct的绝对成功率分别比模仿学习和强化学习方法高出34%和10%,且仅需一到两个上下文示例。
ReAct的历史意义在于,它第一次用一个简洁、可复现的提示词驱动框架,证明了”循环”——感知、推理、行动、观察、再推理——可以完全由提示词工程触发,而不需要修改模型本身。ReAct(推理与行动)将推理痕迹与工具调用以提示词驱动的循环方式交织在一起。这是从”单次提示词”走向”循环”的第一座桥梁,但此时的”循环”仍主要是一种提示词模板内的设计技巧,尚未发展为独立的工程学科。
第三部分:自主智能体的第一次浪潮——AutoGPT 与 BabyAGI(2023)
3.1 GPT-4 引爆的”自主智能体热”
2023年3月14日,OpenAI发布GPT-4;仅两周后的3月30日,英国游戏开发者Toran Bruce Richards发布了开源项目AutoGPT。AutoGPT是一个开源的自主AI智能体框架,主要使用OpenAI的GPT-4,以最少的人工干预完成用户定义的目标。它在发布后十三天内即获得30,000个GitHub star,几周后突破10万星,被广泛认为是当时GitHub历史上增长最快的开源项目。
几乎同期,软件工程师Yohei Nakajima发布了BabyAGI,其设计理念记录于论文《Task-driven Autonomous Agent Utilizing GPT-4, Pinecone, and LangChain for Diverse Applications》(2023年3月)。BabyAGI通过大语言模型与向量记忆存储,编排一个任务创建、执行与优先级排序的循环。其架构比AutoGPT更简洁:BabyAGI提供了三个专门化智能体——执行、任务创建与优先级排序——的更清晰架构。
3.2 循环的雏形与暴露的问题
这一代系统的运作模式,已经具备了后来”agent loop”的基本骨架:基于目标,AI会生成一份任务列表;智能体取出列表中的第一项任务并尝试执行(例如构造一次谷歌搜索);智能体分析执行结果,并利用这些新信息来调整和重新排序任务列表,可能会添加新任务;循环不断继续,直到智能体认为目标已经达成。这正是”循环”概念第一次以工程实践(而非论文中的提示词模板)形式被大规模验证。
但这一代自主智能体也暴露出后来”循环工程”试图解决的全部核心问题:2023年3 月,Auto-GPT报告了一起由主观评价标准和”完美主义偏差”导致的事故——这是一种常见现象,即模型反复寻求改进,导致循环不断拉长。同样,BabyAGI也因缺乏可靠的记忆机制来追踪已完成的任务,导致其不断在原地重新生成计划。
到2024年中期,业界对这一波自主智能体的评价已趋于冷静:多位评论者观察到,”完全自主”的通用智能体并未兑现2023年初的承诺,主要原因被归结为循环行为、幻觉步骤,以及长任务序列中微小的单步错误率不断累积。Yohei Nakajima 于2024年9月将BabyAGI项目存档,并将其重新定位为一个明确的研究沙盒。一个有代表性的批评来自Tom’s Hardware撰稿人Avram Piltch,他在2023年4月撰文指出AutoGPT”可能因为过于自主而变得不实用”,因为它不会提出澄清性问题,也不允许用户进行纠正性干预;Salesforce CEO Clara Shih则建议采用AutoGPT式智能体的企业应当”让人类保留在循环之中”。
这一阶段的失败经验,反而为后续演进提供了清晰的反面教材:纯粹依靠模型”自主”运行的循环是不可控的,必须有结构化的约束、可验证的反馈与明确的终止条件,循环才能从一个噱头变成生产级的工程组件。
3.3 与之并行的能力基础设施
2023年同期,另外两项进展为后来的”循环”提供了关键的技术底座。其一是Meta AI提出的Toolformer,这是第一个能够自主选择何时以及如何调用外部工具的大语言模型,是LLM能够生成并使用自身行动接口的最早证明,可视为成熟智能体框架的前驱。其二是OpenAI在同年推出的”函数调用”(function calling)能力,使得大语言模型第一次能够以结构化、可预测的格式调用工具,以JSON 形式传递参数,并通过一个明确的”行动空间”与外部系统对接。这两项进展,将”模型决定调用什么工具”从一种需要精巧提示词工程才能勉强实现的技巧,变成了一种原生的、受API支持的能力,为后续”循环”的稳定运行打下了基础。
第四部分:循环被正式定义——Anthropic 的”智能体”概念(2024)
4.1 工作流 vs. 智能体:一条关键的架构分界线
2024年12 月,Anthropic发布工程博客《Building Effective Agents》,首次系统性地为”智能体系统”划出了一条至今仍被广泛引用的架构分界线:工作流(Workflows)是LLM与工具通过预定义代码路径进行编排的系统;智能体(Agents)则是LLM动态指挥自身流程与工具使用、并对完成任务的方式保持控制权的系统。
这篇文章同时给出了对”智能体”一个极为简洁、后来被反复引用的定义:自主智能体本质上就是基于环境反馈、在一个循环中使用工具的LLM。这与Oracle工程团队后来的概括高度一致:架构上的区别很简单:聊天机器人是一次LLM调用;智能体则是LLM在一个循环中调用工具直到任务完成。这一定义把”循环”从一种实现细节,正式提升为定义”智能体”这一概念本身的核心标准。
值得指出的是,这篇文章对”智能体”概念的界定也并非没有争议。有评论指出,该指南对”agentic”(智能体式的)、”工作流”和”智能体”这几个术语的定义彼此并不完全一致,并认为更稳妥的定义方式应当聚焦于”做什么”而非”用什么技术实现”。这一争议本身也反映出,2024年前后”智能体”概念仍处于行业共识尚未完全凝固的阶段。
4.2 循环的标准结构
到2025–2026年,多家技术团队(包括Oracle工程团队与独立技术作者)已经将这一循环结构标准化、模块化。一个被广泛引用的五阶段循环为:感知(Perceive):智能体接收输入,可能是用户消息、API响应、错误信息,或上一次行动的结果;推理(Reason):LLM处理上下文中的全部信息并决定下一步行动;规划(Plan):对于复杂任务,智能体在执行前将目标分解为若干离散的子任务;行动(Act);观察(Observe),循环往复直至任务完成或触及预设的终止条件。
更具体的技术拆解来自对主流智能体框架源码的逐一比对。一篇2026年3月的分析写道:我审查过的每一个智能体框架——Claude Code(及其封装的 Claude Agent SDK)、Codex、Cursor、Vercel AI SDK、LangGraph、smolagents——都收敛到了同一种架构。不是相似,而是完全相同:一个调用LLM、检查响应中是否包含工具调用、若有则执行、若无则停止的while循环。这就是全部。换言之,到2025–2026年,”循环”本身在工程意义上已经是一个”已解决的问题”;真正有技术含量、决定产品差异化的,是循环周围的工程——上下文管理、安全控制、优雅降级、成本控制。
第五部分:第二次跃迁——上下文工程(2025)
5.1 从”措辞”到”信息环境”
2025年9月29日,Anthropic发布工程博客《Effective Context Engineering for AI Agents》,正式提出”上下文工程”概念,并将其明确定位为提示词工程的延伸:在我们看来,上下文工程是提示词工程的自然演进。提示词工程指的是为获得最佳结果而撰写和组织LLM指令的方法;上下文工程则指的是在LLM推理过程中,为获得期望结果而管理和维护最优token集合(信息)的一整套策略,这包括了提示词之外可能进入上下文的所有其他信息。这篇文章的发布与Claude Sonnet 4.5同步,这一指导思想凝结了构建Claude Code等复杂智能体的多年经验,标志着AI开发方法论的一次重大演进。
这一转变背后有一个被反复引用的现实判断,来自 Cognition 团队:截至 2025年年中,上下文工程已经事实上成为构建AI智能体的工程师的”头号工作”。其原因在于,生产环境中智能体失效的根因往往不在模型本身:根据 Anthropic 工程团队的观察,臃肿、结构混乱或不相关的信息进入模型,是智能体可靠性的隐形杀手,仅工具返回结果这一项,在智能体处理用户请求之前就可能消耗超过5万个 token;多智能体系统的token消耗甚至可达普通对话的15倍。
5.2 “上下文腐化”与有限注意力
上下文工程的一个关键洞察是”上下文窗口越大不等于性能越好”。大语言模型与人类一样,注意力是有限的——给予的信息越多,模型保持专注和准确回忆细节就越困难。这种现象被称为”上下文腐化”(context rot),意味着单纯扩大上下文窗口并不能保证更好的性能。围绕这一洞察,行业逐步沉淀出一套具体的工程实践,包括对工具集合的”分层动作空间”设计——用一小组核心原子工具,加上通过 bash/shell 等通用执行工具处理复杂操作,而不是不断增加专用工具的数量,以及对工具数量的经验法则——Anthropic 建议”始终加载最常用的三到五个工具”,对十个以上的工具则采用动态发现机制。
5.3 上下文工程仍然是”循环之内”的工作
需要明确的是,上下文工程虽然将关注点从”一句提示词”扩展到了”模型在推理那一刻能看到的全部token”,但它讨论的仍然是循环内部单次推理调用的信息配置问题——也就是说,循环本身的存在被默认为前提,上下文工程要回答的问题是”循环的每一步应该让模型看到什么”,而不是”谁来驱动这个循环转动”。这一区分,正是后续”脚手架工程”与”循环工程”得以从中分化出来的关键节点。
第六部分:第三次跃迁——脚手架工程(2026年2月)
6.1 一个新问题:模型之外的”环境”
当智能体真正进入生产系统、长时间自主运行(一次任务可能持续数十甚至上百步),一类新的问题浮现出来,这类问题既不是”措辞”问题,也不是单纯的”上下文配置”问题。一篇分析将其概括为:智能体可能忽视团队约定、生成违反架构依赖方向的代码、在并行执行时与自身冲突,或随时间推移逐渐因熵增而退化代码质量。这些已经不是”模型应该看到什么”的问题,而是”系统应当阻止什么、衡量什么、修复什么”的问题。
2026 年 2 月 5 日,HashiCorp 联合创始人、Terraform 与 Ghostty 的创造者 Mitchell Hashimoto 在个人博客上提出了”脚手架”(harness)概念。多个独立信源对这一事件的时间与表述高度一致:Hashimoto 在文章中描述了他在使用 AI 智能体过程中养成的一套纪律:每当智能体犯下一次错误,他就会在智能体的运行环境中工程化地植入一个永久性修复,使得这一具体错误从结构上不可能再次发生。其核心口号被概括为一个公式:智能体 = 模型 + 脚手架(Agent = Model + Harness)。
几天之后,OpenAI 发布了一篇题为《Harness engineering: leveraging Codex in an agent-first world》的工程报告,用一个具体案例为这一概念提供了量化支撑:一个三人团队从 2025 年 8 月下旬的一个空仓库开始,五个月内没有手写一行代码——每一行都由 OpenAI 的代码智能体 Codex 生成,最终形成了一个约一百万行代码的生产系统。
6.2 脚手架的构成要素
不同信源对”脚手架”具体包含哪些组件的描述基本一致。其中最基础的组件是项目级指令文件:CLAUDE.md、AGENTS.md、.cursorrules 等项目指令文件,是智能体开始工作时读取的文档,通常包含项目结构、编码规范与命名约定。Faros 团队将一个完整的生产级脚手架归纳为五层:工具编排、验证循环、上下文与记忆、护栏(guardrails)、可观测性。多个信源也提到了一个被反复引用的类比,出自 AI 工程师 Phil Schmid:模型是 CPU,上下文窗口是内存(RAM),脚手架是操作系统,智能体是应用程序——正如没有人会在没有操作系统的情况下直接在 CPU 上运行软件,没有脚手架的智能体部署同样是在自找麻烦。
需要说明的是,”harness”这一术语本身并非 2026 年才首次出现——它在评测领域早有先例(如 EleutherAI 2020 年发布的 Language Model Evaluation Harness),而 Anthropic 在 2025 年 11 月已将 Claude Agent SDK 描述为”一个强大的通用型智能体脚手架”。Hashimoto 的贡献,准确地说是把一个此前零散使用的词汇,赋予了一套清晰、可操作的方法论,并使其在数周内成为行业共识术语。
6.3 脚手架工程的实证效果
软件改进集团(Software Improvement Group, SIG)的一项研究为”脚手架质量决定产出质量”这一论断提供了量化证据:无论使用哪种模型,纯智能体生成代码的可维护性评分均为 1.1/5;而在配备治理基础设施的人机协同模式下,评分达到 3.1/5。这一差距主要来自四个脚手架属性:设计边界、测试策略、依赖卫生与范围控制——而非模型能力本身。这一结论与本报告第三部分中 AutoGPT/BabyAGI 时代”纯自主循环不可控”的教训一脉相承:脚手架工程,本质上是用工程化的方式,把第一代自主智能体暴露出的失控问题逐一”打补丁”。
第七部分:第四次跃迁——循环工程(2026 年 6 月)
关于本部分的时效性说明:循环工程(Loop Engineering)是截至本报告撰写之时(2026 年 6 月)最新出现、仅有约两周历史的术语。相关信源高度一致地指向同一起源事件,但作为一个尚在快速演化中的新生概念,其边界、术语使用的稳定性仍有待观察。本部分尽量只采用多个独立信源交叉确认的内容。
7.1 起源:一条推文引发的术语转折
多个独立信源对”循环工程”一词的诞生时间、地点与触发者给出了高度一致的描述。该术语诞生于 2026 年 6 月 7 日,由开发者 Peter Steinberger(此前是 PSPDFKit/Nutrient 的创始人,后来创建了 OpenClaw 项目)在 X(原 Twitter)上发布的一条帖子引发:这条帖子的核心意思是——”让我们停止向编码智能体输入提示词,转而设计一个能向智能体输入提示词的循环”,该帖子获得了约 150 万次浏览,瞬间点燃了一场讨论。另一信源给出的浏览量数字略有不同:引发讨论的那条帖子据报道在数天内浏览量突破 650 万次——两个数字存在出入,但均指向同一起源事件,具体浏览量数字本身的细微差异不影响事件性质的判断。
第二天,Google 工程师 Addy Osmani 发表博客文章,正式将这一思路命名为”循环工程”。他给出的核心定义是:”循环工程,就是用一个系统取代’你自己’去向智能体输入提示词”。这一术语由 Google Chrome 工程负责人 Addy Osmani 于 2026 年 6 月推广开来,综合了来自 Anthropic 的 Boris Cherny 与 Peter Steinberger 的思路,相关论述出现在 Osmani 的博客、一篇 Substack 文章,以及一个迅速成为社区标准参考的 GitHub 仓库中。
一个被广泛引用、具有标志性意义的发言来自 Claude Code 的创建者 Boris Cherny:”我已经不再向 Claude 输入提示词了。我有一些循环正在运行,是它们在向 Claude 输入提示词、决定该做什么。”另一信源记录了该发言更完整的版本:”我不再向 Claude 输入提示词了。我让循环在运行,由它们向 Claude 输入提示词、决定该做什么。我的工作变成了写循环。这是我们今年剩余时间将会看到的一次转变。”
7.2 循环工程要解决的问题
循环工程所针对的核心场景,是单次智能体运行可能持续数小时、涉及数十个文件改动的长周期自主任务。一篇详尽的指南文章这样概括其必要性:当一次智能体运行可能持续一小时、涉及数十个文件时,杠杆最大的事情不是写一句更精准的提示词,而是设计一个能让智能体在整个过程中——包括你睡觉的时候——始终保持高效产出、可验证、并且不偏离目标的循环。
循环工程将”工作单元”重新定义:工作的单元不再是一句提示词,甚至不再是一次对话,而是一个循环:一个不断重复的周期,模型采取行动、从环境获得反馈、利用反馈决定下一步行动,如此循环直至满足预设的终止条件。这意味着人类角色的转变:你不再是坐在对话框里打字的那个人,而是变成构建运行这个对话框的机器的那个人。你定义一个递归性的目标——”让测试套件全部通过””重构这个模块但保持所有行为不变””排查每一个未处理的 issue 并起草修复方案”——然后智能体不断迭代:检查代码库、做出修改、运行验证、读取结果、决定下一步。
另一组从安全视角切入的描述,进一步勾勒出循环工程区别于以往人工逐轮交互的本质:我们正在从人工手动复制粘贴代码报错信息给 LLM 的”手动提示词”模式,转向”循环工程”——工程师围绕 AI 智能体构建程序化的封装系统:系统读取一个 GitHub issue、触发智能体、运行测试套件、捕获编译错误、将其反馈进智能体的上下文窗口,并完全自主地不断迭代,直至测试通过。驱动这一切运转的,是系统本身,而不再是人。
7.3 循环工程的技术构件
行业内对一个”可用的循环”应当具备哪些技术要件,已经形成了相对一致的认识。
验证作为奖励信号:循环能否可靠收敛,取决于反馈是否可信。最理想的是确定性验证——测试、类型检查器、编译器、代码检查工具(linter)——因为它们返回的是模型无法狡辩的客观通过/失败结果。LLM 充当裁判(LLM-as-judge)的验证方式更灵活,对那些无法机械检查的事项是必要的,但它可能被欺骗,也可能与被评估的智能体”串通”。最稳健的循环会在每一个能用确定性检查的环节都使用确定性检查,仅在真正无法量化的地方保留模型判断。
对抗循环失控的常见模式:绝大多数”循环事故”都源于少数几类反复出现的失败:上下文溢出与腐化——上下文窗口被填满,质量在不知不觉中下降,对策是压缩、剪枝、子智能体隔离。Steinberger 本人也在其推文及后续讨论中提及了”循环断路器”(loop-breaker)作为防止无限循环的非可选基础组件。
记忆作为独立分层:来自 Mem0 团队的工程实践提出,应当将记忆从原始对话历史中剥离为独立的基础设施层:通过将记忆移入一个专用层,循环变得更节省 token、也更容易推理——智能体不需要完整的原始历史,只需要这个独立记忆层返回的精炼摘要,循环工程的本质是在”token 密集型”与”token 稀疏型”两种设计之间,根据延迟、成本、质量与安全要求找到平衡。
7.4 经济模型:从”按轮计费”到”按收敛计费”
一个值得关注的细节来自一份对”循环架构三阶段”的成本结构分析,它把这条演进路径量化为了可比较的经济单元:阶段一,提示词工程——单轮、人类驱动,每轮成本 0.001 至 0.05 美元;阶段二,循环工程——智能体驱动的”研究—草拟—评估—改进”循环,每次收敛的循环成本 0.05 至 2 美元,需要循环断路器、持久化执行与结构上独立的评估器;阶段三,编排化团队——协调者加并行专家加评估关卡,每个收敛目标成本 1 至 50 美元,需要为每个智能体分配非人类身份并实现持久化编排。这一框架虽然来自单一信源、其具体数字未经其他来源交叉验证,但其反映的方向——”工作单元从一次交互,变成一个有明确成本边界的收敛过程”——与本报告其他部分的叙述是吻合的,可作为参考性的量化视角,而非已被广泛证实的行业定论。
7.5 对”循环工程”一词本身的审慎态度
值得记录的是,部分一线开发者对”循环工程”这一新造词本身也持保留甚至调侃态度。Steinberger 本人在引发讨论的那条推文下方的跟帖中写道:”这就是一个控制循环而已”,但由于这是 AI、又消耗 token,于是大家就有了各种意见——这句带有自嘲意味的话,恰恰提示读者:循环工程在技术本质上并非全新发明(控制论中的反馈循环可追溯至上世纪 40 年代诺伯特·维纳的控制论思想,维纳关于控制论的工作聚焦于生物与机器中的通信与控制系统,提出了反馈循环的概念,即便是温控器这样简单的机制,也能感知环境、处理信息并据此调整行为,这本身已可被视为一种”反射型”智能体),其新颖之处主要在于:循环第一次被作为一个独立的、需要专门设计与持续运营的工程对象来对待,而不再是隐藏在框架内部、被默认为”已解决”的实现细节。
第八部分:四层演进的整体图景
综合以上四个阶段,可以将整条演进路径概括为一张”逐层外扩”的同心圆图景,且每一层都包裹前一层,而非取代它:
| 阶段 | 大致时间 | 优化对象 | 核心问题 | 代表性术语/事件 | | — | — | — | — | — | | 提示词工程 | 约 2020–2024 | 你对模型说的话 | 怎么把一句话写好 | GPT-3 少样本学习、思维链(CoT) | | (行动能力的引入) | 2022–2023 | 模型与外部世界的接口 | 模型能不能”做事” | ReAct、Toolformer、函数调用 | | (自主循环的第一次实践) | 2023 | 任务的自动分解与执行 | 能不能完全不用人管 | AutoGPT、BabyAGI | | 上下文工程 | 2025 | 模型推理那一刻能看到的全部信息 | 给模型看什么 | Anthropic《Effective Context Engineering》 | | 脚手架工程 | 2026 年 2 月 | 模型之外的整个运行环境 | 系统该拦什么、测什么、修什么 | Mitchell Hashimoto、Agent = Model + Harness | | 循环工程 | 2026 年 6 月起 | 驱动整个流程持续运转的机制本身 | 谁来替你按”下一步” | Peter Steinberger、Addy Osmani、Boris Cherny |
一篇综合性分析对这一整体趋势给出了精炼的概括:需要注意的是,”被优化的单元”始终在向更高层移动……如果你读到这里会想,”AI 用工具在循环中运转,这个想法不是很早就有了吗?”——你的直觉是对的。循环这一机制本身,确实已经在学术研究领域被打磨了多年。这句话精准地指出了本报告试图传达的核心论点:循环这一机制并不新——ReAct(2022)和 AutoGPT(2023)早已实践过;真正新的是循环这一工程对象——把”由谁来设计、驱动、监督这个循环”本身,提炼为一门独立的、有方法论、有失败模式清单、有成本核算单位的工程学科。
第九部分:现实中的张力与未解问题
为了避免单方面呈现这一演进叙事的乐观面,有必要记录目前公开讨论中已经浮现的若干争议与限制。
第一,自主性与可控性之间的拉锯并未真正解决,只是被反复重新包装。 从 AutoGPT 时代”过于自主而无法纠正”的批评,到 Salesforce CEO 倡导”人类留在循环中”,再到循环工程时代依然需要”循环断路器”作为非可选组件,这条张力贯穿了整个演进过程。一篇分析将这一现象总结为一个反复出现的设计困境:极端的两端都失败了:完全自主缺乏自我觉察,完全控制又无法捕捉让 AI 部署有价值的那种自适应智能。生产级智能体真正运转的地方,是模式切换、规范驱动约束、渐进式信息披露、验证循环共同构成的、可调节的中间地带。
第二,”循环工程”作为术语,其稳定性与边界仍在演化中,本报告对其的记录应被视为”对一个正在发生的事件的实时观察”,而非盖棺定论的历史总结。 截至本报告撰写时(2026 年 6 月 21 日),距离该术语被提出仅两周左右,其具体内涵、是否会被更晚出现的术语取代或合并,目前难以判断。
第三,成本与可观测性仍是循环规模化的现实瓶颈。 多个信源独立提到,智能体相较普通对话的 token 消耗显著更高,智能体消耗的 token 大约是标准聊天交互的 4 倍,在多智能体系统中甚至可达 15 倍,这意味着循环工程在带来自动化收益的同时,也对成本治理提出了相应的新要求。
结语
从提示词到循环的演进,本质上是一条”人类逐步从执行者退到设计者位置”的轨迹:最初,人类亲自打磨每一句话(提示词工程);随后,人类开始设计模型在某一时刻应当看到的整个信息环境(上下文工程);再之后,人类开始设计模型运行所处的整个外部世界——工具、规则、检查关卡(脚手架工程);而循环工程标志着这条轨迹的最新一步——人类不再亲自触发每一次”下一步该做什么”的判断,而是设计一套能够替代自己持续做出这一判断的机制。
这条路径远未走到终点。本报告所记录的”循环工程”,从其诞生到本报告完成,仅经过了两周左右的公开讨论——这本身既说明了这一领域演进速度之快,也提示读者应当对任何”终局判断”保持审慎。
主要信息来源
- Brown, T. et al. (2020). Language Models are Few-Shot Learners. (GPT-3 论文)
- Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.
- Kojima, T. et al. (2022). Zero-shot-CoT 相关研究
- Yao, S., Zhao, J., Yu, D., et al. (2022/2023). ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629, ICLR 2023.
- Nakajima, Y. (2023). Task-driven Autonomous Agent Utilizing GPT-4, Pinecone, and LangChain for Diverse Applications.
- Anthropic (2024). Building Effective Agents. Anthropic Engineering Blog.
- Anthropic (2025-09-29). Effective Context Engineering for AI Agents. Anthropic Engineering Blog.
- Hashimoto, M. (2026-02). My AI Adoption Journey. mitchellh.com(”Engineer the Harness” 概念提出)
- OpenAI (2026-02). Harness engineering: leveraging Codex in an agent-first world.
- Steinberger, P. (2026-06-07). X(原 Twitter)帖子(”循环工程”概念的触发事件)
- Osmani, A. (2026-06). Loop Engineering. 个人博客
- 多篇行业分析文章(Oracle、Arize AI、Faros、Mem0、SIG 等),用于交叉验证上述一手信源的具体表述与数字
本报告所有引用均来自公开可查的网络信源,关于2026年2月及以后事件的细节因时效性较强、部分尚未被充分交叉验证,已在正文中作相应提示。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:穹苍经略 夸父 夸父《大语言模型从Prompt到Loop的演进分析报告》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。






![[渗透测试]一次从XSS到任意文件读取](/images/random/titlepic/11.jpg)



评论