文章总结: 前通义千问负责人发文指出,AI正从推理式思考转向智能体式思考,核心在于为行动而思考。融合模式易致平庸,思考应服务于目标任务。智能体时代的研究重心转向环境质量与执行框架工程,需警惕奖励作弊,未来竞争力取决于训练服务一体化与闭环能力。 综合评分: 86 文章分类: 其他
前阿里千问核心负责人,离职后外网首篇长文来了…
原创
CyberSecGuy CyberSecGuy
像梦又似花
2026年3月27日 09:52 广东
林俊旸,北大外语硕士,阿里最年轻P10、前通义千问(Qwen)大模型核心掌舵人,也是中国开源大模型领域的标杆人物。2026 年 3 月,他先是官宣卸任 Qwen 负责人,震动全球 AI 圈;月底发布离职后在外媒平台发表了首篇行业全英长文,标题是:From “Reasoning” Thinking to “Agentic” Thinking。
一遍来自技术大牛的文章,少了之前的尔尔,更多是对纯技术和对未来人工智能的发展预判.核心论点只有一句话:AI正在从「推理思考」转向「智能体思考」。模型的价值不在于它能想多久,而在于它能做多好。 以下是全文翻译:
原文来自: X Junyang Lin(@JustinLin610) 翻译:小编&豆包
从 “推理式思考” 到 “智能体式思考”
过去两年,我们重新定义了对模型的评估方式与期待。OpenAI 的 o1 表明,“思考” 可以成为一项核心能力—— 一项可以专门训练并直接开放给用户的能力。DeepSeek-R1 则证明,推理风格的后训练技术可以在原实验室之外被复现与规模化。OpenAI 将 o1 描述为通过强化学习训练、实现 “先思考再回答” 的模型;DeepSeek 将 R1 定位为可与 o1 抗衡的开源推理模型。 这一阶段意义重大。但 2025 年上半年,行业基本都在围绕推理式思考展开:如何让模型在推理阶段投入更多算力、如何用更强的奖励信号训练、如何开放或控制额外的推理开销。现在的问题是:下一步是什么?我认为答案是:智能体式思考(Agentic Thinking)—— 为行动而思考,在与环境交互中思考,并根据来自真实世界的反馈持续更新计划。
1. o1 与 R1 的崛起真正教会了我们什么
第一代推理模型让我们明白:如果想在大语言模型上规模化强化学习,就需要确定、稳定、可扩展的反馈信号。数学、代码、逻辑等可验证领域之所以成为核心,是因为这些场景下的奖励信号远强于通用偏好监督。它们让强化学习以正确性为优化目标,而非仅仅是 “看起来合理”。 基础设施变得至关重要。一旦模型被训练为在更长的推理轨迹上思考,RL 就不再是有监督微调的轻量附加项,而变成了一个系统工程问题:你需要大规模推演、高吞吐验证、稳定策略更新、高效采样。推理模型的出现,既是模型层面的突破,也是基础设施层面的突破。OpenAI 将 o1 描述为用 RL 训练的推理路线;DeepSeek R1 随后也印证了这一方向:基于推理的强化学习,需要大量专门的算法与基建投入。 第一个重大转变:从 “扩规模预训练” 转向 “为推理而扩规模后训练”。
2. 真正的问题从来不是简单 “融合思考与指令”
2025 年初,我们通义千问团队很多人心中都有一个雄心勃勃的图景:理想系统会统一思考模式与指令模式,支持可调节的推理力度,类似低 / 中 / 高三档。更进一步,它能根据提示与上下文自动判断该用多少推理算力:何时直接回答、何时多思考一会儿、何时在真正困难的问题上投入巨量计算。 从理念上看,这是正确方向。Qwen3 就是最明确的公开尝试之一:它提出 “混合思考模式”,在一个模型系列中同时支持思考与非思考行为,强调可控的思考预算,并描述了一套四阶段后训练流程,其中明确包含在长思维链冷启动与推理强化学习之后的 “思考模式融合”。 但融合说起来容易,做好极难。难点在于数据。当人们谈论融合思考与指令时,往往先考虑模型侧兼容:一个权重能否支持两种模式、一个对话模板能否切换、一套服务框架能否提供开关。更深层的问题是:两种模式的数据分布与行为目标截然不同。 我们在平衡模型融合与提升后训练数据的质量、多样性时,并非一帆风顺。在这个调整过程中,我们也密切关注用户实际如何使用思考模式与指令模式:
优秀的指令模型,奖励来自直接、简洁、格式合规、低延迟,适用于重写、标注、模板化客服、结构化抽取、运营 QA 等高吞吐企业任务。
优秀的思考模型,奖励来自在难题上消耗更多 Token、保持连贯中间结构、探索多条路径、保留足够内部计算,从而显著提升最终正确率。
这两种行为相互拉扯。如果融合数据没有精心筛选,结果通常是两头平庸:“思考” 行为变得杂乱、冗余、不够果断;“指令” 行为变得不够干脆、不够可靠、成本高于商业用户真实需求。 因此在实践中,分离依然很有吸引力。2025 年下半年,在 Qwen3 最初的混合框架之后,2507 系列推出了独立的指令版与思考版更新,包括分开的 30B 和 235B 变体。在商业部署中,大量客户仍然需要高吞吐、低成本、高可控的指令行为用于批量任务。对这些场景,融合并没有明显收益。路线分离让团队能更清晰地聚焦解决每种模式的数据与训练问题。 其他实验室则选择了相反路线:
Anthropic 公开主张一体化模型理念:Claude 3.7 Sonnet 作为混合推理模型推出,用户可选择普通回答或扩展思考,API 用户可设置思考预算。Anthropic 明确表示,推理应是一项集成能力,而非独立模型。
GLM-4.5 也公开将自己定位为兼具思考与非思考模式的混合推理模型,统一推理、代码与智能体能力;DeepSeek 后续在 V3.1 的 “思考 / 非思考” 混合推理中也走向类似方向。
关键在于:融合是否自然。如果思考与指令只是被塞进同一个权重,却仍像两个生硬缝合的人格,产品体验依然不自然。真正成功的融合,需要平滑的推理力度光谱:模型能表达多级力度,并最好能自适应选择。GPT 式的力度控制就指向这一目标:基于算力的策略,而非简单二选一开关。
3. 为什么 Anthropic 的方向是有益的修正
Anthropic 围绕 Claude 3.7 与 Claude 4 的公开表述非常克制:他们强调一体化推理、用户可控思考预算、真实世界任务、代码质量,以及后续在扩展思考中使用工具的能力。Claude 3.7 被定位为带可控预算的混合推理模型;Claude 4 进一步支持推理与工具调用交错进行,同时将代码、长时任务、智能体工作流作为核心目标。 生成更长的推理轨迹,并不自动让模型更聪明。很多时候,过度可见的推理反而意味着分配能力薄弱。如果模型用同样啰嗦的方式思考一切,它可能无法优先级排序、无法压缩信息、也无法行动。 Anthropic 的路线给出了更克制的观点:思考应服务于目标任务。
如果目标是代码,思考就应帮助代码库导航、规划、拆解、错误恢复、工具编排。
如果目标是智能体工作流,思考就应在长周期内提升执行质量,而非产出华丽的中间文本。
这种对目标效用的强调,指向一个更大的判断:我们正在从 “训练模型” 的时代,走向 “训练智能体” 的时代。我们在 Qwen3 博客中明确写道:“我们正从一个专注于训练模型的时代,转向以训练智能体为中心的时代。”并将未来的强化学习进步与环境反馈绑定,用于长周期推理。 智能体是这样一种系统:能制定计划、决定何时行动、使用工具、感知环境反馈、修正策略,并长期持续运行。它的核心定义是:与世界的闭环交互。
4. “智能体式思考” 到底意味着什么
智能体式思考是完全不同的优化目标。
推理式思考:通常以最终答案前的内部思考质量为评判标准 —— 能否证明定理、写出正确代码、通过基准。
智能体式思考:关注模型能否在与环境交互中持续取得进展。
核心问题从:“模型能不能思考足够久?”变成:“模型能不能以支撑有效行动的方式思考?” 智能体式思考必须处理纯推理模型基本可以回避的问题:
决定何时停止思考并采取行动
选择调用什么工具、以什么顺序
融合来自环境的噪声或部分观测
失败后修正计划
在多轮对话与多次工具调用中保持一致性
智能体式思考 = 为行动而推理的模型。
5. 为什么智能体强化学习基建更难
一旦目标从 “解决基准问题” 转向 “解决交互任务”,强化学习技术栈就变了。传统推理强化学习所用的基建不再够用。
在推理 RL 中,推演通常可视为相对独立的轨迹,评估器也比较干净。
在智能体 RL 中,策略被嵌入更大的执行框架:工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API 层、记忆系统、编排框架。
环境不再是静态验证器,而是训练系统的一部分。 这带来了新的系统要求:训练与推理必须更清晰地解耦,否则推演吞吐量会急剧下降。以代码智能体为例:它必须在真实测试框架中执行生成的代码,推理端会阻塞等待执行反馈,训练端缺少完成的轨迹,整个管线的 GPU 利用率远低于传统推理 RL。再加上工具延迟、部分可观测、有状态环境,低效会被进一步放大。结果就是:在达到目标能力之前,实验进度就已经慢得痛苦。 环境本身也成为一级研究对象。
在 SFT 时代,我们痴迷于数据多样性。
在智能体时代,我们应痴迷于环境质量:稳定性、真实性、覆盖率、难度、状态多样性、反馈丰富度、抗利用性、推演生成可扩展性。
环境构建已经开始成为一个真正的创业赛道,而不是副业项目。如果智能体要在接近生产的环境中训练,那么环境就是核心能力栈的一部分。
6. 下一个前沿:更可用的思考
我预计:智能体式思考将成为主流思考形态。它最终可能取代大量旧式、静态独白式的推理思考:那些过长、孤立的内部轨迹,试图通过输出越来越多的文本来弥补交互不足。即使在极难的数学或代码任务上,真正先进的系统也应该拥有搜索、模拟、执行、检查、验证、修正的权利。目标是稳健、高效地解决问题。 训练这类系统最难的挑战是奖励作弊(Reward Hacking)。一旦模型获得有意义的工具访问权,奖励作弊会变得更加危险:
带搜索的模型可能在 RL 中学会直接查答案。
代码智能体可能利用仓库中的未来信息、滥用日志、找到让任务失效的捷径。
存在泄露的环境会让策略看起来 “超人类”,实际上只是在训练它作弊。
这就是智能体时代比推理时代更微妙的地方:更好的工具让模型更有用,但也扩大了虚假优化的攻击面。可以预见,下一个严肃的研究瓶颈将来自:环境设计、评估器鲁棒性、防作弊协议、策略与世界之间更规范的接口。 尽管如此,方向是明确的:支持工具的思考,远比孤立思考更有用,也更有机会提升真实生产力。 智能体式思考也意味着执行框架工程(Harness Engineering)。核心智能将越来越来自多个智能体的组织方式:
负责规划与调度的编排器
像领域专家一样的专用智能体
执行更窄任务、帮助控制上下文、避免污染、保持不同推理层级分离的子智能体
未来的转变是:从训练模型 → 训练智能体 → 训练系统。 结论 推理浪潮的第一阶段确立了一件重要的事:当反馈信号可靠、基建能够支撑时,大语言模型之上的强化学习可以产生质变级更强的认知能力。 更深刻的转变是:从推理式思考 → 智能体式思考从 “思考更久”,转向 “为行动而思考”。 训练的核心对象变了:不再只是模型,而是模型 + 环境系统,更具体地说:是智能体与围绕它的执行框架。 这改变了最重要的研究对象:不仅是模型架构与训练数据,还有环境设计、推演基建、评估器鲁棒性、多智能体协同接口。 这也改变了 “好的思考” 的定义:在现实约束下支撑行动的最有用轨迹,而不是最长或最显眼的轨迹。 它同样改变了竞争力的来源:
推理时代:优势来自更好的 RL 算法、更强的反馈信号、更可扩展的训练管线。
智能体时代:优势来自更好的环境、更紧密的训练 - 服务一体化、更强的执行框架工程、以及在模型决策与决策结果之间闭环的能力。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:像梦又似花 CyberSecGuy CyberSecGuy《前阿里千问核心负责人,离职后外网首篇长文来了…》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。








评论