2026-04-02 05:51:21 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 前通义千问负责人发文指出，AI正从推理式思考转向智能体式思考，核心在于为行动而思考。融合模式易致平庸，思考应服务于目标任务。智能体时代的研究重心转向环境质量与执行框架工程，需警惕奖励作弊，未来竞争力取决于训练服务一体化与闭环能力。 综合评分： 86 文章分类： 其他

cover_image

前阿里千问核心负责人,离职后外网首篇长文来了…

原创

CyberSecGuy CyberSecGuy

像梦又似花

2026年3月27日 09:52 广东

林俊旸,北大外语硕士,阿里最年轻P10、前通义千问（Qwen）大模型核心掌舵人，也是中国开源大模型领域的标杆人物。2026 年 3 月，他先是官宣卸任 Qwen 负责人，震动全球 AI 圈；月底发布离职后在外媒平台发表了首篇行业全英长文，标题是:From “Reasoning” Thinking to “Agentic” Thinking。

一遍来自技术大牛的文章,少了之前的尔尔,更多是对纯技术和对未来人工智能的发展预判.核心论点只有一句话：AI正在从「推理思考」转向「智能体思考」。模型的价值不在于它能想多久，而在于它能做多好。以下是全文翻译:

原文来自: X Junyang Lin(@JustinLin610) 翻译:小编&豆包

从 “推理式思考” 到 “智能体式思考”

过去两年，我们重新定义了对模型的评估方式与期待。OpenAI 的 o1 表明，“思考” 可以成为一项核心能力—— 一项可以专门训练并直接开放给用户的能力。DeepSeek-R1 则证明，推理风格的后训练技术可以在原实验室之外被复现与规模化。OpenAI 将 o1 描述为通过强化学习训练、实现 “先思考再回答” 的模型；DeepSeek 将 R1 定位为可与 o1 抗衡的开源推理模型。这一阶段意义重大。但 2025 年上半年，行业基本都在围绕推理式思考展开：如何让模型在推理阶段投入更多算力、如何用更强的奖励信号训练、如何开放或控制额外的推理开销。现在的问题是：下一步是什么？我认为答案是：智能体式思考（Agentic Thinking）—— 为行动而思考，在与环境交互中思考，并根据来自真实世界的反馈持续更新计划。

1. o1 与 R1 的崛起真正教会了我们什么

第一代推理模型让我们明白：如果想在大语言模型上规模化强化学习，就需要确定、稳定、可扩展的反馈信号。数学、代码、逻辑等可验证领域之所以成为核心，是因为这些场景下的奖励信号远强于通用偏好监督。它们让强化学习以正确性为优化目标，而非仅仅是 “看起来合理”。基础设施变得至关重要。一旦模型被训练为在更长的推理轨迹上思考，RL 就不再是有监督微调的轻量附加项，而变成了一个系统工程问题：你需要大规模推演、高吞吐验证、稳定策略更新、高效采样。推理模型的出现，既是模型层面的突破，也是基础设施层面的突破。OpenAI 将 o1 描述为用 RL 训练的推理路线；DeepSeek R1 随后也印证了这一方向：基于推理的强化学习，需要大量专门的算法与基建投入。第一个重大转变：从 “扩规模预训练” 转向 “为推理而扩规模后训练”。

2. 真正的问题从来不是简单 “融合思考与指令”

2025 年初，我们通义千问团队很多人心中都有一个雄心勃勃的图景：理想系统会统一思考模式与指令模式，支持可调节的推理力度，类似低 / 中 / 高三档。更进一步，它能根据提示与上下文自动判断该用多少推理算力：何时直接回答、何时多思考一会儿、何时在真正困难的问题上投入巨量计算。从理念上看，这是正确方向。Qwen3 就是最明确的公开尝试之一：它提出 “混合思考模式”，在一个模型系列中同时支持思考与非思考行为，强调可控的思考预算，并描述了一套四阶段后训练流程，其中明确包含在长思维链冷启动与推理强化学习之后的 “思考模式融合”。但融合说起来容易，做好极难。难点在于数据。当人们谈论融合思考与指令时，往往先考虑模型侧兼容：一个权重能否支持两种模式、一个对话模板能否切换、一套服务框架能否提供开关。更深层的问题是：两种模式的数据分布与行为目标截然不同。我们在平衡模型融合与提升后训练数据的质量、多样性时，并非一帆风顺。在这个调整过程中，我们也密切关注用户实际如何使用思考模式与指令模式：

优秀的指令模型，奖励来自直接、简洁、格式合规、低延迟，适用于重写、标注、模板化客服、结构化抽取、运营 QA 等高吞吐企业任务。
优秀的思考模型，奖励来自在难题上消耗更多 Token、保持连贯中间结构、探索多条路径、保留足够内部计算，从而显著提升最终正确率。

这两种行为相互拉扯。如果融合数据没有精心筛选，结果通常是两头平庸：“思考” 行为变得杂乱、冗余、不够果断；“指令” 行为变得不够干脆、不够可靠、成本高于商业用户真实需求。因此在实践中，分离依然很有吸引力。2025 年下半年，在 Qwen3 最初的混合框架之后，2507 系列推出了独立的指令版与思考版更新，包括分开的 30B 和 235B 变体。在商业部署中，大量客户仍然需要高吞吐、低成本、高可控的指令行为用于批量任务。对这些场景，融合并没有明显收益。路线分离让团队能更清晰地聚焦解决每种模式的数据与训练问题。其他实验室则选择了相反路线：

Anthropic 公开主张一体化模型理念：Claude 3.7 Sonnet 作为混合推理模型推出，用户可选择普通回答或扩展思考，API 用户可设置思考预算。Anthropic 明确表示，推理应是一项集成能力，而非独立模型。
GLM-4.5 也公开将自己定位为兼具思考与非思考模式的混合推理模型，统一推理、代码与智能体能力；DeepSeek 后续在 V3.1 的 “思考 / 非思考” 混合推理中也走向类似方向。

关键在于：融合是否自然。如果思考与指令只是被塞进同一个权重，却仍像两个生硬缝合的人格，产品体验依然不自然。真正成功的融合，需要平滑的推理力度光谱：模型能表达多级力度，并最好能自适应选择。GPT 式的力度控制就指向这一目标：基于算力的策略，而非简单二选一开关。

3. 为什么 Anthropic 的方向是有益的修正

Anthropic 围绕 Claude 3.7 与 Claude 4 的公开表述非常克制：他们强调一体化推理、用户可控思考预算、真实世界任务、代码质量，以及后续在扩展思考中使用工具的能力。Claude 3.7 被定位为带可控预算的混合推理模型；Claude 4 进一步支持推理与工具调用交错进行，同时将代码、长时任务、智能体工作流作为核心目标。生成更长的推理轨迹，并不自动让模型更聪明。很多时候，过度可见的推理反而意味着分配能力薄弱。如果模型用同样啰嗦的方式思考一切，它可能无法优先级排序、无法压缩信息、也无法行动。 Anthropic 的路线给出了更克制的观点：思考应服务于目标任务。

如果目标是代码，思考就应帮助代码库导航、规划、拆解、错误恢复、工具编排。
如果目标是智能体工作流，思考就应在长周期内提升执行质量，而非产出华丽的中间文本。

这种对目标效用的强调，指向一个更大的判断：我们正在从 “训练模型” 的时代，走向 “训练智能体” 的时代。我们在 Qwen3 博客中明确写道：“我们正从一个专注于训练模型的时代，转向以训练智能体为中心的时代。”并将未来的强化学习进步与环境反馈绑定，用于长周期推理。智能体是这样一种系统：能制定计划、决定何时行动、使用工具、感知环境反馈、修正策略，并长期持续运行。它的核心定义是：与世界的闭环交互。

4. “智能体式思考” 到底意味着什么

智能体式思考是完全不同的优化目标。

推理式思考：通常以最终答案前的内部思考质量为评判标准 —— 能否证明定理、写出正确代码、通过基准。
智能体式思考：关注模型能否在与环境交互中持续取得进展。

核心问题从：“模型能不能思考足够久？”变成：“模型能不能以支撑有效行动的方式思考？” 智能体式思考必须处理纯推理模型基本可以回避的问题：

决定何时停止思考并采取行动
选择调用什么工具、以什么顺序
融合来自环境的噪声或部分观测
失败后修正计划
在多轮对话与多次工具调用中保持一致性

智能体式思考 = 为行动而推理的模型。

5. 为什么智能体强化学习基建更难

一旦目标从 “解决基准问题” 转向 “解决交互任务”，强化学习技术栈就变了。传统推理强化学习所用的基建不再够用。

在推理 RL 中，推演通常可视为相对独立的轨迹，评估器也比较干净。
在智能体 RL 中，策略被嵌入更大的执行框架：工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API 层、记忆系统、编排框架。

环境不再是静态验证器，而是训练系统的一部分。这带来了新的系统要求：训练与推理必须更清晰地解耦，否则推演吞吐量会急剧下降。以代码智能体为例：它必须在真实测试框架中执行生成的代码，推理端会阻塞等待执行反馈，训练端缺少完成的轨迹，整个管线的 GPU 利用率远低于传统推理 RL。再加上工具延迟、部分可观测、有状态环境，低效会被进一步放大。结果就是：在达到目标能力之前，实验进度就已经慢得痛苦。环境本身也成为一级研究对象。

在 SFT 时代，我们痴迷于数据多样性。
在智能体时代，我们应痴迷于环境质量：稳定性、真实性、覆盖率、难度、状态多样性、反馈丰富度、抗利用性、推演生成可扩展性。

环境构建已经开始成为一个真正的创业赛道，而不是副业项目。如果智能体要在接近生产的环境中训练，那么环境就是核心能力栈的一部分。

6. 下一个前沿：更可用的思考

我预计：智能体式思考将成为主流思考形态。它最终可能取代大量旧式、静态独白式的推理思考：那些过长、孤立的内部轨迹，试图通过输出越来越多的文本来弥补交互不足。即使在极难的数学或代码任务上，真正先进的系统也应该拥有搜索、模拟、执行、检查、验证、修正的权利。目标是稳健、高效地解决问题。训练这类系统最难的挑战是奖励作弊（Reward Hacking）。一旦模型获得有意义的工具访问权，奖励作弊会变得更加危险：

带搜索的模型可能在 RL 中学会直接查答案。
代码智能体可能利用仓库中的未来信息、滥用日志、找到让任务失效的捷径。
存在泄露的环境会让策略看起来 “超人类”，实际上只是在训练它作弊。

这就是智能体时代比推理时代更微妙的地方：更好的工具让模型更有用，但也扩大了虚假优化的攻击面。可以预见，下一个严肃的研究瓶颈将来自：环境设计、评估器鲁棒性、防作弊协议、策略与世界之间更规范的接口。尽管如此，方向是明确的：支持工具的思考，远比孤立思考更有用，也更有机会提升真实生产力。智能体式思考也意味着执行框架工程（Harness Engineering）。核心智能将越来越来自多个智能体的组织方式：

负责规划与调度的编排器
像领域专家一样的专用智能体
执行更窄任务、帮助控制上下文、避免污染、保持不同推理层级分离的子智能体

未来的转变是：从训练模型 → 训练智能体 → 训练系统。结论推理浪潮的第一阶段确立了一件重要的事：当反馈信号可靠、基建能够支撑时，大语言模型之上的强化学习可以产生质变级更强的认知能力。更深刻的转变是：从推理式思考 → 智能体式思考从 “思考更久”，转向 “为行动而思考”。训练的核心对象变了：不再只是模型，而是模型 + 环境系统，更具体地说：是智能体与围绕它的执行框架。这改变了最重要的研究对象：不仅是模型架构与训练数据，还有环境设计、推演基建、评估器鲁棒性、多智能体协同接口。这也改变了 “好的思考” 的定义：在现实约束下支撑行动的最有用轨迹，而不是最长或最显眼的轨迹。它同样改变了竞争力的来源：

推理时代：优势来自更好的 RL 算法、更强的反馈信号、更可扩展的训练管线。
智能体时代：优势来自更好的环境、更紧密的训练 - 服务一体化、更强的执行框架工程、以及在模型决策与决策结果之间闭环的能力。

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：像梦又似花 CyberSecGuy CyberSecGuy《前阿里千问核心负责人,离职后外网首篇长文来了…》