文章总结: 美团开源LongCat-Flash-Thinking-2601,工具调用、智能体搜索、数学推理多项基准达开源SOTA;并行+归纳“重思考”模式与多环境强化学习+噪声课程训练使其泛化与鲁棒性超Claude,已开放权重与免费API。 综合评分: 92 文章分类: AI安全,安全工具,开源项目,解决方案,技术趋势
美团 LongCat-Flash-Thinking-2601 发布,工具调用能力登顶开源 SOTA!
美团LongCat团队 美团LongCat团队
美团技术团队
2026年1月16日 14:01 北京
今天,美团 LongCat 团队正式对外发布并开源 LongCat-Flash-Thinking-2601。作为已发布的 LongCat-Flash-Thinking 模型的升级版,LongCat-Flash-Thinking-2601在Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准上,均达到开源模型 SOTA 水平。
该模型尤其在工具调用上表现出卓越的泛化能力,在依赖工具调用的随机复杂任务中性能超越了 Claude,可大幅度降低真实场景下新工具的适配训练成本;同时它是首个完整开源并支持在线免费体验「重思考模式」的模型,同时启动 8 个大脑飞速运转,确保思考周全、决策可靠。
目前该功能已经可以在 https://longcat.ai 网站免费体验(仅选择深度思考功能时会触发重思考模式)。
全新升级的「重思考」模式,让模型学会了“深思熟虑”再行动,遇到高难度问题时,模型会把思考过程拆成并行思考和总结归纳两步来做:
并行思考阶段,模型会同时独立梳理出好几条推理路径,就跟人面对难题时会琢磨不同解法一个道理,还会特意保证思路的多样性,生怕漏掉最优解;
总结归纳阶段,对多条路径进行梳理、优化与合成,并将优化结果重新输入,形成闭环迭代推理,推动思考持续深化。
除此之外,我们还专门设计了额外的强化学习环节,针对性打磨模型的总结归纳能力,让 LongCat-Flash-Thinking-2601 真正实现“想清楚再行动”。
已关注
关注
重播 分享 赞
关闭
观看更多
更多
退出全屏
切换到竖屏全屏退出全屏
美团技术团队已关注
分享视频
,时长00:33
0/0
00:00/00:33
切换到横屏模式
继续播放
[ ]
进度条,百分之0
播放
00:00
/
00:33
00:33
倍速
全屏
倍速播放中
0.5倍 0.75倍 1.0倍 1.5倍 2.0倍
超清 流畅
继续观看
美团 LongCat-Flash-Thinking-2601 发布,工具调用能力登顶开源 SOTA!
观看更多
转载
,
美团 LongCat-Flash-Thinking-2601 发布,工具调用能力登顶开源 SOTA!
美团技术团队已关注
分享点赞在看
已同步到看一看写下你的评论
视频详情
经过全面严谨的评估显示,LongCat-Flash-Thinking-2601 模型在编程、数学推理、智能体工具调用、智能体搜索维度表现全面领先:
- 编程能力:LongCat-Flash-Thinking-2601 在 LCB 评测中取得 82.8 分,OIBench EN 评测获 47.7 分,成绩处于同类模型第一梯队,展现出扎实的代码基础能力。
- 数学推理能力:在开启重思考模式后表现突出,LongCat-Flash-Thinking-2601 在 AIME-25 评测中获 100.0 分(满分),IMO-AnswerBench 中以 86.8 分达到当前 SOTA。
- 智能体工具调用能力:在 τ²-Bench 评测中拿到 88.2 分,VitaBench 评测中获得 29.3 分,均获得开源 SOTA 水平,在多领域工具调用场景下表现优异,适配实际应用需求。
- 智能体搜索能力:在 BrowseComp 任务中取得 73.1 分(全模型最优),RW Search 评测获 79.5 分,LongCat-Flash-Thinking-2601 具备强劲的信息检索与场景适配能力,达到开源领先水平。
同时,为了更好的测试智能体模型的泛化能力,我们提出了一种全新的评测方法——通过构建一套自动化任务合成流程,支持用户基于给定关键词,为任意场景随机生成复杂任务。每个生成的任务都配备了对应的工具集与可执行环境。
由于这类环境中的工具配置具有高度随机性,我们通过评估模型在该类环境中的性能表现,来衡量其泛化能力。实验结果表明,LongCat-Flash-Thinking-2601 在绝大多数任务中保持领先性能,印证了其在智能体场景下强大的泛化能力。
已关注
关注
重播 分享 赞
关闭
观看更多
更多
退出全屏
切换到竖屏全屏退出全屏
美团技术团队已关注
分享视频
,时长00:53
0/0
00:00/00:53
切换到横屏模式
继续播放
[ ]
进度条,百分之0
播放
00:00
/
00:53
00:53
倍速
全屏
倍速播放中
0.5倍 0.75倍 1.0倍 1.5倍 2.0倍
超清 流畅
继续观看
美团 LongCat-Flash-Thinking-2601 发布,工具调用能力登顶开源 SOTA!
观看更多
转载
,
美团 LongCat-Flash-Thinking-2601 发布,工具调用能力登顶开源 SOTA!
美团技术团队已关注
分享点赞在看
已同步到看一看写下你的评论
视频详情
传统智能体大多只在几个简单模拟环境里训练,就像士兵只练过靶场,到了真实“战场”就掉链子。而基于“环境扩展+多环境强化学习”核心技术,为模型打造了多样化的“高强度练兵场”,构建了多套高质量训练环境,每套集成60余种工具并形成密集依赖关系图谱与复杂联动,支撑起高度复杂的任务场景。实验证明,训练环境越丰富,模型在未知场景中的泛化能力越强。得益于这套方案,LongCat-Flash-Thinking-2601 在智能体搜索、智能体工具调用等核心基准测试中稳居前列,尤其在复杂随机的分布外任务中性能优于Claude。
同时我们针对性扩展自研强化学习基础设施(DORA),在保留原有高效异步训练特性的基础上实现大规模多环境智能体的稳定并行训练,通过均衡搭配多环境任务、按难度与训练进度智能分配算力,最大化提升训练效率与资源利用率,筑牢能力根基。此外,我们还从复杂度、多样性双维度严控训练任务,配套专属数据库及优化方案,杜绝模型“偏科”与训练漏洞,让这套全流程方案持续赋能模型,稳居智能体能力第一梯队。
稳定上涨的多环境混合强化学习训练曲线
多环境强化学习训练下不同 OOD 测试集上的 RL Scaling 表现
现实世界的智能体环境充满不确定性,API调用失败、返回异常信息、观测数据不完整等“噪声”问题,极易导致模型决策失误。为此,我们在训练数据的过程中主动注入多类噪声,模拟API的调用失败、返回错误信息、数据缺失等场景,并用课程学习(Curriculum Learning)的方式循序渐进去做模型的训练,在训练过程中逐步增加噪声的类型与强度——如果类比成教小孩骑车,我们首先在平坦路面做练习,等技能成熟后再逐步增加路面的复杂度。
可以看到,带噪声环境下未经过稳健训练的模型的表现会出现大幅衰减,Claude 也无法适应全部的噪声类型。而经过这套系统化的抗干扰训练,LongCat-Flash-Thinking-2601(Training w/ Noise 组)拥有了强大的环境适应能力,哪怕在复杂、不理想的场景中,也能良好发挥、高效完成任务。
带噪声 / 无噪声评测集下的模型表现对比
为降低开发者使用门槛,美团 LongCat 团队同步开放模型权重、推理代码与在线体验能力,支持从快速试用至深度开发的全流程需求:
开源平台:
- GitHub:https://github.com/meituan-longcat/LongCat-Flash-Thinking-2601
- Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601
- ModelScope:https://www.modelscope.cn/models/meituan-longcat/LongCat-Flash-Thinking-2601
在线体验与调用:
- 官网:https://longcat.ai
- API开放平台:https://longcat.chat/platform/usage
欢迎开发者下载、部署并体验 LongCat-Flash-Thinking-2601,同时也欢迎您在LongCat API 开放平台申请免费调用额度。如果您在智能体开发、大模型推理优化等领域有合作想法或反馈,我们期待与您交流。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:美团技术团队 美团LongCat团队 美团LongCat团队《美团 LongCat-Flash-Thinking-2601 发布,工具调用能力登顶开源 SOTA!》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论