2026-06-22 04:31:13 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文记录了作者参加快手技术沙龙的收获，重点探讨了推荐系统在大模型时代的演进。核心内容包括快手提出的Onerec生成式推荐框架验证了推荐系统的ScalingLaw，以及Onereason推理模型通过预训练、SFT和RL三阶段让推荐系统学会思考。文章指出单纯模仿推理链（SFT）效果不佳，强化学习（RL）才是提升推理能力的关键，并介绍了Fast-SlowThinking线上部署方案及在广告场景取得的显著收益。最后展望了从Reasoning到Agentic推荐的未来方向。 综合评分： 85 文章分类： 解决方案,技术标准,实战经验,安全运营,其他

cover_image

最近听过最过瘾的推荐系统和 LLM 技术分享。

原创

阿颖阿颖

AI产品阿颖

2026年6月18日 08:52 北京

在小说阅读器读本章

去阅读

周末参加了快手的技术沙龙，真的好久没有参加这样纯粹的技术讨论了。一下午都在聊技术。

这让我一下子想起十多年前刚来北京的时候。

那时候经常周末跑到中关村创业大街，找个地方坐下来，听各种创业团队分享自己的技术方案。

大家讨论的都是实现细节，争论的也都是工程问题。

现在这样的氛围已经很少见了。所以也特别希望行业里能多办一些这种小型 Meetup。

快手这次分享，听完之后，我最大的感受就两个字：过瘾。

虽然很多内容硬核到让我听得头昏脑胀，但这种来自一线系统的分享，还是非常受启发。今天我来分享下我的学习笔记。

快手整个下午的分享其实都指向一个大背景，搜索、推荐、广告，这三套互联网最核心的系统，正在全面进入大模型时代。

搜索、推荐、广告。对于很多互联网公司来说，这三套系统就是命脉。

用户看到什么内容，商家获得多少流量，广告主的钱花到哪里，背后其实都是这些系统在做决策。

过去二十多年，这些领域各自形成了非常成熟的技术栈和方法论。

很多人觉得它们已经很难再发生根本性的变化。但这次听完快手的分享之后，我越来越觉得，大模型带来的影响远比我们想象得更深。

它也正在重构互联网最核心的基础设施。

#01

推荐系统的大模型化

过去很多年，推荐系统的核心任务其实很简单，把合适的内容推荐给合适的人。听起来简单，真正做起来却极其复杂。

因为每天都有海量内容产生，每天也都有海量用户在消费内容。系统需要从无数候选内容中找到用户最可能感兴趣的那一个。

所以行业慢慢发展出了一套经典架构，召回、粗排、精排、重排。每一层都在做筛选，不断缩小候选范围，最终找到最有可能点击的内容。

这套架构支撑了过去很多年的互联网。

但随着内容规模越来越大，问题也开始慢慢出现。

整个系统由很多独立模块组成，每个模块都有自己的目标，都在优化自己的指标。

但每个模块用的都是相对小的模型，模型容量有限，吃不到大模型时代的 Scaling 红利。系统整体也很难实现端到端优化。

另外，它非常依赖历史行为。用户过去看过什么，点过什么，停留过多久。这些数据确实有价值，但它们本质上都是结果。

系统能够发现统计相关性，却很难理解背后的原因。

对于冷启动用户、长尾内容、兴趣迁移这些场景，效果往往会明显下降。

与此同时，大模型正在沿着另一条路线快速发展。模型能力在持续增长，整个行业都在享受 Scaling 带来的收益。

于是一个问题开始出现，推荐系统能不能也沿着同样的路线演化？

#02

初步的探索

快手给出的第一个答案叫 OneRec。

它的核心思路很直接：既然大语言模型能够生成下一个 Token，那么推荐系统能不能直接生成用户下一步最可能感兴趣的内容？

过去推荐系统是在筛选，OneRec 开始尝试生成。模型输入用户历史行为，直接输出下一步可能交互的物料 ID，将传统多阶段推荐流程统一到一个生成式框架中。

更重要的是，OneRec 验证了推荐系统同样存在 Scaling Law。随着模型、数据和上下文规模扩大，推荐效果能够持续提升，为推荐系统打开了一条新的技术路径。

但 OneRec 也有边界。

它能够预测用户下一步会做什么，却难以理解用户为什么喜欢，也难以应对冷启动用户和长尾内容。

于是，一个新的问题出现了：

如果推荐系统不仅能预测，还能学会思考，会发生什么？

#03

让推荐系统学会思考

于是快手开始进入下一阶段，Reasoning。

如果让我总结 OneReason 最重要的观点，其实就一句话。推荐任务本身就是一种推理任务。

这一点我听完之后特别有启发。因为过去我们总觉得推理能力属于数学题、代码题。推荐系统似乎和推理没什么关系。

但仔细想一想，其实完全不是这样。

用户真正的兴趣从来不会直接告诉系统。系统看到的只是行为。看了什么视频，收藏了什么内容，停留了多久。这些都是结果。

模型真正需要推断的是这些结果背后的原因，然后再根据这些原因预测未来可能产生的行为。

整个过程其实是从果到因再到果。行为 → 兴趣 → 兴趣变化 → 未来需求。

逻辑学上这叫溯因推理。和数学题那种从已知条件严格推导结论的演绎推理完全不同。

推荐系统面对的是一个本质上不确定、解释空间非常大的推理任务。

例如一个用户连续看了很多射击游戏视频。

传统推荐系统会继续推荐类似内容。推理模型则会进一步思考。用户喜欢的是某个具体游戏，还是喜欢战术竞技这种玩法？

如果答案是后者，那么推荐空间就会被进一步打开，很多新的内容也会进入推荐范围。

这个例子在分享中也被提到过。SFT 阶段训练出来的模型比较保守，只会推荐和平精英的新赛季视频。

但经过强化学习之后，模型大胆了很多，它跳出了具体 IP，推测用户真正感兴趣的是战术竞技这个品类，最终推荐了三角洲行动的内容，命中了用户真实的兴趣。

#04

Thinking Hurts，Reasoning 的坑

接下来最有意思的地方来了。

快手在给推荐模型加入思考能力的过程中，遇到了一个反常识的现象。

Thinking Hurts。

简单理解就是，模型开始思考了，效果却没有变好。在推荐的 benchmark 上，thinking 模式并没有显著超越 non-thinking 模式。

这个现象在多模态大模型领域也有过类似的报告。但在推荐场景里，根因更深一层。

快手推荐模型部生成与排序模型负责人唐睿明，用了一个很直观的类比来解释这件事。

他拿多模态模型举例，图里有三个完整的苹果、两个完整的香蕉、一个苹果核，问有多少个完整的水果。

如果模型把苹果核识别成了完整的苹果，那不管它的推理过程多么严谨，最终答案一定是错的。

对应到推荐场景，有两个前置条件没被满足。

第一，模型是否真的认识每一个物料。

推荐系统里的内容都是用 itemic token 来表示的。如果模型根本不知道这些 token 背后对应的是什么内容，后面所有的推理都是空中楼阁。

第二，推荐的思考过程应该长什么样。

不能简单照搬数学题的推理模板，推荐需要一套面向用户兴趣理解的专属推理链条。

这两个问题，就是 OneReason 整个技术体系要解决的事情。

#05

推荐系统自己的 Pretrain、SFT 和 RL

OneReason 的整体训练过程和大模型一样，分为预训练、监督微调和强化学习三个阶段。只不过目标已经从语言理解变成了用户理解。

预训练阶段解决的是看得懂的问题。

快手提出了四个粒度的对齐方案，从最细的单 token 语义，到 item 粒度、item 之间的关系粒度，再到用户长序列粒度，逐层建立推荐物料和自然语言之间的对齐。

总共用了 416B 推荐数据加 162B 通用文本数据。消融实验的结果也很明确，对齐做好了，后面的推理才有基础。

SFT 阶段解决的是想得对的问题。

OneReason 重新定义了一套属于推荐系统自己的推理链条，先总结用户历史兴趣，再推断兴趣形成的原因，接着分析哪些兴趣在增强、哪些在减弱，最后生成推荐结果。

但这里出现了一个让人意外的发现。

SFT 做完之后，在短视频、电商、广告、直播四个业务域上，thinking 模式的效果依然不如 non-thinking。也就是说，光靠模仿推理过程，模型并没有真正学会思考。

这件事在分享中被反复强调。SFT 本质上是让模型去死学 teacher 的推理轨迹，学得快，但永远超不过 teacher 的上限。而且 teacher 本身的推理质量也参差不齐。

打一个比方，说就像我们自己学习的时候，照着视频一步一步跟着做，好像学会了一道题，但换一道题又不会了。

真正记忆深刻的是自己灵光一现想通的那个瞬间，按自己的思路解出来的题，那一类题从此就都通了。

这就是 RL 的关键。真正的转折发生在 RL 阶段。

快手用了一种基于 GRPO 的强化学习方法，让模型自己去探索推理路径，然后用最终推荐结果是否正确来反向牵引推理过程。

但把 RL 用在推荐领域，遇到了两个很具体的工程难题。

第一个是奖励稀疏。

推荐的候选空间非常大，模型每次推理出一个结果，命中用户真实行为的概率很低，导致大量样本的 reward 都是零，白白消耗算力。

快手的解决方案是两阶段 rollout，先生成少量 CoT，每条 CoT 后面接 100 个候选 item，这样每条推理链命中正确答案的概率就提高了近百倍。

第二个是跨域冲突。

快手有四个主要的推荐场景，短视频、电商、广告、直播。如果把四个域的数据混在一起训练，不同域的 reward 会互相干扰。

最终的方案是先在每个域单独做 RL，训出四个域的专家模型，然后再把它们的能力蒸馏回一个统一的基座。

最关键的实验结论是，SFT 阶段，CoT 对推荐效果的增益是负的。但经过 RL 之后，增益转正了。

我觉得这个发现特别有意思。

因为过去一年，大模型行业一直在研究一件事：模型到底是真的会思考了，还是只是学会了写思考过程。

从 OneReason 的实验结果来看，推荐系统似乎也遇到了同样的问题。光让模型模仿一套推理链，并不会自动带来更好的推荐效果。

它可能只是学会了把思考过程写得更漂亮，但推荐效果并没有同步提升。

真正的变化发生在强化学习之后。当推荐结果能够反过来约束推理过程的时候，模型才开始慢慢学会什么样的思考是有价值的。某种意义上说，这也是 Reasoning 和 CoT 最大的区别。

会写推理链，不等于拥有推理能力。

#06

线上怎么办？

这是我当时最关心的问题。

Reasoning 模型大家都知道很强。问题是贵。推荐系统每天要处理海量请求，如果每次都让模型完整推理一次，成本和延迟都会迅速上涨。

快手的解决方案叫 Fast-Slow Thinking。

具体来说，慢系统是 OneReason 模型，按天对每个用户做一次完整的深度推理，生成推理结果。快系统是 OneRec 模型，负责实时响应线上请求。

两者之间的桥梁是一个 thinking token，慢系统推理出来的用户理解被压缩成一个 token，注入到快系统的输入里，指导它做推荐。

这样既保留了推理能力，也能满足线上环境的延迟和成本要求。

目前这套方案已经在快手的本地生活服务广告场景上线，广告收入提升了 8% 以上，ROI 大于 5。

从分享的数据来看，收益最大的恰恰是低活用户和冷启动场景。低活用户提升了 13.3%，中活 4.8%，高活 2.4%。这些一直都是传统推荐系统最难解决的问题，而推理能力刚好能够补上这部分缺口。

分享中还提到了一个很有意思的 case。

一个 50 多岁的退休男性用户，传统推荐链路只能识别出他对老物件感兴趣。但 OneReason 进一步推理之后发现，他真正要找的是上门回收粮票的渠道。这个推理直接命中了用户的真实需求。

#07

快手举办的一个挑战赛

沙龙现场快手基础大模型与应用部、推荐模型部负责人李晗正式发布了快手探索者 LLM-Rec 挑战赛。

他在致辞里说，搞大模型的人，大家都在公开的 benchmark 上同场竞技。

但搞推荐的人，因为每家公司的业务不同，数据不同，系统复杂度也不同，往往是关公战秦琼，谁也不服谁。

所以这个比赛想做的事情，就是给推荐也搭一个公开的赛场。

快手把自己的推荐大模型基座 OneReason-0.8B-pretrain 直接开放给参赛者，同时提供了真实的用户行为数据和 SFT 数据。

参赛选手不用从零开始，直接在这个基座上做创新。奖金池 100 万，而且表现优异还能拿到实习或者正式的 Offer。

其实 LLM 加推荐这个方向，过去一两年学术界的论文已经非常多了。

但大部分研究用的都是小数据集和离线评测，跟真实工业环境的差距还是很大的。真正在亿级流量上跑过的推荐大模型，整个行业也没几个。

现在快手愿意把基座和数据都拿出来，让外面的人也能在接近真实的环境里做实验，这个机会其实挺难得的。

#08

从 Scaling 到 Agent

听完整场分享之后，我最大的感受是推荐系统这条已经发展了二十多年的技术路线，似乎又走到了一个新的拐点。

过去几年，大模型完成了从 Scaling 到 Reasoning 的演化。现在，这条路线正在出现在推荐系统里。

而且它可能还不会停在 Reasoning 这一步。

按照快手团队的判断，下一阶段是 Agentic 推荐。未来的推荐系统或许不只是预测用户喜欢什么，还可能具备规划能力，能够多轮交互，能够从反馈中持续调整策略。

如果真走到那一步，推荐系统关注的问题也会发生变化。从推荐什么内容，变成帮助用户完成什么目标。

从千人千面到千人千策。

而搜索和广告，也正在发生类似的变化。对于整个互联网行业来说，这可能才是更值得关注的事情。

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：AI产品阿颖阿颖阿颖《最近听过最过瘾的推荐系统和 LLM 技术分享。》