2026-04-18 07:03:43 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 快手联合高校提出分层语义强化学习框架HSRL，通过语义ID将动态商品空间映射为固定维度的语义动作空间，结合分层策略与多级评论家机制，解决了推荐系统中动作空间爆炸与探索低效问题。十亿级场景A/B测试显示广告预期花费提升18.4%，验证了其工业价值。文末包含招聘信息。 综合评分： 25 文章分类： 软文广告

cover_image

WWW 2026｜快手提出分层语义强化学习框架：语义ID驱动推荐系统新突破

原创

快手技术快手技术

快手技术

2026年4月16日 11:45 北京

在小说阅读器读本章

去阅读

针对强化学习在推荐系统中面临的动作空间爆炸、探索效率低下等核心挑战，快手商业化算法团队联合复旦大学、天津大学提出了分层语义强化学习（HSRL）框架，该成果已被国际顶级学术会议WWW 2026收录。

该框架创新性地通过语义ID构建出固定维度的语义动作空间，并结合分层策略网络与多级评论家机制，实现了在十亿级真实场景中对用户长期价值的精准、稳定优化。线上大规模A/B测试取得广告预期花费+18.4%的显著提升，充分展现了优异的工业落地可行性。

论文标题：Hierarchical Semantic RL: Tackling the Problem of Dynamic Action Space for RL-based Recommendations
论文链接：https://arxiv.org/abs/2510.09167
代码链接：https://github.com/MinmaoWang/HSRL

引言：RL推荐的核心瓶颈与破局思路

当前，主流推荐系统大多基于监督学习范式，以优化即时点击率为目标，难以对用户兴趣的动态演变与长期价值进行建模。强化学习因其序列决策能力，被视为优化长期价值的关键技术。然而，将其应用于实际推荐场景时，一个根本性挑战在于其动作空间的海量性与动态性——商品候选集规模庞大且持续更新，若将每个商品视为独立动作，会导致策略网络难以收敛且无法适应物品的实时上下架。

图1：传统巨大动态动作空间与固定语义动作空间的对比

以往的研究尝试通过连续超动作空间进行近似，但存在无法精确映射回物料与探索低效的问题。为从根本上解决此难题，本研究提出分层语义强化学习（HSRL）框架，其核心思想是利用物品的语义ID，将高维、动态的原始物品空间映射到一个低维、离散且固定的语义动作空间中。在此空间内进行强化学习决策，不仅使模型摆脱了动作集变化的困扰，更赋予了其沿着语义层级进行结构化探索与泛化的能力。

方法创新：HSRL框架详解

图2：HSRL 架构示意图：包含分层策略网络与多级评论家网络

HSRL框架主要由三个关键技术组件构成：

1、语义动作空间（Semantic Action Space, SAS）

本研究不再将商品ID作为原始动作，而是预先通过层次化语义编码技术（如RQ-Kmeans），为每个商品生成一组固定长度的离散语义ID序列。该序列刻画了商品从粗到细的语义层次。由此，RL智能体的动作空间被定义在一个维度固定、语义明确的离散Token集合上。无论商品库如何动态变化，只要语义层级不变，动作空间的结构就保持稳定，从根本上解决了动作空间的动态爆炸问题，并自然支持对新品和长尾商品的零样本泛化。

2、分层策略网络（Hierarchical Policy Network, HPN）

为匹配语义ID的层次化生成过程，设计了严格自回归的分层策略网络。其核心是分层残差状态建模模块。在生成上一级语义Token后，该模块会从全局状态中显式地减去已决策的语义信息，得到一个残差状态，供下一级策略网络进行更细粒度的决策。这种“由粗到细”的决策机制，确保了各层级策略的关注点分离，显著提升了决策的精确性与模型的可解释性。

3、多级评论家网络（Multi-Level Critic Network, MLC）

为解决因用户最终反馈稀疏而导致的信用分配难题，设计了多级评论家网络。该网络为语义ID生成序列中的每一个中间步骤都预估一个局部状态价值，并通过一个可学习的自适应聚合机制，将全局的稀疏奖励合理地逆向分配至每个决策步骤。这种细粒度的价值评估，极大地缓解了长序列决策中的奖励稀疏问题，保障了策略梯度估计的稳定性与训练效率。

实验验证：离线与在线全面评估

为全面评估HSRL框架的有效性、鲁棒性与实用性，研究团队在公开基准数据集与十亿级工业场景中进行了系统性的实验。

1、离线实验：性能全面领先

在RL4RS与ML1M两个公开序列推荐数据集上，HSRL在衡量长期用户参与度的总奖励与交互深度两项关键指标上，均显著超越了所有先进的基线模型。

在RL4RS数据集上，HSRL取得了12.013的总奖励，较此前最强的HAC提升13.4%；
在ML1M数据集上，HSRL以18.773的总奖励，超越了最佳基线CHIRP，达6.7%；

该结果强有力地证实：在基于语义ID构建的、固定且结构化的语义动作空间中进行策略学习，远比在原始高维、扁平的商品空间中探索更为高效。传统RL方法或因动作空间巨大导致探索效率低下，或因“连续超动作-离散商品”映射不一致而产生训练-推断差异，而HSRL从根本上规避了这些问题。

表1：公开数据集效果验证

2、消融研究：核心组件贡献分析

#

为剖析HSRL各核心模块的必要性，在RL4RS上进行了系统的消融实验：

去除熵正则：总奖励下降18.7%。这表明在固定语义空间中维持充分的探索至关重要。
去除分层策略（HPN）：总奖励下降15.3%。这验证了“由粗到细”的层次化决策机制是建模语义依赖、实现精准推荐的关键。
去除多级评论家（MLC）：总奖励下降10.6%。这证明了进行token级价值分解、实现细粒度信用分配，对于解决长序列稀疏奖励问题不可或缺。
去除行为克隆损失：性能出现小幅下降，说明融合监督信号有助于稳定训练初期策略。

消融实验一致表明，HSRL的整体架构设计是获得卓越性能的基础，各组件协同作用，缺一不可。

表2：消融实验验证

3、在线部署与A/B测试：工业级有效性验证

#

将HSRL框架部署至快手短视频广告平台的精排阶段，进行了大规模在线实验。在为期7天的A/B测试中（实验组与对照组各占15%流量），该框架驱动下的广告预期花费提升了18.4%。这一结果不仅验证了框架在十亿级用户规模下的工程鲁棒性，更直接证明了其对业务长期价值的显著提升作用。

图3：HSRL上线后AB效果增长趋势图

4、深入分析：多级评论家的自适应信用分配

#

论文进一步分析了多级评论家网络中学到的重要性权重的演化。权重最终稳定为的分布。此分析证实，多级评论家能够自适应地依据语义层次对最终奖励的贡献度进行信用分配，其机制是合理且可解释的。

图4：MLC重要性权重收敛趋势图

结论与展望

本文提出的分层语义强化学习框架，通过语义ID构建固定语义动作空间，并结合分层决策与精细信用分配机制，为强化学习在超大规模、动态变化的工业级推荐系统中的落地，提供了一套行之有效的系统解决方案。该工作不仅解决了动态动作空间这一长期存在的技术瓶颈，也昭示着基于结构化语义表示的序列决策，将成为构建下一代可扩展、可持续的智能推荐系统的重要方向。

关于我们

生活服务业务是快手商业化增长最快的核心业务之一，涵盖线索和本地团购等类型行业。商业化生活服务算法部作为快手核心算法部门之一，全面支撑该业务的全链路算法体系建设，致力于通过前沿算法技术驱动业务持续增长，主要职责包括：

1、推进端到端生成式推荐体系（OneLoc）的探索与建设，研究 Scaling Law 在推荐系统中的实践，深耕近场分发场景下的多模态表征学习，并基于强化学习（RL）实现用户长期价值最大化；

2、负责生活服务场景下的广告与自然内容推荐系统的核心精排模型迭代与优化，通过算法升级持续提升业务核心指标，助力业务高速增长；

3、依托快手的海量用户与商家数据，运用机器学习、迁移学习、强化学习、大语言模型（LLM）、扩散模型（Diffusion）、多模态技术及博弈论等前沿技术，应对多元异构数据带来的挑战，推动技术成果在业务中的有效落地；

4、通过深入的数据分析与挖掘，发现业务潜在增长机会，并面向流量投放与广告主优化等方向，进行系统性的算法设计与效果提升。

热招岗位

### 职位名称

推荐算法工程师-【生活服务】

### 任职要求

1、计算机科学、数学、统计学等相关专业硕士及以上学历，精通C/C++、Java、Python等至少一门编程语言；

2、有机器学习、数据挖掘、自然语言处理、推荐系统等相关研究经验或工作经验优先，在相关领域顶级会议上发表论文者优先；

3、强烈的技术热情和学习渴望，对技术驱动业务有不懈的追求；

4、具备优秀的分析和解决问题的能力，良好的沟通能力，较强的团队合作精神。

### 加分项

1、有互联网广告算法、搜索 / 推荐系统、机器学习、计算机视觉、计算广告学及博弈论相关领域研究，及一线互联网公司实习经验者优先；

2、在NIPS、ICML、ICLR、IJCAI / AAAI、SIGKDD、CVPR / ICCV、ACL等相关国际顶级会议或期刊上有文章发表者优先；

3、有Kaggle、KDD Cup等推荐算法、数据挖掘比赛获奖者优先；

4、有ACM / Topcoder Algorithm或类似算法竞赛经历者优先。

### 投递方式

扫描下方二维码投递，或投递简历至邮箱：[email protected]

【相关阅读】

点击【阅读原文】，加入我们！

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：快手技术快手技术快手技术《WWW 2026｜快手提出分层语义强化学习框架：语义ID驱动推荐系统新突破》