2026-06-19 05:47:22 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 快手技术团队在ICML2026会议上有多篇论文入选，涵盖多模态视频理解、因果发现、图像超分辨率、推荐系统等机器学习前沿领域。其中MetaphorVU构建了首个隐喻视频理解基准，ReTimeCausal提出不规则时间序列因果发现框架，ASASR解决了图像超分辨率的频谱对齐问题，BUOPLR优化了大规模通知分发系统，OneSearch实现了端到端生成式电商搜索框架并在快手落地应用。 综合评分： 87 文章分类： 技术标准,解决方案,AI安全,数据安全,应用安全

cover_image

多篇成果入选，快手邀您共赴ICML 2026！

快手技术

2026年6月18日 16:16 北京

在小说阅读器读本章

去阅读

在ICML 2026国际顶级学术会议上，快手技术团队多篇论文成功入选，其中1篇入选“spotlight papers”展示，研究覆盖大语言模型、强化学习、信息检索、计算机视觉等关键方向——它们让AI更智能、更可控、更可解释，也帮助我们从数据中挖掘更本质的规律。

ICML 2026（The 43rd International Conference on Machine Learning），是机器学习领域历史最悠久、最具影响力的顶级国际学术会议之一，与NeurIPS、ICLR并称为机器学习”三大顶会”。该会议被中国计算机学会（CCF）推荐为A类会议，在Google Scholar Metrics中h5指数高达272，位居工程与计算机科学领域前列，本届会议投稿量达23,918篇，整体录用率约26.6%。

会议将于7月6日至7月11日在韩国首尔COEX会展中心举行，快手技术团队将赴首尔现场参会，展位号【B101】，打卡快手展位，参与现场互动，领取快手技术周边！

以下为部分论文解读：

MetaphorVU: Towards Metaphorical Video Understanding（Spotlight）

论文地址：https://openreview.net/forum?id=yKcBAJMPXZ
项目地址：https://github.com/icip-cas/MetaphorVU
论文简介：隐喻视频是传达复杂思想的一种常用手段，但其理解门槛较高，通常要求观看者拥有较强的认知能力。然而，目前缺乏对隐喻视频理解的系统性研究，这不仅限制了多模态大语言模型（MLLMs）在现实世界中的应用能力，也阻碍了对其高阶认知能力的全面评估。为弥补这一空白，我们提出了MetaphorVU-Bench，这是首个专门面向隐喻视频理解的系统性、综合性基准。通过实验，我们发现当前的多模态大语言模型在准确理解隐喻视频方面仍然表现不佳，与人类水平存在显著差距，其主要原因在于跨域映射能力存在缺陷。受这一发现启发，我们构建了一个隐喻知识图谱，用于增强映射能力，并提出了MetaphorBoost，一种推理阶段的增强框架，能够带来稳定的性能提升。我们的基准、分析和方法为未来提升多模态大语言模型能力的研究提供了有价值的见解和基础。

Causal Discovery for Irregularly Time Series with Consistency Guarantees

论文地址：https://openreview.net/forum?id=y5GiPedJPV
论文简介：本文研究了不规则采样时间序列中的因果发现问题。这是金融、医疗和气候科学等风险敏感领域中的一个关键挑战，因为缺失数据和不一致的采样频率会扭曲真实的因果机制。其主要难点在于缺失数据插补与因果结构恢复之间存在相互依赖关系：插补误差和结构学习误差会相互强化，从而导致得到不准确的因果图。现有方法通常采用“先插补、后发现”的两阶段策略，或者通过神经表示学习联合优化数据插补与因果发现，但缺乏显式机制来保证二者之间的相互一致性。为了解决这一问题，我们提出了ReTimeCausal，一个基于EM（期望最大化）算法的框架。该框架通过在数据插补与结构学习之间交替优化，在整个优化过程中持续促进结构一致性。我们的框架在结构恢复方面提供了理论一致性保证，并将经典理论结果扩展到了不规则采样和高缺失率的场景。ReTimeCausal结合了基于核函数的稀疏回归与结构约束，通过交替更新补全数据和因果图的方式进行优化。实验结果表明，在具有挑战性的不规则采样和缺失数据环境下，ReTimeCausal相较于现有方法表现更加有效。

Coloring the Noise: Adversarial Sobolev Alignment for Faithful Image Super Resolution

论文地址：https://arxiv.org/abs/2605.23264
项目地址：https://github.com/wafer-bob/ASASR
论文简介：图像超分辨率（SR）中的生成先验往往会损害忠实的图像复原效果，我们将这一局限性归因于各向同性目标函数与自然图像内在流形之间存在的根本性频谱错位。尽管直接偏好优化（DPO）提供了一条对齐的路径，但其对频谱平坦的高斯噪声的依赖，使其无法区分真实的高频细节与幻觉伪影。为弥合这一几何鸿沟，我们提出了ASASR，一个具有理论基础的框架，通过对噪声转移核进行显式着色以模拟自然频谱衰减，将生成流重新构建于Sobolev诱导的黎曼几何之中。为驱动这一几何对齐，我们引入了一个基于Riesz表示定理的参数化对抗模块，该模块能够合成等价于最坏情况Sobolev梯度的定向负样本，从而引导优化沿合理结构失真的切空间方向进行。大量实验表明，ASASR在主流生成式基线方法中表现最优，尤其在保持频谱一致性与结构保真度方面具有显著优势，提供了一种能够有效抑制伪影的鲁棒解决方案。

Large-Scale Notification Dispatch with Bundle Treatments and Multi-Outcome Uplift Optimization

论文地址：https://icml.cc/virtual/2026/poster/65977
论文简介：大规模用户增长场景中的通知分发（PUSH）是一个高度复杂的决策问题，涉及推送时机、呈现样式、多目标结果与平台多约束之间的权衡。本文将其形式转化为一个面向时机和样式组合干预（bundle treatment）的带约束优化问题，目标是在平台级预算和用户级配额约束下，最大化日活跃用户数（DAU）的增量收益。该问题的核心难点在于两方面：一是bundle粒度下的多维、小效应uplift估计极易被噪声淹没，二是亿级用户与海量候选处置带来的大规模约束求解开销。为此，我们提出BUOPLR——一种将uplift估计与带约束决策显式解耦的两阶段通知分发方法。第一阶段中，BUOPLR通过一个能够同时刻画跨干预（cross-treatment）与跨结果（cross-outcome）依赖关系的网络结构，学习bundle级别的多目标小效应uplift；第二阶段中，BUOPLR通过对决策空间的剪枝先压缩可行域，再针对少量全局约束施加拉格朗日松弛，从而以可扩展的方式完成大规模分配。离在线实验表明，BUOPLR在多项关键指标上优于当前最先进的方法，目前，BUOPLR已全量部署于快手PMOS系统中。

Learning to Rank by Directly Optimizing Full-Order Probabilities

论文地址：https://openreview.net/forum?id=fch6yT64ZH
项目地址：https://github.com/tyxaaron/FOB
论文简介：学习排序可以建模为排列空间上的概率问题，其目标是估计观测到的项目全序（total ordering）的似然性。该形式化自然涉及形如P(z1≤⋯≤zn) 的全序概率，但由于排列空间随列表大小呈阶乘级增长，这类概率的精确计算与优化是难以处理的。本文提出全序下界（Full-Order Bound, FOB），这是一个关于观测排序概率的可处理下界；该下界由一组可分解到各项目上的排序约束构造而成，既保留了全序结构，又具有顺序反转不变性。在对数凹潜密度假设下，该下界导出了一个关于潜在切点的凸内收紧问题，我们通过安全区域梯度上升（SRGA）过程在训练中高效求解。在合成排序任务和大规模学习排序基准上的实验表明，FOB能够提升全列表排序指标，并在NDCG上保持竞争力，其可选的指标对齐变体还能进一步恢复NDCG增益。

OneSearch: A Preliminary Exploration of the Unified End-to-End Generative Framework for E-commerce Search

论文地址：https://icml.cc/virtual/2026/poster/64836
项目地址：https://github.com/benchen4395/onesearch-family
论文简介：传统电商搜索系统采用多阶段级联架构，存在计算碎片化和各阶段优化目标冲突等问题，从根本上限制了其性能上限。我们提出OneSearch——首个在工业界落地部署的端到端生成式电商搜索框架，包含三项核心创新：（1）关键词增强的层次化量化编码，在保持query-商品强相关性约束的同时，保留层次语义和商品的独特属性；（2）多视角用户行为序列注入，构建行为驱动的用户ID，并同时融合显式短期序列与隐式长期序列；（3）偏好感知奖励系统，结合多阶段监督微调与自适应奖励加权排序，以捕捉细粒度用户偏好。大量离线评测验证了该框架的卓越性能，线上A/B实验取得了具有统计显著性的提升：商品点击率（CTR）提升+1.67%，买家数提升+2.40%，订单量提升+3.22%。OneSearch 将运营支出降低75.40%，将模型算力利用率（MFU）从3.26%提升至27.32%，并已在快手多个搜索场景中成功上线，每日服务数百万用户。

Phase-Aware Mixture of Experts for Agentic Reinforcement Learning

论文地址：https://arxiv.org/pdf/2602.17038
项目地址：https://github.com/YsTvT/PA-MoE
论文简介：强化学习（RL）赋予了大语言模型智能体解决复杂任务的强大能力。但现有强化学习方法通常仅采用单一策略网络，会引发简单偏置问题：简单任务占用绝大部分模型参数、主导梯度更新，致使模型没有充足算力承接复杂任务。一种可行的改进思路是在策略网络中引入混合专家（MoE）架构，该架构能够让不同专家参数专攻不同任务，避免简单任务独占全部参数资源。不过，传统混合专家架构存在一项关键缺陷：采用令牌级路由机制，路由模块会为每个令牌单独分配专属专家，破坏了时序阶段内的连贯特征模式，将同阶段特征零散分配至不同专家，最终削弱专家的专项专精能力。本文提出面向阶段感知的混合专家架构（PA-MoE）：该方法搭载轻量化阶段路由器，无需预先定义阶段类别，可直接依托强化学习优化目标自主学习隐式阶段划分边界；随后由阶段路由器将时序上属于同一阶段的特征统一分配至同一个专家，保障各专家沉淀对应阶段的专属能力。实验结果验证了所提PA-MoE方法的有效性。

SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning

论文地址：https://arxiv.org/pdf/2602.07458
项目地址：https://lorangan-ddup.github.io/SpatialReward
论文简介：尽管在线强化学习（Online RL）为指令引导图像编辑提供了强大的对齐范式，但现有奖励模型普遍受制于一个关键感知瓶颈——”注意力坍塌”（Attention Collapse）：模型忽视跨图像比较，无法捕获像素级细节，导致评分失准，严重影响RL优化效果。为弥补这一感知鸿沟，我们提出了SpatialReward，首个将显式空间推理融入生成式逐点评估的图像编辑奖励框架。具体而言，SpatialReward包含：（1）一种”Think-with-Boxes”核心机制，通过预测编辑区域的空间坐标并以交错token形式注入推理链，将语义判断锚定至像素级证据，强制执行精确的跨图像交叉验证；（2）一条空间先验引导的数据构建流水线，结合专家路由标注与闭环一致性验证，构建出包含26万条高质量空间感知推理轨迹的SpatialReward-260k数据集；（3）一种SFT+GRPO两阶段训练策略，先建立空间推理基础能力，再以Gemini作为在线督导对难样本强化对齐。我们还发布了MultiEditReward-Bench，涵盖15种精细编辑子任务与1,800个人工标注样本，专门考验奖励模型在复杂多约束场景下的空间验证能力。在三项基准上的广泛实验表明，SpatialReward达到了最先进的性能：在EditReward-Bench和MMRB2上较生成式基线分别提升+11.3%和+9.1%，超越所有专有闭源评估器。作为下游Online RL信号，将OmniGen2在GEdit-Bench上的得分提升+0.90，是GPT-4.1所带来增益（+0.45）的近两倍，同时实现1.5倍推理加速。

SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models

论文地址：https://arxiv.org/abs/2511.05459
项目地址：https://huggingface.co/datasets/Kwaipilot/SWE-Compass
论文简介：现有Agentic Coding评测基准（如HumanEval、SWE-bench）普遍存在任务覆盖窄、语言偏见强、与真实开发流程严重脱节等局限，导致无法准确评估模型在工业级软件工程中的实际能力。为弥补这一评估鸿沟，我们提出了SWE-Compass，一个全面、统一且生产对齐的代码智能评估框架。具体而言，SWE-Compass包含：（1）一个覆盖8种任务类型、8类编程场景和10种编程语言的三维评估矩阵，从错误修复、功能实现到性能优化，完整刻画真实开发全生命周期；（2）一套严格的五阶段数据构建流水线，从海量GitHub Pull Request中挖掘、人工标注并双重审核，精选出2000个高保真实例；（3）一个统一的智能体评测协议，在SWE-Agent与Claude Code两种代表性智能体框架下，对10款主流大模型展开系统实证。实验揭示了三个关键发现：模型在功能实现与性能优化等复杂任务上能力骤降、同一模型在不同智能体框架下表现迥异（框架-模型混淆效应），以及在Rust等新兴语言上存在显著多语言鲁棒性鸿沟。

VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

论文地址：https://arxiv.org/pdf/2602.07801
项目地址：https://liuwq-bit.github.io/VideoTemp-o3
论文简介：尽管视频大语言模型在长视频理解中取得了显著进展，但均匀帧采样策略仍普遍遗漏关键视觉证据，而近期”思考与视频”范式虽引入定位-裁剪-回答流水线，却面临工作流复杂、定位精度不足、流程刚性等瓶颈。为此，我们提出VideoTemp-o3，一个将视频问答与时序定位统一于单一模型的Agentic框架，支持按需视频裁剪与多轮定位迭代精化。具体而言，VideoTemp-o3包含：（1）冷启动SFT配合统一掩码机制，精准施加多轮训练信号并屏蔽早期粗定位噪声；（2）惩罚感知的IoU强化学习奖励体系，有效抑制奖励作弊，提升定位精度与回答准确率；（3）基于Gemini-2.5-Pro的多轮数据构建流水线，通过闭环一致性验证生成高质量长视频有根据的QA数据。我们还发布了VideoTemp-Bench，覆盖四个视频时长段共1,200条样本，系统评估模型的时序定位与理解能力。广泛实验表明，VideoTemp-o3在长视频理解（VideoMME +2.4%、LVBench +1.7%）、时序定位（Charades-STA mIoU 57.8%）及视频有根据问答（NextGQA mIoU 33.4%）三项任务上均达到最先进性能。

Weights to Code: Extracting Interpretable Algorithms from the Discrete Transformer

论文地址：https://arxiv.org/abs/2601.05770
论文简介：本文提出了一种面向算法提取与可解释性的Discrete Transformer架构，旨在从训练好的Transformer权重中直接恢复可执行、可读的算法程序。针对标准Transformer内部表示容易出现特征纠缠和叠加、难以进行符号化解析的问题，作者通过离散化残差流、数值注意力模块和数值MLP模块，将信息路由与算术计算显式分离，并结合温度退火、假设检验和符号回归，从模型中提取出Python形式的程序。实验表明，该方法在多类算法推理任务上能够达到接近或匹配RNN-based MIPS方法的提取性能，并进一步支持包含连续变量的动力学任务；同时，论文还展示了该架构可通过归纳偏置控制提取出的算法形式，为Transformer可解释性和神经网络程序合成提供了一个更可控、更透明的研究框架。

快手以开放连接学术与产业，让技术不止于研究，更在真实场景中生长进化。更多技术探索和突破，敬请关注后续内容！

【相关阅读】

快手探索者LLM-Rec挑战赛进行中，

点击【阅读原文】报名！

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：快手技术《多篇成果入选，快手邀您共赴ICML 2026！》