文章总结: 蚂蚁集团与上海交通大学联合提出ML-Embed多语言文本嵌入模型,采用创新的3D-ML训练框架在参数效率、推理效率和存储效率三个维度进行优化。该模型基于覆盖282种语言的大规模开源数据集训练,在MTEB基准测试的17项任务中9项刷新最高分,尤其在波兰语等低资源语言上提升超20个百分点。研究提供完整的开源解决方案(代码、模型、数据),为构建公平高效的多语言AI系统提供可行蓝图。 综合评分: 92 文章分类: 技术标准,解决方案,AI安全,数据安全,应用安全
ICML 2026 | ML-Embed:打破语言壁垒的多语言嵌入模型,登顶9项MTEB榜单,全面开源
原创
蚂蚁集团 蚂蚁集团
OSC开源社区
2026年6月24日 13:18 广东
在小说阅读器读本章
去阅读
蚂蚁集团与上海交通大学联合提出 3D-ML 文本嵌入训练框架,训练数据、模型权重与代码全部开源,为开源社区提供可复现的全球公平 AI 构建蓝图。相关论文已被 ICML 2026 接收。
背景:文本嵌入领域正在走向”封闭化”
文本嵌入(Text Embedding)是现代 AI 系统的基础组件,驱动着语义搜索、检索增强生成(RAG)等众多下游应用。然而,当前领域的发展正面临三重危机:
- 1. 计算成本高昂:主流方案转向大型解码器模型,训练与推理成本极为高昂;
- 2. 语言覆盖严重失衡:研究资源高度集中在英语等少数高资源语言,波兰语、越南语、波斯语等语言的可用模型极为匮乏(见下表);
- 3. 透明度严重不足:许多顶尖模型以闭源 API 或仅开放权重(不开放训练细节)的形式发布,严重阻碍了可复现研究的推进。
| MTEB 榜单 | 有完整结果的模型数量(截至2026年初) | | — | — | | 英语(English) | 154 | | 多语言(Multilingual) | 146 | | 波兰语(Polish) | 1 | | 越南语(Vietnamese) | 17 | | 日语(Japanese) | 11 | | 波斯语(Persian) | 22 |
以波兰语为例,MTEB 榜单上仅有 1 个模型提交了完整结果,这与英语的 154 个形成了鲜明反差。
为了正面回应这一困境,蚂蚁集团与上海交通大学的研究团队提出了 ML-Embed。
核心创新:3D 套娃学习框架(3D-ML)
本文的核心方法论贡献是 3-Dimensional Matryoshka Learning(3D-ML),该框架在模型全生命周期的三个维度上同时提供效率优化——如同俄罗斯套娃一般层层嵌套:
维度一:套娃嵌入学习(MEL)——参数效率
嵌入层在多语言大词表模型中往往占据大量参数。例如,在基于 Qwen3-0.6B 微调的嵌入模型中,嵌入层参数量占总参数量的 1/4。
MEL 通过 SVD 将原始嵌入矩阵 分解为两个低秩矩阵 和 的乘积,并在训练中动态采样不同的子秩,强迫模型将最关键的信息压缩到前几个维度。
- • 兼容模式:训练完成后将 还原为标准嵌入矩阵,与现有推理框架无缝兼容;
- • 效率模式:直接部署低秩分解矩阵,大幅压缩模型体积,特别适合端侧部署。
消融实验表明,即便在标准模型上做推理时 SVD 压缩,MEL 训练的模型也表现出极强的鲁棒性——嵌入层的秩从 1024 压缩到 64 时仍能保持良好性能(69.68→64.30),而未经 MEL 训练的基线模型在对嵌入层秩轻微压缩(1024→960)时性能即灾难性崩溃(69.68→53.25)。
维度二:套娃层级学习(MLL)——推理效率
MLL 在多个中间层同时施加训练损失,使模型天然具备”早退”能力。推理时,只需修改 num_hidden_layers 配置,即可将完整模型一键截断为更浅的版本,无需重新训练或剪枝。
消融结果表明:MLL + MEL 联合使用时,参数量约 170M 的 4 层模型可达到与 170M 单层基线模型 高出 15 个百分点 的性能,且在相同性能水平下体积缩小 3 倍。
维度三:套娃表征学习(MRL)——存储效率
MRL 确保嵌入向量的前缀子集本身也是有效的低维表示,允许用户按需截断向量维度,在 sentence-transformers 等流行库中仅需一个参数即可开启,零代码改动。
统一训练目标
三个维度统一为一个损失函数,对所有选定的层(MLL)和所有 MRL 维度同步优化:
数据:真正面向全球的多语言语料库
模型能力的上限在于数据。研究团队从 121 个公开数据源汇聚了 5000 万条训练样本,覆盖 282 种自然语言(ISO-639-3 编码)和 40 余种编程语言。
与其他开源数据集相比,本文数据的语言多样性优势十分突出:
- • KaLM-Embedding 的数据高度集中于中文(44.4%)和英文(49.4%),多语言仅占 6.3%;
- • 本文数据集中英文约占 37%,西班牙语、法语、俄语、阿拉伯语等均有大量覆盖,且包含大量低资源语言长尾数据。
数据集同样全面涵盖多种任务类型:双语文本挖掘(29.2%)、问答(28.9%)、指令数据(10.6%)、标题匹配(8.2%)等,并统一格式化为检索、聚类、二分类三种对比学习范式。
训练采用两阶段策略:第一阶段在 2700 万检索样本上建立语义基础;第二阶段在 830 万混合样本上加入任务指令精调,总数据量仅为同类顶尖模型的 1/6 至 1/20。
| 模型 | 数据开源 | 第一阶段 | 第二阶段 | | — | — | — | — | | Qwen3-Embedding | ✗ | 150M | 12M | | EmbeddingGemma | ✗ | 153M | 10M | | KaLM-Embedding | ✓ | 100M | 5M | | ML-Embed(本文) | ✓ | 27M | 8M |
效果:在17项MTEB榜单上9项刷新最高分
ML-Embed 系列共发布 6 个模型(140M / 330M / 600M / 1.7B / 4B / 8B),均基于 Qwen3 系列底座训练。
ML-Embed-8B 在 17 项 MTEB 基准中的 9 项刷新最高分,且成绩尤为集中在以前受忽视的语言:
- • 🇵🇱 波兰语:+22.89 分(73.84 vs. 50.95)
- • 🇻🇳 越南语:+6.88 分
- • 🇮🇳 印地语:+6.61 分
- • 🇩🇪 德语:+6.47 分
- • 🇯🇵 日语:+4.63 分
- • 🇳🇱 荷兰语:+4.26 分
在英语和多语言等高度竞争的基准上,ML-Embed 系列同样达到榜单 Top-5 水平,且各规格模型展现出清晰一致的规模扩展规律。
开源先行:F2LLM-v2 已登顶多个榜单,社区反响热烈
值得一提的是,本论文使用相同底座与数据(但不含 3D-ML 训练方法)的基线模型系列,在论文审稿期间以 F2LLM-v2 的名称公开发布,并登顶多个 MTEB 榜单,在开源社区中引发广泛关注。
截至 2026 年 6 月,F2LLM-v2 系列在 HuggingFace 上的下载量持续攀升,F2LLM-v2-14B 在过去一个月的下载量超过十万次:
这一数据充分说明,开源社区对高质量多语言嵌入模型存在巨大需求,而 ML-Embed 与 F2LLM-v2 的发布正满足这一需求。
开源资源一览
本研究秉承完全开放的原则,向社区提供完整的可复现资源:
| 资源 | 链接 | | — | — | | 📦 代码 | https://github.com/codefuse-ai/CodeFuse-Embeddings | | 🤗 模型 & 数据集 | https://huggingface.co/collections/codefuse-ai/codefuse-embeddings | | 📄 论文 | https://arxiv.org/abs/2605.15081 | | 📄 F2LLM-v2 技术报告 | https://arxiv.org/abs/2603.19223 |
全系列模型、完整训练数据以及训练代码全部开源,任何研究者与企业均可在此基础上进行复现、改进与二次开发。
为何这对开源社区意义重大?
ML-Embed 的开源不仅仅是发布几个模型权重,而是提供了一套端到端可复现的系统性解决方案:
🔬 方法层面:3D-ML 框架以极低的代码侵入性提供全生命周期效率优化,可直接应用于开发者自己的训练流程,并与 HuggingFace transformers、sentence-transformers 等主流框架完全兼容。
📊 数据层面:涵盖 282 种语言的大规模多语言训练集的开放,直接填补了开源社区在低资源语言嵌入数据方面的巨大空白,可作为未来多语言 NLP 研究的标准化数据平台。
🌍 公平性层面:论文用实验证明,对波兰语、越南语等长期被忽视的语言,仅凭充分的数据覆盖与合理的训练框架,就能实现超过 20 个百分点的性能飞跃——公平不是性能的代价,而是可以兼得的目标。
🔄 可复现性层面:在训练数据量仅为相似模型 1/6 的前提下达到或超越其性能,为资源有限的研究机构和开发者提供了切实可行的参考路径。
小结
ML-Embed 是一项从问题定义到解决方案都充分体现”开放精神”的工作:它用开源数据训练、用开源框架训练、开源全部成果,并将研究矛头指向那些最被边缘化的语言。
对于开源社区而言,ML-Embed 不仅是一套可以直接使用的高性能嵌入模型,更是一份构建全球公平、计算高效AI系统的完整蓝图。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:OSC开源社区 蚂蚁集团 蚂蚁集团《ICML 2026 | ML-Embed:打破语言壁垒的多语言嵌入模型,登顶9项MTEB榜单,全面开源》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论