2026-06-26 07:02:51 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 蚂蚁集团与上海交通大学联合提出ML-Embed多语言文本嵌入模型，采用创新的3D-ML训练框架在参数效率、推理效率和存储效率三个维度进行优化。该模型基于覆盖282种语言的大规模开源数据集训练，在MTEB基准测试的17项任务中9项刷新最高分，尤其在波兰语等低资源语言上提升超20个百分点。研究提供完整的开源解决方案（代码、模型、数据），为构建公平高效的多语言AI系统提供可行蓝图。 综合评分： 92 文章分类： 技术标准,解决方案,AI安全,数据安全,应用安全

cover_image

ICML 2026 | ML-Embed：打破语言壁垒的多语言嵌入模型，登顶9项MTEB榜单，全面开源

原创

蚂蚁集团蚂蚁集团

OSC开源社区

2026年6月24日 13:18 广东

在小说阅读器读本章

去阅读

蚂蚁集团与上海交通大学联合提出 3D-ML 文本嵌入训练框架，训练数据、模型权重与代码全部开源，为开源社区提供可复现的全球公平 AI 构建蓝图。相关论文已被 ICML 2026 接收。

背景：文本嵌入领域正在走向”封闭化”

文本嵌入（Text Embedding）是现代 AI 系统的基础组件，驱动着语义搜索、检索增强生成（RAG）等众多下游应用。然而，当前领域的发展正面临三重危机：

1. 计算成本高昂：主流方案转向大型解码器模型，训练与推理成本极为高昂；
2. 语言覆盖严重失衡：研究资源高度集中在英语等少数高资源语言，波兰语、越南语、波斯语等语言的可用模型极为匮乏（见下表）；
3. 透明度严重不足：许多顶尖模型以闭源 API 或仅开放权重（不开放训练细节）的形式发布，严重阻碍了可复现研究的推进。

| MTEB 榜单 | 有完整结果的模型数量（截至2026年初） | | — | — | | 英语（English） | 154 | | 多语言（Multilingual） | 146 | | 波兰语（Polish） | 1 | | 越南语（Vietnamese） | 17 | | 日语（Japanese） | 11 | | 波斯语（Persian） | 22 |

以波兰语为例，MTEB 榜单上仅有 1 个模型提交了完整结果，这与英语的 154 个形成了鲜明反差。

为了正面回应这一困境，蚂蚁集团与上海交通大学的研究团队提出了 ML-Embed。

核心创新：3D 套娃学习框架（3D-ML）

本文的核心方法论贡献是 3-Dimensional Matryoshka Learning（3D-ML），该框架在模型全生命周期的三个维度上同时提供效率优化——如同俄罗斯套娃一般层层嵌套：

维度一：套娃嵌入学习（MEL）——参数效率

嵌入层在多语言大词表模型中往往占据大量参数。例如，在基于 Qwen3-0.6B 微调的嵌入模型中，嵌入层参数量占总参数量的 1/4。

MEL 通过 SVD 将原始嵌入矩阵分解为两个低秩矩阵和的乘积，并在训练中动态采样不同的子秩，强迫模型将最关键的信息压缩到前几个维度。

• 兼容模式：训练完成后将还原为标准嵌入矩阵，与现有推理框架无缝兼容；
• 效率模式：直接部署低秩分解矩阵，大幅压缩模型体积，特别适合端侧部署。

消融实验表明，即便在标准模型上做推理时 SVD 压缩，MEL 训练的模型也表现出极强的鲁棒性——嵌入层的秩从 1024 压缩到 64 时仍能保持良好性能（69.68→64.30），而未经 MEL 训练的基线模型在对嵌入层秩轻微压缩（1024→960）时性能即灾难性崩溃（69.68→53.25）。

维度二：套娃层级学习（MLL）——推理效率

MLL 在多个中间层同时施加训练损失，使模型天然具备”早退”能力。推理时，只需修改 num_hidden_layers 配置，即可将完整模型一键截断为更浅的版本，无需重新训练或剪枝。

消融结果表明：MLL + MEL 联合使用时，参数量约 170M 的 4 层模型可达到与 170M 单层基线模型 高出 15 个百分点 的性能，且在相同性能水平下体积缩小 3 倍。

维度三：套娃表征学习（MRL）——存储效率

MRL 确保嵌入向量的前缀子集本身也是有效的低维表示，允许用户按需截断向量维度，在 sentence-transformers 等流行库中仅需一个参数即可开启，零代码改动。

统一训练目标

三个维度统一为一个损失函数，对所有选定的层（MLL）和所有 MRL 维度同步优化：

数据：真正面向全球的多语言语料库

模型能力的上限在于数据。研究团队从 121 个公开数据源汇聚了 5000 万条训练样本，覆盖 282 种自然语言（ISO-639-3 编码）和 40 余种编程语言。

与其他开源数据集相比，本文数据的语言多样性优势十分突出：

• KaLM-Embedding 的数据高度集中于中文（44.4%）和英文（49.4%），多语言仅占 6.3%；
• 本文数据集中英文约占 37%，西班牙语、法语、俄语、阿拉伯语等均有大量覆盖，且包含大量低资源语言长尾数据。

数据集同样全面涵盖多种任务类型：双语文本挖掘（29.2%）、问答（28.9%）、指令数据（10.6%）、标题匹配（8.2%）等，并统一格式化为检索、聚类、二分类三种对比学习范式。

训练采用两阶段策略：第一阶段在 2700 万检索样本上建立语义基础；第二阶段在 830 万混合样本上加入任务指令精调，总数据量仅为同类顶尖模型的 1/6 至 1/20。

| 模型 | 数据开源 | 第一阶段 | 第二阶段 | | — | — | — | — | | Qwen3-Embedding | ✗ | 150M | 12M | | EmbeddingGemma | ✗ | 153M | 10M | | KaLM-Embedding | ✓ | 100M | 5M | | ML-Embed（本文） | ✓ | 27M | 8M |

效果：在17项MTEB榜单上9项刷新最高分

ML-Embed 系列共发布 6 个模型（140M / 330M / 600M / 1.7B / 4B / 8B），均基于 Qwen3 系列底座训练。

ML-Embed-8B 在 17 项 MTEB 基准中的 9 项刷新最高分，且成绩尤为集中在以前受忽视的语言：

• 🇵🇱 波兰语：+22.89 分（73.84 vs. 50.95）
• 🇻🇳 越南语：+6.88 分
• 🇮🇳 印地语：+6.61 分
• 🇩🇪 德语：+6.47 分
• 🇯🇵 日语：+4.63 分
• 🇳🇱 荷兰语：+4.26 分

在英语和多语言等高度竞争的基准上，ML-Embed 系列同样达到榜单 Top-5 水平，且各规格模型展现出清晰一致的规模扩展规律。

开源先行：F2LLM-v2 已登顶多个榜单，社区反响热烈

值得一提的是，本论文使用相同底座与数据（但不含 3D-ML 训练方法）的基线模型系列，在论文审稿期间以 F2LLM-v2 的名称公开发布，并登顶多个 MTEB 榜单，在开源社区中引发广泛关注。

截至 2026 年 6 月，F2LLM-v2 系列在 HuggingFace 上的下载量持续攀升，F2LLM-v2-14B 在过去一个月的下载量超过十万次：

这一数据充分说明，开源社区对高质量多语言嵌入模型存在巨大需求，而 ML-Embed 与 F2LLM-v2 的发布正满足这一需求。

开源资源一览

本研究秉承完全开放的原则，向社区提供完整的可复现资源：

| 资源 | 链接 | | — | — | | 📦 代码 | https://github.com/codefuse-ai/CodeFuse-Embeddings | | 🤗 模型 & 数据集 | https://huggingface.co/collections/codefuse-ai/codefuse-embeddings | | 📄 论文 | https://arxiv.org/abs/2605.15081 | | 📄 F2LLM-v2 技术报告 | https://arxiv.org/abs/2603.19223 |

全系列模型、完整训练数据以及训练代码全部开源，任何研究者与企业均可在此基础上进行复现、改进与二次开发。

为何这对开源社区意义重大？

ML-Embed 的开源不仅仅是发布几个模型权重，而是提供了一套端到端可复现的系统性解决方案：

🔬 方法层面：3D-ML 框架以极低的代码侵入性提供全生命周期效率优化，可直接应用于开发者自己的训练流程，并与 HuggingFace transformers、sentence-transformers 等主流框架完全兼容。

📊 数据层面：涵盖 282 种语言的大规模多语言训练集的开放，直接填补了开源社区在低资源语言嵌入数据方面的巨大空白，可作为未来多语言 NLP 研究的标准化数据平台。

🌍 公平性层面：论文用实验证明，对波兰语、越南语等长期被忽视的语言，仅凭充分的数据覆盖与合理的训练框架，就能实现超过 20 个百分点的性能飞跃——公平不是性能的代价，而是可以兼得的目标。

🔄 可复现性层面：在训练数据量仅为相似模型 1/6 的前提下达到或超越其性能，为资源有限的研究机构和开发者提供了切实可行的参考路径。

小结

ML-Embed 是一项从问题定义到解决方案都充分体现”开放精神”的工作：它用开源数据训练、用开源框架训练、开源全部成果，并将研究矛头指向那些最被边缘化的语言。

对于开源社区而言，ML-Embed 不仅是一套可以直接使用的高性能嵌入模型，更是一份构建全球公平、计算高效AI系统的完整蓝图。

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：OSC开源社区蚂蚁集团蚂蚁集团《ICML 2026 | ML-Embed：打破语言壁垒的多语言嵌入模型，登顶9项MTEB榜单，全面开源》