资讯 人工智能
此为临时链接,仅用于文章预览,将在时失效

ICML 2026 | ML-Embed用一个框架打破嵌入模型的三重壁垒

作者:陈淑瑜
2026/06/15 14:27

来源:公众号“PaperAgent”

原文链接:https://mp.weixin.qq.com/s/ECLRTHebLtIfjmZhbaJ4hA?scene=1&click_id=24

想象一下:全球有超过7000种语言,而当你用波兰语、越南语、波斯语或印地语向 AI 系统提问时,它理解你的能力可能远不及英语用户的十分之一。

这不是模型能力的问题,而是结构性的资源分配失衡。

文本嵌入(Text Embedding)是现代 AI 的语义核心——它将文字转化为高维向量,支撑着搜索、问答、RAG 等一系列核心应用。然而,这个看似基础的组件,正在悄然制造三道壁垒:

壁垒一:计算门槛越来越高。 基于 Qwen3 等大语言模型训练嵌入模型,动辄需要数百亿参数规模的算力,绝大多数研究机构难以企及。

壁垒二:语言覆盖严重失衡。 看下面这张表——截至2026年2月,MTEB 波兰语榜单上有完整测评结果的模型只有1个,而英语和多语言榜单各有近150个。

ICML 2026 | ML-Embed用一个框架打破嵌入模型的三重壁垒

壁垒三:研究黑箱化。 顶尖模型要么闭源 API,要么只开放权重不开放训练细节,可复现研究举步维艰。

来自蚂蚁集团与上海交通大学的研究者决定正面迎击这三个问题,提出了 ML-Embed 模型,并被 ICML 2026收录。

ICML 2026 | ML-Embed用一个框架打破嵌入模型的三重壁垒

核心思路:把"套娃"思想延伸到三个维度

ML-Embed的方法论核心是 3D-ML(3-Dimensional Matryoshka Learning)——一个将俄罗斯套娃(Matryoshka)嵌套训练原则扩展到三个不同维度的统一训练框架。

ICML 2026 | ML-Embed用一个框架打破嵌入模型的三重壁垒

用一句话概括:3D-ML 让模型在训练、推理、存储的全生命周期中都可以按需缩小,而不损失核心能力。

这三个维度分别对应三种技术:

维度一:MEL——让嵌入层瘦身而不失忆

嵌入层(Embedding Layer)是多语言模型的词汇表接口,负责将词元映射为向量。问题是,它的参数量往往惊人——在基于 Qwen3-0.6B 的嵌入模型中,嵌入层参数占总参数的 1/4

传统做法是完整训练这个庞大矩阵,或者用LoRA只更新增量。MEL(Matryoshka Embedding Learning) 走了第三条路:

对原始嵌入矩阵  进行SVD分解,截断为两个低秩矩阵  和 ,训练时只更新这两个小矩阵。

更关键的是,每次前向传播时,MEL会动态采样一个子秩 ,强迫模型把最重要的信息压缩进前几个分解维度——这正是"套娃"的精髓:最核心的信息永远在最内层

推理时有两种部署选项:

  • 兼容模式:把  相乘还原为标准矩阵,无需改动任何推理代码;
  • 效率模式:直接部署低秩分解矩阵,显存大幅减少,适合端侧或资源受限场景。

MEL 与 LoRA 的关键区别在于:它不仅减少了可训练参数,也减少了推理时的总参数量,是真正意义上的端到端压缩。

维度二:MLL——让层数变成旋钮而非固定值

MLL(Matryoshka Layer Learning) 的思路更直接:在训练时,同时对多个中间层施加损失,让浅层子模型也能独立胜任嵌入任务。

推理时,只需修改配置文件里的 num_hidden_layers 参数,即可得到不同深度的模型——不需要重新训练,不需要复杂剪枝,一个模型,N种深度

对数间隔的层集合(如 {1, 2, 4, 8, 16, 32})确保了从浅到深的覆盖,每一层输出都经过最终层归一化处理,保持表征的一致性。

维度三:MRL——让向量维度按需截断

MRL(Matryoshka Representation Learning) 来自2022年 NeurIPS 的同名工作,核心思想是:训练时同时优化不同长度的向量前缀,让截断后的短向量也有效。

在3D-ML中,MRL并非孤立模块,而是与 MLL 深度集成:对每一个MLL层的输出,同时施加多个 MRL 维度的对比损失。

统一损失函数

三者的联合优化目标如下:

其中  是第  层在维度  下的表征函数。

数据:从英中中心到真正的全球覆盖

方法创新之外,ML-Embed 的另一大贡献是数据集本身。

研究者从121个公开数据源汇聚了 5000万训练样本,覆盖 282种自然语言(ISO-639-3编码)和 40余种编程语言。语言分布如下图所示,从英语、中文到西班牙语、阿拉伯语,再到低资源语言的长尾:

ICML 2026 | ML-Embed用一个框架打破嵌入模型的三重壁垒

对比之下,目前最具代表性的开源数据集 KaLM-Embedding 的数据仅用英语/中文/多语言三个粗粒度标签标注,且绝大多数数据集中在英文(49.4%)和中文(44.4%)。ML-Embed 的数据分布则真正反映了世界语言的多样性。

训练采用 两阶段策略

  1. 第一阶段:在约2700万大规模检索数据上预热,建立基础语义理解;
  2. 第二阶段:在全部数据源混合采样约830万样本上微调,加入任务指令,增强多任务适应性。

值得注意的是,ML-Embed 的总训练数据量仅为同类SOTA模型的约1/5

模型
第一阶段数据量
第二阶段数据量
数据开放?
Qwen3-Embedding
150M
12M
EmbeddingGemma
153M
10M
KaLM-Embedding
100M
5M
ML-Embed (Ours)27M8M

实验结果:9项MTEB榜单SOTA,低资源语言大幅领先

在17个MTEB基准、共430个任务上的全面评测中,ML-Embed-8B 在其中9项刷新SOTA记录

ICML 2026 | ML-Embed用一个框架打破嵌入模型的三重壁垒

低资源语言上的进展尤为显著:

语言/基准
提升幅度
波兰语
+22.89
越南语
+6.88
印地语系
+6.61
德语
+6.47
日语
+4.63
荷兰语
+4.26
北欧语系
+3.93
欧洲语系
+4.40
法语
+1.54

在英语和多语言综合榜单上,各规模模型也达到 Top-5 水平,且从 140M 到 8B 呈现出清晰稳定的规模扩展趋势。

消融实验:每个组件都在做什么贡献?

MLL + MEL 的协同效应

ICML 2026 | ML-Embed用一个框架打破嵌入模型的三重壁垒

这张图揭示了一个非常有趣的现象:

  • 单独使用 MLL:可以用一次训练成本得到深度可变的模型,代价是浅层模型略逊于专门训练的对应深度模型;
  • 引入MEL之后:通过大幅压缩嵌入层参数,在相同参数预算下可以部署更深的模型

具体数字:4层的 MLL+MEL 模型参数量约170M,与1层基线模型相当——但性能高出15分;在相同性能水平下,体积缩小3倍

MEL 的鲁棒性:SVD 压缩的边界在哪里?

ICML 2026 | ML-Embed用一个框架打破嵌入模型的三重壁垒

这个实验回答了一个关键问题:能否在推理时直接对嵌入矩阵做 SVD 分解来节省显存?

结论是鲜明的:

  • 直接对基线模型做 SVD 分解:性能从69.68骤降至53.25,灾难性崩溃;
  • 仅使用分解形式训练(无套娃目标):鲁棒性提升,但随秩减少仍有明显下降;
  • MEL 训练的模型:即便减小至秩64,仍保持64.30的高分,下降曲线极为平缓。

MEL 的套娃训练目标强迫模型将关键信息集中在低秩空间的前几个维度,这正是其鲁棒性的来源。

数据对比:更广不等于更弱

ICML 2026 | ML-Embed用一个框架打破嵌入模型的三重壁垒

在相同底座、相同训练流程下,分别用 ML-Embed 数据和 KaLM-Embedding 数据训练 0.6B 模型:

  • ML-Embed 数据在17个基准中的9项表现更优,尤其在代码基准领先显著;
  • KaLM-Embedding 数据在中文上具有优势(符合其数据分布的预期);
  • 其余7个基准(韩语、波兰语、荷兰语、印地语等)两者相当。

这说明:语言多样性的提升,并不以牺牲主流语言性能为代价

框架的泛化性:不只适用于 Qwen3

为验证 3D-ML 的普适性,研究者在 EuroBERT-210M 上额外进行了实验,对比三种设置:

模型
平均分
EuroBERT基线(210M)
60.38
结构剪枝到 120M + 微调
44.10
3D-ML 训练后剪枝到 120M56.77

3D-ML训练后剪枝的模型,相比直接结构剪枝,平均分高出12.67分,性能损失极小(相对于 210M 基线仅损失3.61分),验证了框架的广泛适用性。

开源与可复现性:打破透明度壁垒的承诺

与许多顶尖嵌入模型截然不同,ML-Embed做到了真正意义上的全量开源:

训练代码:https://github.com/codefuse-ai/CodeFuse-Embeddings
模型权重 & 数据集:https://huggingface.co/collections/codefuse-ai/codefuse-embeddings
论文:https://arxiv.org/abs/2605.15081


长按图片保存图片,分享给好友或朋友圈

正在生成分享图...

取消
相关文章