M3E开源中文 Embedding 模型新 SOTA-技术圈

M3E 是 Moka Massive Mixed Embedding 的缩写

M3E models 使用的数据集中包括大量非商用的数据集，所以 M3E models 也是非商用的，仅供研究使用。官方在 M3E 数据集上标识了商用和非商用的数据集，用户可以根据自己的需求自行训练。

	参数数量	维度	中文	英文	s2s	s2p	s2c	开源	兼容性	s2s Acc	s2p ndcg@10
m3e-small	24M	512	是	否	是	否	否	是	优	0.5834	0.7262
m3e-base	110M	768	是	是	是	是	否	是	优	0.6157	0.8004
text2vec	110M	768	是	否	是	否	否	是	优	0.5755	0.6346
openai-ada-002	未知	1536	是	是	是	是	是	否	优	0.5956	0.7786

说明：

兼容性，代表了模型在开源社区中各种项目被支持的程度，由于 m3e 和 text2vec 都可以直接通过 sentence-transformers 直接使用，所以和 openai 在社区的支持度上相当

Tips:

M3E 使用 in-batch 负采样的对比学习的方式在句对数据集进行训练，为了保证 in-batch 负采样的效果，我们使用 A100 80G 来最大化 batch-size，并在共计 2200W+ 的句对数据集上训练了 1 epoch。训练脚本使用 uniem，您可以在这里查看具体细节。

指令数据集，M3E 使用了 300W + 的指令微调数据集，这使得 M3E 对文本编码的时候可以遵从指令，这部分的工作主要被启发于 instructor-embedding

ALL IN ONE，M3E 旨在提供一个 ALL IN ONE 的文本嵌入模型，不仅支持同质句子相似度判断，还支持异质文本检索，你只需要一个模型就可以覆盖全部的应用场景，未来还会支持代码检索