谷歌提出多语言BERT模型:可为109种语言生成与语言无关的跨语言句子嵌入新智元关注共 2065字,需浏览 5分钟 ·2020-08-21 16:28 新智元报道 来源:Google编辑:雅新【新智元导读】谷歌研究人员提出了一种LaBSE的多语言BERT嵌入模型。该模型可为109种语言生成与语言无关的跨语言句子嵌入,同时在跨语言文本检索性能优于LASER。 近日,谷歌AI研究人员提出了一种称为LaBSE的多语言BERT嵌入模型,该模型可为109种语言生成与语言无关的跨语言句子嵌入。 这一论文题目为「Language-agnostic BERT Sentence Embedding」,目前已在arxiv上发表。 论文地址:https://arxiv.org/pdf/2007.01852.pdf研究背景多语言嵌入模型是一种功能强大的工具,可将不同语言的文本编码到共享的嵌入空间中,从而使其能够应用在一系列下游任务,比如文本分类、文本聚类等,同时它还利用语义信息来理解语言。 用于生成此类嵌入的现有方法如LASER或m~USE依赖并行数据,将句子从一种语言直接映射到另一种语言,鼓励句子嵌入之间的一致性。 尽管这些现有的多语言嵌入方法可在多种语言中有良好的整体性能,但与专用双语模型相比,它们在高资源语言上通常表现不佳。 此外,由于有限的模型容量、低资源语言的训练数据质量通常较差,可能难以扩展多语言模型以支持更多语言,同时保持良好的性能。多语言嵌入空间的示例 改善语言模型的最新研究包括开发掩码语言模型(MLM)预训练,如BERT,ALBER和RoBERTa使用的预训练。由于这种方法仅需要一种语言的文字,因此在多种语言和各种自然语言处理任务中均取得了非凡的成就。 另外,MLM预训练已经扩展到多种语言,通过将MLM预训练修改为包括级联翻译对,也称作翻译语言模型(TLM),或者仅引入来自多种语言的预训练数据。 但是,尽管在进行MLM和TLM训练时学习到的内部模型表示形式对下游任务进行微调很有帮助,但它们不能直接产生句子嵌入,而这对于翻译任务至关重要。 在这样情况下,研究人员提出了一种称为LaBSE的多语言BERT嵌入模型。 该模型使用MLM和TLM预训练在170亿个单语句子和60亿个双语句子对上进行了训练,即使在训练期间没有可用数据的低资源语言上也有效。 此外,该模型在多个并行文本检索任务上有表现出良好的性能。 收集109种支持语言的训练数据LaBSE模型可在单个模型中提供了对109种语言的扩展支持 在先前的工作中,研究者曾建议使用翻译排名任务来学习多语言句子嵌入空间。该方法通过给定源语言中的句子,对模型进行排序,从而对目标语言中的句子的正确翻译进行排名。 翻译排名任务通过使用带有共享变压器的双编码器体系结构进行训练的,让双语模型在多项并行文本检索任务表现出最先进的性能。 但是,由于模型能力、词汇量覆盖范围、训练数据质量等方面的限制,将双语模型扩展为支持多种语言(在研究者的测试案例中为16种语言)时,模型表现并不优。翻译排名任务 对于LaBSE,研究人员在类似BERT的体系结构上利用了语言模型预训练的最新成果,包括MLM和TLM,并在翻译排名任务上进行了微调。 使用MLM和TLM在109种语言上预先训练的500k令牌词汇表的12层转换器,用于增加模型和词汇表覆盖范围。 最终,LaBSE模型在单个模型中提供了对109种语言的扩展支持。双编码器体系结构LaBSE模型在跨语言文本检索的性能优于LASER研究者使用Tatoeba语料库评估提出的模型,Tatoeba语料库是一个数据集,包含多达112个语言的1000个英语对齐的句子对。 对于数据集中30种以上的语言,该模型没有训练数据。该模型的任务是查找给定句子的最近相邻的翻译,并使用余弦距离进行计算。 为了了解训练数据分布的开头或结尾处的语言模型的性能,研究人员将语言集分为几组,并计算每组语言的平均准确性。 下表列出了与每种语言组的m〜USE、LASER以及LaBSE模型实现的平均准确性对比结果。可以看出,所有模型在涵盖大多数主要语言的14语言组中均表现出色。当涵盖的语言增多,LASER和LaBSE的平均准确度都会下降。 但是,随着语言数量的增加,LaBSE模型的准确性降低的要小得多,明显优于LASER,尤其是当包括112种语言的全部分发时,LaBSE准确性为83.7%,LASER为65.5%。 此外,LaBSE还可用于从Web规模数据中挖掘并行文本。 谷歌研究人员已经通过tfhub向社区发布了预先训练的模型,其中包括可以按原样使用或可以使用特定于域的数据进行微调的模块。 链接:https://tfhub.dev/google/LaBSE/1 参考链接:https://ai.googleblog.com/ 浏览 37点赞 评论 收藏 分享 手机扫一扫分享分享 举报 评论图片表情视频评价全部评论推荐 XVERSE-13B支持多语言的大语言模型XVERSE-13B 是由深圳元象科技自主研发的支持多语言的大语言模型(Large LanguageTigerBot多语言多任务大语言模型TigerBot是一个多语言多任务的大规模语言模型(LLM)。根据OpenAIInstructGPT论文在公开NLP数据集上的自动评测,TigerBot-7B达到OpenAI同样大小模型的综合表现的9TigerBot多语言多任务大语言模型TigerBot 是一个多语言多任务的大规模语言模型 (LLM)。根据 OpenAI InstrucStarCoder代码生成语言模型StarCoder(150亿参数)是HuggingFace联合ServiceNow发布的免费大型语言模型,该模型经过训练主要用途是可以生成代码,目的是为了对抗GitHubCopilot和亚马逊CodeXVERSE-13B支持多语言的大语言模型XVERSE-13B 是由深圳元象科技自主研发的支持多语言的大语言模型(LargeLanguageModel),主要特点如下:模型结构:XVERSE-13B使用主流Decoder-only的标准TraStarCoder代码生成语言模型StarCoder(150 亿参数)是 Hugging Face 联合 ServiceNow 发布的书生·浦语多语言大型语言模型InternLM(书生·浦语)是在过万亿 token 数据上训练的多语千亿参数基座模型。通过多阶段的书生·浦语多语言大型语言模型InternLM(书生·浦语)是在过万亿token数据上训练的多语千亿参数基座模型。通过多阶段的渐进式训练,InternLM基座模型具有较高的知识水平,在中英文阅读理解、推理任务等需要较强思维能力的场PERT基于 BERT 的预训练语言模型在自然语言处理领域中,预训练语言模型(Pre-trainedLanguageModels,PLMs)已成为非常重要的基础技术。在近两年,哈工大讯飞联合实验室发布了多种中文预训练模型资源以及相关配套工具PERT基于 BERT 的预训练语言模型在自然语言处理领域中,预训练语言模型(Pre-trained Language Models,PLM点赞 评论 收藏 分享 手机扫一扫分享分享 举报