ACL 2021 | 百度NLP开源语言与视觉一体的统一模态预训练方法，登顶各类榜单-技术圈

视学算法报道

机器之心编辑部

百度首创地提出了语言与视觉一体的预训练方法 UNIMO，提供了一种新的统一模态学习范式，打破了文本、图像和图文对等数据间的边界，让机器可以像人一样利用大规模异构模态数据，学习语言知识与视觉知识并相互增强，从而实现感知与认知一体的通用 AI 能力。

百度在 2021 年深度学习开发者峰会 WAVE SUMMIT 上开源了语言与视觉一体的预训练模型 ERNIE-UNIMO，其核心方法 UNIMO 已经被 NLP 顶级会议 ACL 2021 主会正式录用为 oral 长文。

在机器之心 7 月 31 日举办的 ACL 2021 论文分享会上，本文第一作者李伟详细介绍了他们的这项研究成果，感兴趣的同学可以点击阅读原文查看回顾视频。

AI 系统能否像人一样，使用一个统一的大脑模型，实现感知认知一体的通用能力？基于此出发点，百度提出的 UNIMO 试图构建面向各种不同模态的统一预训练模型。

论文地址：https://arxiv.org/abs/2012.15409

代码地址：https://github.com/PaddlePaddle/ERNIE/tree/develop/ernie-unimo

此方法首创的同时还能学习大量的文本、图像、图文对数据，通过跨模态对比学习，有效的让语言知识与视觉知识进行统一表示和相互增强。UNIMO 在语言理解与生成、跨模态理解与生成，4 类场景共 13 个任务上超越主流的文本预训练模型和跨模态预训练模型，同时登顶视觉问答榜单 VQA、文本推理榜单 aNLI 等权威榜单，首次验证了通过非平行的文本与图像等单一模态数据，能够让语言知识与视觉知识相互增强。目前 UNIMO 已经逐步在百度的产品中落地应用。

UNIMO 方法介绍

大数据是深度学习取得成功的关键基础之一。根据应用数据的模态不同，深度学习应用领域大体包括：在文本数据上进行自然语言处理，在视觉数据上进行视觉应用，在图文数据上进行跨模态应用。显然，人类大脑对各种模态数据的学习并非独立的，比如，人类大脑在看到图片之后能够自动联想到相关的语言知识，反之亦然。对各种模态数据的融会贯通，使得人类能够充分学习各类语言、视觉、语音知识并相互增强，通过统一的模型展现出强大的智能水平。那么，基于深度学习的 AI 系统是否也能像人一样同时学习异构模态数据呢？如果能够实现，无疑将进一步打开深度学习对大规模数据利用的边界，从而进一步提升 AI 系统的感知与认知一体的通用 AI 能力。

为此，百度提出面向异构模态数据的统一预训练方法 UNIMO，同时使用文本、图像和图文对数据进行训练，学习文本和图像的统一语义表示，从而具备同时处理多种单一模态和跨模态下游任务的能力。UNIMO 的核心模块是一个 Transformer 网络，在具体训练过程中，文本、图像和图文对三种模态数据随机混合在一起，其中图像被转换为目标（object）序列，文本被转换为词（token）序列，图文对被转换为目标序列和词序列的拼接。UNIMO 对三种类型数据进行统一处理，在目标序列或者词序列上基于掩码预测进行自监督学习，并且基于图文对数据进行跨模态对比学习，从而实现图像与文本的统一表示学习。进一步的，这种联合学习方法也让文本知识和视觉知识互相增强，从而有效提升文本语义表示和视觉语义表示的能力。

异构模态的统一预训练最大的挑战是如何跨越不同模态间的语义鸿沟从而实现语义表示的统一。如下图所示，UNIMO 提出了创新的跨模态对比学习方法，同时引入相关联的图文对数据、文本数据和图像数据进行联合对比学习。具体地，UNIMO 通过文本改写的方式，对图文对进行数据增广，获得大量的正例和强负例图文对数据。同时为了更好的利用文本和图像数据，UNIMO 通过文本与图像检索，获得相关的图像和文本作为正例。这样利用扩充后的多种类型的正例以及高质量强负例，UNIMO 在统一的语义空间上进行联想对比，从而能够学习到精确对齐的跨模态语义表示。

UNIMO 实验结果

在实验方面，UNIMO 使用了大量的文本、图像和图文数据进行联合学习，同时在各种单一模态和跨模态下游任务上进行验证。预训练数据部分，文本语料包括 Wikipedia、BookCorpus、OpenWebText 等共 54G 语料；图像数据是从互联网爬取的 170 万张图像；而图文对数据则包括 COCO Caption、Visual Genome、Conceptual Caption、SBU Caption。下游任务既包括图文搜索、视觉问答、图描述生成、视觉推断等跨模态任务，也包括文本分类、阅读理解、文本摘要、问题生成等各种文本任务。模型上，Base 基于 12 层的 Transformer，而 Large 使用 24 层。

在跨模态任务上，论文主要对比 ViLBERT、UNITER、Oscar、Villa 等最新的跨模态预训练模型。实验结果表明，UNIMO 在图文检索 Flick、视觉推断 SNLI-VE、视觉问答 VQA、图描述生成 CoCo Caption 上均稳定地超过此前的各种预训练模型，充分说明了统一预训练 UNIMO 模型能够有效地处理各种跨模态任务。

特别地，UNIMO 同时还能处理纯文本任务。此前的跨模态预训练模型，在处理纯文本任务的时候效果急剧下降，部分任务下降幅度甚至超过 10-20 个点。而 UNIMO 在各类文本理解和生成任务上，包括文本分类、文本推断、文本摘要、阅读理解和问题生成，均取得不错的效果，超过 RoBERTa、XLNet、UniLM 等经典文本模型。

为了验证 UNIMO 进行单一模态和跨模态统一学习的必要性，论文进行了分离实验。实验结果表明，当不使用文本数据进行预训练的时候，UNIMO 在跨模态任务上效果有所下降。而当不使用图文对数据和图像数据的时候，UNIMO 在文本任务上同样会下降。这充分说明，UNIMO 统一学习的方式，能够让文本知识与视觉知识相互增强，有效提升任务效果。

UNIMO 应用

UNIMO 可以支持各类文本与跨模态任务，既可以支持以文搜图和以图搜文，也能支持根据图片生成文字描述、根据文字描述自动生成图片，还支持对图片内容进行问答。当然，UNIMO 也支持纯语言的任务，如文本推理、阅读理解、文本生成等。从实际应用任务的结果来看，研究发现 UNIMO 能够让视觉和语言互相增强，从而实现更好的应用效果。目前部分技术已经开始在百度搜索中落地，帮助用户获取更符合需求的图片、视频。这里看下实际任务上的样例效果。

跨模态检索：以文搜图、以图搜文

UNIMO 能够根据文字描述搜索相关图片，或者根据图片搜索相关文本描述。从结果上看，UNIMO 能够更准确的理解文字或图片的语义，检索出更匹配的图片或文字。

跨模态问答:

UNIMO 也支持使用自然语言对图片内容进行提问。UNIMO 能理解图片中的内容和概念，并结合模型学习到的背景知识，准确的进行推理回答。

跨模态生成：根据文字生成图片

UNIMO 能够根据文字描述生成对应的图片。从结果中，我们可以发现 UNIMO 能够很好的对齐视觉和语言的属性和概念，从而生成准确清晰的图片。

百度首创地提出了语言与视觉一体的预训练方法 UNIMO，提供了一种新的统一模态学习范式，打破了文本、图像和图文对等数据间的边界，让机器可以像人一样利用大规模异构模态数据，学习语言知识与视觉知识并相互增强，从而实现感知与认知一体的通用 AI 能力。或许，异构模态的统一学习是迈向通用人工智能的关键节点之一。未来百度将在统一模态学习上做出更多工作和应用，敬请期待。

转载请联系原公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

点个在看 paper不断！