地表最强VLP模型！谷歌大脑和CMU华人团队提出极简弱监督模型，多模态下达到SOTA-技术圈

新智元报道

来源：arxiv

编辑：Priscilla 好困

【新智元导读】谷歌大脑与CMU华人团队提出全新图像+文本预训练模型SimVLM，在最简单的模型结构与训练方式下也能在6个多模态基准领域达到SOTA，与现有VLP模型相比泛化能力更强。

近年来，视觉-语言预训练（vision-language pretraining, VLP）取得了快速进展。

各个研究团队也提出了很多方法，但很大一部分都需要将图像区域特征回归的对象检测或标记作为预训练目标的一部分，如LXMERT等。

这些方法需要有强大的物体检测模型，如Fast(er) R-CNN，而所需训练集则要事先进行数据的标注，因此建立训练流水线的成本也会随之增加，模型的可扩展性也会降低。

另一方面，也有研究也提出了利用多种跨模态损失函数作为训练目标的一部分，如图像-文本匹配等。

这些函数经常与图像标注生成、MLM（masked language modeling）等其它目标混合在一起，形成复合预训练损失，导致不同损失和数据集之间难以平衡，从而令优化程序变得复杂。

为此，卡内基梅隆大学和谷歌大脑的团队提出了一个全新的图像-文本预训练模型SimVLM（Simple Visual Language Model）。

https://arxiv.org/pdf/2108.10904.pdf

SimVLM模型与现有的VLP模型有三大区别：

只使用了单一的预训练损失，是当前最简化的VLP模型；
只使用了弱监督，极大地降低了对预训练数据的要求；
使生成模型具备了极强的零样本能力，包含零样本跨模态迁移和开放式视觉问答（VQA）。

不仅如此，SimVLM在不使用任何trick和额外数据的情况下，同时在6种多模态基准上达到了SOTA，证明即使是最简单的架构和训练方式都能在多模态领域取得极佳的效果。

作者甚至发推直言：「PrefixLM is all you need for VLP!」

SimVLM

与之前的工作不同，SimVLM通过利用大规模弱监督来降低训练复杂度，并使用单个前缀语言建模目标进行端到端训练。

在不使用额外数据或针对特定任务的定制的情况下，生成的模型显着优于以前的预训练方法，并在包括VQA (+3.74% vqa-分数）、NLVR2（准确度+1.17%）、SNLI-VE（准确度+1.37%）和图像标注任务（平均CIDEr分数+10.1%）。

模型使用PreﬁxLM来保留视觉语言表征。PreﬁxLM与标准的语言模型不同，它能够对preﬁx序列应用双向注意力（如x<Tp），并只对剩余的标记进行自回归分解（如x≥Tp）。

直观地说，图像可以被认为是其文本描述的前缀，因为它们经常出在文本之前。

因此，对于一个给定的图像-文本对，将长度为Ti的图像特征序列预置到文本序列中，并强制模型对长度为Tp≥Ti的前缀进行采样，只计算文本数据的语言模型损失。

与之前的VLP方法相比，论文提出的方法不仅有MLM中的双向语境表征，而且还可以进行类似于LM的文本生成。

SimVLM模型

用PreﬁxLM训练图像-文本对的例子：对于纯文本的语料库，可以直接删除图像块，只使用文本标记。

结果分析

在零样本图像标注方面，SimVLM不仅能够捕捉现实世界的概念，而且还能提供对视觉输入的详细描述。

(a)零样本图像标注 (b)零样本跨模态德语图像标注 (c)生成式VQA (d)零样本视觉文本补全 (e)零样本开放式VQA。

解码后的样本能够解释有多个物体的复杂场景（如有饮料的桌子）；而且模型还显示出对细粒度抽象的理解，如具体的汽车品牌和型号（如阿斯顿-马丁）；甚至在对人类来说可能很棘手的挑战性图片上表现得很稳健，比如抽象的图片。

结果表明，模型能够学习到广泛的现实世界的概念，并能在零样本的情况下进行概括。

此外，研究团队对一组多样化的视觉-语言基准进行系统实验，包括视觉问答、图像标注、视觉推理和多模态翻译等。

不仅将SimVLM模型作为预训练微调范式中的通用VL表征学习进行检查，而且还研究了其对开放式VL理解的零样本泛化。

经过实验前的准备与微调，从数据中可以看出，SimVLM明显优于所有现有模型，并且在所有任务上都实现了SOTA。这表明SimVLM的生成式预训练方法非常有效，而且表征弱监督的简单框架足以学习高质量的多模态表征。

常见VL基准上视觉-语言预训练方法的单一模型结果

SimVLM的零样本性能与CoCo上的完全监督基准相当，在概念丰富的NoCaps基准上具有强大的泛化能力，比预训练模型获得的分数更高。

在CoCo和NoCaps上的不同测试结果

作者在GLUE基准测试中将SimVLM与现有的VLP模型进行了比较，结果显示，SimVLM的性能优于现有的VLP方法，与BERT性能相当，表明SimVLM具有良好的语言理解能力。

BERT与其他VLP在GLUE基准上的单一文本任务性能比对

与SOTA表征学习方法相比，对ImageNet分类的线性评估。

此外，作者根据上图的线性评估计算ImageNet上的top-1准确率。

结果显示，SimVLM模型也学习了高质量的图像表征。

所有实验都表明，SimVLM能够有效地捕获特定于模态的信息，为弱监督下更强的视觉语言理解奠定了坚实的基础。

团队介绍

王子瑞，论文一作，卡内基梅隆大学语言技术研究所的博士生在读。

此前在卡内基梅隆大学获得了计算机科学和数学的学士学位。

项目曾在SuperGLUE数据集上获得了第一个高于人类的SOTA性能（超过90分）。

研究方向为迁移学习，元学习，自然语言处理，计算机视觉。

Jiahui Yu，谷歌大脑的高级研究科学家。

于2020年在伊利诺伊大学厄巴纳-香槟分校获得博士学位。在2016年在中国科技大学获得了学士学位。

读博士期间曾在微软亚洲研究院、Face++/Megvii、Adobe Research、Snap Research、Jump Trading、百度研究院、Nvidia Research和谷歌大脑工作。

研究兴趣是序列建模（语言，语音，视频，金融数据），机器感知（视觉），生成模型（GANs），和高性能计算。

(Adams) Wei Yu，谷歌大脑的研究科学家。

毕业于卡内基梅隆大学，在2015年获得了自然语言处理的硕士学位，2019年获得机器学习的博士学位。

Zihang Dai，谷歌大脑的研究科学家。

本科就读于清华大学，并于2013年获得学士学位。2016年在卡内基梅隆大学获得计算机科学硕士学位，2020年获得博士学位。

Yuan Cao，谷歌大脑的研究科学家。

曾就读于上海交通大学电子工程专业，在2005年获得学士学位，2008年获得硕士学位。

2015年在约翰斯·霍普金斯大学获得博士学位。

Yulia Tsvetkov，华盛顿大学计算机科学与工程学院助理教授，于2016年获得卡内基梅隆大学博士学位。

参考资料：

https://arxiv.org/pdf/2108.10904.pdf