多模态图像版「GPT-3」来了！OpenAI推出DALL-E模型，一句话即可生成对应图像-技术圈

新智元报道

来源：OpenAI

编辑：Q、小匀

【新智元导读】OpenAI又放大招了！今天，其博客宣布，推出了两个结合计算机视觉和NLP结合的多模态模型：DALL-E和CLIP，它们可以通过文本，直接生成对应图像，堪称图像版「GPT-3」。

比GPT-3更牛的东西，还真被Open AI 搞出来了。

最近，OpenAI官宣了一个基于Transformer的语言模型--DALL-E，使用了GPT-3的120亿参数版本。取名DALL-E，是为了向艺术家萨尔瓦多-达利（Salvador Dali ）和皮克斯的机器人WALL-E致敬。

图: 从文本「一个穿着芭蕾舞裙遛狗的萝卜宝宝」生成的图像示例

根据文字提示，DALL-E生成的图像可以像在现实世界中拍摄的一样。

同时测试表明，DALL-E也有能力对生成的图像中的物体进行操作和重新排列，但也能创造出一些根本不存在的东西，比如一个鳄梨形状的扶手椅：

又或者是「一个长颈鹿乌龟」：

GPT-3表明，语言可以用来指导大型神经网络执行各种文本生成任务。而Image GPT表明，同样类型的神经网络也可以用来生成高保真度的图像。这个突破说明通过文字语言来操纵视觉概念现在已经触手可及。

此外，它还展示了一些意想不到但有用的行为，包括使用直觉逻辑来理解请求，比如要求它为同一只(不存在的)猫画多幅草图：

DALL·E：很强大，但仍有缺陷

和GPT-3一样，DALL-E也是一个Transformer语言模型。它同时接收文本和图像作为单一数据流，其中包含多达1280个token，并使用最大似然估计来进行训练，以一个接一个地生成所有的token。这个训练过程不仅允许DALL-E可以从头开始生成图像，而且还可以重新生成现有图像的任何矩形区域，与文本提示内容基本一致。

研究人员测试了DALLe修改一个对象的几个属性的能力，以及它出现的次数。

例如，用豪猪做成的立方体vs有豪猪纹理的立方体：

有些也有语义上的歧义，比如：a collection of 「glasses」 sitting on the table

同时控制多个对象、它们的属性以及它们的空间关系，对模型提出了新的挑战。例如，考虑 "一只刺猬戴着红色的帽子、黄色的手套、蓝色的衬衫和绿色的裤子 "这句话，为了正确解释这个句子，DALL-E不仅要正确地将每件衣服与动物结合起来，而且要形成（帽子，红色）、（手套，黄色）、（衬衫，蓝色）和（裤子，绿色）的关联，不能将它们混为一谈。

研究人员测试了DALLe在相对定位、堆叠对象和控制多个属性方面的能力。例如：一个Emoji的小企鹅，带着蓝帽子，红手套，穿着黄裤子。

虽然DALL-E确实在一定程度上提供了对少量物体属性和位置的可控性，但成功率可能取决于文字的措辞。当引入更多的对象时，DALL-E容易混淆对象及其颜色之间的关联，成功率会急剧下降。研究人员还注意到，在这些情况下，DALL-E对于文字的重新措辞是很脆弱的：替代的、语义等同的标题往往也不会产生正确的解释.

而有趣的是，OpenAI 的另一个新系统 CLIP 可以与 DALL-E 联合使用，以理解和排序问题中的图像。

CLIP：减少对海量数据集的依赖

OpenAI一起推出的CLIP(Contrastive Language–Image Pre-training)是一个从互联网上收集的4亿对图像和文本来进行训练的多模态模型。

它可以从自然语言监督中有效地学习视觉概念，可以应用于任何视觉分类基准，只需提供要识别的视觉类别的名称，类似于 GPT-2和GPT-3的”zero-shot learning”能力。

CLIP使用了丰富的互联网上的与图像配对的文本，这些数据被用来为CLIP创建一个训练任务：通过预训练图像编码器和文本编码器来预测给定一张图像与数据集中的一组32768个随机采样的文本片段中的哪些文本真正配对。然后使用结果将 CLIP 转换为zero-shot分类器。最后，将一个数据集的所有类别转换成文字，并预测文本的类别与给定图像的最佳对应关系。

"我们发现，CLIP与GPT类似，在前期训练中可以学习执行一系列广泛的任务，包括物体字符识别（OCR）、地理定位、动作识别等。我们通过在超过30个现有数据集上对CLIP的zero-shot转移性能进行基准测试来衡量，发现它可以与之前的特定任务监督模型相媲美。"12位OpenAI合作者关于该模型的论文中写道。

虽然深度学习给计算机视觉带来了革命性的变化，但目前的方法存在几个主要问题：典型的视觉数据集的创建需要耗费大量的人力和成本，标准的视觉模型只擅长一种任务和一种任务，需要付出巨大的努力才能适应新的任务；在基准上表现良好的模型在压力测试中的表现令人失望，这让人们对整个计算机视觉的深度学习方法产生了怀疑。

设计 CLIP 就是为了解决计算机视觉深度学习方法中的一些主要问题:

1.昂贵的数据集:

深度学习需要大量的数据，而视觉模型传统上采用人工标注的数据集进行训练，这些数据集的构建成本很高，而且只能提供有限数量的预先确定的视觉概念。例如，ImageNet 数据集就需要超过25000名工作人员为22000个对象类别标注1400万张图像。

而相比之下，CLIP 可以从互联网上已经公开可用的文本图像对中学习。减少昂贵的大型标注数据集的需求已经被广泛研究，尤其是自监督学习、对比方法、自训练方法和生成式模型等。

2.范围狭窄：

一个ImageNet模型擅长预测1000个ImageNet类别，但如果我们希望它执行其他的任务，就需要建立一个新的数据集，添加一个输出，并对模型进行微调。

相比之下，CLIP可以适应执行各种各样的视觉分类任务，而不需要额外的训练样本。为了将CLIP应用于一个新的任务，我们只需要将任务的视觉概念名称 "告诉 "CLIP的文本编码器，它就会输出一个CLIP视觉表示的线性分类器。这个分类器的准确度通常可以和监督模型相媲美。

通过设计，该网络可以用自然语言指导它执行大量的分类基准，而不直接优化基准的性能，类似于GPT-2和GPT-3的 "zero-shot "能力。

这是一个关键的变化：通过不直接优化基准，使得结果变得更有代表性：CLIP系统将这种 "robustness gap" 缩小了75%，同时在不使用任何原始的1.28M个已标注样本的情况下，在ImageNet zero-shot上接近ResNet50的性能。

虽然测试发现 CLIP 精通多项任务，但测试也发现 CLIP 在诸如卫星地图分类或淋巴结肿瘤检测等专业任务上存在不足。

这一初步分析旨在说明通用计算机视觉模型所带来的一些挑战，并对其偏差和影响一窥究竟。研究人员希望这项工作能够激励未来对此类模型的能力、缺点和偏见的表征进行研究，以便加速这一领域的发展。

OpenAI首席科学家Ilya Sutskever是这篇详细介绍CLIP的论文作者之一，他最近表示，多模态模型将在2021年成为机器学习的主要趋势。

而谷歌AI负责人Jeff Dean也在2020年做出了类似的预测。

DALL-E和CLIP等类似的一系列生成模型，都具有模拟或扭曲现实来预测人们如何绘制风景和静物艺术的能力。比如StyleGAN，就表现出了种族偏见的倾向。

而从事CLIP和DALL-E的OpenAI研究人员呼吁对这两个系统的潜在社会影响进行更多的研究。GPT-3显示出显著的黑人偏见，因此同样的缺点也可存在于DALL-E中。在CLIP论文中包含的偏见测试发现，该模型最有可能将20岁以下的人错误地归类为罪犯或非人类，被归类为男性的人相比女性更有可能被贴上罪犯的标签，这表明数据集中包含的一些标签数据存在严重的性别差异。

参考链接：

https://openai.com/blog/dall-e/