语言模型将了解视觉世界?OpenAI 120亿参数图像版GPT-3发布
极市平台
共 4454字,需浏览 9分钟
· 2021-01-07
↑ 点击蓝字 关注极市平台
作者丨贾伟 梦佳来源丨智源社区编辑丨极市平台
极市导读
OpenAI的联合创始人IIya Sutskever 曾在吴恩达编辑的 《The Batch周刊 - 2020年终特刊》上撰文称“2021年,语言模型将开始了解视觉世界”。元旦之后,OpenAI 立马为这个说法提供了佐证。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
- DALL·E:一个利用文本-图像数据集,有着120亿参数的“GPT-3”,可以根据文本生成各种各样的图像;
- CLIP:可以通过自然语言的监督来有效学习视觉概念,只需要提供要识别的视觉类别名称,利用CLIP便能够做任意的视觉分类,类似于GPT-2和GPT-3的 “Zero-shot”功能。
这两项工作的突破性是无疑的,但同时作为前奏,也让人更加期待 OpenAI 接下来的 GPT-4了。
![7067674bd3550b7356e0dc7a7ff5e85a.webp](https://filescdn.proginn.com/49f417905ab3b35b05277cb03441fbce/7067674bd3550b7356e0dc7a7ff5e85a.webp)
![f4c3d789b9bc95c54a664b1b34e4d3f9.webp](https://filescdn.proginn.com/89ecac0700132e79fdbebb2a15cb03f7/f4c3d789b9bc95c54a664b1b34e4d3f9.webp)
![4ebecb18032ea833671c310524ad5a03.webp](https://filescdn.proginn.com/b62905cd15ab131df50341f04429fb7d/4ebecb18032ea833671c310524ad5a03.webp)
1、控制同一个对象的不同属性
输入:一个五角形的绿色钟输出:![1504f4eea0189567dd3893943d3982e0.webp](https://filescdn.proginn.com/3cac0eaa37f2ea21cde10efb5d1f6bf0/1504f4eea0189567dd3893943d3982e0.webp)
2、同时控制多个对象以及它们的属性和空间关系
输入:一个小企鹅的表情,身着蓝帽子,红手套,绿衬衫,黄裤子输出:![104d673b88271dee5f64d959fd45ca02.webp](https://filescdn.proginn.com/f7193d39be576e7e3467427b27b328f1/104d673b88271dee5f64d959fd45ca02.webp)
3、视觉透视与立体:控制场景的视点,并渲染场景的 3D风格
输入:一只用体素做成的水豚坐在田野里输出:![2cf55a85def0c369fbe1edb46ca75c6d.webp](https://filescdn.proginn.com/01a356d89f2a6615e0afac066c9e9190/2cf55a85def0c369fbe1edb46ca75c6d.webp)
4、内部/外部结构可视化
输入:核桃的横截面图输出:![192453e733b937d93632851b97100960.webp](https://filescdn.proginn.com/b452d0c2390987747e18cc98ef39f3a8/192453e733b937d93632851b97100960.webp)
5、推断背景细节
将文本翻译成图像的任务具有不唯一性:给出一个文本,通常会有“无限多”中可能的图像。例如,“日出时分,一只水豚坐在田野上”,根据水豚的方向,可能需要画一个阴影,尽管这个细节在文本中并没有被明确地提及。 输入:日出时分,一只水豚坐在田野上输出:![3a92fc14eb4691deae8248d5d7ec838a.webp](https://filescdn.proginn.com/57fec55f338cf0ca6dd8957c0864f833/3a92fc14eb4691deae8248d5d7ec838a.webp)
6、时装设计、室内设计
输入:一个穿着黑色皮夹克和金色百褶裙的女性模特输出:![5922d2470936d908ba2a38aad4ae39b8.webp](https://filescdn.proginn.com/2bafa0dcf63255521369c9d93fb09e72/5922d2470936d908ba2a38aad4ae39b8.webp)
![cdf973c5c59960eb80f1f78a25cda31c.webp](https://filescdn.proginn.com/9db2f7ce894e7eaab3ee6885c2b8898d/cdf973c5c59960eb80f1f78a25cda31c.webp)
7、将不相关的概念进行结合
语言的组合特性使我们能够把完全不相关的概念放在一起,从而来描述真实的或想象的事物。利用DALL·E,可以将语言的这种特性快速地转移到图像上。 输入:一只竖琴做的蜗牛输出:![981e592e86e6508d5dfe1275d24802d6.webp](https://filescdn.proginn.com/3d7ac4e5e424671aa78d8000f9c31fe0/981e592e86e6508d5dfe1275d24802d6.webp)
8、动物插图
除了真实世界中不相关概念之间结合外,在艺术创作里面,有大量的可探索空间: 输入:一只长颈鹿和乌龟嵌合体输出:![a740706d06fe609cf51088366db891cf.webp](https://filescdn.proginn.com/a740706d06fe609cf51088366db891cf/a740706d06fe609cf51088366db891cf.webp)
9、零样本视觉推理
GPT-3可以执行多种任务,根据描述和提示来生成答案,而不需要任何额外的培训。例如,当提示语“ here is the sentence‘ a person walking his dog in the park’ translated into French: ”时,GPT-3回答“ un homme qui promène son chien dans le parc. ”这种能力称为零样本推理。DALL·E 可以将这种能力扩展到视觉领域,并且能够以正确的方式提示执行图像到图像的转换任务。 输入:和上面的真猫一模一样的猫的草图输出:
![06ce83a62a977c75bebcdd06daef126f.webp](https://filescdn.proginn.com/63290130ac85eb3b3ab534727e1e53a0/06ce83a62a977c75bebcdd06daef126f.webp)
![2879476ba4792b108050d3f46b9cb5e8.webp](https://filescdn.proginn.com/f89c6eee422463f579eacf6cdb6d9a7c/2879476ba4792b108050d3f46b9cb5e8.webp)
![f8a485d51ce2b05c1bf9c01a3f7b943c.webp](https://filescdn.proginn.com/18c43898091eb5f697ae934f556ac4fb/f8a485d51ce2b05c1bf9c01a3f7b943c.webp)
10、地理概念
作者发现 DALL·E 已经习得了地理知识、地标和社区等概念。它对这些概念的了解在某些方面呈现出惊人的精确,而在其他方面又有一定缺陷。 输入:一张中国菜的照片输出:(有些食物看起来怪怪的)![19c51b0c81ba3b42cf160459565df1c5.webp](https://filescdn.proginn.com/d79b68443bc7156f974fb9278e4f02b6/19c51b0c81ba3b42cf160459565df1c5.webp)
![f79f33efaf716d4f57a86065c243a217.webp](https://filescdn.proginn.com/f7775c0efdb8f3926a9508e37f42c558/f79f33efaf716d4f57a86065c243a217.webp)
11、时间概念
除了探索 DALL·E 对于不同空间的认知,作者也探索了其对时间变化的认知。 输入:20年代电话的照片![89a520df6e94d5365275a96b0fa86c81.webp](https://filescdn.proginn.com/6c151b3659aa6919f0eabf6264f1370e/89a520df6e94d5365275a96b0fa86c81.webp)
2 CLIP:零样本学习神器 与DALL·E 一同发布的还有神经网络CLIP(对比式语言-图像预训练,Contrastive Language–Image Pre-training)。 简单来说,它可以从自然语言监督中有效地学习视觉概念。CLIP 可适用于任何视觉分类基准,只需提供要识别的视觉类别的名称,类似于 GPT-2和 GPT-3 的“零样本学习”(zero-shot)能力。
![3f784769a47715dcc70d990a271c4a11.webp](https://filescdn.proginn.com/86b6b13ff9ced14cca95c835d4a6de31/3f784769a47715dcc70d990a271c4a11.webp)
1、方法
如下图所示,是CLIP的结构图:![f6b845176a761d3552f19cac953f39b1.webp](https://filescdn.proginn.com/74542c0b51effd71d293fcd5b69a16d6/f6b845176a761d3552f19cac953f39b1.webp)
2、优缺点
CLIP的方法可以解决基于标准深度学习做计算机视觉所遇到的许多问题,例如: 数据集昂贵:深度学习需要大量人工标注的数据,这些数据集构建的成本很高。ImageNet 需要超过25000名工作人员为22000个对象标注1400万张图像;相比之下,CLIP 可以从互联网上已经公开可用的文本图像中学习。 应用范围狭窄:在ImageNet 上训练的模型,即使可以预测1000个 ImageNet 类别,但也仅限于此,如果想要执行其他新数据集上的任务,就还需要进行调整。相比之下,CLIP 可以适用于执行各种各样的视觉分类任务,而不需要额外的训练示例。 现实场景中表现不佳:现有模型多能够在实验室环境中超过人类,但一旦部署到现实场景,性能便会大幅下降,原因在于模型仅通过优化基准性能来“欺骗”,就像一个通过仅研究过去几年考试中的问题而通过考试的学生一样。相反,CLIP模型可以根据基准进行评估,而无需训练其数据,于是这种“欺骗”方式便不再存在。 当然 CLIP 的局限性也很明显,- 它在较为抽象或者系统性的任务(例如计算图像中的对象数量)和更为复杂的任务(例如预测图像中最近的汽车有多远)上,表现并不是很好,仅比随机猜测好一点点。
- 对于训练集未覆盖的图像的概括性较差,例如尽管CLIP学习了更为复杂的OCR系统的数据,但在对MNIST数据集进行评估时,准确率仅为88%(人类为99.95%)
- CLIP的zero-shot分类器对文本的措辞表现敏感。
代码地址:
https://github.com/openai/CLIP
论文地址:
https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language.pdf
参考链接:
https://openai.com/blog/dall-e/
https://techcrunch.com/2021/01/05/openais-dall-e-creates-plausible-images-of-literally-anything-you-ask-it-to/
推荐阅读
添加极市小助手微信(ID : cvmart2),备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳),即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群:每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~
△长按添加极市小助手
△长按关注极市平台,获取最新CV干货
觉得有用麻烦给个在看啦~
![006268f290770e26e30fbf7da13aef61.webp](https://filescdn.proginn.com/e83a074983917b6bed2b82ff278d46ea/006268f290770e26e30fbf7da13aef61.webp)
评论