冰墩墩设计师都在玩的AI创作，这次大模型出圈了！-技术圈

点击上方“视学算法”，选择加"星标"或“置顶”

重磅干货，第一时间送达

梦晨发自凹非寺
量子位 | 公众号 QbitAI

这是疫情之下的第三个元宵节了。

或许你已经结束假期回到工作的城市，又或许连续几年没能回家了。在防疫措施下，这个节日未免显得冷清。

不过热闹并没有消失，只是转移到了网络上。

中国青年报联合百度发起的#我们一起画月亮#在微博火了，连冰墩墩设计团队负责人曹雪都来体验。

同属奥运圈的国际奥委会成员小萨马兰奇、短道速滑运动员韩天宇也来参与。

还有演艺界的王一博、魏大勋、杨迪、孔雪儿、哈妮克孜，以及知名博主Papi酱……

乍看以为是一个常见的H5刷屏，仔细一看，竟然是AI大模型的首次破圈，让广大普通用户都体验了一下AI创作艺术。

具体来说，只需告诉AI想去哪里看月亮，就能得到AI为你创作的一张元宵月景，另外配诗一首。

比如小萨马兰奇想看他家乡西班牙的月，AI就画出一副南欧风景，画风也是西式油画。

到了韩天宇，他想看北京的月，AI画风也切换得更像中式山水。

要注意这画、这诗都是AI全新创作的，在网上不会有一模一样的。

画作中细节丰富的月亮也不是一般月亮，原型是“嫦娥一号”探月卫星拍摄数据制作成的中国第一张全月影像。

AI画作中的月亮正是由这张全月影像图变化而来，更具纪念意义。

如果输入自己家乡的名字，就可以看到AI对你那里有什么印象。

或者让AI画一份你目前所在地的月景，还可以填上收件人生成元宵贺卡分享给远方的亲人，用科技的方式体验一把“千里共婵娟”。

不按常理出牌的话，还可以来扫码试试火星或冬奥会等非常规场景，考验一下AI脑洞有多大。

只根据寥寥几个字画出一张细节丰富的绘画作品，对人来说都非易事，对AI来说更是如此。

既要让图像与文字描述相符又要保证图像本身的质量，尤其是用户可以随意输入文本的这种，很多情况AI都是第一次见，怎么就知道要往上画什么呢？

AI如何决定画什么？

AI根据文字画出图像这种能力一般叫做跨模态生成。

模态，指的是文本、图像、视频等不同的信息表现形式。

跨模态，则是把不同类型的信息结合起来。比如图像搭配上文本组成一对，让AI去学习它们之间的关系。

简单来说，AI会把文本以字或词为单位拆开，编码成向量组成的序列。图像经过计算也可以编码成向量序列。

接下来AI要学习两件事：

第一，根据文本序列预测出图像序列的内容。

第二，根据预测出的图像序列再重建成图像。

通过这个过程，AI可以理解到特定文本和图像之间的对应关系。

基础一些的，像颜色、形状的文字描述及对应的图像特征。

高阶一点的，还可以是更综合的概念，比如当文字中的埃及，AI就知道标志性景观有金字塔。

具体到这次元宵赏月活动，AI技术的提供方是百度，用到的是文心大模型。

大模型的“大”一方面在训练数据量，跨模态能力上，百度用了1.45亿组高质量中文图文对做训练。另一方面，跨模态部分的参数规模也有100亿。

除了练得多、规模大，文心大模型的跨模态能力与同类AI模型相比还有一项创新之处。

首创的跨模态统一建模，让AI同时学习文本到图像和图像到文本两个方向的任务，两个模块之间学到的参数共享。

这样做的好处，可以用人类学外语来理解。

相当于先练一遍中译英，再倒过来练一遍英译中，对词汇、语法之间对应关系的理解就更深了。

其他的技术创新还有不少，比如端到端的训练流程能同时加强编码器和解码器性能等，这里不再一一详述。

有了种种新技术加持，文心跨模态大模型在同类模型对比中取得了领先成绩，特别是在零样本任务大幅领先国内外。

△FID越低代表生成图像的数据分布越接近真实图像

当然，画好不好看不能光看数据质量，还得符合人类审美。

在人类评估中，文心跨模态大模型在图像清晰度、纹理品质、与文本的相关性三个指标也取得领先。

看分数指标不直观的话，不如再看一些实例。

登录文心大模型官网，便能在线体验它的跨模态生成能力。

根据同样一段文字描述，文心跨模态大模型可以切换不同画风。

把白话描述换成更抽象的古诗，AI也能准确理解并配上画面。

AI诗词作画这项能力也在文心大模型官网上开放了体验，地址可以在文末获取。

倒过来，根据图像也可以生成文本描述。

△来自论文arxiv.org/abs/2112.15283

实际上，跨模态大模型只是百度文心大模型中的一个组成部分。

目前，文心大模型系列除了跨模态，还包含NLP（自然语言理解）大模型、CV（计算机视觉）大模型，既有基础通用的大模型，也包含面向医疗、金融等重点领域、重点任务的大模型，以及丰富的工具与开发平台。

文心大模型整体上与其他家大模型相比有个核心特色——知识增强。

除了海量训练数据外，文心大模型还从拥有5500亿事实的百度知识图谱中持续学习。

在知识的指导下，AI能够更快地学习到海量数据中蕴含的规律，表现出来的也就更加智能，特别是在零样本能力上领先于纯大数据训练出来的模型。

一方面能节省人工标注数据的昂贵成本，另一方面更是为本身就缺少足够数据的场景带来更大想象空间。

在AI内容生成（AIGC）方面，也很考验大模型的零样本能力。

究其原因，AI生成的内容是要直接呈现给消费者，或AI直接与人类互动，人就是最大的不确定性。

这次的元宵节AI作画活动便是一个好例子，生成的画作和诗词广受好评，经受住了网友们的考验。

除了跨模态大模型外，文心NLP大模型也有出色的零样本生成能力。

无需标注任何样本，便可以根据用户指定的体裁、情感、长度、主题、关键词等属性，生成不同类型的文本。

这一点也可以在文心大模型官网上动手体验。

文心大模型家族里各个成员的理解和生成能力，逐步可胜任文字、图像、视频在内的互联网用户消费的主要内容的规模化生产。

一个AI生成内容（AIGC）的新时代，即将开启。

以文生图只是AIGC的冰山一角

如今互联网上的每个人每天都在消费大量的内容。

从你正在阅读的这篇文章，到微博，到直播、短视频、游戏，形式越来越多样的内容都抢占用户的时间和注意力。

微博靠降低用户用文字表达自己的门槛而流行，短视频让更多普通人靠手机就能分享自己的生活而火爆。

不断提升内容多样性和交互性，持续降低制作门槛、提升内容生产效率是每种内容都在追求的发展方向。

于是，AI协助下的内容生产逐渐走向台面。

手机拍照用上各种AI对焦、修图，各大网络平台纷纷实装文章一键转视频、AI自动朗读文字等功能。

除了摆在台面上的数字消费类内容，广义的生成式AI也在更多看不见的地方发挥着价值。

比如去年程序员们津津乐道的GitHub Copliot，AI通过理解编程语言与自然语言间的关系可以辅助人类程序员写代码、写注释。

文心大模型的文档理解能力，在保险行业可以辅助业务员处理一份合同的时间缩短到1分钟，业务效率提升30倍。

像文心大模型这样的以文生图能力，甚至可以用在线下实物产品的生产上。

比如AI辅助人类设计师做服装设计和工业设计，节省大量重复劳动时间、降低生产成本。

创意设计，以前被认为是人类专属的高难度领域，AI难以涉足。

AI在图像上的能力很长时间以来局限于分类、识别、编辑修改这些任务。

但随着技术发展，AI已经开始渗透到艺术领域，能够进行独立的创意、生成画作，比大家预想的速度要快得多。

有的AI画作在拍卖行以天价成交，有的AI画作被收录进纽约现代艺术馆。

这种形势下，人工智能顶级会议NeurIPS连续几年开设的“创意与设计工作坊”也办得有声有色。

但要说AIGC的集大成者，还要重点提一下最近火热的数字人。

数字人经常要与人类交流互动，更加考验AI在视觉、语音、文字等模态上全方位的能力。

与人类相比，数字人还有个优势是不用休息。

火热进行中的冰雪赛事上就有一位AI手语主播，24小时不间断得为2780万听障人士提供手语服务。

百度APP代言人龚俊的数字人，可以作为语音搜索助理出现在用户手机里，让粉丝拥有面对面与偶像实时对话的沟通体验，增加了明星的价值。

此外虚拟员工、虚拟客服等形式的数字人也都展现了各自的产业价值，走进互娱、金融、政务、零售等更多行业。

再说回到互联网，下一代互联网无论是叫元宇宙还是Web3.0，对内容的数量、形式和交互性都提出了更高的要求，面临更大的数字内容供给缺口。

这些缺口正等着以AIGC为代表的技术去填补。

最后，如果你现在就想提前感受一下AIGC时代，今天就是个好机会。

扫码进入活动页面，让AI为你创作一幅月景美图，还可以送给亲朋好友，作为别具一格的元宵节祝福哦～

点个在看 paper不断！

冰墩墩设计师都在玩的AI创作，这次大模型出圈了！

梦晨 发自 凹非寺量子位 | 公众号 QbitAI

AI如何决定画什么？

△FID越低代表生成图像的数据分布越接近真实图像

△来自论文arxiv.org/abs/2112.15283

以文生图只是AIGC的冰山一角

梦晨发自凹非寺
量子位 | 公众号 QbitAI