冰墩墩设计师都在玩的AI创作,这次大模型出圈了!

视学算法

共 3529字,需浏览 8分钟

 ·

2022-02-16 09:11

点击上方视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

这是疫情之下的第三个元宵节了。

或许你已经结束假期回到工作的城市,又或许连续几年没能回家了。在防疫措施下,这个节日未免显得冷清。

不过热闹并没有消失,只是转移到了网络上。

中国青年报联合百度发起的#我们一起画月亮#在微博火了,连冰墩墩设计团队负责人曹雪都来体验。

同属奥运圈的国际奥委会成员小萨马兰奇、短道速滑运动员韩天宇也来参与。

还有演艺界的王一博、魏大勋、杨迪、孔雪儿、哈妮克孜,以及知名博主Papi酱……

乍看以为是一个常见的H5刷屏,仔细一看,竟然是AI大模型的首次破圈,让广大普通用户都体验了一下AI创作艺术。

具体来说,只需告诉AI想去哪里看月亮,就能得到AI为你创作的一张元宵月景,另外配诗一首。

比如小萨马兰奇想看他家乡西班牙的月,AI就画出一副南欧风景,画风也是西式油画。

到了韩天宇,他想看北京的月,AI画风也切换得更像中式山水。

要注意这画、这诗都是AI全新创作的,在网上不会有一一样的。

画作中细节丰富的月亮也不是一般月亮,原型是嫦娥一号”探月卫星拍摄数据制作成的中国第一张全月影像。

AI画作中的月亮正是由这张全月影像图变化而来,更具纪念意义。

如果输入自己家乡的名字,就可以看到AI对你那里有什么印象。

或者让AI画一份你目前所在地的月景,还可以填上收件人生成元宵贺卡分享给远方的亲人,用科技的方式体验一把“千里共婵娟”。

不按常理出牌的话,还可以来扫码试试火星或冬奥会等非常规场景,考验一下AI脑洞有多大。

只根据寥寥几个字画出一张细节丰富的绘画作品,对人来说都非易事,对AI来说更是如此。

既要让图像与文字描述相符又要保证图像本身的质量,尤其是用户可以随意输入文本的这种,很多情况AI都是第一次见,怎么就知道要往上画什么呢?

AI如何决定画什么?

AI根据文字画出图像这种能力一般叫做跨模态生成

模态,指的是文本、图像、视频等不同的信息表现形式。

跨模态,则是把不同类型的信息结合起来。比如图像搭配上文本组成一对,让AI去学习它们之间的关系。

简单来说,AI会把文本以字或词为单位拆开,编码成向量组成的序列。图像经过计算也可以编码成向量序列。

接下来AI要学习两件事:

第一,根据文本序列预测出图像序列的内容。

第二,根据预测出的图像序列再重建成图像。

通过这个过程,AI可以理解到特定文本和图像之间的对应关系。

基础一些的,像颜色、形状的文字描述及对应的图像特征。

高阶一点的,还可以是更综合的概念,比如当文字中的埃及,AI就知道标志性景观有金字塔。

具体到这次元宵赏月活动,AI技术的提供方是百度,用到的是文心大模型

大模型的“大”一方面在训练数据量,跨模态能力上,百度用了1.45亿组高质量中文图文对做训练。另一方面,跨模态部分的参数规模也有100亿

除了练多、规模大,文心大模型的跨态能力与同类AI模型相比还有一项创新之处。

首创的跨模态统一建模,让AI同时学习文本到图像和图像到文本两个方向的任务,两个模块之间学到的参数共享。

这样做的好处,可以用人类学外语来理解。

相当于先练一遍中译英,再倒过来练一遍英译中,对词汇、语法之间对应关系的理解就更深了。

其他的技术创新还有不少,比如端到端的训练流程能同时加强编码器和解码器性能等,这里不再一一详述。

有了种种新技术加持,文心跨模态大模型在同类模型对比中取得了领先成绩,特别是在零样本任务大幅领先国内外。

FID越低代表生成图像的数据分布越接近真实图像

当然,画好不好看不能光看数据质量,还得符合人类审美。

在人类评估中,文心跨模态大模型在图像清晰度、纹理品质、与文本的相关性三个指标也取得领先。

看分数指标不直观的话,不如再看一些实例。

登录文心大模型官网,便能在线体验它的跨模态生成能力。

根据同样一段文字描述,文心跨模态大模型可以切换不同画风。

把白话描述换成更抽象的古诗,AI也能准确理解并配上画面。

AI诗词作画这项能力也在文心大模型官网上开放了体验,地址可以在文末获取。

倒过来,根据图像也可以生成文本描述。

来自论文arxiv.org/abs/2112.15283

实际上,跨模态大模型只是百度文心大模型中的一个组成部分。

目前,文心大模型系列除了跨模态,还包含NLP(自然语言理解)大模型、CV(计算机视觉)大模型,既有基础通用的大模型,也包含面向医疗、金融等重点领域、重点任务的大模型,以及丰富的工具与开发平台。

文心大模型整体上与其他家大模型相比有个核心特色——知识增强。

除了海量训练数据外,文心大模型还从拥有5500亿事实的百度知识图谱中持续学习。

在知识的指导下,AI能够更快地学习到海量数据中蕴含的规律,表现出来的也就更加智能,特别是在零样本能力上领先于纯大数据训练出来的模型。

一方面能节省人工标注数据的昂贵成本,另一方面更是为本身就缺少足够数据的场景带来更大想象空间。

AI内容生成(AIGC)方面,也很考验大模型的零样本能力。

究其原因,AI生成的内容是要直接呈现给消费者,或AI直接与人类互动,人就是最大的不确定性。

这次的元宵节AI作画活动便是一个好例子,生成的画作和诗词广受好评,经受住了网友们的考验。

除了跨模态大模型外,文心NLP大模型也有出色的零样本生成能力。

无需标注任何样本,便可以根据用户指定的体裁、情感、长度、主题、关键词等属性,生成不同类型的文本。

这一点也可以在文心大模型官网上动手体验。

文心大模型家族里各个成员的理解和生成能力,逐步可胜任文字、图像、视频在内的互联网用户消费的主要内容的规模化生产。

一个AI生成内容(AIGC)的新时代,即将开启。

以文生图只是AIGC的冰山一角

如今互联网上的每个人每天都在消费大量的内容。

从你正在阅读的这篇文章,到微博,到直播、短视频、游戏,形式越来越多样的内容都抢占用户的时间和注意力。

微博靠降低用户用文字表达自己的门槛而流行,短视频让更多普通人靠手机就能分享自己的生活而火爆。

不断提升内容多样性和交互性,持续降低制作门槛、提升内容生产效率是每种内容都在追求的发展方向。

于是,AI协助下的内容生产逐渐走向台面。

手机拍照用上各种AI对焦、修图,各大网络平台纷纷实装文章一键转视频、AI自动朗读文字等功能。

除了摆在台面上的数字消费类内容,广义的生成式AI也在更多看不见的地方发挥着价值。

比如去年程序员们津津乐道的GitHub Copliot,AI通过理解编程语言与自然语言间的关系可以辅助人类程序员写代码、写注释。

文心大模型的文档理解能力,在保险行业可以辅助业务员处理一份合同的时间缩短到1分钟,业务效率提升30倍。

像文心大模型这样的以文生图能力,甚至可以用在线下实物产品的生产上。

比如AI辅助人类设计师做服装设计和工业设计,节省大量重复劳动时间、降低生产成本。

创意设计,以前被认为是人类专属的高难度领域,AI难以涉足。

AI在图像上的能力很长时间以来局限于分类、识别、编辑修改这些任务。

但随着技术发展,AI已经开始渗透到艺术领域,能够进行独立的创意、生成画作,比大家预想的速度要快得多。

有的AI画作在拍卖行以天价成交,有的AI画作被收录进纽约现代艺术馆。

这种形势下,人工智能顶级会议NeurIPS连续几年开设的“创意与设计工作坊”也办得有声有色。

但要说AIGC的集大成者,还要重点提一下最近火热的数字人。

数字人经常要与人类交流互动,更加考验AI在视觉、语音、文字等模态上全方位的能力。

与人类相比,数字人还有个优势是不用休息。

火热进行中的冰雪赛事上就有一位AI手语主播,24小时不间断为2780万听障人士提供手语服务。

百度APP代言人龚俊的数字人,可以作为语音搜索助理出现在用户手机里,让粉丝拥有面对面与偶像实时对话的沟通体验,增加了明星的价值。

此外虚拟员工、虚拟客服等形式的数字人也都展现了各自的产业价值,走进互娱、金融、政务、零售等更多行业。

再说回到互联网,下一代互联网无论是叫元宇宙还是Web3.0,对内容的数量、形式和交互性都提出了更高的要求,面临更大的数字内容供给缺口。

这些缺口正等着以AIGC为代表的技术去填补。

最后,如果你现在就想提前感受一下AIGC时代,今天就是个好机会。

扫码进入活动页面,让AI为你创作一幅月景美图,还可以送给亲朋好友,作为别具一格的元宵节祝福哦~


点个在看 paper不断!

浏览 34
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报