缺席一年后,谷歌I/O大会回来了!3D视频聊天,10倍性能TPU,还有Android 12重磅登场!
新智元报道
新智元报道
来源:Google Blog
编辑:yaxin,好困
【新智元导读】5月19日凌晨1点,谷歌IO 2021开发者大会重新回归。谷歌可谓是厚积薄发,积攒2年创新技术轮番轰炸:3D视频聊天Starline,十倍性能TPU V4,聊天不设限的语言模型LaMDA,还有Android 12重磅登场。
时隔两年的谷歌IO大会再次回归。
5月19日凌晨1点,谷歌CEO桑达尔·皮查伊(Sundar Pichai)精神抖擞地登场。
在谷歌园区户外进行的开场 Keynote 上,发布了一系列引人瞩目的全新产品。
谷歌多年研发,整合了内部AI和增强现实实力,全息视频聊天技术Project Starline正式面世。
还有第四代定制AI芯片 TPU V4,其算力是上一版本的两倍。两项全新的深度学习技术LaMDA 和 MUM带来前所未有的性能和使用体验。
每年一更的Android系统也是必不可少,全新Android 12色彩鲜艳,整体UI大变样。
手机拍照诊断皮肤病,WearOS更新等许多精彩彩蛋都藏在本次IO大会上。
本届大会上,虽然长达几个小时的演讲平平无奇,但AI依然贯穿了谷歌整个产品的主线。
正如皮查伊所说,「让谷歌为每一个人提供更多帮助。」
Project Starline,视频也3D?
感谢视频,疫情期间让我们可以与家人和朋友保持联系,继续进行学习和工作。
远程会议、远程上课、和身处国外的家人视频聊天,但是面对面的感觉还是差点儿意思。
是Project Starline进一步拉近了人们之间的距离。它的效果,就好像对方真的坐在你面前一样。
这块「魔镜」究竟采用了怎样的黑科技?
Starline这一项目使用了定制深度传感器,数十个景深扫描传感器以及 65 英寸「光场显示器」。
从多个角度捕捉使用者的外形和外观,然后将它们融合在一起,创建极其细致的实时3D模型。
由此产生多达每秒几千兆比特数据,为了可以通过现有的网络发送如此大尺寸的图像,谷歌开发了新的压缩和流媒体算法,使数据减少了超过100倍。
实际上,Project Starline在谷歌内部已经开发多年,一个集成了软件和硬件,整合了计算机视觉、实时渲染、增强现实、空间音频等技术的谷歌新技术项目。
这个整体构造更像是一个「3D电话亭」。
谷歌还为此开发了突破性的光场显示器,可以让人感受到屏幕对面人的真实形象。
圈内人都将其称为「全息技术」,或者说「网真」。
目前,Starline项目仍然只是一个原型,可能还很昂贵,暂时无法走进我们家中。
新一代定制AI芯片TPU v4:十倍性能提升
4096个 v4 TPU,一个pod就可以提供超过一个exaflop的AI计算能力。
这是谷歌最新推出的AI定制第四代芯片,速度是v3的两倍,性能相比前一代提升了十倍多。
一个TPU pod的计算能力达到了每秒百亿亿次浮点计算的级别,相当于一千万台笔记本电脑之和。
以前要想获得1个exaflop(每秒 10 的 18 次方浮点运算)的算力,通常需要建立一个定制的超级计算机。
TPU是谷歌的第一批定制芯片之一,当包括微软在内的其他公司决定为其机器学习服务采用更灵活的FPGA时,谷歌很早就在这些定制芯片上下了赌注。
但谷歌今天已经部署了许多这样的计算机,很快就会在数据中心有几十个TPUv4 pods。
此外,最重要的是,谷歌这些数据中心将以90%或接近90%的无碳能源运行。
皮查伊表示,最新的定制芯片TPUv4 pods将在今年晚些时候提供客户。
能和你愉快地聊天的LaMDA
在语言模型上谷歌也有了新的突破:LaMDA(对话应用程序的语言模型)。
对话一直是机器学习领域难以处理的难题,因为即便对话可能围绕着特定主题展开,但经常是从一个地方开始,最后到完全不同的地方结束。
例如,与朋友聊有关电视节目的话题,聊着聊着就变成讨论拍摄这个节目的国家,最后又变成对这个国最好吃的美食的讨论。
谷歌表示, LaMDA可以使问题的回答更加「make sense」,让对话更自然的进行,而且这些回复都不是预先设定的(和那些聊天机器人不同),甚至相同的答案不会用第二次。
与老前辈BERT相同,LaMDA也是基于Transformer架构,但不同的是,LaMDA接受了更多在对话方面的训练,尤其是在如何区分开放式对话方面。
LaMDA基于谷歌先前的一个研究:https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html
说到对话,铺天盖地的文章都是在讲,BERT的研究又有了进展,或者是GPT-3如何厉害,说基于这些模型的AI都能「跑团」了。
但是,本小编感觉这些进步似乎都没有体现在客服用的「智能」聊天机器人上。
在经历了无数次机器人不知所云的回答之后,小编决定,对于这种情况,就只回复:「人工」。
「你如何像你的祖母解释『bot』这个词」「我祖母去世了」「好的!谢谢你的反馈...(赞)」
「这个周末的天气如何?」「我找不到你所在位置的结果。」「这个周末布鲁克林的天气如何?」「布鲁克林现在的温度是46华氏度,天气晴朗。」「这周末呢?」「啥?」「周末!」「对不起,你说什么?」
比BERT强大1000倍的MUM
说完谷歌在和人「正常」地聊天上的进展,现在来聊一下全新的搜索模型MUM(多任务统一模型)。
为什么说是比BERT强大1000倍呢,因为GPT-3是OpenAI的,大概不太方便比较。
虽然谷歌没说,但是我们都知道GPT-3的应用很广,除了刚才说的「跑团」,还有类似搜索引擎方面的功能。
不过,在提供更灵活可靠的搜索结果方面,谷歌提出的MUM确实要更胜一筹。
在博客中,谷歌的开发者举了一个例子:「如何为八月在蒙大拿州的漂流做准备」。这个问题涉及到了多个方面,比如,天气会比科罗拉多州更热吗?需要什么衣服和装备?在哪里可以租木筏?
就目前而言,我们需要通过多次的搜索才能得到想要的结果。而MUM则可以帮助用户更好地完成这种复杂的搜索任务。
MUM同时接受了75种不同语言和多种任务的训练,因此能比之前的模型更加全面地了解信息和有关世界的知识。
谷歌的开发者又举了一个去远足的例子:「我爬过亚当山,在下一个秋天我想去富士山,我需要做哪些不同的准备?」
MUM一看,哦,用户这是在对比这两座山,那么海拔和路线的信息可能和这个问题有关。而且,在爬山这个背景下,「准备」可能包括健身训练以及寻找合适的装备之类的东西。
于是MUM便可以回答:「虽然两座山的海拔大致相同,但秋天的富士山处在雨季,所以可能需要准备防水外套。」
除了直接的回答,MUM还会给出一些相关视频或者文章作为备选链接,方便用户做更深入的探索。
多语言优势
75种语言的训练不止让MUM了解到的信息更全面,也同时让MUM具有跨越不同语言的能力。
还是富士山的例子,比如你不会日语,而关于富士山的信息更多的是用日语写的,那么在传统的搜索中,这些信息就很难被找到或理解。
但是MUM可以将那些不同语言的知识转化成用户偏好的语言,并找到最相关的结果。
因此,在使用MUM搜索有关富士山的信息时, 就可以看到诸如在哪里可以欣赏到最佳的风景,或者哪里有温泉,亦或者是流行的纪念品商店等等,而这些信息通常以日语的形式出现。
多类型处理
依然是去爬富士山的例子,比如你有一双登山靴,想知道能不能穿着去爬富士山。
这时候就可以拍一张靴子的照片问MUM,模型便会联系之前的问题和拍摄的图片进行判断,告诉用户这双靴子合不合适,同时给用户列举出一些推荐的链接。
Android 12
Android 12 的设计风格改变,应该是迄今为止最大规模的一次。
新版OS系统启用了全新的Material You设计语言,MY 设计理念重新思考了从颜色搭配到界面元素形状,从光影到动画效果的所有视觉元素。
整套UI的自定义程度也变得比过去更高了。
系统色调会随壁纸而改变,想换即换,每天心情colorful。
除了视觉上的变化以外,Android12也变得更为高效。
谷歌在优化了CPU使用后也提升了续航力,新系统运行更快、反应速度更短。
这次的更新让原生的安卓用户可以更加清晰地看到都有哪些软件正在访问你的数据,同时提供了更多的设置选项让用户可以控制程序能够获取的隐私信息。
状态栏的右上角增加了一个新指示器,可以看到应用何时在使用麦克风或摄像头。而且,还在下拉菜单中添加了相应的开关,方便取消对应用程序访问隐私信息的授权。
同时还有新的位置权限选项,让应用只能查看大概位置,而不是精确的位置。
目前Android 12 Beta 1已经开放下载,除了自家的谷歌Pixel机型可以尝鲜之外。
首发支持Android 12 beta 1的手机还有华硕、OnePlus、OPPO、realme、vivo、夏普、Tecno、小米等等。
还在等什么,快去尝鲜吧。
参考资料:
https://blog.google/technology/ai/lamda/
https://blog.google/products/search/introducing-mum/
https://blog.google/products/android/android-12-beta
推荐阅读: