吴恩达的2021回顾,这些大事件影响了AI这一年
译者:核子可乐,刘燕
随着 2021 年底的临近,你可能正在减少工作为寒假做准备。我很期待能暂时放下工作休息一下,希望你也一样。
十二月有时被称为给予的季节。如果你有空闲时间,想知道如何利用它,我认为我们每个人能做的最好的事情之一,就是思考如何能够帮助别人。
历史学家、哲学家威尔·杜兰特曾说过:“重复的行为造就了我们。”如果你不断地寻求提升他人,这不仅会帮助他们,或许同样重要的是,它也会让你成为一个更好的人。正是你的重复行为定义了你的为人。还有一个经典的研究表明,把钱花在别人身上可能比花在自己身上更让你快乐。
所以,在这个假期,我希望你能休息一段时间。休息、放松、充电!与那些你爱的、但在过去的一年里没有足够的时间联系的人联系。如果时间允许,做一些有意义的事情来帮助别人。可以是在博客文章中留下鼓励的评论、与朋友分享建议或鼓励、在线上论坛上回答一个人工智能问题、或为一个有价值的事业捐款。在与教育和(或)科技相关的慈善机构中,我最喜欢的有维基媒体基金会、可汗学院、电子前沿基金会和 Mozilla 基金会。
吴恩达回顾了 2021 年全球人工智能的进展并展望了 2022 年以及之后 AI 技术的发展前景。
虽然 GPT-3 和 EfficientNet 等单独针对文本及图像等任务的深度学习模型备受瞩目,但这一年中最令人印象深刻的还是,AI 模型在发现许可证与图像间关系中取得了进步。
背景信息
开源社区将 CLIP 与生成对抗网络(GAN)相结合,开发出引人注目的数字艺术作品。艺术家 Martin O’Leary 使用 Samuel Coleridge 的史诗作品《忽必烈大汗》为输入,生成了充满迷幻色彩的“Sinuous Rills”。 Facebook 表示其多模式仇恨言论检测器能够标记并删除掉社交网络上 97% 的辱骂及有害内容。该系统能够根据文本、图像及视频等 10 种数据类型将模因与其他图像 - 文本对准确划分为“良性”或“有害”。 谷歌表示已经在搜索引擎中添加了多模式(及多语言)功能。其多任务统一模型能够返回文本、音频、图像及视频链接,用以响应由 75 种语言提交的各类查询。
过去一年,模型经历了从大到更大的发展历程。
谷歌用 Switch Transformer 拉开了 2021 年的序幕,这是人类历史上首个拥有万亿级参数的模型,总量达 1.6 万亿。
北京人工智能研究院则回敬以包含 1.75 万亿参数的悟道 2.0。
数据:大型模型需要吸纳大量数据,但网络和数字图书馆等传统数据源往往提供不了这么多高质量素材。例如,研究人员常用的 BookCorpus 是一套包含 11000 本电子书的数据集,之前已被用于训练 30 多种大型语言模型;但其中包含某些宗教偏见,因为内容主要讨论基督教和伊斯兰教义,对其他宗教几无涉及。
速度:如今的硬件仍难以处理大体量模型,当数据反复出入内存时,模型的训练和推理速度都会受到严重影响。
能耗:训练如此庞大的网络会消耗大量电能。2019 年的一项研究发现,在 8 个英伟达 P100 GPU 上训练一个包含 2 亿参数的 transformer 模型所造成的碳排放(以化石燃料发电计算),相当于一辆普通汽车五年的行驶总排放量。
模型交付:这些庞大的模型很难在消费级或边缘设备上运行,所以真正的规模部署只能通过互联网访问或精简版本实现——不过二者目前各有问题。
生成模型能够从现有录音中学习特征,进而创造出令人信服的复制品。也有些制作人直接使用这项技术原创声音或模仿现有声音。
美国初创公司 Modulate 使用生成对抗网络为用户实时合成新的语音,使得游戏玩家和语聊用户能够建立起自己的虚拟角色;也有跨性别者用它调整自己的声音,借此获得与性别身份相一致的音色。
Sonantic 是一家专门从事声音合成的初创公司。演员 Val Kilmer 于 2015 年因咽喉手术而丧失了大部分发声能力,该公司则利用原有素材为他专门创造了一种音色。
电影制作人 Morgan Neville 聘用一家软件公司,在自己的纪录片《流浪者: 一部关于安东尼·波登的电影》中重现了已故旅游节目主持人波登的声音。但此举引起了波登遗孀的愤怒,她表示自己并未许可这种行为。
最近出现的音频生成主流化倾向,完全是早期研究成果的自然延续。
OpenAI 的 Jukebox 就使用 120 万首歌曲进行训练,可利用自动编码器、转换器及解码器管道进行全实时录音生成,风格涵盖从猫王到艾米纳姆等多位歌手。
2019 年,某匿名 AI 开发者设计出一种技术,允许用户在短短 15 秒内利用文本行重现动画及视频游戏角色的声音。
生成音频及生成视频不仅让媒体制作人多了一种修复并增强归档素材的能力,同时也让他们能够从零开始创造新的、真假难辨的素材。
但由此引发的道德与法律问题也在增加。如果配音演员被 AI 彻底取代,他们的损失该由谁承担?将已故者的声音在商业化作品中重现涉及哪些所有权纠纷?能不能利用 AI 为已故歌手推出新专辑?这么做对吗?
TransGAN 是一套生成对抗网络,结合 transformers 以确保所生成的各个像素都与之前已生成的像素一致。这项成果能够有效衡量所生成图像与原始训练数据之间的相似度。 Facebook 的 TImeSformer 使用该架构识别视频片段中的动作元素。它的任务不再是从文本中识别单词序列,而是尝试解释视频帧中的序列关系。其性能优于卷积神经网络,能够在更短时间内分析更长的视频片段,因此能耗也控制在更低水平。 Facebook、谷歌及加州大学伯克利分校的研究人员在文本上训练出 GPT-2,之后冻结了其 self-attention 与 feed-forward 层。在此基础上,他们可以针对不同用例进行模型微调,包括数学、逻辑问题及计算机视觉等。 DeepMind 发布了 AlphaFold 2 的开源版本,其使用 transformers 根据氨基酸序列预测蛋白质的 3D 结构。该模型在医学界内掀起轩然大波,人们普遍认为其具备推动药物发现和揭示生物学原理的巨大潜力。
在深度学习的发展过程中,有几个概念曾经迅速普及:ReLU 激活函数、Adam 优化器、attention 注意力机制,再加上现在的 transformer。
各国政府纷纷制定新的法律和提案,希望控制 AI 自动化对现代社会的影响。
随着 AI 对隐私、公平性、安全性及国际竞争关系带来的潜在影响,各国政府也开始加大对 AI 的监管力度。
AI 相关法律往往反映出各国在政治秩序中的价值判断,包括如何在社会公平与个人自由之间求取平衡。
欧盟起草了基于风险类别的机器学习应用禁止或限制条例。实时人脸识别与社会信用系统被明令禁止;对于重要基础设施的控制、执法协助及生物识别技术等应用方向则需要提交详细的说明文件,证明 AI 方案安全可靠并持续接受人工监督。
这项规则草案于今年 4 月发布,目前仍在立法流程之内,预计未来 12 个月内仍无法落地。
从明年开始,中国互联网监管机构将强制对可能破坏社会公序良俗的 AI 系统与推荐算法执行监督。打击的目标包括传播虚假信息、引导成瘾行为及危害国家安全的各类系统。企业在部署任何可能左右公众情绪的算法之前必须获得批准,违规算法一律不得上线。
美国政府提出一项 AI 权利法案,用以保护公民免受可能侵犯隐私及公民权利的系统的影响。政府将在明年 1 月 15 日前持续为提案收集公众意见。在联邦以下,多个州及市一级政府开始限制人脸识别系统。纽约市通过一项法律,要求对招聘算法进行偏见审计。
联合国民权高级专员呼吁各成员国暂停 AI 的某些用途,包括可能侵犯人权、限制民众获取基本服务、以及滥用私人数据的情形。
AI 社区正在逐步走向监管层面的共识。
最近对 534 位机器学习研究人员进行的一项调查发现,68% 的受访者认为模型部署确实应该重视可信度与可靠性。受访者们对于欧盟及联合国等国际机构的信任度,也普遍高于对各国政府的信任度。
在中国以外,大部分 AI 相关法规仍处于审查阶段。但从目前的提案来看,AI 从业者必须为政府全面介入的必然前景做好准备。
原文链接:https://read.deeplearning.ai/the-batch/issue-123/