吴恩达的2022年,年终盘点
转自:AI前线
亲爱的朋友们,大家好:
随着新年的临近,又到了寒冬肆虐的时候。但于 AI 来说,如今的我们绝非身处寒冬,而是热浪席卷的盛夏。
如今 AI 创造出的大部分经济价值集中在监督学习工具方面,即经过训练即可生成各类短标签(垃圾邮件 / 非垃圾邮件)乃至一系列标签的集合(例如音频转录文本)。今年,建立在监督学习技术之上的生成式 AI 也掀起新一波浪潮,让 AI 得以生成复杂且引人注目的丰富输出,包括自然顺畅的图像或文本段落等。
虽然强化学习等前一阶段的新工具未能带来与炒作声量相符的成果,但生成式 AI 确实表现良好,也成为 AI 应用领域的又一崭新范例。
更重要的是,监督学习所发挥的还只是其全部潜力中的一小部分。相信还有数以百万计的监督学习潜在应用尚未成为现实。目前全球无数团队仍在尝试通过监督学习找到产品开发的最佳实践。
相信在新的一年乃至更久远的未来,生成式 AI 将继续腾飞,为每个人创造更多价值。我有幸能够生活在这个科技飞速发展的时代,也欣慰于有机会参与其中创造未来,更为自己能与各位好友分享这个瞬息万变的世界而高兴不已!
新年快乐
你的朋友,Andrew
当然,人们对于 AI 创造力的下一步进展也提出了疑问。一方面,AI 发展让更多化学与物理学模型成为可能,科学发现亦由此迎来又一股助力;而另一方面,政府则开始严格管控可用于 AI 创新的专用微处理器供应。在这个矛盾丛生、复杂多变的新时代,就让我们从纯技术的角度出发,回顾 AI 科技在 2022 年创造出的那些奇迹。
趋势背景:新一代文本到图像生成器掀起实验热潮,如今普通人也能靠语言描述快速创作出迷人的艺术作品和幻想场景。商业企业迅速将这项技术投入使用,让 AI 图像生成成为图形创作和编辑软件中的又一必备功能。
关键驱力: 凭借友好的用户界面、妙趣横生的输出结果和开放的 API 与模型,媒体生成类模型如今已经成为 AI 技术的“形象代言人”。
OpenAI 于今年 4 月发布 DALL-E 2,超过 150 万用户参与了这套模型的 beta 测试。到 9 月,DALL-E 2 模型全面开放。微软通过资助 OpenAI 获得了对该成果的独家商业所有权,并迅速将模型集成到 Azure AI 即服务平台当中。
今年 7 月,各社交媒体平台上出现了大量一键式艺术创作方案,这些略显粗糙的图像背后依托的则是相对简单的 Craiyon。
Stability AI 很快通过开源模型 Stable Diffusion 将 AI 图像创作推向新高潮——今年 11 月,此模型更新为 2.0 版,并最终吸引到超 1 亿美元新资本。
Adobe 和照片存储业两大巨头 Getty Images 与 Shutterstock,纷纷将图像生成模型集成到自家产品和服务当中。
此类程序可能根据给出的文本提示生成截然不同的结果。PromptBase 则开辟出新的市场空间,可根据描述生成有趣的文本字符串图形。
一切都很美,只是:这类模型是根据抓取自网络的图像训练而成。与大语言模型一样,它们也同样继承了线上内容中的偏见和煽动性表达方式。
Lensa AI 是一款照片编辑应用,可根据用户的自拍照生成“魔法头像”。尽管在移动应用排行榜上迅速蹿红,但其成功也伴随着不少争议——不少用户,特别是女性用户,发现该应用会刻意在输出图像中添加性化元素。
视觉艺术家在线社区 ArtStation 也推出了自己的文本到图像功能。很多艺术家觉得,这种几秒钟内就能模仿艺术家个人风格的计算机程序可能威胁到他们的职业生涯,因此纷纷抵制该网站。
新闻背后:Diffusion 模型最初的输出结果只能用噪音来形容,但随后会通过一系列步骤有选择地去除低质量内容。由加州大学伯克利分校和斯坦福大学研究人员于 2015 年推出的这套模型经历了数年开发,最终成果表明其已经能够创作出足以匹敌生成对抗网络(GAN)的高水平图像。Stability AI 的 Stable Diffusion 正是以 Diffusion 模型为核心。另一方面,作为基于 GAN 的 DALL-E 的缔造者,OpenAI 也几乎在同一时间用 Diffusion 模型对自家成果进行了更新。
现状解读:新年中,相信计算机辅助创作革命将继续酝酿蓄力。生成式图像的风潮也绝不会止步于二维平面。谷歌和 Meta 今年都公布了令人印象深刻的文本到视频模型,而 OpenAI 的文本到 3D 对象也将生成速度提升到了新的量级。
软件项目进度又落后了?别怕,AI 新应用能帮忙。
趋势背景:事实证明,只要对代码做出微调,语言模型就能很快像经济丰富的开发者那样编写出软件例程……当然,输出质量仍然有待商榷。
关键驱力:AI 驱动的代码生成器正登陆各大企业,甚至小开发商和非技术人士也能轻松使用。
今年伊始,Ebay 就尝试将低代码工具交到非工程师的手中,让他们在无需 AI 或机器学习专业知识的情况下构建和部署模型。
今年 2 月,DeepMind 推出了 AlphaCode。这是一款转换器,接受了 12 种编程语言共 8600 万种程序的预训练,甚至针对编码竞赛的参赛作品进行了调优。在推理阶段,它能生成上百万种可能的解决方案并过滤掉低质量的条目。最终,它在 10 场编码比赛中击败了半数以上的参赛者。
今年 6 月,GitHub 开放了 Copilot 功能。这是一款能实时提供编码建议的自动补全系统,普通用户须支付订阅费方可使用,但学生和经过认证的开源开发者可以免费访问。
新闻背后: OpenAI GPT-3 语言模型的用户们早在 2020 年就发现,该模型完全可以生成能跑的代码。一年之后,OpenAI 又推出了名为 Codex 的调优版本,这就是如今 GitHub Copilot 的雏形。
一切都很美,但是: 这项技术的公开可用版本还无法编写复杂的程序。而且其输出乍看之下往往正确,但跑起来的结果却是错的。此外,Copilot 项目还身陷法律风险。针对 GitHub、OpenAI 和微软的集体诉讼认为,Codex 的训练过程违反了开源许可协议。最终判决结果很可能对文本、图像和其他媒体的生成模型产生深远的法律影响。
现状解读:AI 驱动型编码工具在短时间内还不太可能取代人类程序员,但它们确有可能顶替技术问答网站 Stack Overflow,成为开发者们最喜爱的疑难问询小助手。
Vision Transformer(ViT)在 2022 年同样迎来爆发式增长。
趋势背景: 研究人员们在今年之内发表了超 17000 篇 ViT 论文,它们的共同主题就是:将自注意力与卷积结合起来。
关键驱力:Google Brain 的一支团队在 2020 年率先推出 Vision Transformer(ViT),此后该架构经历了持续改进。最终的努力让 ViT 获得了适应新任务的能力,同时也解决了不少此前难以克服的短板。
ViT 能够从海量数据中获得良好学习效果,因此 Meta 和索邦大学的研究人员希望能“仅”靠数百万示例数据集就让模型获得理想性能。他们使用数据增强和模型正则化等源自 transformer 模型的特定改造尝试提高性能。
韩国仁荷大学的研究人员修改了其中两个关键组件,使 ViT 更像卷积神经网络。他们首先将图像失势成具有更多重叠的小图块,之后修改了自注意力机制以关注每个图块的相邻图块、而非当前图块自身,这样模型就能了解该为相邻图块赋予均匀权重还是选择性权重。这些修改显著提高了模型准确性。
印度孟买理工学院的研究人员为 ViT 配备了卷积层。由于权重共享,卷积能够在本地处理像素、同时降低内存占用量。在准确性和速度方面,他们的卷积 ViT 也优于常规版本的 ViT 以及 Performer、Nyströformer 和 Linear Transformer 等 transformers 运行时优化方案。这种方法也得到了其他多支团队的采纳。
新闻背后:虽然不少 ViT 研究的目标在于最终取代卷积神经网络(CNN),但目前的主流趋势显然是将两者结合起来。ViT 的优势,在于它能够从大、小两个尺度考量图像内所有像素间的关系。但它的缺点是,模型需要额外的训练才能在随机初始化后融入 CNN 架构以进行学习。CNN 的局部上下文窗口(即其中只有局部像素较为重要)和权重共享(使其能够以相同的方式处理不同的图像位置)能帮助 transformers 从较少数据中学习到更多模式。
现状解读:过去一年来,Vision Transformer 的应用范围得到了极大拓展。ViT 已经能够生成真假难辨的连续视频帧,从 2D 图像序列到生成 3D 场景,并检测点云中的对象。如果没有这些成果,近期大火的 Diffusion 模型恐怕也无法达成如此惊艳的文本到图像生成进步。
研究人员突破了语言模型的边界,希望解决可信度、偏见和可更新性等老大难问题。
趋势背景: 虽然不少 AI 实验室都想通过改进数据集和训练方法(包括训练单一 transformer 翻译上千种语言的方法)提升大语言模型的复杂度,但也有一些研究者尝试扩展模型架构,希望借此实现网络搜索、外部文档查询和更强的新信息适应效果。
关键驱力: 如今的语言模型虽然表现出强大的文本生成能力,但在辨别事实、控制“脑洞”和消除社会偏见方面仍然孱弱。研究人员正努力让语言模型的输出更值得依赖,同时减少煽动性。
2021 年底,DeepMind 提出了 RETRO,一种能从 MassivText 数据集中检索段落、并将其整合至输出中的模型。
Al21 Labs 于春季推出的 Jurassic-X 引入了一套模块,包含一个计算器加一套维基百科查询系统,能够对语言模型就数学问题、历史事实等做出的回答执行事实验证。
斯坦福大学和洛桑联邦理工学院的研究人员创建了 SERAC,这是一套无需重新训练、即可用新信息更新语言模型的系统。它有一套独立的系统,专门用于存储新数据并学习与之相关的查询结果,借此调整最终输出。
Meta 构建的 Atlas,是一种能从文档数据库中检索信息以回答问题的语言模型。此方案于今年 8 月发布,参数量仅为 110 亿的 Atlas 在回答问题时表现甚至优于包含 5400 亿参数的 PaLM。
今年晚些时候,OpenAI 对 ChatGPT 做出调优,以最大限度减少不真实、偏见性或有害性输出。由专人对该模型的训练数据质量进行排名,之后利用强化学习算法奖励模型优先生成与高排名结果相似的输出。
上述发展趋势,也让人们对语言模型提出了更加微妙且动态的基准要求。为响应号召,130 多家机构在 BIG-bench 项目中展开合作,尝试联手解决通过表情符号推断电影自勉、参与模拟试验和检测逻辑谬误等一系列任务。
新闻背后:在取得进展的同时,语言模型也闹也不少乱子。Meta 公开展示的 Galactica 是一套可生成关于科学及技术主题文本的语言模型。但在 11 月开放展示短短三天,该模型就由于倾向于生成虚假信息和引用并不存在的来源而遭到关停。今年 8 月,同样来自 Meta 的聊天机器人 BlenderBot 3 则因散布种族主义刻板印象和阴谋论而快速弄臭了名声。
现状解读:这一年以来,文本生成领域的靠谱工具可谓争相涌现。相信成功的技术将在不久的未来,凭借一鸣惊人的新模型从激烈竞争市场上杀出一条新路。
少数深度学习模型已经证明了自己解决几百种任务的能力。
趋势背景:过去一年,多任务模型的阵容也在急剧扩大。
关键驱力:研究人员突破了神经网络所能掌握的技能数量上限。他们的灵感来自大语言模型的新兴技能——例如无需架构调整就能创作诗歌加编写计算机程序,而利用文本和图像训练而成的模型也获得了在不同类型数据间找寻对应关系的能力。
今年春季,谷歌的 PaLM 在涉及语言理解和生成的数百项任务中,展示了小样本学习的最新成果。在某些情况下,其表现甚至优于经过调优的针对性模型或人类的平均水平。
不久之后,DeepMind 发布了 Gato。其能够处理 600 多种不同任务,包括玩雅达利游戏、用机械手堆积木、生成图像说明等等,而且并不需要借助专用于这些任务的单独模型。该系统同时接受了各种数据集的监督训练,包括文本和图像识别、基于强化学习智能体生成动作等等。
随着 2022 年接近尾声,谷歌研究人员又为机器人技术带来了类似的普适性能力。RT-1 也是一种 transformers 模型,能够引导机器人执行 700 多项任务。该系统能够将动作和图像令牌化,在近一年半的周期内利用多台机器人收集的 13 万组数据完成了训练。与原有技术相比,它在新任务、新环境和新对象上都表现出了强大的零样本适应性能。
新闻背后:欧盟拟议的 AI 法案最新草案很可能在 2023 年通过为法律。该法案将要求通用 AI 系统用户向当局注册,由官方评估其系统是否存在潜在滥用行为,并定期接受审计。该草案将通用 AI 系统定义为“执行图像 / 语音识别、音频 / 视频生成、模式检测、问答、翻译等普适性功能”,且“具有多种预期之内 / 之外用途”的 AI 系统。一些观察家批评该定义过于宽泛,相信后续真正具备通用性的新兴模型可能会促使监管机构进一步完善定义内容。
现状解读:目前能够推广至数百种不同任务的 AI 算法仍处于早期发展阶段。但 2022 年的实际进展,再次表明深度学习具备帮助我们达成这一目标的潜力。
原文链接:https://www.deeplearning.ai/the-batch/issue-176/