Jeaf Dean万字长文回顾2020谷歌技术发展（下）-技术圈

新智元报道

来源：GoogleAI Blog

编辑：QJP、小匀

【新智元导读】2021年已经度过十余天，谷歌Jeff Dean也在酝酿后在Google AI Blog发表了一篇万字长文，回顾了谷歌AI2020年的发展与成就，同时，也展望了接下来的工作重点。本文较长，分两部分编译，原文在文末链接查看。

本文接上期精彩：Jeaf Dean万字长文回顾2020谷歌技术发展（上）

机器学习算法

谷歌仍向无监督学习方向大力发展，例如2020年开发的SimCLR，推进自监督和半监督学习技术。

使用不同的自监督方法（在ImageNet上预训练）学习的表示形式，对ImageClass的分类器进行ImageNet top-1准确性训练。灰色十字表示受监管的ResNet-50。

强化学习

强化学习通过学习其他主体以及改进探索，谷歌已经提高了RL算法的效率。

他们今年的主要重点是离线RL，它仅依赖于固定的，先前收集的数据集（例如先前的实验或人类演示），从而将RL扩展到了无法即时收集训练数据的应用程序中。研究人员为RL引入了对偶方法，开发了改进的算法以用于非策略评估，此外，他们正在与更广泛的社区合作，通过发布开源基准测试数据集和Atari的DQN数据集来解决这些问题。

使用DQN重播数据集的Atari游戏的离线RL

另一个研究方向是通过学徒制学习（apprenticeship learning），向其他代理学习，从而提高了样本效率。

需要注意的是，将RL扩展到复杂的实际问题来说是一个重要的挑战。

概述我们的方法并说明AttentionAgent中的数据处理流程。顶部：输入转换 - 一个滑动窗口将输入图像分割成更小的补丁，然后将它们 "扁平化"，以便将来处理。中间。补丁选举 - 修改后的自我注意力模块在补丁之间进行投票，以生成补丁重要性向量。底部：动作生成--AttentionAgent在补丁之间进行投票，生成补丁的重要性向量。行动生成--AttentionAgent选择重要性最高的补丁，提取相应的特征，并基于这些特征做出决策。

AutoML

毫无疑问，这是一个非常活跃和令人兴奋的研究领域。

我在AutoML-Zero中：不断学习的代码，我们采用了另一种方法，即为演化算法提供一个由非常原始的运算（例如加法，减法，变量赋值和矩阵乘法）组成的搜索空间，以查看是否有可能从头开始发展现代ML算法。

但是，有用的算法实在太少了。如下图所示，该系统重塑了过去30年中许多最重要的ML发现，例如线性模型，梯度下降，校正线性单位，有效的学习率设置和权重初始化以及梯度归一化。

更好地理解ML算法和模型

随着神经网络被做得更宽更深，它们往往训练得更快，泛化得更好。这是深度学习中的一个核心奥秘，因为经典学习理论表明，大型网络应该超配更多。

在无限宽的限制下，神经网络呈现出惊人的简单形式，并由神经网络高斯过程（NNGP）或神经切线核（NTK）来描述。谷歌研究人员从理论和实验上研究了这一现象，并发布了Neural Tangents，这是一个用JAX编写的开源软件库，允许研究人员构建和训练无限宽度的神经网络。

左：该示意图显示了深层神经网络如何随着简单的输入/输出图变得无限宽而引发它们。右图：随着神经网络宽度的增加，我们看到在网络的不同随机实例上的输出分布变为高斯分布。

机器感知

对我们周围世界的感知--对视觉、听觉和多模态输入的理解、建模和行动--仍然是一个具有巨大潜力的研究领域，对我们的日常生活大有裨益。

2020年，深度学习使3D计算机视觉和计算机图形学更紧密地结合在一起。CvxNet、3D形状的深度隐含函数、神经体素渲染和CoReNet是这个方向的几个例子。此外，他们关于将场景表示为神经辐射场的研究（又名NeRF，也可参见本篇博文）是一个很好的例子，说明Google Research的学术合作如何刺激神经体量渲染领域的快速进展。

在与加州大学伯克利分校合作的《学习因素化和重新点亮城市》中，谷歌提出了一个基于学习的框架，用于将户外场景分解为时空变化的照明和永久场景因素。这能为任何街景全景改变照明效果和场景几何，甚至将其变成全天的延时视频。

2020年，他们还使用神经网络进行媒体压缩的领域不断扩大，不仅在学习的图像压缩方面，而且在视频压缩的深层方法，体压缩以及深不可知的图像水印方面都取得了不错的成绩。

第一行：没有嵌入消息的封面图像。第二行：来自HiDDeN组合失真模型的编码图像。第三行：来自我们模型的编码图像。第四行：HiDDeN组合模型的编码图像和封面图像的归一化差异。第五行：模型的归一化差异

通过开源解决方案和数据集与更广泛的研究社区进行互动是另一个重要方面。2020年，谷歌在MediaPipe中开源了多种新的感知推理功能和解决方案，例如设备上的面部，手和姿势预测，实时身体姿势跟踪，实时虹膜跟踪和深度估计以及实时3D对象检测。

最后，展望这一年，我特别热衷于构建更多通用机器学习模型的可能性，这些模型可以处理各种模式，并且可以通过很少的培训示例来自动学习完成新任务。该领域的进步将为人们提供功能更强大的产品，为全世界数十亿人带来更好的翻译，语音识别，语言理解和创作工具。这种探索和影响使我们对工作感到兴奋！

参考链接：

https://ai.googleblog.com/2021/01/google-research-looking-back-at-2020.html