DeepMind大神Silver联手Sutton论证无限猴子原理：用强化学习就能搞定通用人工智能！-技术圈

新智元报道

来源：sciencedirect

编辑：Emil 好困

【新智元导读】DeepMind最近研究了一下大自然，于是决定把「达尔文主义」应用在AI上面。首先给AI设定一个奖励，等AI学会如何把奖励做到最大化，它就是个出色的人工智能代理了。

人工智能发展了这么久，终于产生了包括卷积，注意力，全连接等各种机制。

有趣的是，最近的研究反而搞起了「这些机制我们都不需要」的创新。

例如苹果发表的一篇论文表示Transformer不需要注意力机制。

在这个方面，DeepMind也不甘落后，发表文章称「Reward is Enough」，其他都不需要。

https://www.sciencedirect.com/science/article/pii/S0004370221000862

人工智能现在已经能够在有限的环境中有效地解决特定的问题，但它们还没有发展出在人类和动物身上看到的那种普遍的「智能」。

DeepMind认为「智能」不是从制定和解决复杂问题中产生，而是通过坚持一个简单但强大的原则：奖励最大化。

值得注意的是，发表这篇文章的是DeepMind强化学习领域的两位大神：David Silver（下图右）以及Richard Sutton（下图左）。

David Silver 是 DeepMind 首席科学家、伦敦大学学院计算机科学系教授，他是 AlphaGo 的设计研发主导人物。

而Richard Sutton 是阿尔伯塔大学计算机系教授、DeepMind 杰出科学家，他被认为是现代计算的强化学习创立者之一。

奖励最大化就能实现AGI？

通常认为，组合多个人工智能模块就可以产生更高的智能系统。例如，把独立的计算机视觉、语音处理、NLP和运动控制模块之间进行协调，从而去解决需要多种技能的复杂问题。

而DeepMind的研究表示，你们搞这些自上而下的都是歪门邪道，奖励机制才是自然界中产生如此丰富的智能的原因：

不同形式的智能源于不同环境中不同奖励信号的最大化。例如蝙蝠的回声定位或黑猩猩的工具使用等。

这些能力的产生也都将服务于一个单一的目标，也就是在动物所处的环境中获得最大化的回报。

例如，一只想要「活着」的松鼠，那么饥饿最小化这个奖励机制就可以认为是「活着」的一个子目标。

于是，这只松鼠就产生了感知和运动的技能，从而帮助它在有食物的时候找到并收集坚果。

但只能找到食物的松鼠在食物变少时就会饿死。因此又产生了计划和记忆的能力，这样松鼠就可以把坚果藏起来，等到冬天的时候再去找到这些坚果。同时，松鼠还需要产生关于社会的知识，从而避免其他动物去偷藏起来的坚果。

论文表示，奖励最大化是足以驱动自然界的生物和强化学习代理产生「智能」的，包括知识、学习、感知、社会智能、语言、概括和模仿。

因此，人工智能通过奖励最大化的强化学习之后，就可以成为今后在人工智能方面通用的解决方案。

然而，这个例子依然没有解释为什么同样是最大化奖励，人类就能写出「人工智能」，而这只松鼠就不行？

奖励最大化的强化学习方法

强化学习是AI算法的一个特殊分支，这套方法由三个关键要素组成：环境、代理以及奖励机制。

在执行操作的过程中，代理会依据操作过程对于目标的影响程度来决定奖励或者惩罚，同时改变自己和环境状态。

许多的强化学习产生的问题在于代理对于环境缺乏初始的认知，从而导致开始时的随机操作。根据反馈，代理学会调整其行为，并制定最大化奖励的策略。

在论文中，DeepMind 的研究人员建议将强化学习作为主要算法，它可以通过学习在自然界中的奖励最大化方法，并最终带来通用人工智能。

作者在论文中说，「如果一个代理能够连续调整它的行为来提升奖励，那么任何在这种环境下的重复性能力都可以通过代理这样的行为产生出来。」

一个好的强化学习代理可以通过这样的方法学习感知、语言、社交能力等等。

在论文中，研究人员提供了几个例子，展示了强化学习代理如何能够在游戏和机器人环境中学习一般技能。

不过研究人员同时强调，一些基本问题仍然有待解决，比如他们对于强化学习的样本执行效率缺乏理论依据。

众所周知，强化学习需要给机器「喂」大量的数据，假如让电脑通过机器学习的方法来学会一个电脑游戏，它们可能需要几百年来学习……

并且如何在更多的领域来创造一个强化学习系统对于研究者来说也是一个挑战，因为任何环境中微小的变化都需要对模型进行全面重新训练。

同时，奖励最大化的学习机制是一个未解决的问题，仍然是强化学习中有待进一步研究的核心问题。

奖励最大化的优点和缺点

加州大学圣地亚哥分校的神经科学家、哲学家和名誉教授帕特里夏·丘奇兰 (Patricia Churchland) 将论文中的想法描述为「非常仔细和有见地的解决方案」。

同时，丘奇兰也指出论文中关于社会决策讨论中可能存在的缺陷。DeepMind的研究人员专注于在社交过程中的个人收益。

而丘奇兰在自己最近写的书中谈到，对于哺乳动物和鸟类而言，个体之间的亲情关系往往会对社会决策产生重大影响，比如动物会为了保护孩子而将自己置于危险中而不顾。

当然，丘奇兰补充到，自己的观点对于论文中的假设并没有冲突，只是一个有益的补充。

而数据科学家Herbert Roitblat 则对于这篇论文的立场提出了挑战，他认为通过简单的学习机制和试错经验足以培养机器智能的说法有些站不住脚。

Herbert Roitblat 也是通用AI领域的专家

如果没有时间限制，那么试错学习的方法可能可行，但是这个方法就像是无限猴子定理，即让一只猴子在打字机上随机按键，当按键时间达到无穷，它必然会打出任何给定的文字。

「建立了模型和表述方式之后，优化或强化就可以指导其进化，但这并不意味着强化就足够了，」Roitblat 说。

同样，Roitblat 补充说，该论文没有对如何定义强化学习的奖励、操作和其他元素提出任何建议。

「强化学习的前提是代理有一组有限的潜在操作方式，同时奖励标准和价值函数也需要提前指定。换句话说，通用人工智能的问题恰恰是强化学习的先决条件。

所以如果机器学习都能够简化成为最大化某种评估参数的形式，那么强化学习肯定是有意义的，但是它仍然缺乏说服力。」

通用人工智能迎来新曙光？

DeepMind的研究人员在探讨通用人工智能的实现路径：即通过自下而上，而不是由人类先制定好顶层规划和结构的方法来实现特定的目标。

通用人工智能指的是通用人工智能是一些人工智能研究的主要目标，也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI（strong AI）或者完全AI（full AI），或称机器具有执行通用智能行为（general intelligent action）的能力。与弱AI（weak AI）相比，强AI可以尝试执行全方位的人类认知能力。