与 AI 博弈:从 AlphaGo 到 MuZero(四)-技术圈

AlphaGo 论文地址：https://www.nature.com/articles/nature16961
AlphaGo Zero 论文地址：https://www.nature.com/articles/nature24270
AlphaZero 论文地址：https://arxiv.org/abs/1712.01815
MuZero 论文地址：https://arxiv.org/abs/1911.08265

DeepMind 官网介绍：https://deepmind.com/research/case-studies/alphago-the-story-so-far

5. MuZero

MuZero 在Deepmind 的 2019 年的初步论文中首次介绍，通过学习一个仅关注规划环境中最重要方面的模型来解决这个问题。通过将此模型与 AlphaZero 强大的前向树搜索相结合，MuZero 在 Atari 测试中得到了新的最先进的结果，同时在围棋、国际象棋和将棋等经典规划挑战中的表现与 AlphaZero 相媲美。MuZero 展示了强化学习算法能力的重大飞跃。

5.1 Generalising to unknown models

计划能力是人类智能的重要组成部分，使人类能够解决问题并对未来做出决定。例如，如果我们看到乌云正在形成，我们可能会预测会下雨，并决定在冒险之前带上一把雨伞。人类可以快速学习这种能力，并且可以推广到新的场景，这是作者希望算法具有的特性。

研究人员试图通过使用两种主要方法来应对人工智能中的这一重大挑战：前向搜索或基于模型的规划（model-based planning）。使用前向搜索的系统（例如 AlphaZero）在跳棋、国际象棋和扑克等经典游戏中取得了显着的成功，但依赖于了解其环境动态的知识，例如游戏规则或精确的模拟器。这使得很难将它们应用于混乱的现实世界问题，这些问题通常很复杂，很难提炼成简单的规则。

基于模型的系统旨在通过学习环境动态的准确模型，然后使用它进行规划来解决这个问题。然而，对环境的各个方面进行建模的复杂性意味着这些算法无法在视觉丰富的领域（例如 Atari）中竞争。到目前为止，Atari 上的最佳结果来自无模型系统，例如 DQN、R2D2 和 Agent57。顾名思义，无模型算法（model-free algorithms）不使用学习模型，而是估计下一步要采取的最佳行动。

MuZero 使用不同的方法来克服以前方法的局限性。MuZero 没有尝试对整个环境进行建模，而是对代理决策过程中重要的方面进行建模。毕竟，知道雨伞避免淋湿比了解空气中雨滴形状更有意义。

具体来说，MuZero 模拟了对规划至关重要的三个环境因素：

The value: how good is the current position?
The policy: which action is the best to take?
The reward: how good was the last action?

这些都是基于深度神经网络学习的， MuZero 了解当它采取某种行动时会发生什么并做出对应的计划。

A. MuZero 如何让模型学会“计划”？

下图说明如何使用蒙特卡洛树搜索与 MuZero 神经网络进行规划。从游戏中的当前位置（顶部的示意图围棋棋盘）开始，MuZero 使用表示函数 () 从观察映射到神经网络使用的 Embedding ()。使用动态函数 () 和预测函数 ()，MuZero 可以考虑未来可能的动作序列 ()，并选择最佳动作。

给定前一个状态和一个候选动作，动态函数得到一个即时奖励值和一个新的状态，输入到预测函数中得到策略和价值函数，而最初的状态表示是通过预先训练的表示函数（例如：围棋和 Atari ）进行 embedding。

B. MuZero 如何对未知环境做出相应动作？

MuZero 使用它在与环境交互时收集的经验来训练其神经网络。这种经验包括来自环境的观察和奖励，以及在决定最佳行动时执行的搜索结果。

在每个时间步执行蒙特卡洛树搜索。搜索策略网络采样一个动作（与从根节点对每个动作的访问次数成正比），环境接收到动作并生成一个新的观察和奖励。结束时所有轨迹数据均被存储到缓冲区。

C. MuZero 如何训练网络？

在训练期间，模型与收集的经验一起展开，在每一步预测先前保存的信息：价值函数预测观察到的奖励的总和 ()，策略估计 () 预测先前的搜索结果 (π)，奖励估计预测最后观察到的奖励 ()。

将轨迹从缓冲区采样。对于初始步骤，表示函数接收来自所选轨迹的过去观察值作为输入。该模型随后被循环展开步。在每一步，动态函数接收来自上一步的状态和实际动作作为输入。表示函数、动态函数和预测函数的参数通过时间反向传播进行端到端联合训练，以预测三个量：策略网络 π 、价值网络和奖励，其中是 sample return：最终奖励（棋盘游戏）或步回报（Atari）。

MuZero 可以重复使用其学习模型来改进其规划，而不是从环境中收集新数据。例如，在 Atari 的测试中，这个变体 - 称为 MuZero Reanalyze - 在 90% 的时间里使用学习模型来重新规划过去几个场景应该做的事情。

5.2 MuZero 算法

在每个时间步，对于每个时间步，以过去的观察和未来的动作为条件，由参数为 θ 的模型 μθ 进行预测。该模型预测三个未来量：策略，价值函数，奖励，其中是真实观察到的奖励，π 是用于选择实际行动的策略，γ 是环境的折损函数。

在每个时间步（为简单起见，下标被忽略），模型由一个表示函数、一个动态函数和一个预测函数的组合来表示。动态函数 θ，是一个循环过程，在每个假设的步骤，计算一个即时奖励和一个内部状态。它反映了一个 MDP 模型的结构，该模型计算给定状态和动作的预期奖励和状态转换。然而，与基于模型的 RL 的传统方法不同，这个内部状态没有附加环境状态的语义（它只是整个模型的隐藏状态，其唯一目的是准确预测相关的、未来的值：策略、价值和奖励）。在 MuZero 中，动态函数是以确定的方式表示的；随机转换的扩展是后续进一步工作。策略和价值函数是通过预测函数 θ 从内部状态计算出来的，类似于 AlphaZero 的联合策略和价值网络。根状态使用一个对过去观察结果进行 embedding 的表示函数来初始化，θ；同样，除了对未来预测的支持外，这没有特殊的语义。

给定这样一个模型，就有可能在给定过去的观察值的情况下，对假设的未来轨迹进行搜索。例如，一个朴素的搜索可以简单地选择使价值函数最大化的步动作序列。更一般地说，可以将任何 MDP 规划算法应用于动态函数所引起的内部奖励和状态空间。具体来说，作者使用一种类似于 AlphaZero 搜索的 MCTS 算法，它的生成允许单一代理域（single agent domains）和中间奖励。在每个内部节点，它利用当前模型参数 θ 产生的策略、价值和奖励估计。MCTS 算法输出一个推荐的策略 π 和估计的价值 ν。然后选择一个行动 π

模型的所有参数都经过联合训练，以准确地将每个假设步骤的策略、价值和奖励与经过个实际时间步骤后观察到的相应目标值相匹配。与 AlphaZero 类似，改进的策略目标是由 MCTS 搜索生成的；第一个目标是最小化预测策略和搜索策略 π 之间的误差。与 AlphaZero 一样，改进的价值目标是通过玩游戏或 MDP 生成的。然而，与 AlphaZero 不同，作者通过从搜索值引导步到未来以允许具有折损和中间奖励的长时间跨度， .棋盘游戏中的最终结果 {败局，平局，赢局} 被视为在剧集最后一步发生的奖励。具体来说，第二个目标是最小化预测价值和价值目标之间的误差。奖励目标只是观察到的奖励；因此，第三个目标是最小化预测奖励和观察到的奖励之间的误差。最后，还添加了一个 L2 正则化项，复合损失为：

其中、和分别是奖励、价值和策略的损失函数。

5.3 MuZero 性能

作者选择了四个不同的域来测试 MuZeros 的功能。围棋、国际象棋和将棋用于评估其在具有挑战性的规划问题上的表现，并且作者使用 Atari 作为更复杂的视觉问题的基准。在所有情况下，MuZero 均为强化学习算法的 SOTA，优于 Atari 上的所有先前算法，并在围棋、国际象棋和将棋上与 AlphaZero 的超人性能相媲美。

每次训练运行使用 200M 或 20B 帧在 Atari 上的性能。MuZero 在这两种设置中都达到了 SOTA。所有分数都根据测试人员的表现进行了标准化。

作者还更详细地测试了 MuZero 使用其学习模型进行规划的能力。作者从围棋中经典的精确规划挑战开始，一步棋就意味着输赢。为了确认更多的计划应该带来更好的结果的直觉，作者测量了一个完全训练的 MuZero 版本在有更多的时间来计划每个动作时可以变得更强大（见下图左图）。结果表明，随着作者将每步走的时间从 0.1 秒增加到 50 秒，增加了 1000 多 Elo（衡量玩家相对技能的指标）。这类似于强大的业余选手和最强的职业选手之间的区别。

左图：随着计划每一步棋的时间增加，围棋的实力显着增加。注意 MuZero 的缩放比例与 AlphaZero 的缩放比例几乎完美匹配，AlphaZero 可以访问完美的模拟器。右图：Atari 游戏 Ms Pac-Man 中的得分也随着训练期间每一步的计划数量而增加。每个图都显示了不同的训练运行，其中 MuZero 被允许考虑每次移动的不同数量的模拟。

有趣的是，当 MuZero 每次移动只允许考虑六或七个模拟时——这个数字太小而无法涵盖 Ms Pac-Man 中所有可用的动作——它仍然取得了良好的性能。这表明 MuZero 能够在动作和情况之间进行概括，并且不需要穷举搜索所有可能性来有效学习。

参考资料

http://tromp.github.io/go.html
https://towardsdatascience.com/the-upper-confidence-bound-ucb-bandit-algorithm-c05c2bf4c13f
https://en.wikipedia.org/wiki/AlphaGo
https://deepmind.com/blog/article/alphago-zero-starting-scratch
https://towardsdatascience.com/the-evolution-of-alphago-to-muzero-c2c37306bf9