DeepMind又出大招!新算法MuZero登顶Nature,AI离人类规划又近了一步
极市导读
与AlphaZero相比,MuZero多了玩Atari的功能,这一突破进展引起科研人员的广泛关注。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
近日,DeepMind一篇关于MuZero的论文“Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model”在Nature发表。与AlphaZero相比,MuZero多了玩Atari的功能,这一突破进展引起科研人员的广泛关注。
MuZero通过DQN算法,仅使用像素和游戏分数作为输入就可以在Atari视频游戏中达到人类的水平。相对于围棋、国际象棋、日本将棋,Atari游戏的规则与动态变化未知且复杂。
AlphaGo在2016年的围棋比赛中以4-1击败了围棋世界冠军李世石;AlphaGo Zero,可以从零通过自我对弈训练,仅在知道基本游戏规则的情况下,第二年在性能上超过了AlphaGo;AlphaZero于2017年通过对AlphaGo Zero进行一般化,可以将其应用于其他游戏,包括国际象棋和日本将棋。
而据Nature报道,尽管每步进行的树搜索计算量较少,但MuZero在玩围棋方面被证明比AlphaZero稍好。
图注:DeepMind游戏AI的进化。
以研究AI打扑克出名的FAIR研究科学家Noam Brown对MuZero评价道:
当前人们对游戏AI的主要批评是:模型不能对现实世界中相互作用进行准确建模。MuZero优雅而令人信服地克服了这个问题(适用于完美信息游戏)。我认为,这是可以与AlphaGo和AlphaZero相提并论的重大突破!
现实世界混乱而复杂,没有人给我们提供有关其运作方式的规则手册。但是人类有能力制定下一步的计划和策略。我们第一次真正拥有了这样的系统,能够建立自己对世界运作方式的理解,并利用这种理解来进行这种复杂的预见性规划,我们以前也在AlphaZero上实现过类似的能力。MuZero可以从零开始,仅通过反复试验就可以发现世界规则,并使用这些规则来实现超人的表现。
1 关于MuZero
价值:当前处境的好坏程度 策略:所能采取的最佳行动 奖励:最后一个动作的好坏程度
2 Muzero的性能
参考链接:
推荐阅读
评论