AI玩捉迷藏秀得我头皮发麻-技术圈

这是 OpenAI 在 2019 年发的一篇博客里的内容，如果想看原汁原味的官方博文，这里附上链接：

https://www.openai.com/blog/emergent-tool-use/

同时 OpenAI 也录制了非常有趣的视频来介绍这个 AI 程序有趣的训练过程，这里我取了 B 站上的一个添加了中文字幕版的视频，大家可以先一睹为快~

感谢 B 站提供的视频

https://www.bilibili.com/video/BV1tE411Q74p

不方便点开视频的也可以听我简单说说

游戏中的道具：墙壁、箱子、斜坡

游戏中的角色：红方、蓝方

各方任务：

蓝方可以移动地图上的箱子和斜坡，同时可以在适当的时机将其变成锁定状态，以挡住红方的追捕。

在这个游戏中，赢得游戏的一方都会获得奖励，输掉游戏的一方会获得惩罚。在程序中就是 +1 分或者 -1 分，因此他们要不断更新自己的策略。

游戏规则介绍完了，下面...

游戏开始！

训练开始！

在一开始的训练中，蓝方几乎都逃不过红方的追捕

但是...

Part 1：数百万次训练后

蓝方已经学会利用箱子挡住墙壁的入口

看起来简单，实际需要在有限时间迅速堵住入口，并且还需要两个人“配合”，这对计算机来说就很难了，要不怎么能在数百万次训练后才学会呢。

蓝方找到了这个方法后，红方就抓不到人了，看似牢不可破，但是...

Part 2：红方翻盘

又经历了数百万次训练后，红方也学会了使用工具，他们利用斜坡跳过了墙壁

Part 3：蓝方翻盘

在无数次被红方利用这种方式攻破后，蓝方居然学会了先将斜坡藏起来

在这之后，形成了最终的格局，双方都没有新招数了

Part n：秀到头皮发麻的操作

前面只是简单的场景，如果把它们放在一个更开放的空间，各种物品的数量和位置都是随机的，就变得相当复杂了。

但蓝方 AI 还是学会了如何躲避追捕

本以为这会是最终的稳态，可是

...

一亿次训练后

...

红方 AI 居然学会了

冲浪！

这是游戏作者都没有想到的一个 bug

而蓝方，居然居然在红方发现这个 bug 后，学会了提前将所有物品锁定，让红方无法利用这个 bug

这这这.......

太

秀

了

吧

如果你也想学习这样的 AI 技术并做出一款这样的游戏，欢迎关注本号，与我一起做梦！