AI玩捉迷藏秀得我头皮发麻

苦逼的码农

共 1069字,需浏览 3分钟

 ·

2021-01-29 16:23

这是 OpenAI 在 2019 年发的一篇博客里的内容,如果想看原汁原味的官方博文,这里附上链接:
https://www.openai.com/blog/emergent-tool-use/
同时 OpenAI 也录制了非常有趣的视频来介绍这个 AI 程序有趣的训练过程,这里我取了 B 站上的一个添加了中文字幕版的视频,大家可以先一睹为快~


感谢 B 站提供的视频

https://www.bilibili.com/video/BV1tE411Q74p


不方便点开视频的也可以听我简单说说

游戏中的道具:墙壁、箱子、斜坡

游戏中的角色:红方蓝方

各方任务:

  • 红方的任务是把蓝方抓住

  • 蓝方的任务是躲避红方的抓捕

蓝方可以移动地图上的箱子和斜坡,同时可以在适当的时机将其变成锁定状态,以挡住红方的追捕。

在这个游戏中,赢得游戏的一方都会获得奖励,输掉游戏的一方会获得惩罚。在程序中就是 +1 分或者 -1 分,因此他们要不断更新自己的策略。

游戏规则介绍完了,下面...

游戏开始!
训练开始!

在一开始的训练中,蓝方几乎都逃不过红方的追捕

但是...







Part 1:数百万次训练后




蓝方已经学会利用箱子挡住墙壁的入口


看起来简单,实际需要在有限时间迅速堵住入口,并且还需要两个人“配合”,这对计算机来说就很难了,要不怎么能在数百万次训练后才学会呢。

蓝方找到了这个方法后,红方就抓不到人了,看似牢不可破,但是...






Part 2:红方翻盘




又经历了数百万次训练后,红方也学会了使用工具,他们利用斜坡跳过了墙壁






Part 3:蓝方翻盘





在无数次被红方利用这种方式攻破后,蓝方居然学会了先将斜坡藏起来

在这之后,形成了最终的格局,双方都没有新招数了



Part n:秀到头皮发麻的操作



前面只是简单的场景,如果把它们放在一个更开放的空间,各种物品的数量和位置都是随机的,就变得相当复杂了。

蓝方 AI 还是学会了如何躲避追捕

本以为这会是最终的稳态,可是

...

一亿次训练后

...

红方 AI 居然学会了

冲浪!

这是游戏作者都没有想到的一个 bug

蓝方,居然居然在红方发现这个 bug 后,学会了提前将所有物品锁定,让红方无法利用这个 bug

这这这.......



如果你也想学习这样的 AI 技术并做出一款这样的游戏,欢迎关注本号,与我一起做梦!

浏览 41
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报