开源:连DeepMind都抓急游戏,这个算法带你突破第一关-量子位

  • 时间:
  • 浏览:0
  • 来源:超前科技数码资讯

玩游戏的时候,稍微朴素一点的操作,还没执行就可以看到结果

例如,如果进行马里奥,则可以不踩踏敌人而向前跳跃。

但是我没有试过我是怎嚒知道的。哪个敌人可以踩?

别推开一扇门,你怎么知道里面是什么?

(即使死了,也要进去看一眼(出自山下智博)

对人类玩家有好奇心,恐怕对AI也有好奇心比较好。

OpenAI不局限于已知的舒适区,鼓励强化学习AI,探索未知的世界。

于是,团队发表了一种被称为“随机网络蒸馏(Random Network Distillation,RND、”的方法,集中精力培养AI的好奇心,认为只有好奇的AI才能发现隐藏房间。

当然,这个方法不仅仅是为了打马里奥。如果不是那样的话,就会屈服。

△蒙特祖玛的复仇

RND加持算法中蒙特祖玛的复仇(最难的雅达利游戏可以说是强化学习AI的噩梦),代理逃出了第一关的全部24个房间,人类的平均分数)4.7k),取得了远远超过现有最尖端算法的成绩。

鼓励探索当然是昂贵的奖励RND是基于预测的方法。

对于每个替代操作,请预测以下结果:。

如果,结果非常容易预测,奖金积分就会很低。

结果越难预测,越是“未知”,说明奖金积分也越高。

(第一次出门,不知道外面的危险(还是从山下智博开始))

奖项叠加后,AI探索新世界的意志会更强。

然而,预测结果存在难点,称为噪声电视问题(Noisy-TV Problem)

举个栗子,在迷宫游戏中,放上“电视”,播放随机频道。

在进入电视前,代理人停下来不走了。

没有了“电视”,代理商还能正常玩耍。

预测被妨碍了。

为了避免这种干扰,团队定义了预测误差的三个因素:

OpenAI团队认为需要1号。因为把新颖度数值化了。2号和3号要尽量避免。

RND为了避免这两个要素而产生的探索奖。

上图是传统预测与图RND的预测的对比。

要避免2号因素,不要给出多个答案和各自的可能性,而要让神经网络给出可靠的答案

要避免第三个因素,必须选择与目标网络相同的体系结构。

对于蒙特祖玛的复仇来说,这种特别的奖励机制是特别必要的。

如果是普通游戏,简单的搜索策略就足够了,但是在蒙特祖玛中,拿到钥匙有报酬,除了撞死骷髅都是0,AI很难感受到游戏规则,很难学到有用的经验。

只有加重探索奖,才能让AI更了解游戏。

根据队伍,RND不仅仅是蒙特祖玛的复仇,马里奥等其他的游戏也能适用。此外,跨越游戏范围,更广泛的强化学习AI也可以使用这种方法,让代理对新事物更感兴趣。

从最简单的雅达利砖砌观察。

△砖块排列变化,报酬达到顶峰

当代理每掉一块砖,砖就有了新的排列格式时,内在报酬就会达到顶峰(训练之初)

当它首次通过第一关时,内在奖励也达到了顶峰(训练数小时后)

从超级马里奥来看,内目标和外目标基本一致。

代理通过了11关,找到了很多隐藏的房间,打倒了大魔王。

接下来是蒙特祖玛的复仇。

查看视频:https://v.QQ.com/x/page/n1351CP49k7.htmlstart=44

最好的成绩,当然是24个房间被突破,顺利通过第一关,得分17.5k。

此外,在许多情况下,代理可以解锁20-22的房间,得分为14.5k。

相比之下,人类的平均分是4.7k。

目前,OpenAI已将RND设为开源,可从传送门前往参观:

https://github.com/OpenAI/random-network-distillation

另外,论文也公开了:

https://arxiv.org/pdf/1810.12894.pdf

博客在这里:

https://blog.OpenAI.com/reinforcement-learning-with-prediction-based-rewards/

(吃蘑菇,发条(仍然来自山下智博))