开源：连DeepMind都抓急游戏，这个算法带你突破第一关-量子位

时间:2023-04-18 09:47:56
浏览:0
来源:超前科技数码资讯

玩游戏的时候，稍微朴素一点的操作，还没执行就可以看到结果。

例如，如果进行马里奥，则可以不踩踏敌人而向前跳跃。

但是我没有试过我是怎嚒知道的。哪个敌人可以踩？

别推开一扇门，你怎么知道里面是什么？

（即使死了，也要进去看一眼（出自山下智博）

对人类玩家有好奇心，恐怕对AI也有好奇心比较好。

OpenAI不局限于已知的舒适区，鼓励强化学习AI，探索未知的世界。

于是，团队发表了一种被称为“随机网络蒸馏（Random Network Distillation，RND、”的方法，集中精力培养AI的好奇心，认为只有好奇的AI才能发现隐藏房间。

当然，这个方法不仅仅是为了打马里奥。如果不是那样的话，就会屈服。

△蒙特祖玛的复仇

RND加持算法中蒙特祖玛的复仇（最难的雅达利游戏可以说是强化学习AI的噩梦），代理逃出了第一关的全部24个房间，人类的平均分数）4.7k），取得了远远超过现有最尖端算法的成绩。

鼓励探索当然是昂贵的奖励RND是基于预测的方法。

对于每个替代操作，请预测以下结果：。

如果，结果非常容易预测，奖金积分就会很低。

结果越难预测，越是“未知”，说明奖金积分也越高。

（第一次出门，不知道外面的危险（还是从山下智博开始））

奖项叠加后，AI探索新世界的意志会更强。

然而，预测结果存在难点，称为噪声电视问题（Noisy-TV Problem）

举个栗子，在迷宫游戏中，放上“电视”，播放随机频道。

在进入电视前，代理人停下来不走了。

没有了“电视”，代理商还能正常玩耍。

预测被妨碍了。

为了避免这种干扰，团队定义了预测误差的三个因素：

OpenAI团队认为需要1号。因为把新颖度数值化了。2号和3号要尽量避免。

RND为了避免这两个要素而产生的探索奖。

上图是传统预测与图RND的预测的对比。

要避免2号因素，不要给出多个答案和各自的可能性，而要让神经网络给出可靠的答案

要避免第三个因素，必须选择与目标网络相同的体系结构。

对于蒙特祖玛的复仇来说，这种特别的奖励机制是特别必要的。

如果是普通游戏，简单的搜索策略就足够了，但是在蒙特祖玛中，拿到钥匙有报酬，除了撞死骷髅都是0，AI很难感受到游戏规则，很难学到有用的经验。

只有加重探索奖，才能让AI更了解游戏。

根据队伍，RND不仅仅是蒙特祖玛的复仇，马里奥等其他的游戏也能适用。此外，跨越游戏范围，更广泛的强化学习AI也可以使用这种方法，让代理对新事物更感兴趣。

从最简单的雅达利砖砌观察。

△砖块排列变化，报酬达到顶峰

当代理每掉一块砖，砖就有了新的排列格式时，内在报酬就会达到顶峰（训练之初）

当它首次通过第一关时，内在奖励也达到了顶峰（训练数小时后）

从超级马里奥来看，内目标和外目标基本一致。

代理通过了11关，找到了很多隐藏的房间，打倒了大魔王。

接下来是蒙特祖玛的复仇。

查看视频：https：//v.QQ.com/x/page/n1351CP49k7.htmlstart=44

最好的成绩，当然是24个房间被突破，顺利通过第一关，得分17.5k。

此外，在许多情况下，代理可以解锁20-22的房间，得分为14.5k。

相比之下，人类的平均分是4.7k。

目前，OpenAI已将RND设为开源，可从传送门前往参观：

https：//github.com/OpenAI/random-network-distillation

另外，论文也公开了：

https：//arxiv.org/pdf/1810.12894.pdf

博客在这里：

https：//blog.OpenAI.com/reinforcement-learning-with-prediction-based-rewards/

（吃蘑菇，发条（仍然来自山下智博））