许多人认为游戏“ Montezuma's Revenge”的进展是陌生环境研究成就的代名词我们已经开发了一种基于预测的随机网络蒸馏(RND)方法,该方法鼓励强化的学习代理人通过好奇心探索环境。 这种方法首次超过了计算机游戏
“ Montezuma's Revenge”的平均人类成绩(ICLR中的匿名
应用程序除外,其结果比我们的要差)。
RND展示了超现代的效率,它会定期查找所有24个房间并通过第一级,而无需进行初步演示,也无法访问游戏的基本状态。RND方法通过测量预测在状态数据上叠加随机随机神经网络的结果的复杂性,来刺激从代理到不熟悉状态的转变。 如果条件不熟悉,那么最终结果将难以预测,这意味着回报很高。 该方法可以应用于任何强化学习算法;它易于实现且对缩放有效。 下面是RND实现的链接,该链接复制了本文的结果。
科学文章的文本 , 代码
蒙特祖玛的复仇结果
为了实现期望的目标,代理商必须首先研究环境中可能采取的行动以及构成朝目标迈进的步伐。 游戏中许多奖励信号提供了课程表,因此即使是简单的研究策略也足以实现目标。 在进行
DQN演示的
最初工作中 ,蒙特祖玛的复仇是
唯一一款DQN的得分为人类平均得分(4700)的0%的游戏 。 简单的智力策略不可能收集任何奖励,并且在该级别上只能找到几个房间。 从那以后,《蒙特祖玛的复仇》游戏的进步被许多人视为陌生环境研究进展的代名词。
2016年,通过将DQN与柜台赠金相结合,取得了重大进展,因此,代理商成功找到15个房间,并获得最高6600分的平均分数(平均约为3700分)。此后,仅通过
专家人员的
演示或通过访问
仿真器的基本状态。
我们对1024名工人进行了大规模的RND实验,
在9次启动中平均获得10,000个结果, 最佳平均结果为14,500个 。 在每种情况下,代理商都找到20-22间客房。 此外,在较小但较长的发射中(
总共 10个发射),
最大结果为17,500,相当于通过第一级并找到所有24个房间 。 下图比较了这两个实验,显示了取决于更新参数的平均值。

下面的图表以较小的比例显示了实验的进度。 特工在好奇心的影响下开设了新房间,并找到了得分方法,在训练期间,这种外部奖励迫使他稍后返回这些房间。
代理商发现的房间以及训练期间的平均结果。 房间的透明程度对应于在检测到的代理程序的十次通过中有多少次。 录影带在开发RND之前,我们与加州大学伯克利分校的工作人员一起,探索了没有任何环境回报的学习方法。 好奇心提供了一种更简单的方法来教导代理与
任何环境进行交互,而不是为特定任务使用经过特殊设计的奖励功能,这还不等于解决问题的事实。 在
ALE ,
Universe ,
Malmo ,
Gym ,
Gym Retro ,
Unity ,
DeepMind Lab ,
CommAI等项目中 ,通过标准接口为代理打开了许多模拟环境。 使用不特定于特定环境的广义奖励功能的代理可以在各种环境中获得基本的能力水平。 这使他即使在没有详尽奖励的情况下也能确定有用的行为。
科学文章的文本 , 代码
在每个不连续的时间步都有强化的标准训练环境中,特工将动作发送到环境中,并且它会做出反应,为特工提供新的观察,过渡的奖励以及事件结束的指示。 在
上一篇文章中,我们将环境设置
为 仅 产生以下观察结果。 在那里,代理根据他的经验研究下一个状态的预测器模型,并将预测误差用作内部奖励。 结果,他被不可预测的事物所吸引。 例如,仅当帐户显示在屏幕上且该更改难以预测时,才会奖励游戏帐户更改。 通常,代理会发现与新对象的有用交互,因为这种交互的结果通常比环境的其他方面更难以预测。
像
其他 研究人员一样,我们尝试避免对环境的各个方面进行建模,无论它们是否相关,都应选择观察的特征进行建模。 令人惊讶的是,我们发现甚至随机函数也能很好地工作。
好奇的代理人做什么?
我们在50多种不同的环境中测试了我们的代理,并观察了从看似随机的行为到与环境的有意识互动的各种能力。 令我们惊讶的是,在某些情况下,尽管没有通过外部奖励得知目标,但特工还是设法通过了游戏。
培训开始时的内部薪酬在第一阶段通过内部奖励的跃升突围 -当座席在训练的早期阶段看到新的障碍物配置,并且在训练几个小时后首次通过该关卡时,就会获得内部奖励。
Pong-我们训练了特工同时控制两个平台,他学会了将球保持在比赛中,这导致了旷日持久的战斗。 即使在针对游戏中的AI进行训练时,特工也试图使游戏最大化,而不是赢。
保龄球 -代理商比直接受训以最大化外部奖励的其他代理商学会了更好地玩游戏。 我们认为发生这种情况的原因是,在掷球后,记分牌难以预测的闪烁吸引了经纪人。
马里奥(Mario) -内部奖励与游戏目标特别吻合:关卡进步。 由于无法预测新发现的区域的详细信息,因此代理商会因搜索新区域而获得奖励。 结果,特工发现了11个关卡,找到了密室,甚至击败了老板。
嘈杂的电视问题
作为投币式游戏机上的赌徒,被随机结果吸引,代理有时会由于“嘈杂的电视问题”而陷入好奇心的陷阱。 代理会发现环境中的随机性源,并继续观察它,对于这种转换,总是会获得很高的内部回报。 这种陷阱的一个例子是看一台产生静态噪声的电视。 我们通过将代理人放在带有随机频道的电视的Unity迷宫中,从字面上证明了这一点。
座席在嘈杂的电视迷宫没有嘈杂电视的迷宫特工从理论上讲,嘈杂的电视问题确实很严重,但是我们仍然希望在像蒙特祖玛的《复仇》这样具有确定性的环境中,好奇心会导致特工寻找房间并与物体互动。 我们尝试了几种基于好奇心来预测下一个状态的选项,将研究奖金与游戏帐户相结合。
在这些实验中,代理通过噪声控制器控制环境,该噪声控制器很可能会重复执行最后一个动作而不是当前动作。 对于具有完全确定性的游戏(例如Atari)中的代理商,为了防止记忆,已经
建议将此设置与可重复的“粘性”动作一起作为最佳实践。 “粘性”动作使从一个房间到另一个房间的过渡变得不可预测。
随机网络蒸馏
由于预测下一个状态固有地容易受到电视噪声问题的影响,因此我们确定了以下相关的预测误差来源:
- 因素1 。 如果预测变量无法从先前考虑的示例中进行概括,则预测误差很高。 新的经验对应于较高的预测误差。
- 因素2 。 由于随机的预测目标,因此预测误差很高。
- 因素3 。 由于缺少预测所需的信息,或者由于预测器模型的类别太有限而无法适应目标函数的复杂性,因此预测误差很高。
我们确定因子1是错误的有用来源,因为它量化了体验的新颖性,而因子2和3则导致了电视噪声大的问题。 为避免因素2和3,我们开发了RND-一种新的研究奖励,它基于对
下一状态本身恒定且随机初始化的神经网络的发出进行预测,并考虑了以下状态 。

直觉表明,预测模型在预测她受过训练的条件时误差很小。 特别是,在新状态下,代理关于发出随机初始化的神经网络的预测将不如代理以前经常遇到的状态那样准确。 使用综合预测问题的优点是它可以是确定性的(绕过因子2),并且在功能类别内,预测器可以选择与目标网络具有相同体系结构的预测器(绕过因子3)。 这消除了嘈杂电视的RND问题。
我们通过最接近的策略优化的变体-
近端策略优化 (
PPO )将研究奖励与外部奖励相结合,该策略
对两个奖励流使用
两个值 。 这使您可以对不同的奖励使用不同的折扣,以及将情节性和非周期性的奖励结合起来。
由于具有这种额外的灵活性,我们的最佳代理通常会在蒙特祖玛的复仇世界第一层中找到24个房间中的22个,有时会在找到剩余的两个房间之后通过第一层。 相同的方法演示了在Venture和Gravitar游戏中的记录性能。

下面的图表显示了蒙特祖玛的复仇剧情中内部奖励的图表,特工首先找到了火炬。

适当的执行很重要
为了选择一个好的算法,重要的是要考虑一般的考虑因素,例如对嘈杂的电视问题的敏感性。 但是,我们发现简单算法中似乎很小的变化会极大地影响其有效性:从无法离开第一个房间的座席到经历第一个级别的座席。 为了增加培训的稳定性,我们避免了特质饱和,并将内部奖励提高到了可预测的范围。 我们还注意到
每次发现并修复错误时RND的有效性都得到了显着改善 (我们最喜欢的包括对数组的随机归零,这导致以下事实:外部奖励被视为非周期性的;只有在考虑了外部价值函数之后,我们才意识到这一点。 ,它看起来可疑是周期性的)。 即使使用概念上与以前的工作类似的算法,纠正这些细节也已成为实现高性能的重要部分。 这就是为什么最好在可能的情况下选择简单算法的原因之一。
未来的工作
我们提供以下领域以供进一步研究:
- 分析不同研究方法的优势,并寻求将它们结合起来的新方法。
- 在许多没有奖励的环境中训练好奇的代理人,并学会转移到具有奖励的目标环境中。
- 全球情报,包括长期的协调解决方案。