机器学习的好奇心和拖延

强化学习 (RL)是积极开发的最有前途的机器学习技术之一。 在这里,AI代理对正确的行为会获得积极的回报,而对错误的行为则会得到负面的回报。 胡萝卜和棍子的这种方法既简单又通用。 有了它,DeepMind教DQN算法玩旧的Atari视频游戏, 教AlphaGoZero玩古代的Go游戏。 因此,OpenAI教授OpenAI-Five算法来玩现代的Dota视频游戏,而Google则教机器人手捕捉新对象 。 尽管RL取得了成功,但仍有许多问题降低了该技术的有效性。

RL算法发现在代理很少收到反馈的环境中工作很困难 。 但这是现实世界中的典型现象。 例如,假设在大型迷宫(如超市)中寻找自己喜欢的奶酪。 您正在寻找奶酪部门,但找不到。 如果您在每一步都没有得到“坚持”或“胡萝卜”,那么就无法说出您是否朝着正确的方向前进。 在没有奖励的情况下,是什么阻止您永远徘徊? 只是您的好奇心而已。 这促使他们搬到杂货店,这看起来很陌生。

科学工作“通过可达性实现好奇心”Google Brain团队DeepMind苏黎世的瑞士高等技术学校合作的结果。 我们提供了一种新的基于情节记忆的RL奖励模型。 她看起来很好奇,可以让您探索环境。 由于代理不仅必须研究环境,还必须解决初始问题,因此我们的模型为初始稀疏奖励增加了奖励。 组合奖励不再稀疏,这使得标准RL算法可以从中学习。 因此,我们的好奇心方法扩展了可以使用RL解决的任务范围。


通过可达性偶尔产生好奇心:将观察数据添加到内存中,根据当前观察值与内存中相似观察值之间的距离来计算奖励。 对于尚未在内存中呈现的观察结果,代理会获得更大的奖励。

该方法的主要思想是将主体对环境的观察结果存储在情景记忆中,并奖励主体查看尚未在存储器中呈现的观察结果。 “缺乏记忆力”是我们方法中新颖性的定义。 寻找这种观察意味着寻找陌生人。 这种渴望寻找陌生人的渴望将把AI代理带到新的位置,从而防止徘徊,最终帮助他跌倒在目标上。 正如我们稍后讨论的那样,我们的措词可能会阻止代理人摆脱某些其他措词所遭受的不良行为。 令我们感到惊讶的是,这种行为与外行称之为“ procrastination”的相似之处。

以前的好奇心


尽管在过去[1] [2] [3] [4]中曾进行过很多尝试来形成好奇心,但在本文中,我们将重点介绍一种自然且非常流行的方法:基于预测的好奇心。 在最近的文章“通过在自己的控制下进行预测来使用好奇心研究环境” (通常称为ICM)中对此技术进行了描述。 为了说明惊奇与好奇之间的联系,我们再次使用在超市中找到奶酪的类比。


Indira Pasko的插图,根据CC BY-NC-ND 4.0许可

在商店中徘徊,您正在尝试预测未来( “现在我在肉类部门,所以我认为拐角处的部门是鱼类部门,它们通常在这家连锁超市附近” )。 如果预测不正确,您会感到惊讶( “实际上,有一个蔬菜部门。我没想到这一点!” )-这样,您将获得奖励。 这就增加了将来再次探望角落,探索新的地方只是为了验证您的期望是真实的(并且可能偶然发现了奶酪)的动力。

同样,ICM方法会建立一个有关世界动态的预测模型,如果模型无法做出良好的预测(即令人惊讶或新颖的标记),则可为代理商提供奖励。 请注意,ICM的好奇心并不直接说明探索新的地方。 对于ICM方法,参加培训只是获得更多“惊喜”并从而使您的整体回报最大化的一种方式。 事实证明,在某些环境中,可能会有其他方式使自己感到惊讶,从而导致意外的结果。


与电视见面时,具有基于惊讶的好奇心系统的特工冻结。 Deepak Patak的视频中的动画,根据CC BY 2.0授权

拖延的危险


“基于好奇心的学习的大规模研究”一文中,ICM方法作者与OpenAI研究人员一起展示了使惊奇最大化的隐患:代理商可以学会沉迷于拖延而不是做一些对任务有用的事情。 要了解为什么会发生这种情况,请考虑一个思想实验,作者将其称为“电视噪声问题”。 在这里,代理商被放置在迷宫中,其任务是寻找一个非常有用的物品(在我们的示例中为“奶酪”)。 环境中有一台电视,而代理人有一个遥控器。 频道数量有限(每个频道都有一个单独的传输通道),每次按遥控器上的都会将电视切换到随机频道。 代理在这种环境下将如何行动?

如果好奇心是基于惊奇而形成的,那么渠道的改变将带来更多的回报,因为每次改变都是不可预测的和意想不到的。 重要的是要注意,即使在对所有可用频道进行周期性扫描之后,对频道的随机选择也可以确保每个新的更改仍然是意外的-代理预测在切换频道后它将显示电视,并且很有可能该预测将是不正确的,这将引起意外。 重要的是要注意,即使代理已经看到每个通道上的每个传输,更改仍然是不可预测的。 因此,代理人最终不会留在电视机前,而不是寻找一个非常有用的物品,这与拖拉类似。 如何改变好奇心的措辞以防止这种行为?

情节好奇


“通过可到达性引起的好奇心”一文中,我们探索了一种基于情境记忆的好奇心模型,该模型不太容易获得即时愉悦感。 为什么这样 如果我们以上面的示例为例,则在切换通道一段时间后,所有传输最终将最终存储在内存中。 因此,电视将失去吸引力:即使节目在屏幕上的显示顺序是随机且不可预测的,它们也都在内存中! 这是与基于惊奇的方法的主要区别:我们的方法甚至没有尝试预测未来,很难预测(甚至不可能)。 相反,代理会检查过去并检查存储器中是否有当前观察相同的观察。 因此,我们的代理不容易产生即时愉悦感,这会产生“电视噪音”。 代理商将不得不去电视外探索世界以获得更多奖励。

但是,我们如何确定代理是否看到存储在内存中的同一事物呢? 精确的匹配检查是没有意义的:在实际环境中,座席很少会两次看到相同的事物。 例如,即使座席返回同一房间,他仍然会从不同的角度看到该房间。

我们没有使用精确的匹配方法,而是使用了经过训练的深度神经网络来衡量两种体验的相似程度。 为了训练这个网络,我们必须猜测观察结果在时间上有多紧密。 时间上的接近度很好地指示了是否应将两个观测值视为同一观测值的一部分。 这样的学习通过可达性导致了新颖性的一般概念,如下所示。


可达性图定义了新颖性。 实际上,该图不可用-因此,我们训练神经网络逼近器来估计观察之间的步数

实验结果


为了比较描述好奇心的不同方法的性能,我们在两个视觉丰富的3D环境中测试了它们: ViZDoomDMLab 。 在这种情况下,代理商要承担各种任务,例如在迷宫中寻找目标,收集好物品并避免坏物品。 在DMLab环境中,默认情况下,该代理配备了出色的小工具,例如激光设备,但是如果特定任务不需要该小工具,则代理将无法自由使用它。 有趣的是,出于惊讶,ICM代理实际上非常频繁地使用激光,即使完成任务毫无用处! 就像在电视上一样,他宁愿花时间在墙上射击,也不愿在迷宫中寻找有价值的物品,因为它以惊喜的形式给予了很多回报。 从理论上讲,墙击的结果应该是可预测的,但实际上很难预测。 这可能需要比标准AI代理更深入的物理知识。


惊讶的ICM代理不断射入墙壁而不是探索迷宫

与他不同,我们的经纪人掌握了合理的行为来研究环境。 之所以发生这种情况,是因为他没有试图预测自己行动的结果,而是从情景记忆中寻找“更远的”观察结果。 换句话说,代理人暗中追求的目标比墙上的简单射击需要更多的努力。


我们的方法演示了智能的环境探索行为。

观察我们的奖励方法如何惩罚循环中的坐席很有意思,因为在第一圈完成之后,坐席不会遇到新的观察结果,因此不会获得任何奖励:


奖励可视化:红色代表负面奖励,绿色代表正面。 从左到右:奖励卡,带有内存位置的地图,第一人称视角

同时,我们的方法有助于对环境的良好研究:


奖励可视化:红色代表负面奖励,绿色代表正面。 从左到右:奖励卡,带有内存位置的地图,第一人称视角

我们希望我们的工作能推动一波新的研究浪潮,超越惊奇技术的范围,以便对行为者进行更智能的行为教育。 要对我们的方法进行深入分析,请查看科学工作预印本

致谢:


该项目是Google Brain团队,DeepMind和苏黎世的瑞士高等技术学校之间合作的结果。 主要研究小组:Nikolay Savinov,Anton Raichuk,Rafael Marinier,Damien Vincent,Mark Pollefeys,Timothy Lillirap和Sylvain Geli。 我们要感谢Olivier Pietkin,Carlos Riquelme,Charles Blundell和Sergey Levine讨论此文档。 我们感谢Indira Pasco提供插图说明。

参考文献:


[1] “基于基于神经密度模型的计数的环境研究” ,Georg Ostrovsky,Mark G. Bellemar,Aaron Van den Oord,Remy Munoz
[2] “基于计数的强化学习深度学习环境” ,考兰·谭,雷恩·胡斯富特,戴维斯·富特,亚当·诺克,席晨,严端,约翰·舒尔曼,菲利普·德·特克,彼得·阿贝尔
[3] “在没有老师的情况下进行学习,以找到内部动机研究的目标,”亚历山大·佩雷(Alexander Pere),塞巴斯蒂安·弗斯特里耶(Sebastien Forestier),奥利维尔·西戈特(Olivier Sigot),皮埃尔·伊夫·乌德耶(Pierre-Yves Udeye)
[4] “ VIME:最大化信息变化的智能”, Rein Huthuft,Xi Chen,Yuan Duan,John Schulman,Philippe de Turk,Peter Abbel

Source: https://habr.com/ru/post/zh-CN427847/


All Articles