强化学习还是进化策略? -兼而有之

哈Ha!

两年前,我们很少决定在没有代码和明确学术重点的情况下在此处发布文本的翻译-但今天我们将成为一个例外。 我们希望这篇文章标题中的两难困境引起我们许多读者的关注,并且您已经阅读了原始工作,或者现在将阅读这篇文章引起争议的有关进化策略的基础工作。 欢迎来到猫!



2017年3月,OpenAI通过发布文章《 进化策略作为强化学习的可扩展替代方案 》在深度学习社区大惊小怪。 在这项工作中,令人印象深刻的结果被描述为有利于光在增强训练(RL)中不会会聚的事实,建议在训练复杂的神经网络时尝试其他方法。 然后引发了关于强化学习的重要性及其在学习解决问题中应得的“强制性”技术地位的讨论。 在这里,我想谈谈一个事实,即您不应该将这两种技术视为竞争,其中一种显然比另一种更好。 相反,它们最终会相互补充。 确实,如果您对创建一个通用的AI以及在整个存在过程中能够学习,判断和规划的系统进行一些思考,那么我们几乎可以得出结论,将需要此解决方案或组合解决方案。 顺便说一句,自然决定了这个联合决定,赋予了哺乳动物和其他高等动物在进化过程中复杂的智力。

进化策略


OpenAI文章的主要论点是,他们没有使用强化学习和传统的反向传播相结合,而是使用所谓的“进化策略”成功地训练了神经网络来解决复杂的问题。 这种ES方法是维持权重值在网络规模上的分布,许多代理并行工作并使用从该分布中选择的参数。 每个代理都在自己的环境中操作,并且在完成给定数量的情节或情节阶段后,该算法将返回总奖励,表示为适合度得分。 给定该值,可以将参数的分配移向更成功的代理,从而剥夺不太成功的代理。 数百万次重复这种涉及数百名代理商的操作,我们可以将权重分配移动到一个空间中,该空间使我们能够制定质量策略以使代理商解决其任务。 的确,文章中给出的结果令人印象深刻:表明如果并行运行一千个代理,则可以在不到半小时的时间内研究两条腿上的拟人运动(即使最先进的RL方法也需要一个多小时)。 如需更详细的评论,我建议阅读实验作者以及科学文章本身的精彩文章



使用OpenAI的ES方法研究了各种拟人化直立姿势的学习策略。

黑匣子


这种方法的最大好处是易于并行化。 尽管RL方法(例如A3C)要求在工作流和参数服务器之间交换信息,但是ES仅需要有效性估计和关于参数分布的通用信息。 由于这种简单性,该方法在可伸缩性方面绕过了现代RL方法。 但是,这并非徒劳:您必须根据黑匣子的原理优化网络。 在这种情况下,“黑匣子”意味着在训练期间网络的内部结构将被完全忽略,仅使用整体结果(该集的奖励),并且取决于特定结果的权重是否会继承给后代。 在我们没有从环境中获得明显反馈的情况下-并且在解决许多与RL相关的传统任务时,奖励流程非常稀少-问题从“部分黑匣子”转变为“完全黑匣子”。 在这种情况下,可能会大大提高生产率,因此,当然可以做出这样的妥协。 “如果仍然无可救药,谁需要渐变?” -这是一般意见。

但是,在反馈更加活跃的情况下,ES问题开始出现问题。 OpenAI团队介绍了如何使用ES对简单分类网络MNIST进行培训,这次培训的速度要慢1000倍。 事实是,图像分类中的梯度信号对于如何教网络更好的分类非常有用。 因此,问题与RL技术无关,而与产生噪声梯度的环境中的稀疏奖励无关。

自然找到的解决方案


如果您尝试从自然的例子中学习,通过发展AI的方式进行思考,在某些情况下AI可以表示为一种面向问题的方法 。 最后,自然界在计算机科学家根本没有的限制内运行。 有一种观点认为,解决问题的纯理论方法比经验方法更有效。 但是,我仍然认为,检查动态系统如何在一定的限制条件下(地球)形成能够灵活和复杂地行为的媒介(动物,特别是哺乳动物)是明智的。 尽管其中一些限制不适用于数据科学的模拟领域,但其他限制则非常好。

在检查了哺乳动物的智力行为后,我们发现它是由两个紧密相关的过程的复杂相互作用形成的: 从他人的经验中 学习从我们自己的经验中学习 。 第一个常因自然选择而与进化有关,但在这里我用一个广义的词来考虑表观遗传学,微生物组和其他机制,以确保彼此之间没有遗传关系的生物之间的经验交流。 第二个过程,第一手学习是动物在整个生命中设法吸收的所有信息,而这些信息与该动物与外界的互动直接相关。 此类别包括从学习到识别对象到掌握教育过程中固有的交流的所有内容。

粗略地说,可以将自然界中发生的这两个过程与优化神经网络的两个选项进行比较。 使用梯度信息更新有关身体的信息的进化策略接近于从他人的经验中学到东西。 类似地,梯度方法可以从经验中学习,在这种梯度方法中,特定经验的接收会导致代理行为的一个或另一个变化。 如果考虑到智力行为的多样性或这两种方法在动物中所发展出的能力,这种比较就更加明显。 在这两种情况下,“进化方法”都有助于研究反应性行为,从而发展出一定的适应性(足以存活)。 在许多情况下,学会走路或逃脱囚禁等同于在遗传水平上在许多动物中“硬连线”的更多“本能”行为。 另外,该示例证实了在信号奖励极为罕见的情况下(例如,成功饲养幼崽的事实),进化方法适用。 在这种情况下,不可能将奖励与这一事实发作多年之前已经采取的任何特定行动相关联。 另一方面,如果我们考虑ES失败的情况,即图像分类,那么结果将与在100多年的无数行为心理学实验过程中获得的动物训练结果具有可比性。

动物训练


在很多情况下,强化学习中使用的方法直接取自有关操作者调节的心理学文献,并且基于动物心理学研究了操作者调节。 顺便说一句,强化训练的两位创始人之一理查德·萨顿(Richard Sutton)拥有心理学学士学位。 在操作条件调节的背景下,动物学会将奖励或惩罚与特定的行为模式相关联。 培训人员和研究人员可以以某种方式操纵这种与奖励的联系,从而激发动物表现出独创性或某些行为。 但是,在动物研究中使用的操作性调节无非是这种调节的一种更明显的形式,在此基础上,一生都对动物进行了训练。 我们不断收到来自环境的正面加固信号,并相应地调整我们的行为。 实际上,许多神经生理学家和认知科学家认为,实际上,人和其他动物的行为甚至更高,并且不断学习预测未来情况下其行为的结果,并依靠潜在的回报。

预测在自学中的核心作用是以最重要的方式改变上述动力。 以前被认为非常稀少的信号(周期性奖励)非常密集。 从理论上讲,情况大致如下:在每时每刻,哺乳动物的大脑都会根据复杂的感觉刺激和动作流来计算结果,而动物却只是沉浸在这种流中。 在这种情况下,动物的最终行为会给出可靠的信号,必须以预测的正确性和行为发展为指导。 大脑使用所有这些信号来优化未来的预测(以及相应地所采取行动的质量)。 认知科学家和哲学家安迪·克拉克(Andy Clark)的著作《 冲浪不确定性 》( Surfing Uncertainty )给出了这种方法的概述。 如果将这种推理推论到人工代理的训练上,那么强化训练就会揭示出一个根本的缺陷:与可能(或应该)相比,该范例中使用的信号毫无希望地微弱。 在无法提高信号饱和度的情况下(也许是因为它的定义很弱,或者与低级反应性相关),最好采用并行度很好的训练方法,例如ES。

更好地学习神经网络


基于不断进行预测的哺乳动物大脑固有的较高神经活动的原理,近来在强化训练方面取得了一定的成功是可能的,现在已经考虑到这种预测的重要性。 我可以向您推荐两项类似的作品:


在这两篇文章中,作者均用有关未来环境状况的预测结果补充了典型的默认神经网络策略。 在第一篇文章中,将预测应用于各种测量变量,在第二篇文章中,将环境和代理的行为本身进行了更改。 在这两种情况下,与正强化相关联的稀疏信号变得更加饱和和信息丰富,既提供了加速学习又吸收了更复杂的行为模型。 仅当使用使用梯度信号的方法而不是使用基于“黑匣子”原理运行的方法(例如ES)时,此类改进才可用。

此外,第一手学习和梯度方法更为有效。 即使在那些可能使用ES方法而不是使用强化训练来研究特定问题的情况下,由于ES策略涉及的数据比RL多得多,因此获得了收益。 在这种情况下,考虑到动物训练的原理,我们注意到在一个外国实例上进行训练的结果会在几代人之后显现出来,而有时候,一个人自己经历的事件足以使动物永远学习这一课。 虽然这种没有示例的训练尚不能完全适合传统的梯度方法,但它比ES更易懂。 例如,存在诸如情景神经控制之类的方法 ,其中在训练过程中存储Q值,然后在执行动作之前用它们检查程序。 事实证明,这是一种渐变方法,可让您比以前更快地学习如何解决问题。 在有关情景神经控制的文章中,作者提到了人类海马体,即使曾经经历过这种经历,它也能够存储有关事件的信息,因此在召回过程中起着至关重要的作用 。 这样的机制需要访问代理的内部组织,按照定义,这在ES范式中也是不可能的。

那么为什么不将它们结合起来呢?


可能本文的大部分内容都给人留下了我在其中提倡RL方法的印象。 但是,实际上,我相信从长远来看,最好的解决方案将是两种方法的组合,以便在最适合的情况下使用每种方法。 显然,在采取许多被动政策或极少出现积极强化信号的情况下,ES胜出,特别是如果您具有可以进行大规模并行训练的计算能力。 另一方面,当我们可以得到广泛的反馈,并且需要快速且较少的数据来学习问题的解决方案时,使用强化学习或教师培训的梯度方法将非常有用。

转向自然,我们发现第一种方法本质上为第二种方法奠定了基础。 这就是为什么在进化过程中,哺乳动物会发育出大脑,从而能够从环境中发出的复杂信号中进行极其有效的学习的原因。 因此,问题仍然悬而未决。 也许进化策略将帮助我们发明有效的学习架构,这将对梯度学习方法很有用。 毕竟,自然界找到的解决方案确实非常成功。

Source: https://habr.com/ru/post/zh-CN456160/


All Articles