为什么自学人工智能在现实世界中会出现问题?

最新的AI系统在没有任何游戏知识的情况下开始训练,并在数小时内发展到世界水平。 但是研究人员正在努力在游戏世界之外使用这种系统。




直到最近,能够羞辱人类冠军的机器至少都尊重使用人类经验来教游戏。

为了在1997年用国际象棋击败Garry Kasparov,IBM工程师利用了数百年的国际象棋智慧,创建了自己的Deep Blue计算机。 2016年,Google DeepMind项目的AlphaGo程序在古老的棋盘游戏中击败了冠军李·塞多拉,处理了从数以万计的人与人之间的游戏中收集的数百万个游戏位置。

但是现在,人工智能研究人员正在重新考虑他们的机器人应该如何吸收人类知识。 当前的趋势可谓“是的,上帝保佑他”。

去年10月,DeepMind团队发布了新的go-game系统AlphaGo Zero 详细信息,该系统根本没有研究人们的游戏。 她从游戏规则开始,然后自己玩。 最初的举动是完全随机的。 每场比赛之后,她接受了有关导致胜利与不胜利的新知识。 在这些比赛之后,AlphaGo Zero击败了已经击败了Lee Sedol的已经超人的AlphaGo版本。 第一个以100:0的分数赢得第二个。


李世dol(Lee Sedol)连续18年获得世界冠军,他在2016年与AlphaGo比赛。

团队继续探索并创建了AlphaGo家族的下一位杰出球员,这次简称为AlphaZero。 在12月在arxiv.org 发表的一篇论文中,DeepMind研究人员揭示了从头开始,AlphaZero如何再次训练并击败了AlphaGo Zero,也就是说,它击败了击败了击败了世界上最佳棋手的机器人的机器人。 当她获得了日本棋的规则后,AlphaZero迅速学习并设法击败了他们为该游戏专门设计的最佳算法。 专家对游戏的进取和陌生风格感到惊讶。 丹麦宗师彼得·海涅·尼尔森(Peter Heine Nielsen)在接受美国空军采访时说:“我一直想知道,如果上等生物飞向地球会怎么样,并向我们展示了他们如何下象棋。” “现在我知道了。”

去年,我们看到了来自其他世界的其他机器人,它们被证明存在于不同的领域,例如无限扑克和Dota 2(Dota 2),这是一个流行的在线游戏,幻想英雄在其中争夺另一个世界的控制权。

自然,公司在此类系统上投资的雄心超出了游戏锦标赛的主导地位。 像DeepMind这样的研究团队希望将类似的方法应用于现实世界中的任务-创建在室温下工作的超导体,或者了解哪种折纸将蛋白质转变为药物友好分子。 而且,当然,许多从业者希望建立通用的人工智能-一个定义不明确但引人入胜的目标,以使机器有机会像人一样思考并灵活地解决各种问题。

但是,尽管进行了所有投资,但尚不清楚当前的技术可以超越游戏板的极限。 华盛顿大学计算机科学家佩德罗·多明戈斯(Pedro Domingos) 说: “我不确定AlphaZero背后的想法是否会这么容易总结。” 游戏是一个非常非常不寻常的话题。

完美世界的理想目标


许多游戏(包括国际象棋和围棋)的一个共同特征-玩家不断看到棋盘两侧的所有筹码。 每个玩家都有关于游戏状态的所谓“理想信息”。 无论游戏多么复杂,您都只需要考虑自己的当前位置。

许多现实世界的情况不能与此相比。 假设我们要求计算机进行诊断或进行业务谈判。 卡内基·马隆大学计算机科学专业的研究生Noam Brown说:“现实世界中的大多数战略互动都涉及隐藏的信息。” “在我看来,大多数AI社区都忽略了这一事实。”

棕色扑克提出了另一个挑战。 您看不到对手的牌。 但是在这里,通过自己的游戏学习的机器已经达到了超人的高度。 2017年1月,由布朗和策展人托马斯·桑德霍尔姆Thomas Sandholm)创立的Libratus计划在20天的冠军赛结束时赢得了170万美元, 击败了四名职业德州扑克无限制玩家。

具有不完美信息的更令人沮丧的游戏是《星际争霸2》,这是另一个拥有大量粉丝的在线多人游戏。 玩家选择一个团队,组建一支军队,并在科幻世界中发动战争。 但是地形被战争迷雾所包围,因此玩家只能看到自己的部队或建筑物所在的区域。 甚至探索对手领土的决定都充满不确定性。

这是AI尚无法胜出的唯一游戏。 障碍是游戏中移动的众多选择,通常超过一千种,而且决策速度也很高。 每个玩家-一个人或一台机器-每次单击鼠标都必须担心大量可能的开发方案。

到目前为止,人工智能无法与该领域的人们平等竞争。 但这是AI发展的目标。 2017年8月,DeepMind与创建《星际争霸II》的公司暴雪娱乐(Blizzard Entertainment) 合作 ,开发了他们表示将向AI研究人员开放该游戏的工具。

尽管非常复杂,但《星际争霸2》的目标却很容易制定:消灭敌人。 这使她类似于国际象棋,围棋,扑克,Dota 2和几乎其他任何游戏。 在游戏中您可以赢。

从算法的角度来看,任务应该具有“目标功能”,这是我们必须努力实现的目标。 当AlphaZero下棋时,这很容易。 失败估计为-1,平局为0,胜利为+1。 AlphaZero的目标功能是最大化积分。 扑克机器人的目标功能很简单:赢得很多钱。


电脑步行者可以训练复杂的行为,例如在陌生的地形中行走

现实生活中的情况并非如此简单。 例如,机器人需要更好地形成目标函数-这类似于描述您对精灵的渴望时对单词的精巧选择。 例如:在危险和不确定的情况下,遵守所有法律并适当权衡人员生命成本,将乘客迅速送至正确的地址。 多明戈斯说,研究人员对目标函数的形成是“将机器学习领域的优秀研究人员与平均水平区分开的东西之一。”

考虑微软2016年3月23日发布的Twitter聊天机器人Tay。 他的目标是使人们参与到对话中来。 多明戈斯说:“泰伊不幸地发现,种族主义的侮辱是使人们最大程度地参与其中的最佳途径。” 工作开始后第二天就关闭了。

你自己的主要敌人


有些事情不会改变。 当今流行的游戏机器人如今使用的策略是几十年前发明的。 东京大学IT专家David Duveno表示:“这是过去的爆炸,他们只是赋予了它更多的计算能力。”

策略通常基于具有行动自由的强化学习技术。 工程师无需进行微管理,而是设置算法的最小细节,而是让机器研究环境,以通过反复试验来学习如何自行实现目标。 在AlphaGo及其继承者发布之前,DeepMind团队在2013年的头条新闻上取得了首个重大成功,当时他们使用强化培训创建了一个机器人,该机器人学会了玩 7场Atari 2600游戏,其中3场是专家级的。

这一进步一直在继续。 2月5日,DeepMind发布了AIPALA ,这是一个AI系统,能够使用Atari 2600学习57种游戏,并通过DeepMind在三个维度上学习另外30个关卡。 玩家在各种环境中对它们进行操作,并实现诸如开门或采摘蘑菇之类的目标。 IMPALA似乎可以在任务之间传递知识-在一款游戏上花费的时间改善了其余游戏的结果。

但是,在更广泛的强化学习,棋盘游戏和多人游戏中,可以使用更具体的方法。 当算法达到战略优势时,他们的研究可以以与自身的游戏形式进行,反复与自身的紧密副本竞争。

这个想法已有数十年历史了。 在1950年代,IBM工程师Arthur Samuel 创建了一个草稿程序,通过与自己的竞争来部分学习游戏。 在1990年代,IBM的Gerald Thesaur创建了一个西洋双陆棋程序,该程序将算法与自身进行了对比。 该程序达到了专家水平,同时发明了异常但有效的游戏策略。

在越来越多的游戏中,同等对手提供了用于自己玩耍的算法。 这意味着更改游戏策略会导致不同的结果,因此算法会收到即时反馈。 “每次发现某件事时,只要发现一件事,对手就会立即开始使用它来对付您。”他与Ilon Mask合作创立的非营利组织OpenAI的研究主管Ilya Sutskever说,致力于AI技术的开发和传播及其在安全方向上的发展方向。 2017年8月,该组织发布了 Dota 2 机器人程序,该机器人控制了游戏中的一个角色,死灵法师恶魔Shadow Shadow,在一对一的战斗中击败了世界上最好的玩家。 OpenAI的另一个项目推动人们模拟相扑比赛,由此他们学习摔跤和技巧。 Sutskever说,在与自己的游戏中,“没有时间休息,您需要不断改进。”



Openai


但是,与自己玩游戏的旧观念只是当今机器人盛行的一种要素,它们仍然需要一种将游戏体验转化为对主题的更深刻理解的方法。 在象棋,围棋和《 Dota 2》这样的电子游戏中,排列的数量超过了宇宙中原子的数量。 即使当AI在虚拟舞台上与自己的影子作战时,我们要等待几个人的生命,机器也将无法实现每种情况,将其写入特殊表中,并在再次出现这种情况时进行引用。

加州大学伯克利分校的IT专家彼得·阿比比尔Peter Abbil)说,要在机遇之海中生存下去,“您需要总结并强调其本质”。 IBM的Deep Blue通过内置的国际象棋公式来完成此任务。 有了评估她尚未见过的阵地实力的能力,该程序就能够运用增加她获胜机会的动作和策略。 近年来,一种新技术使得可以完全放弃这样的公式。 “现在,突然之间,所有这些都被一个“深层网络”覆盖,”阿比比尔说。

近年来,深度神经网络的兴起已迅速发展,它是由人工“神经元”层构成的,这些神经元彼此叠层,就像一叠煎饼。 激活其中一层中的神经元后,它会将信号发送到更高的级别,并在那里发送更高的信号,依此类推。

通过调整各层之间的连接,这些网络出人意料地应对了将输入数据转换为关联输出的问题,即使它们之间的连接看起来很抽象。 用英语给他们一个短语,然后将其翻译成土耳其语即可对其进行培训。 给他们提供动物庇护所的照片,他们可以确定哪一个适合猫。 向他们展示游戏多边形,他们将能够理解获胜的可能性。 但通常,此类网络必须首先提供可以在其上进行练习的带标签的示例列表。

这就是为什么玩自己和深度神经网络相互融合的原因。 独立游戏会产生大量场景,而深度网络包含几乎无限量的训练数据。 然后,神经网络提供了一种学习游戏中遇到的体验和模式的方法。

但是有一个陷阱。 为了使此类系统提供有用的数据,它们需要一个现实的游戏平台。

伯克利大学研究生切尔西·芬恩(Chelsea Finn)说:“所有这些游戏,所有这些结果,都是在可以完美模拟世界的条件下实现的。”他使用AI来控制机器人手臂并解释传感器的数据。其他领域则不那么容易模拟。

例如,机动车辆很难应付恶劣的天气或骑自行车的人。 否则他们可能无法感知现实世界中遇到的异常可能性,例如一只鸟直接飞入相机。 芬恩说,就机械臂而言,最初的模拟提供了基本的物理原理,使机械臂可以学习如何学习。 但是他们无法应付触摸不同表面的细节,因此诸如拧开瓶盖或执行复杂的外科手术等任务需要现实中的经验。

对于难以模拟的问题,与自己玩耍将不再有用。 蒙特利尔大学深度学习的先驱Yoshua Benggio写道:“真正完美的环境模型与学习的典范模型之间存在很大的差异,尤其是当现实真的很复杂时”。 但是AI研究人员仍然有继续前进的方法。

赛后生活


很难确定在游戏中AI优势的开始。 您可以选择卡斯帕罗夫(Kasparov)的棋牌失利,李·塞多尔(Li Sedol)在AlphaGo的虚拟手中失利。 另一个受欢迎的选择是在2011年这一天,当时传奇游戏《 绝地求生》的冠军 肯·詹宁斯(Ken Jennings)输给了IBM Watson。 沃森能够处理线索和双关语。 詹宁斯在上次答复中写道:“我欢迎新的计算机霸主的出现。”

沃森似乎具有与人们用来解决许多现实生活中的问题类似的办公技能。 他可以用英语感知输入,眨眼间处理与之相关的文档,获取相关信息并选择一个最佳答案。 但是七年后,现实继续对AI构成复杂的障碍。 Stat的9月份健康报告表明,沃森的继承人遇到了麻烦,沃森的继承人是沃森肿瘤学的癌症研究和个性化治疗指南专家。

“游戏危险中的问题! 与Watson团队合作的Bengio写道:“由于不需要常识,因此更易于处理,因为它不需要常识。” “了解医学文章要困难得多。 需要大量的基础研究。”

但是,即使这些游戏狭specialized地专门化了,它们却类似于几个实际任务。 DeepMind的研究人员不想回答采访问题,这表明独立专家目前正在研究他们在AlphaZero上的工作。 但是研究小组认为,这种技术可以很快帮助想要了解蛋白质折叠的生物医学研究人员。

为此,他们需要了解组成蛋白质的各种氨基酸如何弯曲并折叠成小的三维机器,其功能取决于其形状。 这种复杂性类似于国际象棋的复杂性:化学家对定律的了解程度很高,以至于他们可以粗略地计算某些情况,但是由于可能的配置太多,您将无法搜索所有可能的选择。 但是,如果蛋白质折叠是个游戏怎么办? 并且已经进行了。 自2008年以来,成千上万的人尝试了在线游戏Foldit ,在该游戏中,用户所累积的蛋白质结构的稳定性和真实性得到了满分。 机器可以以类似的方式进行训练,也许通过强化训练来试图超越其先前的最佳成绩。

Saskaver建议,加强学习和自己玩耍可以帮助训练交互式系统。 这可以使需要与人交谈的机器人有机会在与自己交谈的同时进行训练。 鉴于用于AI的专用设备变得越来越快且价格越来越便宜,工程师越来越有动力以游戏的形式设计任务。 Satskever说:“我认为,将来与自己一起玩耍以及消耗大量计算能力的其他方式的重要性将会增加。”

但是,如果这些机器的最终目标是设定一个人能够做的所有事情的重复,那么即使是像AlphaZero这样的棋盘游戏领域的综合冠军也仍有成长的空间。 MTI的认知科学家John Tenenbaum说:“至少在我看来,我需要注意真实思维,创造性的想法探索与AI的当前功能之间的巨大差距。”“这种智能是存在的,但到目前为止仅在伟大的AI研究人员的心中。”

许多其他研究人员在感知其周围的炒作时,也提供了自己的标准。“我建议不要高估这些游戏对于AI或通用任务的重要性。Google的深度学习研究员Francois Cholet说,人们不太擅长玩游戏。“但是请记住,即使是非常简单和专业的工具也可以实现很多目标。”

Source: https://habr.com/ru/post/zh-CN410999/


All Articles