为什么自学习型AI在现实世界中会出现问题?



最新的自学人工智能系统可以从头开始学习游戏,并成为世界一流的冠军。 直到最近,可以击败冠军的机器都是通过研究人类经验来开始研究的。 为了在1997年击败Garry Kasparov,IBM工程师向深蓝上载了数百年来人类对国际象棋的热情所积累的信息。 在2016年,由Google DeepMind创建的AlphaGo人工智能在古老的Go棋盘游戏中胜过了冠军Lee Sedola ,此前他曾从成千上万的人类游戏中研究过数百万个职位。 但是现在,AI开发人员正在重新考虑将人类知识整合到电子大脑中的方法。 当前趋势:不要为此烦恼。

2017年10月,DeepMind团队发布了有关玩Go的新系统-AlphaGo Zero的信息。 她根本不研究人们参加的聚会。 相反,她学会了规则并开始自己玩。 最初的举动是完全随机的。 每场比赛之后,系统都会分析导致胜利或失败的原因。 一段时间后,AlphaGo Zero开始与抽奖得主Lee Sedola-AlphaGo一起比赛。 她以100:0的分数击败了她。


在2016年与AlphaGo进行的一场比赛中,曾18次获得围棋比赛世界冠军的李·塞多尔(Lee Sedol)。

然后,研究人员创建了一个系统,该系统成为AlphaGo家族中最强大的参与者-AlphaZero。 在12月发表的一篇论文中,DeepMind开发人员报告说,同样从零开始学习的AlphaZero超过了AlphaGo Zero(零),也就是说,它击败了击败该机器人的机器人,该机器人击败了世界上最好的玩家。 当她受制于国际象棋规则以及该游戏的日文版本-shogi时,AlphaZero很快学会了击败这些游戏中最强大的算法。 专家们对游戏的侵略性,与众不同的风格感到惊讶。 正如丹麦大师彼得·海涅·尼尔森(Peter Heine Nielsen) 指出的那样 :“我一直很想知道如果超自然者飞到地球会发生什么,并向我们展示了他们如何下棋。 现在我知道了。”

去年,我们看到了超凡脱俗的自学机器人的出现,其领域包括无限扑克和Dota 2。

显然,投资于这些和类似系统的公司比主导游戏锦标赛的计划更具野心。 研究人员希望使用类似的方法来解决实际问题,例如创建在室温下运行的超导体,或使用折纸原理将蛋白质放置在有效药物分子中。 而且,当然,许多从业者希望创建通用的AI-目标是模糊的,但令人兴奋,这意味着该机器将能够像人一样思考并解决各种问题。

但是,尽管在这样的系统中投入了大量的力量和手段,但尚不清楚它们能脱离游戏领域多远。

完美世界的理想目标


许多游戏,包括国际象棋和围棋,都因为玩家总是在运动场上看到整个布局而团结在一起。 每个玩家在任何给定时间都有关于游戏状态的“完整信息”。 但是游戏越困难,您需要从当前时刻开始进一步思考。 实际上,通常不是这种情况。 假设您要求计算机进行诊断或进行业务谈判。 卡内基梅隆大学计算机科学系的研究生Noam Brown :“大多数真正的战略关系都使用隐藏的信息。 我感到AI社区的许多参与者都忽略了这种情况。”

布朗专门研究扑克游戏算法,该游戏还有其他困难:您看不到对手的牌。 但是在这里,学会独立游戏的机器已经达到了很高的高度。 2017年1月,由Brown和Tuomas Sandholm创建的一个名为Libratus的程序在无限量的Texas Hold'em中击败了四名职业球员之一。 在为期20天的比赛结束时,该机器人的收益比竞争对手多了170万美元。

《星际争霸2》的多人游戏策略是一款更令人印象深刻的游戏,这意味着关于当前情况的信息不完整。 在这里,人工智能尚未到达奥林巴斯。 游戏中的大量动作(通常以数千为单位)以及执行速度过快,阻碍了这一点。 每次点击的每个玩家(一个人或一台机器)都需要考虑无限多的进一步发展。

到目前为止,人工智能还不能与最好的玩家平等竞争。 但是开发人员正在为此而努力。 2017年8月,DeepMind获得了暴雪娱乐公司(创建了《星际争霸II》的支持者)创建的工具来帮助AI研究人员。

尽管游戏难度很大,但《星际争霸2》的精髓归结为一个简单的任务:消灭敌人。 关于国际象棋,围棋,扑克,Dota 2和几乎任何其他游戏的说法都可以这样。 在游戏中,您可以赢。

从算法的角度来看,任务应具有“目标功能”,必须找到该目标功能。 当AlphaZero下棋时并不难。 输球为-1,平局-0,胜利-+1。 AlphaZero的目标功能是获得最高积分。 扑克机器人的目标功能也很简单:赢很多钱。


该算法学习复杂的行为-在陌生的表面上行走。

在生活中,一切还不是很清楚。 例如,无人驾驶车辆需要更具体的目标函数。 有点像对他的愿望的谨慎声明,这解释了精灵。 例如:迅速将乘客运送到正确的目的地,遵守所有规则并正确评估在危险和不确定情况下的生命。 华盛顿大学计算机科学专家佩德罗·多明戈斯Pedro Domingos) :“在其他方面,优秀的机器学习研究人员与普通的机器学习研究人员之间的区别在于,您如何制定目标函数。”

想想一下Microsoft在2016年3月23日发布的Tay twitter聊天机器人。 他的目标是让人们参与其中,他实现了这一目标。 但是突然间,变得显而易见的是,最大程度地参与其中的最佳方法是倒出各种侮辱。 该漫游器在不到一天后就关闭了。

你个人最大的敌人


某些东西保持不变。 现代主流游戏机器人使用的方法依赖于几十年前发明的策略。 过去的相同问候,只有现代计算能力的支持。

这些策略通常基于强化学习,一种无需人工干预的方法。 工程师无需使用详细的说明来对算法进行细致的控制,而是允许机器探索环境并通过反复试验来实现目标。 在AlphaGo及其子孙发布之前,DeepMind团队在2013年取得了重要的重要成果,通过训练机器人为Atari 2600 7场游戏,其中3场是专家级, 对机器人进行了强化训练。

不仅如此,DeepMind团队还于2月5日推出了IMPALA ,该AI系统可以为Atari 2600玩57场游戏,以及在DeepMind中创建的另外30个三维关卡。 在这些级别上,玩家可以走过各个地方和房间,解决诸如开门和捡蘑菇之类的问题。 此外,IMPALA在任务之间转移了积累的经验,也就是说,每次会议都改善了下届会议的成果。

但是在更广泛的强化学习类别中,棋盘游戏和多人游戏允许采用更专业的方法。 当算法获得经验后,研究会以自己的游戏形式出现,并在自己的副本中苦苦挣扎。

这个想法也有很多年了。 在1950年代,IBM工程师Arthur Samuel 创建了一个检查程序,部分研究了alpha和beta之间的游戏。 在1990年代,同样来自IBM的Gerald Tesauro创建了一款西洋双陆棋游戏,该游戏将自己的算法与自己相对。 该机器人达到了人类专家的水平,开发了非标准但有效的策略。

当自己玩游戏时,每个游戏中的算法都会遇到一个平等的竞争对手。 因此,给定复制算法的即时响应,更改策略会导致不同的结果。 OpenAI的研究主管Ilya Sutskever :“每次学习新知识时,您都会发现有关游戏和环境的最小信息,对手会立即使用它来对付您。” 2017年8月,OpenAI 为Dota 2发布了一个机器人 ,该机器人控制了Shadow Fiend角色-像是一个死灵法师恶魔-并在战斗中击败了世界上最好的玩家。 公司的另一个项目:两个算法控制相扑选手, 互相学习摔跤技术。 在这样的培训过程中,停滞是不可能的,您必须不断改进。


在OpenAI中为Dota 2创建的机器人独立学习了几种复杂的策略。

但是,玩自己的旧想法只是机器人现代优势的组成部分之一,它们仍然需要以某种方式“重新考虑”他们的游戏体验。 在国际象棋,围棋和诸如Dota 2之类的视频游戏中,存在多种可能的组合。 即使在虚幻的舞台上度过了许多生命,他的机器也无法计算出每种可能的情况,以拟定一个行动表,并在再次发现自己处于类似情况时进行咨询。

为了在机遇之海中生存,您需要概括,把握本质。 借助集成的国际象棋公式,IBM深蓝成功了。 具备评估他从未见过的棋盘上的组合的能力,计算机调整了举动和策略以增加获胜的可能性。 但是,近年来出现的新技术使放弃公式成为可能。

深度神经网络越来越受欢迎。 它们由人工“神经元”层组成,就像一叠煎饼。 触发一层中的神经元时,它们将信号发送到下一层,然后将信号发送到下一层,依此类推。 通过调整各层之间的连接,这样的神经网络可以实现出色的结果,即使输入看起来很抽象,也可以将输入数据转换为某种互连的结果。 假设可以给英语中的短语一个神经网络,然后将其翻译成土耳其语。 或者,您可以从动物收容所给她照片,然后神经网络会找到那些描绘猫的照片。 或者,您可以向深度神经网络展示棋盘游戏的规则,它将计算出其获胜的可能性。 但是首先,如您所知,神经网络必须从标记数据的样本中学习。

自己玩耍的神经网络和深层神经网络可以很好地互补。 网络本身进行游戏会产生有关游戏的信息流,从而为深度网络提供理论上无穷无尽的训练数据源。 反过来,深层网络提供了一种方法,可以吸收通过自己玩网络而获得的经验和模式。

但是有一个窍门。 对于自己玩耍以生成有用数据的系统,它们需要一个实际的玩耍场所。

在可以信心十足地模拟世界的环境中,可以玩所有游戏,达到所有高度。 在其他领域,要取得令人印象深刻的结果并非易事。

例如,无人驾驶的车辆在恶劣的天气下很难骑行,并且道路上的骑自行车的人会大大干扰。 此外,无人机可能会错误地评估非标准但真实的情况,例如鸟类直接飞入汽车的摄像头。 或减少对AI的异乎寻常的使用-机器人手臂操纵器。 首先,需要向她传授身体动作的基础知识,以使手至少了解如何学习。 但与此同时,她不知道触摸各种表面和物体的特殊性,因此机器需要练习解决诸如从瓶上拧下盖子或执行外科手术等问题。

蒙特利尔大学深度学习专家Yoshua Bengio表示 :“在难以模拟的情况下,“自学成才”学习模型不是很有用。 困扰着“特别是在环境复杂的情况下”,真正理想的环境模型与博学的模型之间存在巨大差异。

赛后生活


很难确切地说出AI在游戏中的优势何时开始。 您可以选择输掉Kasparov或击败Lee Sedola。 通常倒数是从2011年开始,电视游戏《 危险》的冠军肯·詹宁斯(Ken Jennings)失利了 ,与IBM Watson进行了为期两天的竞争。 机器能够理解措辞和双关语。 开发人员已经赋予Watson处理我们固有的文本的能力。 计算机可以将英语的词组提示带给一个单词,可以快速查看相关文档,突出显示信息片段并选择最佳答案。

但是多年来,“普通”生活任务仍然不适合人工智能。 2017年9月, 发表了一份报告该报告指出,作为Watson for Oncology项目的一部分,在个人癌症治疗方法的研发方面存在很大困难。 电脑更容易理解危险中问题的含义 而不是了解医学文章的本质。

但是,有许多真实任务与游戏一样高度专业化。 有传言说DeepMind团队正在努力使AlphaZero适应生物医学蛋白质折叠研究的需要。 为此,开发人员必须了解如何将形成蛋白质的氨基酸折叠成小的三维结构,其功能取决于形状。 这就像下棋一样困难:化学家们知道一些可以计算某些情况的原理,但是可能的三维结构非常丰富,以至于无法完全研究它们。 但是,如果您将蛋白质变成游戏,该怎么办? 那是他们已经做的。 自2008年以来,成千上万的玩家尝试了在线游戏Foldit ,其中给出了所创建蛋白质结构的稳定性和可行性的观点。 一台机器可以以相同的方式进行自身训练,例如通过强化训练来试图超越人类选手的最佳成绩。

强化学习和自我游戏也可以帮助训练互动系统。 然后,机器人将能够与人交谈,首先学习与人交谈。 鉴于生产率的提高和用于AI的专用设备的可用性,工程师将获得动力,将越来越多的实际任务转化为游戏形式。 将来,“玩弄自己”方法和其他需要大量计算能力的方法的重要性可能会增加。

但是,如果我们的主要目标是创造一种可以像人一样做的机器和一台自学机器,那么像AlphaZero这样的棋盘游戏冠军将拥有可能的发展道路。 有必要意识到真正的心理活动,创意的理解与我们今天在人工智能领域所见之间的鸿沟。 人工智能的明亮形象在大多数情况下都存在于伟大的研究人员的脑海中。

许多了解炒作水平的科学家提供了自己的分类。 一般而言,无需高估机器人玩游戏对AI发展的重要性。 例如,人不是很擅长演奏。 但另一方面,在某些任务中使用非常简单,专门的工具可以达到很高的高度。

Source: https://habr.com/ru/post/zh-CN411761/


All Articles