象棋机迈出的一大步

深度学习算法AlphaZero取得了令人难以置信的成功,它引领了一个新的思维时代,这可能证明对人类来说是短暂的




12月初,由母公司Alphabet Inc.拥有的人工智能公司DeepMind的研究人员谈论了国际象棋最前沿的情况。

一年之前,即2017年12月5日,该团队宣布其AlphaZero机器学习(MO)算法在国际象棋界引起了轰动,该算法不仅掌握了常规国际象棋,而且还掌握了日本棋和围棋 。 除基本规则外,该算法无需任何游戏概念即可开始工作。 然后他开始与自己玩几百万次,并从错误中学习。 在短短的几个小时内,该算法就成为了世界上所有人和计算机中最佳的播放器。

AlphaZero的成就及其内部结构的详细信息目前正在接受正式审查,之后将在《 科学 》杂志上发表。 新作品回应了对原始陈述的严重批评。 例如,很难说AlphaZero是否真的与他的对手,计算怪物Stockfish诚实地比赛。 但是所有这些疑虑都消除了。 在过去的12个月中,AlphaZero并没有变得更强大,但是它已经成为其优势的更有说服力的证据。 显然,他代表着一种我们必须思考很长时间的人前所未有的思想。

在过去的20年中,计算机象棋取得了长足的进步。 1997年,IBM的计算机国际象棋程序Deep Blue在六场比赛中击败了当时的世界男子冠军Garry Kasparov。 回顾过去,我们可以说这项成就没有任何奥秘。 深蓝可能估计每秒2亿个职位。 她从不疲倦,从未犯错,也从未忘记过不久之前的想法。

无论如何,她残酷而物质地像机器一样玩耍。 她本可以比卡斯帕罗夫好,但不能比他想的好。 在他们比赛的第一场比赛中,深蓝可以预测地接受了卡斯帕罗夫提议的将车队换成主教的交易,但随后输了16步。 当今世界上最强大的国际象棋程序,例如Stockfish和Komodo,并不具有人类玩性。 他们喜欢接受别人的形象。 他们正在建造铁盾。 但是,尽管它们比任何人都玩得更强,但这些棋牌机对游戏一无所知。 他们需要学习国际象棋的基本原理。

这些原则经过数十年的大师级经验的磨练,以复杂的评估功能的形式被编程到机器中,其中指出需要在位置上实现什么以及应避免的事情:需要多少钱来评估国王的安全性,棋子的活动性,棋子的放置,对棋盘中心的控制等等,以及如何管理这些事物之间的权衡。 当今所有这些原则都不适用的国际象棋机,表现得很像粗鲁的动物:它们非常快速和强大,但是却缺乏大脑。

但是自MO出现以来,这一切都发生了变化。 自己玩游戏,并在从经验中学习的同时更新其神经网络,AlphaZero自己发现了国际象棋的原理并迅速成为最佳棋手。 她不仅可以轻松地在人民群众中击败大师,而且还击败了计算机象棋冠军斯托克菲什(Stockfish)。 在与一台令人印象深刻的机器进行的一百场比赛中,AlphaZero赢得了28次比赛,而72次比赛却只输了平局而没有输掉任何一场。

最令人不快的是AlphaZero展示了思想。 她的演奏风格与众不同,与众不同,具有浪漫的攻击风格。 她玩赌博,冒险。 在某些游戏中,她使Stockfish瘫痪并与她一起玩。 在第10场比赛中进行进攻时,AlphaZero将女王退到了棋盘角,远离Stockfish国王,在进攻国王时表现有所不同。

但是,这次奇怪的撤退被证明是有毒的。 无论干鱼如何回答,她都注定要失败。 仿佛AlphaZero在等待斯托克菲什(Stockfish)弄清楚,经过数十亿次尝试的组合后,她的立场多么无望,像一只斗牛士在斗牛士面前像一只被击落的公牛一样和平地放松和投降。 大师们从未见过这样的东西。 AlphaZero发挥了演奏家的优雅和机器的力量。 这是对惊人的新型智能的第一个粗略的相识。


左手Garry Kasparov在1997年5月在纽约举行的第六场也是最后一场比赛中与IBM Deep Blue计算机比赛。 计算机背后的人物是由IBM工程师约瑟夫·琼(Joseph Joan)移动的。

当创作者首次介绍AlphaZero时,一些观察家抱怨Stockfish被剥夺了首张专辑的使用权。 这次,即使有自己的装备,她也被击败了。 即使AlphaZero以结算时间增加十倍的形式给Stockfish抢先了,她仍然击败了她。

令人印象深刻的是,AlphaZero的思考不是更快,而是更好。 她每秒只研究6万个职位,而不是像Stockfish那样研究6000万个职位。 她比较聪明,知道该考虑什么和该忽略什么。 卡斯帕罗夫(Kasparov)在随附的《科学》杂志的评论中写道,在独立发现象棋原理之后,AlphaZero开发了一种“反映游戏真相”而不是“程序员的优先考虑和偏见”的游戏风格。

现在的问题是,MO是否可以帮助人们发现关于真正重要事物的类似真理:科学和医学领域尚未解决的巨大问题,例如治愈癌症或意识的方法; 免疫系统的奥秘,基因组的秘密。

最初的迹象令人鼓舞。 八月份,《自然医学》杂志上的两篇文章探讨了将MO应用于医学诊断的问题。 在其中一项研究中,来自DeepMind的研究人员与伦敦默菲尔德眼科医院的医生合作,开发了一种深度学习算法,该算法可以对各种视网膜病理学以及人类专家进行分类。 在眼科领域,严重缺乏能够解释每年获取的数百万张诊断性眼部图像的专家。 人工智能助手将是无价的。

另一篇文章检查了MO算法,该算法可识别来自救护车,中风迹象,颅内出血或其他神经系统疾病患者的计算机断层扫描图像。 每分钟都是中风受害者的关键; 延误治疗的时间越长,效果越差。 神经学家甚至有一句话:“时间就是大脑”。 新算法以与人类专家相当的精度标记这些事件和其他关键事件,但其工作速度提高了150倍。 高速诊断将使您能够将最紧急的病例转移到队列的前面,然后他们已经可以被放射线医生评估。

MO中令人讨厌的是,算法无法解释其思想。 我们不知道它们为什么起作用,所以我们不知道它们是否可以被信任。 AlphaZero显示了发现国际象棋游戏重要原理的所有迹象,但不能与我们分享这种理解。 至少还没有。 人们不仅需要答案。 我们需要了解。 从现在开始,这个问题将成为我们与计算机交互过程中紧张的根源。

实际上,在数学上这早已发生。 考虑一个长期存在的数学问题,称为四色定理 。 她声称,在某些合理的限制下,任何接触国家的地图都可以用四种颜色绘制,以便任何两个邻国具有不同的颜色。

尽管该定理是在1977年使用计算机证明的,但没有一个人可以验证证明的所有步骤。 从那时起,证明已经得到确认和简化,但是它仍然包含需要穷举搜索进行计算的部分,例如AlphaZero的前任下棋所使用的部分。 这种状况使许多数学家感到愤怒。 他们不必相信定理的正确性; 他们已经相信了。 他们想了解为什么这是真的,而这种证明无济于事。

但是,想象一下,也许很快就会到来的时候,AlphaZero将变成一种更加通用的算法。 我们称之为AlphaInfinity。 像他的祖先一样,他将拥有高超的头脑:他将能够提供出色的证据,就像AlphaZero对Stockfish进行的游戏一样优雅。 每个证明都将证明定理为何成立。 AlphaInfinity不会强迫您接受任何丑陋而复杂的证据。

对于数学家和科学家来说,这一天将标志着新思维时代的到来。 但这可能是短暂的。 速度越快的汽车,越过神经元以毫秒级的乌龟速度运转的人,我们将无法跟上它们的速度就会越快。 人类思维的曙光很快就会变成日落。

假设在基因的调控或癌症的发展中还有一些尚未发现的模式。 在免疫系统的功能; 在亚原子粒子的舞蹈中。 假设这些模式只能由远胜于我们的智力来预测。 如果AlphaInfinity可以定义和理解它们,那么在我们看来,这就是一个预言。

我们将坐在她的脚下,仔细听。 我们不知道为什么先知总是正确的,但是我们可以在实验和观察中检查其计算和预测,并确认其启示。 在科学中,这是对人的象征性占领,我们的角色将沦为观察者的角色,观察惊奇和混乱中正在发生的事情。

也许有一天,我们缺乏思维将不再困扰我们。 毕竟,AlphaInfinity可以治愈所有疾病,解决所有科学问题,并使所有其他智能火车如期进行。 我们做得很好,没有想到作为智人存在的最初30万年。 我们将不会遇到记忆问题,我们将自豪地回顾人类思想的黄金时代,这个光辉的历时持续了几千年,介于一个不懂事的过去和一个莫名其妙的未来之间。

Source: https://habr.com/ru/post/zh-CN436598/


All Articles