长颈鹿神经网络学会了在72小时内以国际FIDE大师的水平下棋



伦敦帝国理工学院的学生Matthew Lai开发了计算机程序Giraffe,该程序可以自己玩三天的象棋-并能够提取出国际FIDE大师级别所需的所有领域知识。为此,普通计算机的计算资源足以满足她的需求。在配备两个10核Xeon E5-2660处理器的计算机上,神经网络培训在20个线程中花费了72个小时。

在科学工作中,作者写道,经过72小时的训练,该程序在46%的情况下选择了最佳可能动作,在70%的情况下选择了三个最佳动作之一。即使对于常规的象棋程序,这也是一个非常好的结果。

每个人都知道计算机比人下棋更好的事实,但不是每个人都知道为什么要取得胜利,因为简单的蛮力不足以对付对手的所有10 123种可能的动作和答案。

首先,国际象棋程序限制了分支计算的最大深度。其次,从深蓝开始,到当前在科莫多国际象棋中的冠军结束,如果大师没有配置位置评估模块,他们不太可能击败一个人或对国际象棋非常了解的人,例如IBM的Deep Blue开发团队。该程序最初奠定了游戏的开头和特色技巧,例如用棋子保卫国王或在空旷的位置用五颜六色的大象攻击国王。

对职位的能力评估可以使计划选择最适合党的发展的部门。

在这方面,很清楚为什么新的长颈鹿计划与其他计划有很大不同。没人调节她,她自己学会了演奏。另外,该程序使用“概率”方法来代替具有深度限制的分支的普通蛮力。她更深入地研究了那些可能长期延续的分支。

该图显示了决策树。树的节点以黄色可见,这对于标准算法是可见的,但分支的长度受到限制。绿色-节点仅对概率受限算法(Giraffe)可见。红色表示两种算法可见的节点。



这样的算法基于这样的前提,即对手也将以可能的最佳移动来响应-且游戏将延迟最大移动次数。这些是长颈鹿选择进行更深入分析的分支。从某种意义上说,程序的逻辑类似于经验丰富的棋手的逻辑,他们“直观地”感觉到开发游戏的最有利可图的方式。

事实证明,迄今为止,神经网络的发展已经达到了一个水平,一个学生可以编写一个程序,该程序可以在三天内以很高的水平学习如何下棋。下图显示了作者最初放置的神经网络的体系结构。他还为培训计划编制了一组起始职位。



这就是在程序中显示职位的方式。



PS计算机科学教授Sebastian Thrun是世界上最早在棋程序中使用神经网络的人之一。在90年代中期,他开发了NeuroChess程序但是,像当前的长颈鹿计划一样,这种发展也无法击败“古典派”的最佳代表。

Source: https://habr.com/ru/post/zh-CN384253/


All Articles