DeepStack扑克计划击败了一对一的专业人士


翻牌前(一对一游戏)和翻牌无限制德州扑克中的DeepStack决策树

,现代游戏理论的先驱约翰·冯·诺伊曼(John von Neumann)说:“现实生活全在于虚张声势,欺骗小技巧,思考预期要采取的行动你的另一个人。这就是游戏在我的理论中所代表的意思(引自纪录片系列第十三辑“ 人类的崇高 ”)。

换句话说,约翰·冯·诺伊曼(John von Neumann)预见到,要创建强大的AI,计算机必须学会玩具有不完整信息的游戏,这些信息与现实生活中的人类行为最接近。像扑克游戏。

棋盘游戏是人工智能领域的传统实验领域。每年,AI在不同的游戏中击败一个人。首先,跳棋投降,然后是国际象棋,然后是Atari电子游戏,最后一场比赛失败了。但是所有这些都是具有完整信息的游戏,其中所有玩家都具有有关游戏状态的完整信息。扑克是完全不同的事情。

长期以来,科学家一直在尝试开发一种程序,该程序可以在无限的Texas Holdem中击败一个人。与弱AI的其他应用不同,成功的开发将在这里立即获得回报,因为每天可以在在线扑克室中赢得数十亿美元。

约翰·冯·诺伊曼(John von Neumann)说,扑克使他感到高兴,鉴于这种不完整游戏的独特功能,这并不奇怪。每个玩家只有一部分有关游戏状态的信息-并且他基于此部分信息进行操作,并评估其他玩家的行为。

以前,AI仅在玩极限扑克游戏时才取得一些成功,极限扑克是游戏中最原始的版本,在提高下注额方面步伐有限。在限定版中,播放器只有10 14个开发选项。为了进行比较,在无限注德州扑克中已经有10 160个这样的选项。顺便说一句,游戏中10,170个开发选项,但是有一个具有全部信息的游戏,也就是说,从根本上来说,这是一项简单的任务。

与具有完整信息的游戏相比,具有不完整信息的游戏需要更高层次的递归思维。在此,AI的正确动作尤其取决于AI从对手的动作中接收到的信息。但是,对手提供的信息又是先前AI动作的衍生函数,以及AI随对手的动作提供给对手的信息。这是DeepStack处理的递归思想。从与专业人士的比赛结果来看,她应付得很好(见表)。


与专业选手的单挑结果

下图显示了DeepStack程序的体系结构。当需要做出决定时,程序会在每个阶段重新评估其操作。为了计算每个投注的值,使用了一个前瞻树,使用事先在随机游戏情况下训练过的神经网络来计算突出显示的值。



神经网络的结构表明,在入口处提供底池大小,开牌和玩家范围(玩家可以以其进入游戏的方式(叫,加注,3-bet等)进入游戏的可能组合,每种组合的概率)。神经网络由七个完全连接的隐藏层组成。然后由另一个神经网络处理输出值,该神经网络验证动作是否满足零和限制



该程序的一个特点是它积极抵制对手对其策略的分析。换句话说,该程序使用了纳什均衡,这是博弈论中的关键概念。纳什均衡是指一系列策略,如果其他参与者的策略不变,则任何参与者都无法通过更改策略来增加赢利。从对抗性扑克游戏的角度来看,DeepStack的主要任务是找到纳什均衡,即最大程度地降低其他玩家利用其策略获利的可能性。使用LBR(本地最佳响应)技术测试其策略后,到目前为止,到目前为止开发的所有扑克程序绝对可以轻松利用-参见最近最新扑克机器人概述

因此,使用LBR完全不会利用DeepStack。结合机器人在游戏中与专业人士展示的真实结果,只有一个问题:开发人员为什么要在公共领域发布有关此体系结构的信息?

该科研成果于2017年1月6日发布在arXiv.org网站上,其中的文章均经过编排,然后发表在官方杂志上。

开发团队由来自美国阿尔伯塔大学的计算机科学教授Michael Bowling领导


DeepStack开发团队

艾伯塔大学的扑克机器人系(计算机扑克研究小组)创建于90年代,在这里创建的第一个机器人是1997年的洛基(Loki)。然后是Poki(1999),PsOpti / Sparbot(2002),Vexbot(2003),Hyperborean(2006),Polaris(2007),Hyperborean No-Limit(2007),Hyperborean Ring(2009),Cepheus(2015),最后是,创造的王冠-DeepStack。

在不久的将来,DeepStack程序将在具有更多经验的专业人士的游戏中进行测试,这些职业的水平将比本文开头的人员要高得多。从本周末开始,该程序将在匹兹堡赌场举行的锦标赛中进行预计将有几位世界一流的专业人员到达。在20天之内,DeepStack应该玩大约120,000手。这足以相当准确地评估程序的质量。

迄今为止,DeepStack已与国际扑克联合会选定的专业志愿者进行了44,852手比赛。玩家会因一项出色的游戏而获得现金奖励(一等奖5,000加元),因此人们发挥了全部力量。尽管如此,该程序还是一个不错的选择。

Source: https://habr.com/ru/post/zh-CN400709/


All Articles