职业扑克玩家Jason Les在与Libratus机器人进行单挑时与卡内基梅隆大学的Tuomas Sandholm教授进行了交谈。 杰森为此计划损失了将近一百万美元的有条件资金,比其他任何专业人士都多最近,弱小的AI系统的开发人员通常会比较他们的程序在对抗人类的游戏中的有效性。 也就是说,仅在游戏中。 计算机已经在跳棋,国际象棋和走棋中击败了人。 在这些具有在游戏过程中的任何时间的完整信息的游戏中,所有玩家都具有有关游戏状态的完整信息,即有关任何玩家的位置和所有可能的动作的完整信息。
与这种确定性情况不同,在信息不完整的游戏中,有关游戏状态的部分信息对玩家隐藏(例如,对手的牌)。 无限德州扑克只是这些游戏之一。 除了对手的牌以外,由于每个下注的大小,这里还增加了不确定性元素。 考虑到这一点,可能的结果数量估计为10
161 。
也许德州扑克是世界上最受欢迎的信息不完整的游戏。 每天都有数十亿美元在网上玩。 以前严格禁止使用漫游器,现在,扑克室的拥有者有一个新的理由来监视玩家计算机上的进程,因为Libratus程序甚至可靠地从最优秀的专业人员那里夺走了单挑筹码。
Libratus与四名扑克专业人士的获胜比赛
于2017年1月11日至30日举行 ,是
“ Brains vs. 人工智能 。
“
比赛20天中,天秤座程序和4个对手的堆栈AI进行了120,000场平手,因此,以1,766,250美元的常规美元保持在积极位置。 游戏程序给玩家留下了深刻的印象,该游戏程序每天都会巧妙地改变其策略,以适应玩家的行为。
当然,该游戏不是为了赚钱,因此玩家自己在某种程度上比较放松,对游戏的负责程度不如他们自己赚钱。 是的,他们每天不得不在计算机上花费数小时,这在身体上已经精疲力尽。 尽管如此,如此可靠的程序胜利还是令人印象深刻。 一百多张大盲注超过14张。 根据开发人员的说法,在如此长的距离上以99.7%的概率赢得如此数量的奖金,就排除了运气的影响,也就是说,这确实是一个具有统计意义的重大胜利。
现在,卡内基梅隆大学的该程序的开发者发表了
一篇科学文章,解释了AI培训的体系结构和原理,从而打败了扑克专业人士。
简而言之,为了简化计算,该程序通过相似的手(例如,对王同花和对淑女同花)和相似的下注大小将
10,161个可能的结果分组。 天秤座由三个模块组成。 第一个是关于如何在第一轮比赛中发挥作用的详细预定义策略(从每个位置举手的范围)。 此外,该策略不是很明确。 第二种策略在很大程度上取决于游戏的进程,即考虑到他的射程和统计数据,得出的牌数和对手的行为。 第三种模式是专门针对不可预测的对手(即人)的游戏策略。 第三种策略正在不断地实时更新。 如果某人对该程序进行了一些意外的操作,则她将其保存并输入到自己的模型中,并在考虑新数据的情况下对其进行了更改并改善了自己。
根据开发人员的说法,在信息不完整的情况下成功工作可以使AI不仅在游戏中具有优势。 事实是,这种情况在现实生活中无处不在。 几乎所有人类生活,几乎所有社会经济关系都是信息不完整的“游戏”。 因此,拥有合适的工具对于AI在现实世界中的成功生存至关重要。 在实践中,此类程序可用于例如在安全系统,经济模型,政治模型和其他信息不完整的系统中开发有效的策略。
Libratus程序中使用的技术在很大程度上与范围无关,因此可以在其他应用程序中使用。
该科学文章于12月17日
发表在《
科学 》杂志上(doi:10.1126 / science.aao1733,
pdf )。