
游戏已被用作数十年来测试和评估人工智能系统成功的主要方法之一。 随着机遇的增长,研究人员正在寻找越来越复杂的游戏,这将反映解决现实世界中科学或应用问题所必需的各种思维要素。 近年来,《星际争霸》被认为是最灵活,最复杂的实时策略之一,也是历史上电子竞技界最受欢迎的策略之一,现在《星际争霸》也已成为AI研究的主要挑战。
AlphaStar是第一个能够击败最佳职业选手的人工智能系统。 在12月19日进行的一系列比赛中,AlphaStar以5:0的比分
从世界上最强的球员 Liquid赢得了对Grzegorz Komincz(
MaNa )的压倒性胜利。 在此之前,还与他的队友DarioWünsch(
TLO )进行了成功的示范比赛。 比赛是根据所有职业规则在一张特殊
比赛卡上进行的 ,没有任何限制。
尽管在
Atari ,
Mario ,
Quake III Arena和
Dota 2等游戏中取得了巨大的成功,但AI技术人员未能与StarCraft的复杂性抗衡。 最好的
结果是通过手动构建系统的基本元素,对游戏规则施加各种限制,为系统提供超人能力或通过在简化地图上玩来实现的。 但是即使是这些细微差别,也无法接近职业选手的水平。 与此相反,AlphaStar使用深度神经网络玩功能丰富的游戏,该网络基于原始游戏数据,使用
与老师一起 教学和强化学习的方法进行
训练 。
主要挑战
《星际争霸2》是一个虚构的幻想宇宙,具有丰富的多层次游戏玩法。 与原始版本一起,这是有史以来最大,最成功的游戏,已经在锦标赛中进行了20多年的战斗。

游戏方式很多,但在电子竞技中最常见的是一对一的锦标赛,包括5场比赛。 要开始比赛,玩家必须选择以下三种种族之一:虫族,神族或人族,每种种族都有自己的特点和能力。 因此,职业选手最常专注于一场比赛。 每个参与者都从几个工作单元开始,这些工作单元为建筑,其他单元或技术开发提取资源。 这使玩家可以抓住其他资源,建立更复杂的基础并开发新的能力以胜过对手。 为了获胜,玩家必须非常精细地权衡总体经济状况(称为“宏观”)和对单个单位的低级别控制(称为“微观”)。
平衡短期和长期目标并适应不可预见的情况的需求给实际上往往完全不灵活的系统带来了巨大挑战。 解决此问题需要在AI的几个领域取得突破:
博弈论 :《星际争霸》是一款游戏,就像“石头,剪刀,纸”一样,没有单一的获胜策略。 因此,在学习过程中,人工智能必须不断探索和扩展其战略知识的视野。
不完整的信息 :与国际象棋或围棋不同,玩家可以看到发生的一切,在星际争霸中,重要的信息通常是隐藏的,必须通过情报主动提取。
长期计划 :与实际任务一样,因果关系可能不是瞬时的。 游戏也可以持续一个小时或更长时间,因此,从长远来看,在游戏开始时执行的操作绝对没有意义。
实时 :与传统的棋盘游戏相反,在传统的棋盘游戏中,参与者轮流参与,在《星际争霸》中,玩家随着时间的流逝不断地进行动作。
巨大的行动空间 :必须同时实时监视数百个不同的单元和建筑物,这提供了真正巨大的组合机会空间。 除此之外,许多动作是分层的,并且可以在此过程中进行更改和补充。 我们对游戏进行参数化后,平均每单位时间约有10到26个动作。
鉴于这些挑战,《星际争霸》已成为AI研究人员的一大挑战。 正在进行的《星际争霸》和《星际争霸II》竞赛起源于2009年
BroodWar API的发布。 其中包括
AIIDE星际争霸AI竞赛 ,
CIG星际争霸竞赛 ,
学生星际争霸AI锦标赛和
星际争霸II人工智能阶梯 。
注意 :2017年, PatientZero在Habré上发表了《 星际争霸AI竞赛的历史 》的优秀译本。为了帮助社区进一步探索这些问题,我们
与暴雪在2016年和2017年合作,发布了
PySC2工具包 ,其中包括有史以来发布的最大数量的匿名重放。 在这项工作的基础上,我们结合了工程学和算法上的成就,创建了AlphaStar。
在对抗MaNa的战斗中,AlphaStar的可视化代表代理演示了游戏-初始观察数据,神经网络的活动,一些建议的动作和所需的坐标以及比赛的估计结果。 还显示了MaNa播放器的视图,但代理人当然无法访问它。训练怎么样
AlphaStar行为是
由深度学习
神经网络生成的
,该神经网络通过界面(单元及其属性列表)接收原始数据,并给出一系列指示,这些指示是游戏中的动作。 更具体地说,神经网络的体系结构使用了“
将躯干变成单位的躯干,结合了
深层的LSTM核心 ,具有
指针网络的
自动回归策略头和
集中式价值基线 ”的方法
(以确保未翻译术语的准确性) 。 我们相信这些模型将进一步帮助应对其他重要的机器学习任务,包括长期序列建模和较大的输出空间,例如翻译,语言建模和视觉表示。
AlphaStar还使用了新的多主体学习算法。 这个神经网络最初是使用基于教师的学习方法进行训练的,该方法基于暴雪
提供的匿名重放。 这使AlphaStar可以研究和模拟比赛中玩家使用的基本微观和宏观策略。 该特工击败了内置的AI等级“ Elite”,这相当于95%的测试游戏中的黄金联赛中玩家的等级。
联赛AlphaStar。 代理商最初是根据人类比赛的重播来训练的,然后根据他们之间的竞争性比赛进行训练。 在每次迭代中,新的对手会分支出来,而原始对手会冻结。 遇到其他对手和超参数的可能性决定了每个主体的学习目标,这增加了复杂性,保留了多样性。 根据对对手的比赛结果,通过强化训练来更新座席参数。 根据Nash分布选择最终代理(不进行替换)。然后将这些结果用于启动多主体强化学习过程。 为此,创建了一个联赛,对手的经纪人互相对抗,就像人们通过参加比赛获得经验一样。 通过重复现有经纪人,新的竞争对手加入了联盟。 这种新的培训形式借鉴了强化学习方法中的遗传(
基于种群 )算法的要素,从而使您能够创建一个连续的过程来探索《星际争霸》巨大的游戏策略空间,并确保代理商能够承受最强大的策略,而不是忘记旧的。
分数MMR(对接评分)-球员技能的近似指标。 与暴雪的在线联赛相比,对于训练期间AlphaStar联赛的竞争对手而言。随着联盟的发展和新特工的建立,出现了能够击败前者的反战略。 尽管某些座席仅改善了他们先前遇到的策略,但其他座席却创建了全新的策略,包括新的异常构建订单,单元组成和宏管理。 例如,早期,“奶酪”在
光子大炮或
黑暗圣堂武士的帮助下迅速发展。 但是随着学习过程的发展,这些高风险的策略被抛弃了,取而代之。 例如,生产过多的工人以获得更多的资源涌入,或者捐赠两个
神谕打击敌人的工人并破坏其经济。 自《星际争霸》发布以来的许多年中,这一过程类似于普通玩家发现新策略并击败了旧的流行方法。
随着培训的进行,值得注意的是代理商所使用的单位组成如何变化。为了确保多样性,每个代理商都有自己的学习目标。 例如,该特工应击败哪些对手,或确定该特工游戏的任何其他内在动机。 某个特工的目标可能是击败一个特定的对手,而另一个则是击败整个对手,但只能击败特定的单位。 在整个学习过程中,这些目标已经改变。
交互式可视化( 原始文章中提供了交互式功能),显示了AlphaStar League的竞争对手。 对阵TLO和MaNa的经纪人被分别标记。使用基于与对手的博弈的强化训练来更新每个特工的神经网络的系数(权重),以优化他们的特定学习目标。 权重更新的规则是一种新的有效学习算法“具有
经验重播 ,
自我模仿学习和
策略提炼的 非政策性行动者批评强化学习算法”
(以确保无需翻译的术语的准确性) 。
该图显示了在针对MaNa的比赛中被选中的一名特工(黑点)如何在训练过程中与对手(彩色点)进行比较来制定自己的策略。 每个点代表联盟中的一个对手。 该点的位置显示了策略以及大小-在学习过程中选择它作为MaNa代理的对手的频率。为了训练AlphaStar,我们创建了基于
Google TPU 3的可扩展分布式系统,该系统提供了具有数千个运行中的StarCraft II副本的整个代理的并行训练过程。 AlphaStar League持续14天,每个代理商使用16个TPU。 在培训过程中,每个特工都拥有多达200年的实时玩《星际争霸》经验。 AlphaStar Agent的最终版本包含全联盟
Nash发行组件。 换句话说,游戏中发现的最有效的策略组合。 而且此配置可以在一个标准的台式机GPU上运行。 正在准备完整的技术说明,以发表在经过同行评审的科学期刊上。
在联盟发展和创建新对手期间,竞争对手之间的纳什分布。 Nash发行版是互补竞争者中被利用最少的一组,它吸引了新的竞争者,从而证明了在过去所有竞争者中的不断进步。AlphaStar如何行动并看待游戏
像TLO或MaNa这样的专业玩家每分钟可以执行数百次动作(
APM )。 但这比大多数独立控制每个单元并生成数千甚至数千个动作的
机器人要少得多。
在我们与TLO和MaNa的比赛中,AlphaStar将APM的平均水平保持在280,尽管其动作可能更准确,但它远远低于专业玩家。 如此低的APM尤其是由于AlphaStar开始在普通玩家的重放基础上进行研究,并试图模仿人类的游戏方式。 除此之外,AlphaStar在观察和动作之间的延迟平均约为350毫秒。
APM AlphaStar在对抗MaNa和TLO的比赛中的分布以及观察和动作之间的整体延迟。在与TLO和MaNa进行比赛时,AlphaStar通过原始界面与StarCraft游戏引擎进行了交互,也就是说,他可以直接在地图上查看其敌方单位和可见敌方单位的属性,而无需移动相机-在缩小的整个区域内有效地进行游戏。 与此相反,生活中的人们必须清楚地管理“注意力经济”,以便不断地决定将相机对焦于何处。 但是,对AlphaStar游戏的分析表明,它暗中控制着焦点。 平均而言,座席像MaNa和TLO一样,每分钟切换一次关注上下文约30次。
此外,我们开发了AlphaStar的第二个版本。 作为人类玩家,此版本的AlphaStar明确选择了何时何地移动相机。 在该实施例中,其感知仅限于屏幕上的信息,并且还仅在屏幕的可见区域上允许动作。
使用基本界面和摄像头界面时的AlphaStar性能。 该图显示,与摄像机配合使用的新代理正在使用基本界面快速实现与代理可比的性能。我们训练了两个新特工,一个使用基本界面,另一个应该学习如何控制相机,与AlphaStar联赛对抗。 最初,每个特工都由老师根据人类比赛进行了培训,然后进行了上述强化训练。 使用摄像头界面的AlphaStar版本取得了与具有基本界面的版本几乎相同的结果,超过了我们内部排行榜上的7000 MMR标记。 在一次示范比赛中,玛娜使用相机击败了AlphaStar原型。 我们仅7天就培训了该版本。 我们希望我们能够在不久的将来使用相机评估经过全面培训的版本。
这些结果表明,AlphaStar在与MaNa和TLO的比赛中取得成功的主要原因是良好的宏观和微观管理,而不仅仅是点击率高,反应迅速或在基本界面上可以访问信息。
游戏结果AlphaStar vs专业玩家
《星际争霸》允许玩家选择以下三种种族之一:人族,虫族或神族。 我们决定AlphaStar当前将专注于一场特殊的比赛,即神族,以减少训练时间并减少评估国内联赛结果的方式。 但应注意,类似的学习过程可以应用于任何种族。 我们的代理商经过了培训,可以在CatalystLE地图上以神族与神族模式玩星际争霸II版本4.6.2。 为了评估AlphaStar的性能,我们最初在与TLO的比赛中测试了我们的特工-TLO是一名专业虫族球员,也是一个神族等级“ GrandMaster”球员。 AlphaStar使用广泛的单位和建造订单以5:0的比分赢得比赛。 他说:“令我惊讶的是,该代理如此强大。” “ AlphaStar采取了著名的策略并将其颠倒过来。 代理显示了我从未想过的策略。 这表明仍有一些尚不完全了解的游戏方式。”
经过额外一周的训练,我们与世界上最强大的《星际争霸II》玩家之一以及前10名神族玩家之一玛娜对战。 AlphaStar这次以5比0获胜,显示出强大的微观管理和宏观战略技能。 他说:“我很惊讶看到AlphaStar在每款游戏中使用最先进的方法和不同的策略,展现了我从未期望过的非常人性化的游戏风格。” “我意识到自己的游戏风格有多强大,取决于对基于人类反应的错误的使用。 这将游戏带入了一个全新的高度。 我们都热切期望看到接下来会发生什么。”
AlphaStar和其他难题
尽管《星际争霸》只是一个游戏,即使很难,但我们认为AlphaStar的基础技术可能对解决其他问题很有用。 例如,这种类型的神经网络体系结构能够模拟很长的可能动作序列,在游戏中通常持续一个小时,并且基于不完整的信息包含成千上万个动作。 《星际争霸》中的每一帧都用作一个输入步骤。 在这种情况下,神经网络的每个这样的步骤都会预测整个剩余游戏的预期动作序列。 对许多长久的数据序列进行复杂预测的基本任务是在许多现实世界中的问题中找到的,例如天气预报,气候建模,语言理解等。我们很高兴认识到可以利用我们获得的经验在这些领域中应用巨大的潜力在AlphaStar项目中。
我们还认为我们的某些教学方法可能对研究AI的安全性和可靠性很有用。 AI领域最困难的问题之一是系统可能出错的选项数量。 , . AlphaStar, , . , - . , , , .
StarCraft - . , , ,
AlphaZero AlphaFold , , .
11MaNa
AlphaStar MaNa