大概每个人都已经听说过,谷歌Deepmind的一个名为AlphaStar的AI已经
在星际争霸2实时策略中抹黑了
专业人士 。 这是人工智能研究中前所未有的案例。 但是我想对这一成就表示建设性的批评。
我将尝试令人信服地证明以下内容:
- AlphaStar以超人的速度和准确性发挥。
- Deepmind声称已禁止AI进行人类无法实现的动作。 开发人员没有成功,可能知道他们的成功。
- AlphaStar以超人的速度播放的原因很可能是由于它无法摆脱获得的垃圾邮件点击技能。 我怀疑开发人员想使程序更具人性化,但不能这样做。 这篇论文需要时间。 但这是我写文章的主要原因,请耐心等待。
首先,我想澄清一下我不专业。 我多年来一直关注AI和《星际争霸2》的发展,但我并不假装自己是专家。 如果发现任何错误,请指出。 我只是一个粉丝,这一切对我来说都非常令人兴奋。 这篇文章中有很多猜测,我承认我无法确切地证明主要主张。 保留所有意见,如果您阅读本文并不同意我的意见,请进行建设性辩论。 我真的要你劝阻我。
毕竟,AlphaStar是一个了不起的成就。 我认为,Deepmind是当今最大的成就,我期待着如何进一步改进该程序。 多谢您的耐心配合。 所以走吧
超人速度AlphaStar
AlphaStar联合总监David Silver: “ AlphaStar不能比实时播放器更快地响应并且不能获得更多点击。”
以下是首席AI设计师的重要声明(自1:39起)在2018年,塞拉尔(Serral)主导了《星际争霸2》的场景。 他是卫冕世界冠军,在他参加的9项主要比赛中赢得了7项,成为了《星际争霸2》史上最强大的单人独霸者之一。 也许是世界上最快的。
第一人称视角(从13:00开始):
看一下左上方的APM。 这减少了每分钟的操作数。 实际上,该数字反映了玩家单击鼠标和键盘按钮的速度。 Serral不可能长时间保持APM超过500,只有一次飙升至APM 800,但只有一瞬间,这很可能是垃圾邮件点击的结果,我将在稍后讨论。
因此,世界上最快的播放器能够保持令人印象深刻的APM 500水平,但AlphaStar的飙升至1500+。 这些超过APM 1000的非人类指标有时持续五秒钟,并且充满了有意义的行动。 每分钟1,500次操作是每秒25次操作。 对于人类而言,这在物理上是不可能的。 另外,请注意,在《星际争霸》中五秒钟是很长的时间,尤其是在大战刚开始时。 如果前五秒的超人速度使AI占优势,那么得益于雪球效应,它将轻松赢得战斗。 这是在第三场对阵MaNa的比赛中AlphaStar战斗的开始(从59:30开始):
AlphaStar持有APM 1000+五秒钟。 第四场比赛的另一个复杂之处是APM 1500+(c 2:11:32):
一位评论者指出可接受的平均APM。 但是很明显,这些爆发远高于人类的能力。
垃圾邮件点击次数,APM和机器人手术的准确性
大多数玩家倾向于点击垃圾邮件。 没有任何意义的毫无意义的点击。 例如,某人移动军队,由于某种原因在目的地单击几次。 有什么作用? 没事 军队不会前进得更快。 一键就足够了。 那他为什么要这样做呢? 有两个原因:
- 当人们尝试尽快单击时,垃圾邮件单击是自然的副作用。
- 帮助加热手指。
还记得Serral吗? 它令人印象深刻的力量实际上不是速度,而是准确性。 它不仅具有很高的APM,而且还具有惊人的效果(每分钟的总点击次数,垃圾邮件点击次数除外)。 从现在开始,我将有效的APM减少为EPM。 重要的是要记住,EPM仅考虑有意义的动作。
看一下一位前专业人士在认识Serral的EPM时如何在Twitter上失去理智:
他的EPM 344几乎是不现实的指标。 太高了,我仍然很难相信这是真的。 APM和EPM之间的差异也影响了AlphaStar。 如果AI可以在没有垃圾邮件点击的情况下播放,这是否意味着它的峰值EPM有时等于峰值APM? 这使得高达1000多人的激增变得更加不人道。 当我们考虑到AlphaStar具有完美的精度时,它的机械性能似乎是完全荒谬的。 他总是准确地单击要单击的位置。 人们错过了,AlphaStar在适当的时候开始工作的速度比世界上最快的运动员快四倍-准确率是一个人只能梦dream以求的。
社区中几乎每个人都同意AlphaStar执行的序列是人类无法重复的。 他比身体上更快,更准确。 世界上最快的专业人士慢了好几倍。 准确性甚至无法比较。
大卫·西尔弗(David Silver)声称AlphaStar只能执行一个人可以复制的动作,这是不正确的。一切正常还是只是加快速度?
AlphaStar首席架构师Oriol Vinyals: “掌握公认的“ AI的基本挑战”的游戏很重要。” 我们正在尝试创建智能系统来接管我们惊人的功能,因此让它们尽可能人性化地学习非常重要。 无论听起来多么酷,但要在游戏中实现最高性能(例如很高的APM)并不能真正帮助我们衡量代理商的能力和进步,这使基准毫无用处。”
为什么Deepmind想要限制代理人作为一个人玩? 为什么不让它不受任何限制地恶化呢? 原因是在《星际争霸2》中,机械超级大国毁了游戏玩法。 在
此视频中,该机器人攻击了带有多个虫族的一组坦克,实现了完美的微战术。 通常,虫虫对坦克几乎无能为力,但是由于有了机器人,微战术变得更加致命:它们以最小的损失摧毁了坦克。 有了如此好的单位管理,AI无需学习策略。 毕竟,Deepmind对创建简单地击败星际争霸专业人士的AI并不感兴趣;事实上,他们希望将此项目用作促进一般AI研究的垫脚石。 令人遗憾的是,一位项目经理宣布了限制和人类的能力,当代理商明显违反限制并由于超人的执行力赢得了比赛。
AlphaStar在单位管理方面胜于其他人-当开发人员仔细平衡游戏时,并未考虑此因素。 这种不人道的控制能力会破坏AI掌握的任何战略思想。 它甚至可以使战略思考完全不必要。 该程序不仅停留在局部最大值。
如果游戏以非人性的速度和准确性进行游戏,那么滥用完美的单位控制可能是最好,最有效和最可靠的获胜方式。 不管听起来多么悲伤。
以下是一位专业人士对AlphaStar的优缺点的看法,他以1-5分输给了他:
MaNa: “我想说他的最佳素质是单位管理。 AlphaStar用大约相同数量的单位击败了所有游戏。 少数游戏最糟糕的方面是顽固地拒绝升级。 他对基本单位的胜利深信不疑,以至于他几乎没有升级任何东西,为此他在展览比赛中付了钱(与MaNa的最后一场比赛,AI输了-约 跨]。 决策中没有那么多决定性的时刻,所以我要说,机械成为了胜利的原因。
在星际争霸的粉丝中,AlphaStar几乎完全是因为其超人的速度,反应时间和准确性而获胜。 与他对抗的职业选手似乎对此表示赞同。 在与专业人士进行比赛之前,一名Deepmind员工曾与AlphaStar进行过比赛。 他很可能也会同意这种评估。 David Silver和Oriol Vinyals重申了AlphaStar仅能做一个人的能力的口号,但我们已经看到事实并非如此。
正如David所说(从1:38开始),AlphaStar似乎并没有“正确地做”:
显然这里有些错误。
为什么Deepmind允许AlphaStar超人类速度?
最后,让我们继续讨论主要内容。 感谢您阅读这个地方。 但首先,总结一下。
- 我们知道什么是APM,EPM和垃圾邮件点击。
- 我们对人的最大能力有所了解。
- AlphaStar游戏直接与开发者对其限制的主张相矛盾。
- 星际争霸2社区一致认为AlphaStar得益于单位的非人为控制,甚至不需要出色的战略思考。
- Deepmind并未着手创建一个快速的bot,因此它不应该那样玩。
- Starcraft AI团队极不可能没有人认为一个人无法重复APM 1500+的爆发。 他们的星际争霸专家应该比我更了解星际争霸。 他们与拥有《星际争霸》知识产权的暴雪紧密合作。 使该漫游器尽可能地贴近用户,符合他们的利益(请参阅上一段以及Silver和Vinyals的声明)。
考虑到所有这些观点,为什么Deepmind甚至允许AI明确规避人体的局限性?
就我而言,这纯粹是猜测,我并不声称知道确切的故事。 但是我怀疑发生了以下情况:
在项目的开始,Deepmind就严格的限制达成了一致。 在这一点上,AlphaStar禁止了我们在演示中看到的超人APM爆发。 如果我设计了系统,则会设置以下限制:
- 整个游戏的最高平均APM 。
- APM的最大短脉冲 。 我认为将其设置为每秒4-6次点击是明智的。 还记得Serral及其EPM 344,这比竞争对手要便宜吗? 每秒少于六次点击。 针对MaNa,该程序长时间产生每秒25次点击。 这甚至比一个人最快的垃圾邮件点击速度要快得多,因此最初的限制不太可能允许这样做。
- 点击之间的最短时间 。 即使您限制了连发期间的最大速度,该机器人也可以在允许的时间间隔内在很短的时间内快速单击,这是一个人无法做到的。
有些人建议在点击的准确性上增加随机性,但是我怀疑这会大大降低学习速度。
因此,设置限制。 接下来是什么? 然后,Deepmind对数千种高端业余视频游戏进行了模拟培训。 在此阶段,代理只是试图模仿人们的行为-并且他掌握了垃圾邮件的点击次数。 这很可能是因为人们经常这样做。 这几乎是人类中最重复的行为模型,因此必须深深植根于代理人的行为。
AlphaStar的最大APM脉冲数最初接近设定的极限。
但是大多数AlphaStar的点击结果都是垃圾邮件,因此他的APM不足以进行正常的战斗。 但没有实验,就没有培训。 以下是开发人员在昨天的AMA中说的话:我认为他在此骗局中被抹黑了:
AlphaStar首席架构师Oriol Vinyals: “教AI以低APM发挥非常有趣。 在早期,我们的代理商接受过非常低的APM培训,通常无法进行微观管理。”
为了加快学习速度,开发人员通过允许短暂爆发来增加APM限制。 以下是在演示比赛中对AlphaStar生效的APM限制:
Oriol Vinyals: “特别是,我们将限制设置为每5秒间隔600 APM,每15秒间隔400 APM,320持续30秒和300持续60秒。 如果代理在这些时间间隔发出更多操作,我们将放弃/忽略它们。 这些值取自人类统计数据。”
如果您对Starcraft不太熟悉,那么这样的限制看起来是合理的,但是它们允许我们提到过的超人APM爆发以及超人准确性。
垃圾邮件点击的最大数量是有限制的。 通常,这些命令是在地图上单击时移动或攻击的命令。 尝试单击鼠标按钮的速度。 代理从玩家那里获悉了垃圾邮件点击,并且点击速度不会比一个人快。
也就是说,以超人的速度进行额外的APM点击对于实验是“任意的”。任意APM用于战斗实验。 这种相互作用通常在训练过程中发生。 AlphaStar开始研究一种可带来更好结果的新型行为,并减少了点击中垃圾邮件的百分比。
如果代理商了解到了好处,为什么Deepmind不会恢复对APM的最初更严格,更人道的限制? 他们当然意识到AI具有超人的能力。 星际争霸社区几乎一致认可AlphaStar的非人为微观管理。 专业人员告诉AMA,AlphaStar的主要优势是对单位的控制,而主要劣势是战略思想。 Deepmind开发人员必须得出相同的结论。 可能的原因是该代理无法摆脱垃圾邮件点击。 尽管大多数时候他的行为举止都很明确,但仍然经常出现垃圾邮件点击。 这在第一场对阵MaNa的比赛中很明显,当时Alphastar上升坡道(从39:30开始):
仔细查看带有突出显示单元的蓝色圆圈垃圾邮件代理单击团队以800 APM的速度移动设备。 他从来没有完全学过人类的愚蠢,尽管这些行为是完全没有用的,并且会耗尽他的APM限制。 该错误在大型战斗中尤其危险。 可能是提高了APM限制以固定关节并允许代理在此时间正常工作。
这有什么重要的呢?
我怀疑代理无法摆脱他在模拟培训中学到的垃圾邮件点击。 Deepmind必须修改APM限制,以使实验和进一步的进步成为可能。 但是,出现了超人游戏的令人不快的副作用,因此,从本质上讲,特工违反了规则,能够执行最初被他禁止的策略。
这是重要的事情,因为如此殴打专业人士直接与Deepmind反复提出的使命背道而驰。 因此,此图在嘴里留下了一种虚伪的伪善味道:
该图像由 Deepmind在其博客上发布 。该图表似乎旨在误导不熟悉《星际争霸2》的人。它描绘了AlphaStar所谓的可接受的APM。 看一看APM MaNa,并将其与AlphaStar进行比较。 尽管MaNa的平均值更高,但是AlphaStar的尾巴远远超出了人类的能力。 请注意,MaNa的最高APM约为750,而AlphaStar的最高APM则超过1,500。现在考虑到一个人,APM占垃圾邮件点击的一半以上,而AlphaStar EPM则是准确的点击。
现在看一下TLO的APM。 尾巴离开2000年。再想一想。 这怎么可能? 这归功于“快速射击”这一技巧。 TLO不会单击超快。 他只是按住按钮-游戏将其注册为2000 APM。 您唯一可以采取的措施就是以惊人的速度发送垃圾邮件。 仅此而已。 TLO出于某种原因只是使用此方法。 但与此同时,AlphaStar的超人APM爆炸被掩盖了-对于不熟悉Starcraft的人来说,这些数字看起来是现实的。
Deepmind的博客文章并未试图解释荒谬的TLO数字。 如果他们没有解释夸大的TLO,则不应将其包括在时间表中。 重点。
这样的统计数字危险地接近谎言。 Deepmind应该坚持更高的标准。