DeepMind无法停止:AI现在可以玩Quake III Arena



DeepMind曾经是Google Corporation的一个部门,目前正在为各种目的开发AI(其弱形式)。 现在,DeepMind团队正在积极参与各种形式的AI的创建,这些AI已针对逻辑,桌面和射击游戏进行了改进。 有很多游戏-这是去吧,《星际争霸》,现在-和《雷神之锤III》竞技场。

开发人员在博客上表示,他们训练AI系统以与人玩游戏相同的方式玩Quake III Arena。 即,计算机系统已经学会适应快速变化的游戏条件,包括切换级别及其元素。 传统上,在训练使用强化系统

在这种训练过程中,计算机会根据通过或否获得奖励或罚款。 通常,计算机的问题是它无法像人一样迅速适应变化的条件。 尽管神经网络早已能够从自己的错误中学习,但如果系统不知道初始条件,对他们来说,电脑游戏就很难了。

系统经过训练可以在“捕获标志”模式下播放。 在这种情况下,玩家必须尝试夺取对手的旗帜,但在任何情况下都不应让自己的对手被夺取。 如果任何一支球队都能在五分钟内最多捕获并保持对手的旗帜最多的次数,则该支球队将成为获胜者。

为了防止AI简单地学习关卡的功能,包括房间,建筑物等的位置,每次将神经网络强制在新的关卡上播放时。 在这种情况下,人工智能开发了自己的游戏策略,而不会陷入困境。 计算机观察其他玩家的动作,研究关卡的“地理位置”,并根据情况采取相应的行动。

此外,Deepmind的开发人员训练了AI来发挥整个团队的作用,该团队由不同的代理商组成。 整个系统称为For The Win(FTW)。

因此,For The Win(FTW)学会了管理自己的团队,协调和指导每个特工的行动。 如上所述,任务是保留自己的标志并捕获其他人的标志。 在计算机达到一定技术水平后,DeepMind被邀请与普通玩家一起参加特殊比赛。


全部40个人参加了。 锦标赛中的团队是混合的-也就是说,一个团队中可能既有人员又有AI代理。 根据游戏的结果,很明显,纯粹的AI赢得了比团队更多的胜利。 在混合团队中,人工智能显示出比人们通常所展示的更高的合作水平。 因此,计算机在必要时可作为奴隶或直接参与对敌人基地的攻击。

根据开发人员的说法,用于创建“胜利”(FTW)的工作原理可以很好地玩其他游戏,例如《星际争霸II》或《 Dota 2》。

本月初,DeepMind在Atari上演示了学习AI以通过旧游戏的过程 。 这里也使用了强化训练的原理,因为主角的许多动作是非常隐蔽的,因此很难教AI通过旧游戏。

游戏的基础是蒙特祖玛的复仇。 既没有明确的任务,也没有前进的方向,也没有理解需要收集的内容或针对谁说话。 该示例使用了两种方法:TDC(时间距离分类)和CDC(跨模式时间距离分类)。

经过训练的计算机可以使用YouTube的视频演练来玩游戏-服务中包含很多内容。 在通过的过程中,对通过YouTube的AI及其“老师”水平的视频录制帧进行了比较。 如果比较显示出高度的相似性,则AI将获得奖励。 事实证明,一段时间后,AI会执行与人相同的动作序列。

至于上面提到的《星际争霸》,在2017年,一个人仍然以 4:0的分数击败了赛车并干燥。 然后,星际争霸的职业歌曲宋秉九与四个星际争霸机器人进行了战斗。

Source: https://habr.com/ru/post/zh-CN416209/


All Articles