Tout le monde a probablement déjà entendu qu'une IA appelée AlphaStar de Google Deepmind a
enduit les professionnels de la stratégie en temps réel de Starcraft 2 . Il s'agit d'un cas sans précédent dans la recherche en intelligence artificielle. Mais je veux exprimer des critiques constructives à propos de cette réalisation.
Je vais essayer de prouver de manière convaincante ce qui suit:
- AlphaStar a joué avec une vitesse et une précision surhumaines.
- Deepmind prétend avoir interdit à l'IA d'effectuer des actions physiquement impossibles pour les humains. Les développeurs n'y ont pas réussi et connaissent probablement leur inclinaison.
- La raison pour laquelle AlphaStar joue à des vitesses surhumaines est probablement due à son incapacité à se débarrasser de la compétence de clic de spam acquise. Je soupçonne que les développeurs voulaient rendre le programme plus humain, mais ne pouvaient pas. Il faudra du temps pour aborder cette thèse. Mais c'est la principale raison pour laquelle j'ai écrit un article, alors soyez patient.
Tout d'abord, je tiens à préciser que je ne suis pas professionnel. J'ai suivi le développement de l'IA et de la scène Starcraft 2 pendant de nombreuses années, mais je ne prétends pas être un expert. Si vous constatez des erreurs, veuillez les signaler. Je ne suis qu'un fan et tout cela est incroyablement excitant pour moi. Il y a beaucoup de spéculations dans l'article, et j'avoue que je ne peux pas prouver définitivement les principales affirmations. Avec toutes les réserves, si vous lisez l'article et n'êtes pas d'accord avec moi, veuillez argumenter de manière constructive. Je veux vraiment que tu me dissuades.
Après tout, AlphaStar est une réalisation incroyable. À mon avis, la plus grande réalisation de Deepmind aujourd'hui, et je me réjouis de la façon d'améliorer encore ce programme. Merci de votre patience. Alors allons-y.
Vitesse surhumaine AlphaStar
David Silver, codirecteur d'AlphaStar: "AlphaStar ne peut pas répondre plus rapidement et ne peut pas faire plus de clics qu'un joueur en direct."
Voici le principal concepteur d'IA qui fait une déclaration importante (à partir de 1:39)En 2018, Serral a dominé la scène Starcraft 2. Il est le champion du monde en titre et a remporté sept des neuf tournois majeurs auxquels il a participé, ce qui a conduit à l'une des dominations solo les plus puissantes de l'histoire de Starcraft 2. Le gars est très rapide. Peut-être le plus rapide du monde.
Vue à la première personne (à partir de 13h00):
Jetez un œil à son APM en haut à gauche. Il s'agit d'une réduction du nombre d'actions par minute. En fait, ce nombre reflète la vitesse à laquelle le joueur clique sur les boutons de la souris et du clavier. Serral ne peut jamais détenir APM pendant plus de 500 pendant une longue période. Il y a une augmentation jusqu'à APM 800, mais seulement pendant une fraction de seconde et, très probablement, à la suite de clics indésirables, dont je parlerai sous peu.
Ainsi, le joueur le plus rapide du monde est capable de maintenir un niveau impressionnant d'APM 500, mais AlphaStar avait des pointes jusqu'à 1500+. Ces indicateurs non humains dépassant APM 1000 ont parfois duré cinq secondes et regorgent d'actions significatives. 1 500 actions par minute soit 25 actions par seconde. C'est physiquement impossible pour les humains. Sachez également que cinq secondes dans Starcraft, c'est long, surtout au tout début d'une grande bataille. Si le taux surhumain dans les cinq premières secondes donne à l'IA un avantage, il gagnera facilement la bataille grâce à l'effet boule de neige. Voici le début de la bataille d'AlphaStar lors du troisième match contre MaNa (à partir de 59:30):
AlphaStar détient l'APM 1000+ pendant cinq secondes. Une autre complication dans le quatrième match avec le haut APM 1500+ (c 2:11:32):
Un intervenant indique un APM moyen acceptable. Mais il est clair que ces sursauts sont bien supérieurs aux capacités humaines.
Clics de spam, APM et précision chirurgicale du robot
La plupart des joueurs sont sujets aux clics indésirables. Clics inutiles qui n'affectent rien. Par exemple, une personne déplace l'armée et, pour une raison quelconque, clique plusieurs fois sur la destination. Quel effet? Rien. L'armée n'ira pas plus vite. Un clic suffit. Alors pourquoi fait-il ça? Il y a deux raisons:
- Le spam-click est un effet secondaire naturel lorsqu'une personne essaie de cliquer le plus rapidement possible.
- Aide à réchauffer vos doigts.
Tu te souviens de Serral? Sa puissance impressionnante n'est en fait pas en vitesse, mais en précision. Il a non seulement un APM vraiment élevé, mais aussi incroyablement efficace (nombre total de clics par minute, sauf pour les clics indésirables). Désormais, je vais réduire l'APM efficace en tant qu'EPM. Il est important de se rappeler que l'EPM ne considère que des actions significatives.
Jetez un œil à la façon dont un ancien professionnel a perdu la raison sur Twitter lorsqu'il a reconnu l'EPM de Serral:
Son EPM 344 ​​est un indicateur presque irréaliste. Il est si grand qu'il m'est encore difficile de croire que c'est vrai. La différence entre APM et EPM a également affecté AlphaStar. Si l'IA peut jouer sans clics indésirables, cela signifie-t-il que son EPM de pointe est parfois égal à l'APM de pointe? Cela rend les surtensions jusqu'à 1000+ encore plus inhumaines. Si l'on tient compte du fait qu'AlphaStar joue avec une précision parfaite, ses capacités mécaniques semblent complètement absurdes. Il clique toujours exactement où il veut cliquer. Les gens manquent, et AlphaStar au bon moment commence à travailler quatre fois plus vite que le joueur le plus rapide du monde - avec la précision dont une personne ne peut que rêver.
Presque tout le monde dans la communauté convient qu'AlphaStar a exécuté des séquences qu'aucun être humain n'est capable de répéter. Il était plus rapide et plus précis que physiquement possible. Le professionnel le plus rapide au monde est plusieurs fois plus lent. La précision n'est même pas comparable.
L'affirmation de David Silver selon laquelle AlphaStar ne peut effectuer que des actions qu'une personne peut reproduire est tout simplement fausse.Faire tout bien ou simplement allumer la vitesse?
Oriol Vinyals, architecte en chef, AlphaStar: «Il est important de maîtriser des jeux reconnus comme« des défis fondamentaux pour l'IA ». Nous essayons de créer des systèmes intelligents qui prennent en charge nos incroyables capacités, il est donc très important qu'ils apprennent le plus humainement possible. Peu importe à quel point cela semble cool, mais atteindre des performances maximales dans le jeu, comme des APM très élevés, ne nous aide pas vraiment à mesurer les capacités et les progrès de nos agents, ce qui rend la référence inutile. "
Pourquoi Deepmind veut-il limiter l'agent à jouer en tant que personne? Pourquoi ne pas simplement le laisser aller sans aucune restriction? La raison en est que dans Starcraft 2, les superpuissances mécaniques ruinent le gameplay. Dans
cette vidéo, le bot attaque un groupe de chars avec plusieurs zerglings, réalisant la microtactique parfaite. Habituellement, les zerglings ne peuvent presque rien contre les chars, mais grâce aux robots, la microtactique devient beaucoup plus mortelle: ils détruisent les chars avec des pertes minimales. Avec une telle bonne gestion des unités, l'IA n'a pas besoin d'apprendre la stratégie. Après tout, Deepmind n'est pas intéressé à créer une IA qui vainc simplement les professionnels de Starcraft; en fait, ils veulent utiliser ce projet comme un tremplin pour promouvoir la recherche générale sur l'IA. Il est très triste que l'un des chefs de projet déclare des limites ainsi que des capacités humaines, lorsque l'agent les viole clairement et gagne ses matchs précisément grâce à une exécution surhumaine.
AlphaStar est supérieur aux personnes en gestion d'unité - ce facteur n'a pas été pris en compte lorsque les développeurs ont soigneusement équilibré le jeu. Ce contrôle inhumain est capable de gâcher toute réflexion stratégique que l'IA a maîtrisée. Cela peut même rendre la réflexion stratégique complètement inutile. Le programme n'est pas seulement bloqué au maximum local.
Si le jeu se joue avec une vitesse et une précision inhumaines, alors l'abus d'un contrôle parfait de l'unité est probablement le meilleur moyen, le plus efficace et le plus fiable de gagner. Peu importe à quel point cela semble triste.
Voici ce que l'un des pros a dit sur les forces et les faiblesses d'AlphaStar, perdant face Ă lui avec un score de 1-5:
MaNa: «Je dirais que sa meilleure qualité est la gestion d'unité. AlphaStar a vaincu tous les jeux avec approximativement le même nombre d'unités. Le pire aspect d'un petit nombre de jeux est le refus obstiné de mettre à niveau. Il était tellement convaincu de la victoire des unités de base qu'il n'a pratiquement rien amélioré, pour lequel il a payé lors du match d'exhibition [le dernier match avec MaNa, où l'IA a perdu - env. trans.]. Il n'y avait pas autant de moments décisifs dans la prise de décision, donc je dirais que la mécanique est devenue la raison de la victoire. »
Parmi les fans de Starcraft, il est presque unanime qu'AlphaStar ait gagné presque exclusivement en raison de sa vitesse surhumaine, de son temps de réaction et de sa précision. Les pros qui ont joué contre lui semblent être d'accord avec cela. Un employé de Deepmind a joué contre AlphaStar avant que le programme ne soit joué contre des professionnels. Très probablement, il sera également d'accord avec une telle évaluation. David Silver et Oriol Vinyals répètent le mantra selon lequel AlphaStar est capable de faire uniquement ce qu'est une personne, mais nous avons déjà vu que ce n'est tout simplement pas le cas.
AlphaStar ne semble pas «bien faire les choses», comme le dit David (à partir de 1:38):
Quelque chose cloche clairement ici.
Pourquoi Deepmind a-t-il permis Ă AlphaStar une vitesse surhumaine?
Enfin, passons à l'essentiel. Merci d'avoir lu cet endroit. Mais d'abord, pour résumer.
- Nous savons ce que sont les clics APM, EPM et spam.
- Nous avons une certaine compréhension des capacités maximales de l'homme.
- Le jeu AlphaStar contredit directement les affirmations des développeurs concernant ses limites.
- La communauté Starcraft 2 a convenu qu'AlphaStar avait gagné grâce au contrôle inhumain des unités et n'avait même pas besoin d'une excellente réflexion stratégique.
- Deepmind n'a pas l'intention de créer un bot rapide, il n'aurait donc pas dû jouer comme ça.
- Il est très peu probable qu'aucun membre de l'équipe Starcraft AI ne pense qu'une personne n'est pas en mesure de répéter les rafales de l'APM 1500+. Leur spécialiste Starcraft devrait en savoir plus sur Starcraft que sur le mien. Ils travaillent en étroite collaboration avec Blizzard, qui détient la propriété intellectuelle de StarCraft. Il est dans leur intérêt (voir le paragraphe précédent, ainsi que les déclarations de Silver et Vinyals) de faire en sorte que le bot se rapproche le plus possible de la personne.
Compte tenu de tous ces points, pourquoi Deepmind a-t-il mĂŞme permis Ă l'IA de contourner explicitement les limites du corps humain?
C'est de la pure spéculation de ma part, et je ne prétends pas connaître l'histoire exacte. Mais je soupçonne que les événements suivants se sont produits:
Au tout début du projet, Deepmind a convenu de limites strictes. À ce stade, AlphaStar a interdit les sursauts APM surhumains que nous avons vus dans la démo. Si je concevais le système, je définirais de telles restrictions:
- APM moyen maximum tout au long du jeu .
- Rafale courte maximale d'APM . Je pense qu'il est sage de le définir à 4-6 clics par seconde. Vous vous souvenez de Serral et de son EPM 344, qui est un cran au dessus de la concurrence? C'est moins de six clics par seconde. Contre MaNa, le programme a généré 25 clics par seconde pendant de longues périodes. C'est beaucoup plus rapide que même les clics de spam les plus rapides d'une personne, il est donc peu probable que les restrictions initiales le permettent.
- Temps minimum entre les clics . Même si vous limitez la vitesse maximale pendant les rafales, le bot peut cliquer très rapidement à un bref instant pendant l'intervalle autorisé, dont une personne n'est pas capable.
Certains suggèrent d'ajouter un élément de hasard à la précision des clics, mais je pense que cela réduira trop la vitesse d'apprentissage.
Alors, fixez des limites. Et ensuite? Deepmind a ensuite lancé une formation en simulation sur des milliers de jeux vidéo amateurs haut de gamme. À ce stade, l'agent essaie simplement d'imiter ce que les gens font - et il maîtrise les clics de spam. C'est très probablement parce que les gens les fabriquent très souvent. C'est presque le modèle de comportement le plus répétitif chez les personnes, il doit donc être profondément enraciné dans le comportement de l'agent.
Les rafales APM maximales d'AlphaStar sont initialement proches des limites définies.
Mais la plupart des clics AlphaStar se sont avérés être des clics de spam, donc son APM n'était pas suffisant pour un combat normal. Mais sans expérimentation, il n'y a pas de formation. Voici ce que l'un des développeurs a dit dans l'AMA d'hier: Je pense qu'il est un peu taché dans cette arnaque:
Oriol Vinyals, architecte en chef, AlphaStar: «Apprendre à jouer à l'IA avec un APM faible est très intéressant. Au début, nos agents s'entraînaient avec des APM très faibles et n'étaient généralement pas capables de microgestion. »
Pour accélérer l'apprentissage, les développeurs augmentent les limites APM en autorisant de courtes rafales. Voici les limitations APM qui étaient en vigueur pour AlphaStar dans un match de démonstration:
Oriol Vinyals: «En particulier, nous avons fixé une limite de 600 APM à des intervalles de 5 secondes, 400 APM à des intervalles de 15 secondes, 320 pendant 30 secondes et 300 pendant 60 secondes. Si l'agent émet plus d'actions à ces intervalles, nous les ignorons / ignorons. Ces valeurs sont tirées des statistiques humaines. »
Si vous n'êtes pas très familier avec Starcraft, ces limites semblent raisonnables, mais elles permettent des rafales APM surhumaines, dont nous avons parlé plus tôt, ainsi qu'une précision surhumaine.
Il y a une limite au nombre maximum de clics indésirables. Il s'agit généralement de commandes permettant de se déplacer ou d'attaquer lorsqu'un clic est effectué sur la carte. Essayez à quelle vitesse vous pouvez cliquer sur le bouton de la souris. L'agent a appris les clics de spam des joueurs et ne cliquera pas plus vite qu'une personne.
Autrement dit, les clics APM supplémentaires à une vitesse surhumaine sont «arbitraires» pour les expériences.APM arbitraire est utilisé pour les expériences de combat. Cette interaction se produit souvent pendant l'entraînement. AlphaStar commence à étudier un nouveau type de comportement qui conduit à de meilleurs résultats et le pourcentage de spam dans les clics est réduit.
Si l'agent a appris les avantages, pourquoi Deepmind n'est-il pas revenu aux restrictions d'origine plus strictes et plus humaines sur APM? Ils ont sûrement réalisé que l'IA démontrait des capacités surhumaines. La communauté Starcraft a presque unanimement reconnu la microgestion inhumaine d'AlphaStar. Les pros ont déclaré à AMA que la principale force d'AlphaStar est son contrôle sur les unités, et sa principale faiblesse est la réflexion stratégique. Les développeurs de Deepmind doivent être arrivés à la même conclusion. La raison en est probablement que l'agent n'a pas pu se débarrasser des clics indésirables. Bien que la plupart du temps, il agit clairement, mais tombe régulièrement dans les clics indésirables. Cela est évident lors du premier match contre MaNa, quand Alphastar monte la rampe (à partir de 39:30):
Regardez attentivement les cercles bleus avec des unités de surbrillanceL'agent de spam a cliqué sur les équipes pour déplacer des unités à une vitesse de 800 APM. Il n'a jamais complètement désappris la bêtise humaine, bien que ces actions soient complètement inutiles et dévorent sa limite d'APM. Le bug est particulièrement dangereux lors des grandes batailles. Probablement, la limite APM a été augmentée pour fixer l'articulation et permettre à l'agent de travailler normalement à de tels moments.
Qu'est-ce qui est si important Ă ce sujet?
Je soupçonne que l'agent n'a pas pu se débarrasser des clics de spam qu'il a appris lors de la formation de simulation chez l'homme. Deepmind a dû bricoler la limite APM pour rendre l'expérimentation et la poursuite des progrès possibles. Cependant, un effet secondaire désagréable du jeu surhumain est apparu, à cause duquel, en substance, l'agent viole les règles, pouvant mettre en œuvre des stratégies qui lui étaient initialement interdites.
C'est une chose importante, car un tel battement de professionnels contredit directement la mission que Deepmind a maintes fois énoncée. Pour cette raison, ce graphique laisse un goût aigre d'hypocrisie dans la bouche:
Cette image a été publiée par Deepmind sur son blog.Il semble que le graphique soit conçu pour induire en erreur les personnes qui ne connaissent pas Starcraft 2. Il représente l'APM supposément acceptable d'AlphaStar. Jetez un œil à APM MaNa et comparez-le avec AlphaStar. Bien que la moyenne soit plus élevée à MaNa, la queue de l'AlphaStar va bien au-delà des capacités humaines. Veuillez noter que MaNa a un APM de pointe d'environ 750, tandis qu'AlphaStar a un pic de plus de 1 500. Maintenant, considérez que chez une personne, l'APM est composé à plus de la moitié de clics de spam, et les EPM d'AlphaStar sont des clics parfaitement précis.
Jetez maintenant un œil aux APM de TLO. La queue part pour 2000. Pensez-y une seconde. Comment est-ce possible? Cela a été rendu possible grâce à une astuce appelée "tir rapide". TLO ne clique pas sur ultra-rapide. Il tient simplement le bouton - et le jeu l'enregistre comme 2000 APM. La seule chose que vous pouvez faire avec un tir rapide est le spam à une vitesse folle. C’est tout. TLO l'utilise juste pour une raison quelconque. Mais en même temps, les sursauts APM surhumains d'AlphaStar sont masqués - et les chiffres semblent réalistes pour les personnes qui ne connaissent pas Starcraft.
Le billet de blog de Deepmind n'essaie pas d'expliquer les chiffres absurdes de TLO. S'ils n'expliquent pas les TLO exagérés, ils ne doivent pas les inclure dans le calendrier. Le point.
De telles statistiques dangereusement proches d'un mensonge. Deepmind devrait adhérer à des normes plus élevées.