[UPD 2] L'Ă©quipe de Pain Gaming a vaincu OpenAI Five. Le match a durĂ© 53 minutes et s'est terminĂ© par un score de 45-41 pour les frags en faveur des bots. L'enregistrement du jeu peut ĂȘtre consultĂ© sur Twitch ici . Commence Ă 7:38:00Ce soir, 22 aoĂ»t, avant le dĂ©but de la prochaine journĂ©e des Ă©liminatoires internationales, le premier match de dĂ©monstration entre les joueurs professionnels et le bot OpenAI Five aura lieu dans le cadre des activitĂ©s du spectacle. Des informations sur les matchs sont apparues sur le site officiel de Dota 2 dans la section
avec le calendrier des matchs des éliminatoires de l'International. Au total, OpenAI jouera trois matchs en trois jours avec des joueurs professionnels.
Cet Ă©vĂ©nement est significatif dans la mesure oĂč il y a un an, le bot a «rĂ©primé» Daniil Ishutin lors de la confrontation avec le
miroir intermédiaire solo 1x1 SF , et il y a
quelques semaines, il a vaincu le «méli-mélo» de commentateurs et d'anciens joueurs professionnels.
Cette fois, le dĂ©veloppement d'une entreprise parrainĂ©e par Elon Musk et d'autres hommes d'affaires Ă©minents du secteur des TI affrontera un adversaire plus sĂ©rieux: l'International rassemble chaque annĂ©e les meilleures Ă©quipes du monde, donc ce ne sera pas facile pour les bots. Jusqu'Ă prĂ©sent, l'Ă©quipe de dĂ©veloppement n'a pas indiquĂ© si toutes les anciennes restrictions sur les pics et les mĂ©canismes qui Ă©taient pertinentes dans le jeu contre les gens au dĂ©but du mois s'appliqueront, mais cela mĂ©rite d'ĂȘtre rappelĂ©.
Ainsi, les anciennes rÚgles sont les suivantes:- pool de 18 héros en mode Tirage aléatoire (Hache, Crystal Maiden, Death Prophet, Earthshaker, Gyrocopter, Lich, Lion, Necrophos, Queen of Pain, Razor, Riki, Shadow Fiend, Slark, Sniper, Sven, Tidehunter, Viper ou Witch Docteur);
- sans Rapine Divine, bouteille;
- sans créatures contrÎlées et illusions;
- match avec cinq courriers (ils ne peuvent pas ĂȘtre repĂ©rĂ©s et tankĂ©s);
- sans utiliser de scan.
Dans les commentaires sur notre
derniÚre publication sur ce sujet, beaucoup de controverses ont éclaté sur les méthodes de formation des réseaux de neurones. Cette fois, nous avons apporté quelques visuels sur le fonctionnement du bot OpenAI et à quoi il ressemble du point de vue des gens.
Les dĂ©veloppeurs ont dĂ©clarĂ© qu'en raison de la puissance de calcul, du grand nombre d'enregistrements et de la possibilitĂ© d'exĂ©cuter la formation dans plusieurs flux, OpenAI imitait quotidiennement jusqu'Ă 180 ans de jeux Dota 2 continus. Ăvidemment, la capacitĂ© d'apprentissage de cette IA est de plusieurs ordres de grandeur infĂ©rieure Ă celle mĂȘme pas si intelligente. "Les animaux, sans parler des chiens ou des primates, auxquels l'homme appartient.
Pour former OpenAI, l'équipe a utilisé son propre développement appelé
Gym (
dépÎt github ,
documentation officielle). Cette «chaise berçante» est compatible avec n'importe quelle bibliothÚque publique, comme TensorFlow ou Theano. Dans la formation de réseaux de neurones dans le cadre de Gym, la boucle classique agent-environnement est utilisée:
Les dĂ©veloppeurs affirment que n'importe qui peut utiliser Gym pour enseigner Ă son rĂ©seau de neurones la lecture de titres classiques pour l'Atari 2600 ou d'autres projets relativement faciles Ă comprendre. Ăvidemment, la vitesse de la formation dĂ©pend directement de la quantitĂ© de ressources impliquĂ©es dans cela. Par exemple, les dĂ©veloppeurs d'OpenAI ont
appris au réseau neuronal à jouer à Montezuma's Revenge .
Mais les deuxiĂšme et quatriĂšme Ă©tapes - l'action et l'analyse du rĂ©sultat (rĂ©compenses pour l'action) sont du plus grand intĂ©rĂȘt pour nous. Et dans le contexte de Dota 2, le niveau de variabilitĂ© ne fait que rouler, et les actions initialement Ă©valuĂ©es par le bot comme «à droite» sur une longue distance peuvent entraĂźner une perte.
Comment l'équipe OpenAI a appris à l'IA à jouer à Dota 2 en termes d'équipement
L'équipe de développement a abordé la question de l'apprentissage d'OpenAI dans Dota 2 plus au sérieux. Vous pouvez
lire le rapport officiel complet sur le blog du projet
ici , mais nous donnerons les principaux extraits sur la partie technique et la mise en Ćuvre sans marketing ni autres restrictions.
Les commentateurs de la publication prĂ©cĂ©dente Ă©taient les plus intĂ©ressĂ©s par la puissance consommĂ©e par le rĂ©seau neuronal OpenAI pour la formation. De toute Ă©vidence, une paire de Ryzen ne pouvait pas le faire, surtout dans le contexte d'imiter 180 ans de jeu dans une vraie journĂ©e. Dans le mĂȘme temps, le bot pour Dota 2 n'est pas un bot pour le tireur de niveau Quake, ce que l'utilisateur a trĂšs clairement remarquĂ© en rĂ©ponse Ă l'un des sceptiques:
Il me semble que vous imaginez Ă peine la taille de l'espace tactique dans DotA, car vous n'ĂȘtes pas familier avec le jeu lui-mĂȘme. Il n'y a aucune chance de faire des bots sans impliquer des rĂ©seaux de neurones, se limitant Ă au moins quelques ressources informatiques sensĂ©es. SĂ©rieusement. Ce n'est pas Quake, oĂč vous pouvez ĂȘtre un chĂȘne complet en termes de tactique, compensant cela par des tirs inhumains et rapides dans les navets des rails. IdĂ©al en termes de rĂ©action et de compĂ©tences mĂ©caniques, les bots qui ne savent pas jouer Ă cinq d'entre eux et qui ne «sentent pas la carte» sont vouĂ©s Ă des joueurs de viande habiles.
De plus, DotA est un jeu avec des informations incomplÚtes, ce qui complique considérablement la tùche. La tùche «que faire quand je vois l'ennemi» est beaucoup plus simple que la tùche «que faire quand les ennemis ne sont pas visibles» - non seulement pour les voitures, mais aussi pour les personnes.
Les développeurs d'OpenAI l'ont bien compris, donc des milliers de machines virtuelles ont été utilisées simultanément pour former des bots. Plus précisément, ces chiffres sont donnés par le blog officiel du projet pour la formation du robot 1x1 Solo Mid, capable de vaincre Daniel Ishutin avec certaines restrictions, et pour la formation d'une équipe à part entiÚre pour le jeu 5x5:
Ce n'est pas un point décimal. Pour former OpenAI en mode 5x5,
128 000 cĆurs de processeur de Google Cloud sont constamment utilisĂ©s. Mais ce n'est pas toute la pulpe. Puisque la vision industrielle est utilisĂ©e dans l'enseignement du bot OpenAI (dont nous parlerons un peu plus tard), dans cette configuration monstrueuse, il y a encore 256 GPU NVIDIA PID (
accélérateur Tesla ).
Selon la brochure officielle de NVIDIA, le P100 présente les caractéristiques suivantes:
Le coĂ»t officiel d'un P100 Tesla 12 Go PCI-E est d'environ 5800 $, le Tesla P100 SXM2 16 Go commence Ă 9400 $. OpenAI utilise uniquement l'ancien modĂšle SXM2. Les cartes vidĂ©o sont nĂ©cessaires non pas pour le rendu de «graphiques» sur des machines virtuelles, mais pour le traitement et le calcul de donnĂ©es qui proviennent constamment de tous les lots en cours d'exĂ©cution. Pour traiter ce flux, l'Ă©quipe a dĂ» dĂ©ployer un systĂšme complet de nĆuds, dans lequel fonctionne le P100 Tesla. Les cartes vidĂ©o traitent et calculent les donnĂ©es obtenues, puis produisent le rĂ©sultat moyen sur tous les lots et le comparent avec les anciens indicateurs OpenAI.
De telles capacités permettent de simuler des réseaux neuronaux d'environ 60 parties par minute, pour chacun desquels le réseau neuronal analyse environ 1,04 million de cycles agent-milieu, comme mentionné précédemment.
Comment OpenAI voit le jeu
L'argent est de la poussiĂšre, si vous en avez bien sĂ»r. MĂȘme les estimations les plus approximatives du coĂ»t d'une journĂ©e de formation OpenAI provoquent un lĂ©ger choc, et la chaleur gĂ©nĂ©rĂ©e sur les serveurs Google Cloud est suffisante pour chauffer une petite ville. Mais beaucoup plus intĂ©ressant est la façon dont OpenAI "voit" le jeu.
Il est clair que les bots n'ont pas besoin de rendu graphique, mais ces pouvoirs sont utilisés pour une raison. Le bot dans ses actions s'appuie sur l'
API Valve standard pour les bots , à travers laquelle le réseau neuronal reçoit un flux de données sur l'espace environnant. L'API est nécessaire pour exécuter les données via un
réseau LSTM monocouche de 1024 blocs et, par conséquent, recevoir des solutions à court terme qui sont cohérentes avec les stratégies à long terme disponibles pour le réseau neuronal.
Les réseaux LSTM déterminent la priorité des tùches pour le bot «ici et maintenant», et conformément au modÚle à long terme du comportement du réseau neuronal, l'action la plus avantageuse est sélectionnée. Par exemple, les bots se concentrent facilement sur les derniers glissements pour gagner de l'or et de l'expérience, ce qui est cohérent avec le modÚle d'obtention d'avantages à long terme sous forme d'objets et l'avantage subséquent dans le jeu.
Selon les informations des dĂ©veloppeurs, toutes les parties se produisent avec le dessin des Ă©vĂ©nements sur la carte avec une frĂ©quence de 30 FPS. RĂ©seau de neurones OpenAI analyse en permanence chaque trame via LSTM, sur la base du rĂ©sultat duquel il prend d'autres dĂ©cisions. Dans le mĂȘme temps, le bot a ses propres prioritĂ©s: toutes les interactions possibles avec l'environnement sont soumises Ă l'analyse la plus approfondie Ă travers des zones spĂ©cialement sĂ©lectionnĂ©es de la «vision» du bot - ce sont des carrĂ©s de 800x800 divisĂ©s en 64 cellules de 100x100 (la taille de la plage d'action et de mouvement dans le jeu est prise, et la taille du carrĂ© est de 8x8 ) C'est ainsi que le bot «voit» partiellement le jeu sur une image spĂ©cifique:
Un constructeur complet avec la possibilité de changer d'actions, d'estimer la taille des carrés et d'autres possibilités de «modifier les paramÚtres» est disponible sur le blog officiel des développeurs dans la section Structure du modÚleEt voici la visualisation du réseau LSTM en termes de prévisions en temps réel des événements du jeu:
En plus de LSTM et d'évaluer la situation ici et maintenant, le bot OpenAI utilise en permanence une grille de «prévision» et de définition de ses propres priorités. Voici à quoi cela ressemble pour les gens:

Le carré vert est la zone de priorité la plus élevée et l'action actuelle du bot (attaque, déplacement, etc.). Le carré vert clair a une priorité plus faible, mais le bot peut basculer sur ce secteur à tout moment. Deux carrés gris de plus - zones d'activité potentielle, si rien ne change.
Voyez comment le bot "voit" le jeu et prend des dĂ©cisions en fonction de ces quatre zones peut ĂȘtre vu dans la vidĂ©o ci-dessous:
Il convient de noter que les zones prioritaires du bot ne sont pas toujours situées à cÎté du modÚle de personnage. Lorsque vous faites glisser la carte, les quatre carrés sont facilement déplacés pour plusieurs écrans à partir de la position actuelle du bot, c'est-à -dire que OpenAI analyse simultanément tout l'espace de jeu pour la disponibilité et l'opportunité de toute action, et pas seulement un écran.
OpenAI joue constamment avec lui-mĂȘme. Dans le mĂȘme temps, 80% des robots sont formĂ©s et 20% utilisent des tactiques et des stratĂ©gies dĂ©jĂ dĂ©veloppĂ©es. Cette approche permet au rĂ©seau neuronal d'apprendre de ses propres erreurs, de trouver des schĂ©mas vulnĂ©rables dans le comportement rĂ©el et en mĂȘme temps de consolider des schĂ©mas de comportement rĂ©ussis.
Demain déjà . Professionnel contre machine
Au lieu du résultat, il vaut la peine de revenir sur le sujet de la confrontation de demain entre les joueurs professionnels et OpenAI.
Les dĂ©tails ne sont pas encore connus, mais avec confiance, nous pouvons dire que les rĂ©seaux de neurones auront du mal. Contrairement Ă ses adversaires passĂ©s, OpenAI affrontera le meilleur des meilleurs, et la possibilitĂ© de manĆuvre et de travail d'Ă©quipe dans le cadre d'un match show permettra aux gens d'atteindre leur plein potentiel. Le format Solo Mid 1x1, bien sĂ»r, est extrĂȘmement spectaculaire, mais il ne rĂ©vĂšle pas toute l'essence du jeu et est extrĂȘmement intolĂ©rant aux micro-erreurs que les gens font souvent.
Toute la question est de savoir avec quel sérieux les professionnels prendront cette confrontation. Si des informations supplémentaires apparaissent, la publication sera mise à jour.