🙌 🏪 🌸 Aujourd'hui sera le premier match entre OpenAI et Dota 2 professionnels (personnes gagnées). Nous comprenons comment fonctionne le bot 🖕 🔃 💇🏻

[UPD 2] L'équipe de Pain Gaming a vaincu OpenAI Five. Le match a duré 53 minutes et s'est terminé par un score de 45-41 pour les frags en faveur des bots. L'enregistrement du jeu peut être consulté sur Twitch ici . Commence à 7:38:00

Ce soir, 22 août, avant le début de la prochaine journée des éliminatoires internationales, le premier match de démonstration entre les joueurs professionnels et le bot OpenAI Five aura lieu dans le cadre des activités du spectacle. Des informations sur les matchs sont apparues sur le site officiel de Dota 2 dans la section avec le calendrier des matchs des éliminatoires de l'International. Au total, OpenAI jouera trois matchs en trois jours avec des joueurs professionnels.

Cet événement est significatif dans la mesure où il y a un an, le bot a «réprimé» Daniil Ishutin lors de la confrontation avec le miroir intermédiaire solo 1x1 SF , et il y a quelques semaines, il a vaincu le «méli-mélo» de commentateurs et d'anciens joueurs professionnels.

Cette fois, le développement d'une entreprise parrainée par Elon Musk et d'autres hommes d'affaires éminents du secteur des TI affrontera un adversaire plus sérieux: l'International rassemble chaque année les meilleures équipes du monde, donc ce ne sera pas facile pour les bots. Jusqu'à présent, l'équipe de développement n'a pas indiqué si toutes les anciennes restrictions sur les pics et les mécanismes qui étaient pertinentes dans le jeu contre les gens au début du mois s'appliqueront, mais cela mérite d'être rappelé.

Ainsi, les anciennes règles sont les suivantes:

pool de 18 héros en mode Tirage aléatoire (Hache, Crystal Maiden, Death Prophet, Earthshaker, Gyrocopter, Lich, Lion, Necrophos, Queen of Pain, Razor, Riki, Shadow Fiend, Slark, Sniper, Sven, Tidehunter, Viper ou Witch Docteur);
sans Rapine Divine, bouteille;
sans créatures contrôlées et illusions;
match avec cinq courriers (ils ne peuvent pas être repérés et tankés);
sans utiliser de scan.

Dans les commentaires sur notre dernière publication sur ce sujet, beaucoup de controverses ont éclaté sur les méthodes de formation des réseaux de neurones. Cette fois, nous avons apporté quelques visuels sur le fonctionnement du bot OpenAI et à quoi il ressemble du point de vue des gens.

Les développeurs ont déclaré qu'en raison de la puissance de calcul, du grand nombre d'enregistrements et de la possibilité d'exécuter la formation dans plusieurs flux, OpenAI imitait quotidiennement jusqu'à 180 ans de jeux Dota 2 continus. Évidemment, la capacité d'apprentissage de cette IA est de plusieurs ordres de grandeur inférieure à celle même pas si intelligente. "Les animaux, sans parler des chiens ou des primates, auxquels l'homme appartient.

Pour former OpenAI, l'équipe a utilisé son propre développement appelé Gym ( dépôt github , documentation officielle). Cette «chaise berçante» est compatible avec n'importe quelle bibliothèque publique, comme TensorFlow ou Theano. Dans la formation de réseaux de neurones dans le cadre de Gym, la boucle classique agent-environnement est utilisée:

Les développeurs affirment que n'importe qui peut utiliser Gym pour enseigner à son réseau de neurones la lecture de titres classiques pour l'Atari 2600 ou d'autres projets relativement faciles à comprendre. Évidemment, la vitesse de la formation dépend directement de la quantité de ressources impliquées dans cela. Par exemple, les développeurs d'OpenAI ont appris au réseau neuronal à jouer à Montezuma's Revenge .

Mais les deuxième et quatrième étapes - l'action et l'analyse du résultat (récompenses pour l'action) sont du plus grand intérêt pour nous. Et dans le contexte de Dota 2, le niveau de variabilité ne fait que rouler, et les actions initialement évaluées par le bot comme «à droite» sur une longue distance peuvent entraîner une perte.

Comment l'équipe OpenAI a appris à l'IA à jouer à Dota 2 en termes d'équipement

L'équipe de développement a abordé la question de l'apprentissage d'OpenAI dans Dota 2 plus au sérieux. Vous pouvez lire le rapport officiel complet sur le blog du projet ici , mais nous donnerons les principaux extraits sur la partie technique et la mise en œuvre sans marketing ni autres restrictions.

Les commentateurs de la publication précédente étaient les plus intéressés par la puissance consommée par le réseau neuronal OpenAI pour la formation. De toute évidence, une paire de Ryzen ne pouvait pas le faire, surtout dans le contexte d'imiter 180 ans de jeu dans une vraie journée. Dans le même temps, le bot pour Dota 2 n'est pas un bot pour le tireur de niveau Quake, ce que l'utilisateur a très clairement remarqué en réponse à l'un des sceptiques:

Il me semble que vous imaginez à peine la taille de l'espace tactique dans DotA, car vous n'êtes pas familier avec le jeu lui-même. Il n'y a aucune chance de faire des bots sans impliquer des réseaux de neurones, se limitant à au moins quelques ressources informatiques sensées. Sérieusement. Ce n'est pas Quake, où vous pouvez être un chêne complet en termes de tactique, compensant cela par des tirs inhumains et rapides dans les navets des rails. Idéal en termes de réaction et de compétences mécaniques, les bots qui ne savent pas jouer à cinq d'entre eux et qui ne «sentent pas la carte» sont voués à des joueurs de viande habiles.

De plus, DotA est un jeu avec des informations incomplètes, ce qui complique considérablement la tâche. La tâche «que faire quand je vois l'ennemi» est beaucoup plus simple que la tâche «que faire quand les ennemis ne sont pas visibles» - non seulement pour les voitures, mais aussi pour les personnes.

Les développeurs d'OpenAI l'ont bien compris, donc des milliers de machines virtuelles ont été utilisées simultanément pour former des bots. Plus précisément, ces chiffres sont donnés par le blog officiel du projet pour la formation du robot 1x1 Solo Mid, capable de vaincre Daniel Ishutin avec certaines restrictions, et pour la formation d'une équipe à part entière pour le jeu 5x5:

Ce n'est pas un point décimal. Pour former OpenAI en mode 5x5, 128 000 cœurs de processeur de Google Cloud sont constamment utilisés. Mais ce n'est pas toute la pulpe. Puisque la vision industrielle est utilisée dans l'enseignement du bot OpenAI (dont nous parlerons un peu plus tard), dans cette configuration monstrueuse, il y a encore 256 GPU NVIDIA PID ( accélérateur Tesla ).

Selon la brochure officielle de NVIDIA, le P100 présente les caractéristiques suivantes:

Le coût officiel d'un P100 Tesla 12 Go PCI-E est d'environ 5800 $, le Tesla P100 SXM2 16 Go commence à 9400 $. OpenAI utilise uniquement l'ancien modèle SXM2. Les cartes vidéo sont nécessaires non pas pour le rendu de «graphiques» sur des machines virtuelles, mais pour le traitement et le calcul de données qui proviennent constamment de tous les lots en cours d'exécution. Pour traiter ce flux, l'équipe a dû déployer un système complet de nœuds, dans lequel fonctionne le P100 Tesla. Les cartes vidéo traitent et calculent les données obtenues, puis produisent le résultat moyen sur tous les lots et le comparent avec les anciens indicateurs OpenAI.

De telles capacités permettent de simuler des réseaux neuronaux d'environ 60 parties par minute, pour chacun desquels le réseau neuronal analyse environ 1,04 million de cycles agent-milieu, comme mentionné précédemment.

Comment OpenAI voit le jeu

L'argent est de la poussière, si vous en avez bien sûr. Même les estimations les plus approximatives du coût d'une journée de formation OpenAI provoquent un léger choc, et la chaleur générée sur les serveurs Google Cloud est suffisante pour chauffer une petite ville. Mais beaucoup plus intéressant est la façon dont OpenAI "voit" le jeu.

Il est clair que les bots n'ont pas besoin de rendu graphique, mais ces pouvoirs sont utilisés pour une raison. Le bot dans ses actions s'appuie sur l' API Valve standard pour les bots , à travers laquelle le réseau neuronal reçoit un flux de données sur l'espace environnant. L'API est nécessaire pour exécuter les données via un réseau LSTM monocouche de 1024 blocs et, par conséquent, recevoir des solutions à court terme qui sont cohérentes avec les stratégies à long terme disponibles pour le réseau neuronal.

Les réseaux LSTM déterminent la priorité des tâches pour le bot «ici et maintenant», et conformément au modèle à long terme du comportement du réseau neuronal, l'action la plus avantageuse est sélectionnée. Par exemple, les bots se concentrent facilement sur les derniers glissements pour gagner de l'or et de l'expérience, ce qui est cohérent avec le modèle d'obtention d'avantages à long terme sous forme d'objets et l'avantage subséquent dans le jeu.

Selon les informations des développeurs, toutes les parties se produisent avec le dessin des événements sur la carte avec une fréquence de 30 FPS. Réseau de neurones OpenAI analyse en permanence chaque trame via LSTM, sur la base du résultat duquel il prend d'autres décisions. Dans le même temps, le bot a ses propres priorités: toutes les interactions possibles avec l'environnement sont soumises à l'analyse la plus approfondie à travers des zones spécialement sélectionnées de la «vision» du bot - ce sont des carrés de 800x800 divisés en 64 cellules de 100x100 (la taille de la plage d'action et de mouvement dans le jeu est prise, et la taille du carré est de 8x8 ) C'est ainsi que le bot «voit» partiellement le jeu sur une image spécifique:

Un constructeur complet avec la possibilité de changer d'actions, d'estimer la taille des carrés et d'autres possibilités de «modifier les paramètres» est disponible sur le blog officiel des développeurs dans la section Structure du modèle

Et voici la visualisation du réseau LSTM en termes de prévisions en temps réel des événements du jeu:

En plus de LSTM et d'évaluer la situation ici et maintenant, le bot OpenAI utilise en permanence une grille de «prévision» et de définition de ses propres priorités. Voici à quoi cela ressemble pour les gens:

Le carré vert est la zone de priorité la plus élevée et l'action actuelle du bot (attaque, déplacement, etc.). Le carré vert clair a une priorité plus faible, mais le bot peut basculer sur ce secteur à tout moment. Deux carrés gris de plus - zones d'activité potentielle, si rien ne change.

Voyez comment le bot "voit" le jeu et prend des décisions en fonction de ces quatre zones peut être vu dans la vidéo ci-dessous:

Il convient de noter que les zones prioritaires du bot ne sont pas toujours situées à côté du modèle de personnage. Lorsque vous faites glisser la carte, les quatre carrés sont facilement déplacés pour plusieurs écrans à partir de la position actuelle du bot, c'est-à-dire que OpenAI analyse simultanément tout l'espace de jeu pour la disponibilité et l'opportunité de toute action, et pas seulement un écran.

OpenAI joue constamment avec lui-même. Dans le même temps, 80% des robots sont formés et 20% utilisent des tactiques et des stratégies déjà développées. Cette approche permet au réseau neuronal d'apprendre de ses propres erreurs, de trouver des schémas vulnérables dans le comportement réel et en même temps de consolider des schémas de comportement réussis.

Demain déjà. Professionnel contre machine

Au lieu du résultat, il vaut la peine de revenir sur le sujet de la confrontation de demain entre les joueurs professionnels et OpenAI.

Les détails ne sont pas encore connus, mais avec confiance, nous pouvons dire que les réseaux de neurones auront du mal. Contrairement à ses adversaires passés, OpenAI affrontera le meilleur des meilleurs, et la possibilité de manœuvre et de travail d'équipe dans le cadre d'un match show permettra aux gens d'atteindre leur plein potentiel. Le format Solo Mid 1x1, bien sûr, est extrêmement spectaculaire, mais il ne révèle pas toute l'essence du jeu et est extrêmement intolérant aux micro-erreurs que les gens font souvent.

Toute la question est de savoir avec quel sérieux les professionnels prendront cette confrontation. Si des informations supplémentaires apparaissent, la publication sera mise à jour.

Aujourd'hui sera le premier match entre OpenAI et Dota 2 professionnels (personnes gagnées). Nous comprenons comment fonctionne le bot

Comment l'équipe OpenAI a appris à l'IA à jouer à Dota 2 en termes d'équipement

Comment OpenAI voit le jeu

Demain déjà. Professionnel contre machine

More articles: