AlphaZero a vaincu Stockfish dans un match de 1000 matchs

image

En décembre dernier, il y a eu une vague de nouvelles sur la puissance incroyable d'un nouveau moteur d'échecs utilisant la société d'intelligence artificielle AlphaZero DeepMind. Aujourd'hui, ils ont publié des résultats incroyables pour une version mise à jour de ce moteur.

Les résultats ne laissent à nouveau aucun doute sur le fait qu'AlphaZero est l'un des moteurs d'échecs les plus puissants au monde.

AlphaZero mis à jour a vaincu Stockfish 8 dans un nouveau match avec 1000 matchs avec le résultat: 155 victoires, 6 défaites, 839 nuls.

AlphaZero a également devancé Stockfish dans une série de jeux avec un contrôle du temps inégal, battant le moteur traditionnel même avec un handicap de 10 fois.

Selon DeepMind, dans les matchs supplémentaires, le nouvel AlphaZero a dépassé la «dernière version de développement» de Stockfish le 13 janvier 2018, montrant des résultats presque identiques, comme dans le match contre Stockfish 8.

Selon DeepMind, leur moteur d'apprentissage automatique a également remporté tous les matchs contre la «variante Stockfish, qui utilise un solide premier livre». L'ajout d'un premier livre a semblé aider Stockfish, qui a finalement remporté un nombre important de matchs quand AlphaZero a joué en noir, mais pas assez pour gagner le match.

Les résultats ont été publiés dans un article de la revue Science et fournis par certains médias d'échecs .

Le match de 1000 matchs s'est déroulé début 2018. Dans le match, AlphaZero et Stockfish ont reçu trois heures de chaque match plus un gain de 15 secondes par tour. Ce contrôle du temps est susceptible de rendre obsolète l'un des principaux arguments contre les résultats du match de l'année dernière, à savoir qu'en 2017, le contrôle du temps d'une minute par tour était un fort avantage pour AlphaZero.

Avec trois heures plus une augmentation de 15 secondes, un tel argument n'a pas de sens, car il s'agit d'une énorme quantité de temps de jeu pour n'importe quel moteur d'échecs. Dans les matchs avec des temps inégaux, AlphaZero a dominé même avec un rapport de temps de 10 à 1. Stockfish n'a commencé à gagner qu'à un ratio de 30 pour 1.

Les résultats d'AlphaZero dans les jeux avec des temps inégaux montrent qu'il est non seulement beaucoup plus fort que n'importe quel moteur d'échecs traditionnel, mais utilise également une recherche de mouvement beaucoup plus efficace. Selon DeepMind, AlphaZero utilise la recherche d'arbres de Monte Carlo et étudie environ 60 000 positions par seconde, contre 60 millions pour Stockfish.

image
AlphaZero déplace l'illustration de l'algorithme de recherche. Image de DeepMind tirée d'un article de Science.

Selon l'article, l'algorithme AlphaZero mis à jour est identique dans trois jeux complexes: les échecs, le shogi et le go. Cette version d'AlphaZero a pu vaincre les meilleurs moteurs informatiques des trois jeux après des heures d'auto-formation, à commencer par des règles de jeu simples.

DeepMind a sorti 210 jeux du match, que vous pouvez télécharger ici .

La nouvelle version d'AlphaZero s'est formée pour jouer aux échecs, en commençant par les règles du jeu, en utilisant des méthodes d'apprentissage automatique pour mettre à jour constamment ses réseaux de neurones. Selon DeepMind, 5 000 TPU (processeur tensoriel de Google, circuit intégré spécialisé pour l'IA) ont été utilisés pour générer le premier jeu de jeux pour un jeu indépendant, puis 16 TPU ont été utilisés pour former des réseaux de neurones.

Le temps total d'entraînement aux échecs a duré neuf heures. Selon DeepMind, le nouvel AlphaZero n'a nécessité que quatre heures de formation pour surpasser Stockfish; en neuf heures, il était loin devant le champion du monde d'échecs.

Pour les jeux eux-mêmes, Stockfish a utilisé 44 processeurs, tandis qu'AlphaZero a utilisé une machine avec quatre TPU et 44 cœurs de processeur.

image
AlphaZero vs Stockfish entraîne ses débuts les plus populaires. À gauche, AlphaZero joue le blanc; à droite - noir.

DeepMind a lui-même noté le style de jeu unique de son programme dans l'article:

"Dans plusieurs jeux, AlphaZero a sacrifié des pièces pour un avantage stratégique à long terme, suggérant qu'il a une note positionnelle plus contextuelle que les notes basées sur des règles utilisées dans les programmes d'échecs précédents", ont déclaré les chercheurs de DeepMind.

AI a également souligné l'importance d'utiliser la même version d'AlphaZero dans trois jeux différents, la présentant comme une percée dans l'intelligence globale du jeu:

"Ces résultats nous rapprochent de la réalisation des ambitions de longue date de l'intelligence artificielle: un système de jeu commun qui peut apprendre à maîtriser n'importe quel jeu", ont déclaré des chercheurs de DeepMind.

Source: https://habr.com/ru/post/fr432370/


All Articles