La nouvelle version du programme AlphaGo Zero a vaincu son illustre ancêtre avec un score de 100: 0

Le 18 octobre, DeepMind a publié un article d'AlphaGo sur les dernières réalisations du magazine Nature . La nouvelle version du programme s'appelait Zero, car elle a été formée à partir de zéro sans utiliser les données reçues d'une personne, à l'exception des règles du jeu Go lui-même. Pour l'entraînement de la version précédente, qui remportait les championnats avec les gens, la méthode de l'entraînement avec un enseignant (apprentissage supervisé) a été initialement utilisée, et ensuite seulement l'entraînement avec renforcement (apprentissage par renforcement). C'est-à-dire, initialement le programme formé, étudiant l'expérience humaine et ensuite seulement le jeu contre ses propres versions. Autrement dit, la version précédente a initialement appris à prédire les mouvements humains. AlphaGo Zero est devenu son propre professeur: le réseau de neurones s'est entraîné pour prédire ses propres choix, ainsi que le choix de la version champion.



Les créateurs du programme soutiennent raisonnablement que Zero est actuellement le joueur de Go le plus puissant de l'histoire.

Versions précédentes AlphaGo a d'abord appris à jouer à Go sur des milliers de personnes, de l'amateur au professionnel. Zero a été épargnée des préjugés humains, elle a sauté cette étape, a commencé à apprendre, à jouer avec elle-même, en faisant initialement des mouvements arbitraires. Bientôt, le programme a dépassé le niveau humain et a vaincu la version champion.



Mais se débarrasser de l'influence de l'expérience humaine n'est pas le seul changement. Le site officiel mentionne l'utilisation d'une nouvelle forme de formation avec renforcement, dont l'essence n'est pas entièrement divulguée. Il est clair que le réseau neuronal est associé à un puissant algorithme de recherche. Pendant les jeux, les coefficients du réseau neuronal sont réglés et mis à jour. Ensuite, le réseau neuronal mis à jour est à nouveau recombiné avec un algorithme de recherche pour obtenir une version plus puissante d'AlphaGo Zero. Et donc, itération après itération, le système se développe, avec le niveau du jeu.

Mais après cette description trouble, les auteurs disent encore que le principal avantage de la nouvelle méthode est qu'AlphaGo n'est plus contraint par les limites de la connaissance humaine. Au lieu de cela, elle peut apprendre de zéro du joueur le plus puissant du monde - d'AlphaGo elle-même.

Cependant, plusieurs autres différences sont également mentionnées:

  • Zero utilise uniquement des couleurs noires et blanches de pierres sur la carte en entrée, tandis que les versions précédentes étaient alimentées par un petit nombre de paramètres artificiels.
  • Dans les versions précédentes, deux réseaux distincts «réseau de politique» (pour choisir le prochain mouvement) et «réseau de valeur» (pour prédire un gagnant potentiel de chaque position) étaient utilisés. Dans la nouvelle version de Zero, ils ont été combinés, ce qui a permis une formation plus efficace.
  • AlphaGo Zero n'utilise plus non plus de «déploiements» - jeu aléatoire rapide de jeux par d'autres programmes Go pour prédire quel joueur gagnera à partir de sa position actuelle. Ici, l'accent est mis sur la haute qualité des réseaux de neurones d'évaluation.

Tous ces changements, selon les auteurs, ont contribué à améliorer les performances du système, sa puissance et son efficacité, tout en le rendant plus universel. Si le système peut apprendre indépendamment à partir de zéro, cela signifie qu'à partir du jeu dans Go, il peut être «transplanté» dans n'importe quelle autre branche de la connaissance humaine. DeepMind a depuis longtemps déclaré que sa mission était de créer une intelligence artificielle à usage général, un système unique qui, prêt à l'emploi, pourrait résoudre une variété de problèmes.

Une découverte importante est qu'AlphaGo n'a pas seulement appris à jouer comme des gens, mais qu'il a développé ses approches fondamentalement nouvelles et extrêmement efficaces pour jouer au Go, ses stratégies selon lesquelles les gens jouent à ce jeu depuis des milliers d'années dont ils n'avaient aucune idée. Non seulement cela, dans un court laps de temps, elle a maîtrisé les connaissances qui ont pris des milliers d'années aux gens, elle a développé une connaissance fondamentalement nouvelle. Et si ce système a montré une efficacité aussi élevée dans une entreprise aussi complexe que le jeu dans Go, l'étape suivante, les créateurs du système voient la recherche de son application dans d'autres industries.

Source: https://habr.com/ru/post/fr407619/


All Articles