Les derniers systèmes d'IA commencent à s'entraîner sans rien savoir du jeu et atteignent un niveau mondial en quelques heures. Mais les chercheurs ont du mal à utiliser de tels systèmes en dehors du monde du jeu.

Jusqu'à récemment, les machines capables de faire honte aux champions humains avaient au moins le respect d'utiliser l'expérience humaine pour enseigner les jeux.
Pour vaincre Garry Kasparov aux échecs en 1997, les ingénieurs d'IBM ont utilisé des siècles de sagesse aux échecs pour créer leur propre ordinateur Deep Blue. En 2016, le programme AlphaGo du projet Google DeepMind a
vaincu le champion Lee Sedola dans l'ancien jeu de plateau de go, traitant des millions de positions de jeu collectées dans des dizaines de milliers de jeux entre des personnes.
Mais maintenant, les chercheurs en IA repensent la façon dont leurs robots devraient absorber les connaissances humaines. La tendance actuelle peut être décrite comme «oui, et que Dieu le bénisse».
En octobre dernier, l'équipe DeepMind a
publié les détails du nouveau système de go-game, AlphaGo Zero, qui n'a pas du tout étudié les jeux des gens. Elle a commencé avec les règles du jeu et a joué avec elle-même. Les premiers mouvements étaient complètement aléatoires. Après chaque match, elle a accepté de nouvelles connaissances sur ce qui a mené à la victoire et ce qui ne l'a pas été. Après ces matchs, AlphaGo Zero a appâté la version déjà surhumaine d'AlphaGo qui a vaincu Lee Sedol. Le premier a remporté le second avec un score de 100: 0.
Lee Sedol, 18 fois champion du monde de go, affrontera AlphaGo en 2016.L'équipe a continué d'explorer et de créer le prochain brillant joueur de la famille AlphaGo, cette fois simplement appelé AlphaZero. Dans un
article publié sur arxiv.org en décembre, les chercheurs de DeepMind ont révélé comment, à partir de zéro, AlphaZero a entraîné et vaincu AlphaGo Zero, c'est-à-dire qu'il a vaincu le bot qui a vaincu le bot qui a vaincu le meilleur joueur de go du monde. Et quand on lui a donné les règles des échecs
shogi japonais, AlphaZero a rapidement appris et réussi à battre le meilleur de leurs algorithmes spécialement créés pour ce jeu. Les experts se sont émerveillés du style agressif et inconnu du jeu. "Je me suis toujours demandé ce que ce serait si des êtres supérieurs s'envolaient pour la Terre et nous montraient comment ils jouent aux échecs", a déclaré le grand maître danois Peter Heine Nielsen dans
une interview à l' Air Force. "Maintenant je sais."
L'année dernière, nous avons vu d'autres robots d'autres mondes qui se sont montrés dans des domaines différents comme le poker illimité et Dota 2, un jeu en ligne populaire dans lequel des héros fantastiques se battent pour le contrôle d'un autre monde.
Naturellement, les ambitions des entreprises investissant de l'argent dans de tels systèmes dépassent la domination des championnats de jeux. Des équipes de recherche comme DeepMind espèrent appliquer des méthodes similaires aux tâches du monde réel - créer des supraconducteurs qui fonctionnent à température ambiante, ou comprendre quel origami transformera les protéines en molécules utiles pour les médicaments. Et, bien sûr, de nombreux praticiens espèrent construire une intelligence artificielle à usage général - un objectif mal défini mais captivant pour donner à la machine la possibilité de penser comme une personne et d'être flexible dans la résolution de différents problèmes.
Cependant, malgré tous les investissements, on ne sait pas encore jusqu'où les technologies actuelles peuvent aller au-delà des limites du plateau de jeu. "Je ne suis pas sûr que les idées derrière AlphaZero seront si faciles à résumer", a
déclaré Pedro Domingos, informaticien à l'Université de Washington. "Les jeux sont un sujet très, très inhabituel."
Des objectifs idéaux pour un monde imparfait
Une caractéristique commune à de nombreux jeux, y compris les échecs et le go - les joueurs voient constamment tous les jetons des deux côtés du plateau. Chaque joueur dispose de ce que l'on appelle des «informations idéales» sur l'état du jeu. Peu importe la complexité du jeu, il vous suffit de penser à votre position actuelle.
De nombreuses situations réelles ne peuvent être comparées à cela. Imaginez que nous demandions à l'ordinateur de faire un diagnostic ou de mener des négociations commerciales. «La plupart des interactions stratégiques dans le monde réel impliquent des informations cachées», explique
Noam Brown , étudiant diplômé en informatique à l'Université Carnegie Malon. "Il me semble que la plupart de la communauté de l'IA ignore ce fait."
Le poker marron offre un défi différent. Vous ne voyez pas les cartes de l'adversaire. Mais ici, les machines qui apprennent à travers un jeu avec elles-mêmes atteignent déjà des sommets surhumains. En janvier 2017, le programme Libratus, créé par Brown et son commissaire
Thomas Sandholm , a
battu quatre joueurs illimités du
Texas Hold'em professionnel en remportant 1,7 million de dollars à la fin du championnat de 20 jours.
StarCraft II, un autre jeu multijoueur en ligne avec un grand nombre de fans, est un jeu encore plus décourageant avec des informations imparfaites. Les joueurs choisissent une équipe, construisent une armée et mènent la guerre sur un paysage de science-fiction. Mais le paysage est entouré par le brouillard de la guerre, à cause duquel les joueurs ne voient que les parties du territoire sur lesquelles leurs propres troupes ou bâtiments sont situés. Même la décision d'explorer le territoire de l'adversaire est pleine d'incertitude.
C'est le seul jeu que l'IA ne peut pas encore gagner. Les obstacles sont un grand nombre d'options pour les mouvements dans le jeu, qui dépassent généralement mille, et la vitesse de prise de décision. Chaque joueur - une personne ou une machine - doit s'inquiéter d'un grand nombre de scénarios de développement probables à chaque clic de souris.
Jusqu'à présent, l'IA ne peut rivaliser sur un pied d'égalité avec les gens de ce domaine. Mais c'est l'objectif du développement de l'IA. En août 2017, DeepMind a
collaboré avec Blizzard Entertainment, la société qui a créé StarCraft II, pour créer des outils qui, selon eux, ouvriraient ce jeu aux chercheurs en IA.
Malgré toute la complexité, l'objectif de StarCraft II est simple à formuler: détruire l'ennemi. Cela la rend semblable aux échecs, au go, au poker, à Dota 2 et à presque tous les autres jeux. Dans les jeux, vous pouvez gagner.
Du point de vue de l'algorithme, les tâches devraient avoir une «fonction cible», un objectif auquel nous devons tendre. Quand AlphaZero jouait aux échecs, c'était facile. La défaite était estimée à -1, un nul à 0, une victoire à +1. La fonction objective d'AlphaZero est de maximiser les points. La fonction objective du robot de poker est tout aussi simple: gagner beaucoup d'argent.
Les marcheurs informatisés peuvent entraîner des comportements complexes comme marcher sur un terrain inconnuLes situations dans la vie réelle ne sont pas si simples. Par exemple, un robot motorisé a besoin d'une formation plus fine de la fonction objectif - quelque chose de similaire à une sélection soignée de mots lors de la description de votre désir d'un génie. Par exemple: livrer rapidement un passager à la bonne adresse, en respectant toutes les lois et en pesant de manière appropriée le coût de la vie humaine dans des situations dangereuses et incertaines. Domingos dit que la formation d'une fonction objective par les chercheurs est "l'une des choses qui distinguent un grand chercheur dans le domaine de l'apprentissage automatique de la moyenne".
Considérez Tay, le chatbot Twitter que Microsoft a publié le 23 mars 2016. Son objectif était d'engager les gens dans la conversation, ce qu'il a fait. "Ce que Tay a malheureusement découvert", a déclaré Domingos, "c'est que les insultes racistes sont le meilleur moyen de maximiser la participation des gens". Il a été
éteint juste un jour après le début des travaux.
Votre propre ennemi principal
Certaines choses ne changent pas. Les stratégies utilisées aujourd'hui par les robots de jeu dominants ont été inventées il y a des décennies. «C'est une telle explosion du passé - ils lui donnent juste plus de puissance de calcul», explique
David Duveno , spécialiste informatique à l'Université de Tokyo.
Les stratégies sont souvent basées sur des techniques d'apprentissage renforcées avec une liberté d'action. Au lieu de s'engager dans la microgestion, en configurant les moindres détails de l'algorithme, les ingénieurs donnent à la machine d'étudier l'environnement pour apprendre à atteindre ses objectifs par elle-même, par essais et erreurs. Avant la sortie d'AlphaGo et de ses héritiers, l'équipe DeepMind a remporté le premier grand succès dans les gros titres en 2013, lorsqu'elle a utilisé la formation de renforcement pour créer un bot qui a
appris à jouer à sept jeux Atari 2600, et dans trois d'entre eux - au niveau expert.
Ces progrès se sont poursuivis. Le 5 février, DeepMind a sorti
IMPALA , un système d'IA capable d'apprendre 57 jeux avec l'Atari 2600 et 30 autres niveaux créés par DeepMind en trois dimensions. Le joueur agit sur eux dans divers environnements et atteint des objectifs tels que l'ouverture de portes ou la cueillette de champignons. IMPALA a semblé transférer les connaissances entre les tâches - le temps passé sur un jeu a amélioré les résultats dans le reste.
Mais dans la catégorie plus large de l'apprentissage renforcé, des jeux de société et multijoueurs, une approche plus spécifique peut être utilisée. Leur étude peut prendre la forme d'un jeu avec lui-même, lorsque l'algorithme atteint la supériorité stratégique, rivalisant à plusieurs reprises avec une copie proche de lui-même.
Cette idée date de plusieurs décennies. Dans les années 1950, l'ingénieur IBM Arthur Samuel a
créé un programme de brouillons qui a partiellement appris à jouer en se faisant concurrence. Dans les années 1990, Gerald Thesaur d'IBM a créé un programme de backgammon qui contrastait l'algorithme avec lui-même. Le programme a atteint le niveau des experts, tout en inventant des stratégies de jeu inhabituelles mais efficaces.
Dans un nombre croissant de jeux, des algorithmes pour jouer avec soi-même sont fournis avec un adversaire égal. Cela signifie que changer la stratégie du jeu conduit à un résultat différent, grâce auquel l'algorithme reçoit un retour instantané. "Chaque fois que vous découvrez quelque chose, lorsque vous découvrez une petite chose, votre adversaire commence immédiatement à l'utiliser contre vous", explique
Ilya Sutskever , directeur de recherche chez OpenAI, une organisation à but non lucratif qu'il a fondée avec Ilon Mask, dédié au développement et à la diffusion des technologies de l'IA et à l'orientation de leur développement dans une direction sûre. En août 2017, l'organisation a
publié un bot pour Dota 2, qui contrôlait l'un des personnages du jeu, Shadow Fiend, un démon nécromancien, qui a vaincu les meilleurs joueurs du monde lors de batailles individuelles. Un autre projet OpenAI pousse les gens à simuler un match de
sumo , à la suite duquel ils apprennent la lutte et les tours. Lors d'un match avec soi-même, "il n'y a pas de temps pour se reposer, vous devez constamment vous améliorer", a déclaré Sutskever.
Openai
Mais la vieille idée de jouer avec vous-même n'est qu'un ingrédient des robots qui prévalent aujourd'hui, ils ont encore besoin d'un moyen de transformer l'expérience de jeu en une compréhension plus approfondie du sujet. Dans les échecs, le go et les jeux vidéo comme Dota 2, il y a plus de permutations que d'atomes dans l'univers. Même si nous attendons plusieurs vies humaines pendant que l'IA combat son ombre dans des arènes virtuelles, la machine ne pourra pas implémenter chaque scénario, l'écrire dans un tableau spécial et s'y référer lorsqu'une telle situation se reproduira.
Pour rester à flot dans cette mer d'opportunités, «vous devez résumer et mettre en évidence l'essence», explique
Peter Abbil , un spécialiste informatique à l'Université de Californie à Berkeley. Deep Blue d'IBM l'a fait avec une formule d'échecs intégrée. Armé de la capacité d'évaluer la force des positions de jeu qu'elle n'avait pas encore vues, le programme a pu appliquer des mouvements et des stratégies qui augmentent ses chances de gagner. Ces dernières années, une nouvelle technique permet d'abandonner complètement une telle formule. "Maintenant, tout d'un coup, tout cela est couvert par un" réseau profond "", a déclaré Abbil.
Les réseaux de neurones profonds, dont la popularité a explosé ces dernières années, sont construits à partir de couches de «neurones» artificiels,
superposés , comme une pile de crêpes. Lorsqu'un neurone dans l'une des couches est activé, il envoie des signaux à un niveau supérieur, et là, ils sont envoyés encore plus haut, etc.
En ajustant les connexions entre les couches, ces réseaux font étonnamment face à la transformation des données d'entrée en sortie associée, même si la connexion entre elles semble abstraite. Donnez-leur une phrase en anglais, et ils peuvent être formés en la traduisant en turc. Donnez-leur des photos de refuges pour animaux et ils pourront déterminer celui qui convient aux chats. Montrez-leur le jeu poly et ils seront en mesure de comprendre la probabilité de gagner. Mais généralement, ces réseaux doivent d'abord fournir des listes d'exemples balisés sur lesquels ils peuvent s'exercer.
C'est pourquoi jouer avec vous-même et les réseaux de neurones profonds se combinent si bien les uns avec les autres. Les jeux indépendants produisent un grand nombre de scénarios et le réseau profond dispose d'une quantité presque illimitée de données pour la formation. Et puis le réseau neuronal offre un moyen d'apprendre l'expérience et les schémas rencontrés au cours du jeu.
Mais il y a un hic. Pour que ces systèmes fournissent des données utiles, ils ont besoin d'une plate-forme réaliste pour les jeux.
"Tous ces jeux, tous ces résultats, ont été obtenus dans des conditions qui ont permis de simuler parfaitement le monde", a déclaré
Chelsea Finn, un étudiant diplômé de Berkeley qui utilise l'IA pour contrôler les bras robotiques et interpréter les données des capteurs. D'autres domaines ne sont pas si faciles à simuler.
Les robots, par exemple, ont du mal à faire face aux intempéries ou aux cyclistes. Ou ils peuvent ne pas percevoir les possibilités inhabituelles rencontrées dans le monde réel - comme un oiseau volant directement dans la caméra. Dans le cas des bras robotiques, dit Finn, les premières simulations ont fourni une physique de base qui a permis au bras d'apprendre à apprendre. Mais ils ne peuvent pas faire face aux détails de toucher différentes surfaces, donc des tâches comme tordre le bouchon du flacon - ou effectuer une opération chirurgicale complexe - nécessitent une expérience acquise dans la réalité.
Dans le cas de problèmes difficiles à simuler, jouer avec soi-même ne sera plus aussi utile. «Il y a une grande différence entre un modèle d'environnement vraiment parfait et un modèle exemplaire appris, surtout lorsque la réalité est vraiment complexe», a écrit
Yoshua Benggio , un pionnier de l'apprentissage en profondeur de l'Université de Montréal. Mais les chercheurs en IA ont encore des moyens de progresser.
La vie après les jeux
Il est difficile de déterminer le début de la supériorité de l'IA dans les jeux. Vous pouvez choisir la perte d'échecs de Kasparov, la défaite de Li Sedol aux mains virtuelles d'AlphaGo. Une autre option populaire serait le jour de 2011, lorsque le légendaire champion du jeu
Jeopardy! Ken Jennings a perdu contre IBM Watson. Watson était capable de gérer des indices et des jeux de mots. "Je me réjouis de l'émergence de nos nouveaux suzerains informatiques", a écrit Jennings dans sa dernière réponse.
Il semblait que Watson avait des compétences de bureau similaires à celles que les gens utilisent pour résoudre de nombreux problèmes réels. Il pouvait percevoir l'entrée en anglais, traiter les documents qui lui étaient associés en un clin d'œil, récupérer des informations connectées et choisir une meilleure réponse. Mais sept ans plus tard, la réalité continue de poser des obstacles complexes à l'IA. Le
rapport de santé de Stat de septembre indiquait que l'héritier de Watson, spécialiste de la recherche sur le cancer et des directives de traitement personnalisées pour Watson pour l'oncologie, avait des problèmes.
"Questions dans le jeu Jeopardy! C'est plus facile à gérer, car cela n'a pas besoin de bon sens », a écrit Bengio, qui a travaillé avec l'équipe Watson, en réponse à une demande de comparaison des deux cas en termes d'IA. «Comprendre un article médical est beaucoup plus difficile. Un grand nombre de recherches fondamentales est nécessaire. »
Mais même si les jeux sont étroitement spécialisés, ils ressemblent à plusieurs tâches réelles. Les chercheurs de DeepMind n'ont pas voulu répondre aux questions d'entrevue, indiquant que leurs travaux sur AlphaZero sont actuellement à l'étude par des experts indépendants. Mais l'équipe a suggéré qu'une telle technologie pourrait bientôt aider les chercheurs en biomédecine qui veulent comprendre le repliement des protéines.
Pour ce faire, ils doivent comprendre comment les divers acides aminés qui composent la protéine se
plient et se plient en une petite machine tridimensionnelle, dont la fonctionnalité dépend de sa forme. Cette complexité est similaire à la complexité des échecs: les chimistes connaissent les lois à un niveau tel qu’ils peuvent approximativement calculer certains scénarios, mais il y a tellement de configurations possibles que vous ne pourrez pas rechercher toutes les options possibles. Mais que faire si le repliement des protéines est un jeu? Et cela a déjà été entrepris. Depuis 2008, des centaines de milliers de personnes ont essayé le jeu en ligne
Foldit , dans lequel les utilisateurs reçoivent des points pour la stabilité et la réalité de la structure protéique qu'ils ont enroulée. Une machine pourrait s'entraîner de manière similaire, essayant peut-être de surpasser sa meilleure réussite précédente avec une formation de renforcement.
Renforcer l'apprentissage et jouer avec soi-même peut aider à former des systèmes interactifs, suggère Saskaver. Cela peut donner aux robots qui ont besoin de parler aux gens une chance de s'entraîner à cela tout en se parlant à eux-mêmes. Étant donné que les équipements spécialisés pour l'IA deviennent plus rapides et plus abordables, les ingénieurs sont davantage incités à concevoir des tâches sous forme de jeux. «Je pense qu'à l'avenir, l'importance de jouer avec soi-même et d'autres façons de consommer une grande quantité de puissance de calcul augmentera», a déclaré Satskever.
Mais si l'objectif final des machines est de répéter tout ce dont une personne est capable, alors même le champion généralisé des jeux de société comme AlphaZero a encore de la place pour grandir. «Je dois faire attention, au moins pour moi, à l'énorme fossé entre la pensée réelle, l'exploration créative des idées et les capacités actuelles de l'IA», explique
John Tenenbaum , un scientifique cognitif au MTI.
"Une telle intelligence existe, mais jusqu'à présent seulement dans l'esprit des grands chercheurs en IA."De nombreux autres chercheurs, sentant le battage médiatique autour de leur région, proposent leurs propres critères. «Je recommanderais de ne pas surestimer l'importance de ces jeux, pour l'IA ou pour des tâches générales. Les gens ne savent pas très bien jouer au jeu », explique François Cholet, chercheur en apprentissage en profondeur chez Google. "Mais gardez à l'esprit que même des outils très simples et spécialisés peuvent faire beaucoup."