
Les derniers systèmes d'intelligence artificielle à auto-apprentissage peuvent apprendre un jeu à partir de zéro et devenir des champions de classe mondiale. Jusqu'à récemment, les machines qui pouvaient battre les champions ont commencé leurs études en étudiant l'expérience humaine. Pour vaincre Garry Kasparov en 1997, les ingénieurs d'IBM ont téléchargé sur Deep Blue les informations accumulées au cours des siècles de passion de l'humanité pour les échecs. En 2016, l'intelligence artificielle
AlphaGo créée sur Google DeepMind a
dépassé le champion Lee Sedola dans l'ancien jeu de plateau Go, après avoir étudié des millions de positions à partir de dizaines de milliers de jeux joués par des personnes. Mais maintenant, les développeurs d'IA repensent l'approche visant à incorporer les connaissances humaines dans le cerveau électronique. Tendance actuelle: ne vous embêtez pas avec ça.
En octobre 2017, l'équipe DeepMind a publié des
informations sur un nouveau système pour jouer à Go - AlphaGo Zero. Elle n'a pas du tout étudié les soirées jouées par les gens. Au lieu de cela, elle a appris les règles et a commencé à jouer avec elle-même. Les premiers mouvements étaient complètement aléatoires. Après chaque match, le système a analysé ce qui a mené à la victoire ou à la défaite. Après un certain temps, AlphaGo Zero a commencé à jouer avec le gagnant pompé Lee Sedola - AlphaGo. Et elle l'a battue avec un score de 100: 0.
Lee Sedol, 18 fois champion du monde dans le jeu de Go, lors d'un match avec AlphaGo en 2016.Ensuite, les chercheurs ont créé un système qui est devenu le joueur le plus puissant de la famille AlphaGo - AlphaZero. Dans un
article publié en décembre, les développeurs de DeepMind ont rapporté qu'AlphaZero, qui avait également commencé à apprendre de zéro, avait dépassé AlphaGo Zero - c'est-à -dire qu'il avait vaincu le bot qui avait vaincu le bot qui avait vaincu le meilleur joueur de Go au monde. Et quand elle a été nourrie des règles des échecs, ainsi que de la version japonaise de ce jeu -
shogi , AlphaZero a rapidement appris à vaincre les algorithmes les plus puissants de ces jeux. Les experts ont été surpris par le style agressif et inhabituel du jeu. Comme l'a souligné le grand maître danois Peter Heine Nielsen: «J'ai toujours voulu savoir ce qui se passerait si les surnaturels s'envolaient vers la Terre et nous montraient comment ils pouvaient jouer aux échecs. Maintenant je sais. "
L'année dernière, nous avons vu l'avènement de robots d'auto-apprentissage d'un autre monde dans des domaines aussi divers que le poker illimité et Dota 2.
Il est clair que les entreprises qui investissent dans ces systèmes et dans des systèmes similaires ont des plans beaucoup plus ambitieux que de dominer les championnats de jeux. Les chercheurs espèrent utiliser des méthodes similaires pour résoudre de vrais problèmes, tels que la création de supraconducteurs fonctionnant à température ambiante, ou en utilisant les principes de l'origami pour déposer des protéines dans des molécules de médicaments puissants. Et, bien sûr, de nombreux praticiens espèrent créer une IA à usage général - l'objectif est vague, mais passionnant, ce qui implique que la machine sera capable de penser comme une personne et de résoudre une variété de problèmes.
Mais malgré les gros investissements de forces et de moyens dans de tels systèmes, on ne sait pas jusqu'où ils peuvent s'éloigner de la sphère des jeux.
Des objectifs idéaux pour un monde imparfait
De nombreux jeux, y compris les échecs et Go, sont unis par le fait que les joueurs voient toujours la disposition entière sur le terrain de jeu. Chaque joueur à un moment donné a des «informations complètes» sur l'état du jeu. Mais plus le jeu est difficile, plus vous devez anticiper le moment présent. En réalité, ce n'est généralement pas le cas. Imaginez que vous ayez demandé à l'ordinateur de faire un diagnostic ou de mener des négociations commerciales.
Noam Brown , étudiant diplômé au Département d'informatique de l'Université Carnegie Mellon: «La plupart des relations stratégiques réelles utilisent des informations cachées. J'ai le sentiment que de nombreux participants de la communauté de l'IA ignorent cette circonstance. »
Brown est spécialisé dans le développement d'algorithmes de jeu de poker, et il y a d'autres difficultés dans ce jeu: vous ne voyez pas les cartes de vos rivaux. Mais ici, les machines qui apprennent à jouer de façon autonome atteignent déjà des sommets. En janvier 2017, un programme appelé Libratus, créé par Brown et
Tuomas Sandholm , a
battu un contre un des quatre joueurs professionnels dans un Texas Hold'em illimité. À la fin du tournoi de 20 jours, le bot a gagné 1,7 million de dollars de plus que ses rivaux.
La stratégie multijoueur de StarCraft II est un jeu encore plus impressionnant, impliquant une possession incomplète d'informations sur la situation actuelle. Ici, l'IA n'a pas encore atteint l'Olympe. Cela est entravé par le grand nombre de mouvements dans le jeu, souvent mesurés en milliers, et la vitesse élevée de leur exécution. Chaque joueur - une personne ou une machine - à chaque clic doit penser à la variété illimitée de développements ultérieurs.
Jusqu'à présent, l'IA ne peut rivaliser avec les meilleurs joueurs sur un pied d'égalité. Mais les développeurs s'y efforcent. En août 2017, DeepMind a obtenu le soutien de Blizzard Entertainment (qui a créé StarCraft II) pour créer des outils qui devraient aider les chercheurs en IA.
Malgré la difficulté du gameplay, l'essence de StarCraft II se résume à une tâche simple: détruire les ennemis. On peut en dire autant des échecs, du Go, du poker, de Dota 2 et de presque tous les autres jeux. Et dans les jeux, vous pouvez gagner.
Du point de vue de l'algorithme, la tâche doit avoir une «fonction cible», qui doit être trouvée. Ce n'était pas trop difficile quand AlphaZero jouait aux échecs. La perte est comptée comme -1, nul - 0, victoire - +1. L'objectif d'AlphaZero était de gagner un maximum de points. La fonction objective du bot de poker est également simple: gagner beaucoup d'argent.
L'algorithme apprend un comportement complexe - marcher sur une surface inconnue.Dans la vie, tout n'est pas si clair. Par exemple, un véhicule sans pilote a besoin d'une fonction objectif plus spécifique. Quelque chose comme une déclaration prudente de son désir, ce qui explique le génie. Par exemple: livrer rapidement les passagers à la bonne destination, en respectant toutes les règles et en évaluant correctement la vie humaine dans des situations dangereuses et incertaines.
Pedro Domingos , spécialiste en informatique, Université de Washington: «Entre autres choses, la différence entre un grand et un chercheur ordinaire en apprentissage automatique réside dans la façon dont vous formulez la fonction objective.»
Pensez au chatbot Tay Twitter lancé par Microsoft le 23 mars 2016. Son objectif était d'impliquer les gens et il l'a atteint. Mais soudain, il est devenu clair que la meilleure façon de maximiser la participation est de déverser toutes sortes d'insultes. Le bot a été
éteint moins d'un jour plus tard.
Votre pire ennemi personnel
Quelque chose reste inchangé. Les méthodes utilisées par les robots de jeu dominants modernes reposent sur des stratégies inventées il y a des décennies. Juste les mêmes salutations du passé, soutenues uniquement par la puissance informatique moderne.
Ces stratégies sont généralement basées sur un apprentissage renforcé, une méthodologie sans intervention humaine. Au lieu d'un contrôle minutieux de l'algorithme à l'aide d'instructions détaillées, les ingénieurs permettent à la machine d'explorer l'environnement et d'atteindre des objectifs par essais et erreurs. Avant la sortie d'AlphaGo et de ses descendants, en 2013, l'équipe DeepMind a obtenu un résultat sérieux et important, en utilisant la formation de renforcement en
enseignant au bot Ă jouer sept jeux pour l'Atari 2600, et dans trois d'entre eux - au niveau expert.
Sans s'arrêter là , le 5 février, l'équipe DeepMind a déployé
IMPALA , un système d'IA qui peut jouer 57 jeux pour l'Atari 2600, ainsi que 30 autres niveaux tridimensionnels créés dans DeepMind. À ces niveaux, le joueur traverse divers endroits et pièces, résout des problèmes comme l'ouverture des portes et la cueillette des champignons. De plus, IMPALA a transféré l'expérience accumulée entre les tâches, c'est-à -dire que chaque session jouée a amélioré les résultats de la session suivante.
Mais dans la catégorie plus large de l'apprentissage renforcé, les jeux de société et multijoueurs permettent une approche encore plus spécialisée. La recherche peut prendre la forme d'un jeu avec lui-même, lorsque l'algorithme gagne en expérience, aux prises avec sa propre copie.
Cette idée date également de très nombreuses années. Dans les années 1950, l'ingénieur IBM Arthur Samuel a
créé un programme de vérification qui a étudié en partie les jeux joués entre alpha et bêta. Et dans les années 1990, Gerald Tesauro, également d'IBM, a créé un jeu de backgammon qui opposait son propre algorithme. Le bot a atteint le niveau d'un expert humain, développant des stratégies non standard mais efficaces.
Lorsque vous jouez avec lui-même, l'algorithme de chaque jeu rencontre un concurrent égal. Par conséquent, les changements de stratégie conduisent à des résultats différents, compte tenu de la réponse immédiate de l'algorithme de copie.
Ilya Sutskever , directeur de recherche chez OpenAI: "Chaque fois que vous apprenez quelque chose de nouveau, vous découvrez la moindre information sur le jeu et l'environnement, votre adversaire l'utilise instantanément contre vous." En août 2017, OpenAI a publié un
bot pour Dota 2 , qui contrôlait le personnage de Shadow Fiend - quelque chose comme un démon nécromancien - et a vaincu les meilleurs joueurs du monde dans les combats. Autre projet de l'entreprise: deux algorithmes contrôlent les lutteurs de sumo,
apprenant les uns des autres les techniques de lutte. Et lors d'une telle formation il est impossible de stagner, il faut constamment s'améliorer.
Le bot créé dans OpenAI pour Dota 2 a indépendamment appris plusieurs stratégies complexes.Mais la vieille idée de jouer avec soi-même n'est qu'un des ingrédients de la supériorité moderne des bots, qui doivent encore «repenser» leur expérience de jeu. Dans les échecs, Go et les jeux vidéo comme Dota 2, il existe une myriade de combinaisons possibles. Même après avoir passé de nombreuses vies dans des batailles avec son ombre sur des arènes virtuelles, la machine ne sera pas en mesure de calculer tous les scénarios possibles afin de dresser un tableau d'actions et de vérifier avec elle lorsqu'elle se retrouvera à nouveau dans une situation similaire.
Pour rester à flot dans une mer d'opportunités, vous devez généraliser, saisir l'essence. IBM Deep Blue a réussi grâce aux formules d'échecs intégrées. Armé de la capacité d'évaluer des combinaisons sur le plateau qu'il n'avait jamais rencontrées auparavant, l'ordinateur a ajusté les mouvements et les stratégies pour augmenter la probabilité de sa victoire. Mais les nouvelles techniques qui sont apparues ces dernières années ont permis d'abandonner les formules.
Les réseaux de neurones profonds gagnent de plus en plus en popularité. Ils sont constitués de couches de «neurones» artificiels, comme des crêpes dans une pile. Lorsque les neurones d'une couche sont déclenchés, ils envoient des signaux à la couche suivante, ils envoient à la suivante, et ainsi de suite. En ajustant les connexions entre les couches, ces réseaux de neurones obtiennent des résultats fantastiques, transformant les données d'entrée en une sorte de résultat interconnecté, même si la connexion semble abstraite. Supposons qu'un réseau de neurones puisse recevoir une phrase en anglais, et cela la traduira en turc. Ou vous pouvez lui donner des photos d'un refuge pour animaux, et le réseau neuronal trouvera ces images qui représentent des chats. Ou vous pouvez montrer les règles du jeu de société à un réseau neuronal profond, et il calculera la probabilité de sa victoire. Mais d'abord, comme vous le comprenez, le réseau neuronal doit apprendre d'un échantillon de données étiquetées.
Les réseaux de neurones jouent avec eux-mêmes et les réseaux de neurones profonds se complètent bien. Les jeux avec eux-mêmes les réseaux génèrent un flux d'informations sur les jeux, fournissant aux réseaux profonds une source théoriquement infinie de données pour la formation. À leur tour, les réseaux profonds offrent un moyen d'absorber l'expérience et les schémas acquis en jouant avec eux-mêmes les réseaux.
Mais il y a une astuce. Pour que les systèmes qui jouent avec eux-mêmes pour générer des données utiles, ils ont besoin d'un endroit réaliste pour jouer.
Tous les jeux sont joués, toutes les hauteurs sont atteintes dans des environnements où vous pouvez imiter le monde avec différents degrés de confiance. Et dans d'autres domaines, il n'est pas si facile d'obtenir des résultats impressionnants.
Par exemple, les véhicules sans pilote sont difficiles à conduire par mauvais temps et les cyclistes sur la route interfèrent grandement. De plus, les drones peuvent mal évaluer une situation non standard mais réelle, comme un oiseau volant directement dans la caméra de la voiture. Ou prenez une utilisation moins exotique de l'IA - un bras-manipulateur robotique. Tout d'abord, elle doit apprendre les bases des actions physiques pour que la main comprenne au moins comment l'apprendre. Mais en même temps, elle ne connaît pas les particularités de toucher diverses surfaces et objets, la machine doit donc s'entraîner pour résoudre des problèmes tels que dévisser le couvercle du flacon ou effectuer une intervention chirurgicale.
Yoshua Bengio , spécialiste de l'apprentissage en profondeur à l'Université de Montréal: «Dans une situation difficile à simuler, le modèle d'apprentissage« jouer avec soi-même »n'est pas très utile. "Il y a une énorme différence entre un modèle vraiment idéal de l'environnement et un modèle appris", en proie à des ", surtout si l'environnement est complexe."
La vie après les jeux
Il est difficile de dire exactement quand la supériorité de l'IA dans les jeux a commencé. Vous pouvez choisir de perdre Kasparov ou de vaincre Lee Sedola. Souvent, le compte à rebours date de 2011, avec la perte de Ken Jennings, champion du jeu télévisé
Jeopardy! , dans une rivalité de deux jours avec IBM Watson. La machine a pu comprendre la formulation et le jeu de mots. Les développeurs ont doté Watson de la capacité de traiter le texte qui nous est inhérent. L'ordinateur peut prendre un indice de phrase en anglais pour un mot, avec une grande vitesse afficher les documents pertinents, mettre en évidence des informations et choisir la meilleure réponse.
Mais au fil des ans, les tâches de la vie «ordinaires» ne sont toujours pas accessibles à l'IA. En septembre 2017,
un rapport a été publié selon lequel il y avait de grandes difficultés dans la recherche et le développement de méthodes personnelles de traitement du cancer dans le cadre du projet Watson for Oncology. L'ordinateur est beaucoup plus facile à comprendre la signification des questions dans
Jeopardy! que de comprendre l'essence de l'article médical.
Cependant, il existe un certain nombre de tâches réelles qui sont aussi hautement spécialisées que les jeux. La rumeur veut que l'équipe DeepMind travaille sur l'adaptation d'AlphaZero pour une utilisation dans la recherche sur le pliage de protéines biomédicales. Pour cela, les développeurs devront comprendre comment les acides aminés qui forment les protéines peuvent être
pliés en petites structures tridimensionnelles, dont les fonctions dépendent de la forme. C'est aussi difficile qu'un jeu d'échecs: les chimistes connaissent certains principes qui permettent de calculer certains scénarios, mais l'abondance de configurations tridimensionnelles possibles est si grande qu'il n'est tout simplement pas réaliste de les étudier tous. Et si vous transformiez les protéines en jeu? C'est ce qu'ils ont déjà fait. Depuis 2008, des centaines de milliers de joueurs ont essayé le jeu en ligne
Foldit , dans lequel des points ont été attribués pour la stabilité et la faisabilité des structures protéiques créées. Une machine peut s'entraîner de la même manière, par exemple, par une formation de renforcement, en essayant de surpasser les meilleurs résultats des joueurs humains.
L'apprentissage par renforcement et le jeu personnel peuvent également aider à former des systèmes interactifs. Ensuite, les robots pourront parler aux gens, apprenant d'abord à se parler à eux-mêmes. Et compte tenu de l'augmentation de la productivité et de la disponibilité d'équipements spécialisés pour l'IA, les ingénieurs seront incités à traduire de plus en plus de tâches réelles sous la forme d'un jeu. Il est probable qu'à l'avenir, l'importance de la méthodologie «jouer avec soi-même» et d'autres approches nécessitant une puissance de calcul énorme ne fera qu'augmenter.
Mais si notre objectif principal est de créer une machine capable de faire autant que les gens et une machine d'auto-apprentissage, les champions des jeux de société comme AlphaZero auront des voies de développement possibles. Il est nécessaire de réaliser l'écart entre la véritable activité mentale, la compréhension créative des idées et ce que nous voyons aujourd'hui dans le domaine de l'IA. Cette image lumineuse de l'intelligence artificielle existe, pour la plupart, dans l'esprit des grands chercheurs.
De nombreux scientifiques qui connaissent le niveau de battage médiatique proposent leurs propres classifications. Il n'est pas nécessaire de surestimer l'importance des robots pour jouer à des jeux pour le développement de l'IA en général. Les gens, par exemple, ne sont pas très doués pour jouer. Mais d'un autre côté, des outils très simples et spécialisés dans certaines tâches peuvent atteindre de grandes hauteurs.