Un pas de géant pour une machine d'échecs

L'incroyable succès d'AlphaZero, un algorithme d'apprentissage approfondi, inaugure une nouvelle ère de pensée qui pourrait se révéler de courte durée pour les humains.




Début décembre, des chercheurs de DeepMind, une société d'intelligence artificielle appartenant à Alphabet Inc., une société mère également propriétaire de Google, ont parlé de ce qui se passe au premier plan des échecs.

Un an plus tôt, le 5 décembre 2017, l'équipe a frappé le monde des échecs en annonçant son algorithme d'apprentissage automatique (MO) AlphaZero, qui a réussi à maîtriser non seulement les échecs réguliers, mais aussi les échecs shogi japonais et le jeu de go . L'algorithme a commencé à fonctionner sans aucun concept de jeux, à l'exception des règles de base. Puis il a commencé à jouer avec lui-même plusieurs millions de fois et à apprendre de ses erreurs. En seulement quelques heures, l'algorithme est devenu le meilleur joueur, à la fois parmi les personnes et les ordinateurs, de tout ce que le monde a vu.

Les détails des réalisations d'AlphaZero et de sa structure interne font actuellement l'objet d'un examen officiel, après quoi ils seront publiés dans la revue Science . La nouvelle œuvre répond à de sérieuses critiques des déclarations originales. Par exemple, il était difficile de dire si AlphaZero jouait vraiment honnêtement avec son adversaire, le monstre informatique Stockfish. Mais tous ces doutes ont été dissipés. Au cours des 12 derniers mois, AlphaZero n'est pas devenu plus fort, mais il est devenu une preuve plus convaincante de sa supériorité. Il représente clairement une sorte d'esprit sans précédent chez des gens auxquels nous devons penser depuis très longtemps.

Au cours des 20 dernières années, les échecs informatiques ont parcouru un long chemin. En 1997, le programme d'échecs informatique d'IBM, Deep Blue, a réussi à battre le champion du monde des hommes d'alors, Garry Kasparov, dans un match de six matchs. Avec le recul, nous pouvons dire qu'il n'y avait aucun mystère dans cette réalisation. Deep Blue pourrait estimer 200 millions de positions par seconde. Elle ne s'est jamais lassée, n'a jamais fait d'erreur et n'a jamais oublié ce à quoi elle a pensé peu de temps auparavant.

D'une manière ou d'une autre, elle jouait comme une machine, brutalement et matérialiste. Elle aurait pu penser mieux que Kasparov, mais ne pouvait pas penser mieux que lui. Lors du premier match de leur match, Deep Blue a accepté de manière prévisible l'échange de la tour pour l'évêque proposé par Kasparov, mais a perdu 16 coups plus tard. La génération actuelle des programmes d'échecs les plus puissants du monde, par exemple Stockfish et Komodo, ne joue pas humainement. Ils aiment prendre les chiffres des autres. Ils construisent un bouclier de fer. Mais bien qu'ils jouent plus fort que n'importe qui, ces machines d'échecs n'ont aucune idée du jeu. Ils doivent apprendre les principes de base des échecs.

Ces principes, affinés par des décennies d'expérience de grand maître humain, sont programmés dans la machine sous la forme de fonctions d'évaluation complexes, qui notent ce qui doit être réalisé dans la position et ce qu'il faut éviter: combien vous devez évaluer la sécurité du roi, l'activité des pièces, le placement des pions, le contrôle du centre de la planche, et ainsi de suite, et comment gérer les compromis entre ces éléments. Les échecs d'aujourd'hui, auxquels tous ces principes sont étrangers, se comportent comme des animaux grossiers: ils sont extrêmement rapides et forts, mais ils manquent de cervelle.

Mais tout cela a changé depuis l'avènement de MO. Jouant par lui-même et mettant à jour ses réseaux de neurones tout en apprenant de son expérience, AlphaZero lui-même a découvert les principes des échecs et est rapidement devenu le meilleur joueur. Non seulement elle pouvait facilement battre les maîtres parmi le peuple, mais elle avait vaincu Stockfish, le champion des échecs en informatique. Dans un match de cent matchs contre une machine impressionnante, AlphaZero a gagné 28 fois et 72 fois réduit le match à un nul sans en perdre un seul.

Et le plus désagréable était qu'AlphaZero a fait preuve de réflexion. Elle jouait comme n'importe quel ordinateur, intuitivement et magnifiquement, avec un style d'attaque romantique. Elle a joué aux gambits et a pris des risques. Dans certains jeux, elle a paralysé Stockfish et a joué avec elle. Menant l'attaque dans le 10e match , AlphaZero a fait reculer la reine dans son coin du plateau, loin du King of Stockfish, se comportant différemment de l'attaque contre le roi.

Cependant, cette étrange retraite s'est avérée toxique. Peu importe comment le stockfish a répondu, elle était condamnée. C'était comme si AlphaZero attendait que Stockfish comprenne à quel point sa position était désespérée, après des milliards de combinaisons essayées, pour se détendre et se rendre paisiblement comme un taureau abattu devant un matador. Les grands-maîtres n'ont jamais rien vu de tel. AlphaZero a joué avec la grâce d'un virtuose et la puissance d'une machine. Ce fut la première connaissance superficielle d'un nouveau type d'intelligence incroyable.


Garry Kasparov, à gauche, joue contre l'ordinateur IBM Deep Blue lors du sixième et dernier match du match, qui s'est tenu à New York en mai 1997. Les personnages derrière l'ordinateur ont été déplacés par Joseph Joan, un ingénieur IBM.

Lorsque les créateurs ont introduit AlphaZero pour la première fois, certains observateurs se sont plaints que Stockfish avait été privé de l'accès à son premier jeu. Cette fois, même avec son propre kit, elle a été vaincue. Et même quand AlphaZero a donné à Stockfish une longueur d'avance sous la forme d'une multiplication par dix du temps de règlement, elle l'a toujours vaincue.

Il est impressionnant qu'AlphaZero ait gagné en pensant non pas plus vite, mais mieux; elle n'a étudié que 60 000 postes par seconde, et non 60 millions, comme Stockfish. Elle était plus intelligente, sachant à quoi penser et à ignorer. Ayant indépendamment découvert les principes des échecs, AlphaZero a développé un style de jeu qui "reflétait la vérité" du jeu, plutôt que "les priorités et les préjugés des programmeurs", a écrit Kasparov dans un commentaire d'accompagnement de l'article dans Science.

Maintenant, la question est de savoir si MO peut aider les gens à découvrir des vérités similaires sur des choses qui comptent vraiment: les grands problèmes non résolus de la science et de la médecine, comme un remède contre le cancer ou la conscience; mystères du système immunitaire, secrets du génome.

Les premiers signes sont inspirants. En août, deux articles de la revue Nature Medicine ont examiné la question de l'application de l'OM aux diagnostics médicaux. Dans un cas, des chercheurs de DeepMind ont collaboré avec des médecins du Murfield Eye Hospital de Londres pour développer un algorithme d'apprentissage approfondi qui pourrait classer un large éventail de pathologies rétiniennes ainsi que des experts humains. En ophtalmologie, il y a une grave pénurie d'experts capables d'interpréter des millions d'images diagnostiques oculaires obtenues chaque année; Les assistants IA seraient inestimables.

Un autre article a examiné l'algorithme MO qui reconnaît la présence d'images de tomodensitométrie de patients atteints d'une ambulance, de signes d'AVC, d'hémorragie intracrânienne ou d'autres problèmes neurologiques. Chaque minute compte pour les victimes d'AVC; plus le traitement est retardé, pire est le résultat. Les neurologues ont même un dicton: «Le temps, c'est le cerveau». Le nouvel algorithme marque ces événements critiques et d'autres avec une précision comparable à celle des experts humains, mais il fonctionne 150 fois plus rapidement. Les diagnostics à grande vitesse vous permettront de traduire les cas les plus urgents vers l'avant de la file d'attente, après quoi ils peuvent déjà être évalués par un radiologue humain.

Ennuyeux dans MO, c'est que les algorithmes ne peuvent pas expliquer leurs pensées. Nous ne savons pas pourquoi ils fonctionnent, nous ne savons donc pas s'ils peuvent leur faire confiance. AlphaZero montre tous les signes de la découverte des principes importants du jeu d'échecs, mais ne peut pas partager cette compréhension avec nous. Du moins pas encore. Les gens ont besoin de plus que de réponses. Nous avons besoin d'une compréhension. Désormais, ce problème sera une source de tension dans notre interaction avec les ordinateurs.

En fait, en mathématiques, cela se produit depuis longtemps. Considérons un problème mathématique de longue date appelé le théorème des quatre couleurs . Elle affirme que sous certaines restrictions raisonnables, toute carte des pays en contact peut être peinte en quatre couleurs afin que deux pays voisins aient des couleurs différentes.

Bien que le théorème ait été prouvé en 1977 à l'aide d'un ordinateur, aucune personne ne peut vérifier toutes les étapes de la preuve. Depuis lors, la preuve a été confirmée et simplifiée, mais elle contient toujours des parties qui nécessitent des calculs avec une recherche exhaustive, tels que ceux utilisés par les prédécesseurs d'AlphaZero jouant aux échecs. Cette situation a indigné de nombreux mathématiciens. Ils n'avaient pas besoin d'être convaincus de l'exactitude du théorème; ils y croyaient déjà. Ils voulaient comprendre pourquoi c'était vrai, et une telle preuve n'aidait en rien.

Mais imaginez que le jour viendra, peut-être très bientôt, où AlphaZero deviendra un algorithme plus polyvalent; appelons-le AlphaInfinity. Comme son ancêtre, il aura un esprit supérieur: il pourra produire d'excellentes preuves, aussi élégantes que les jeux qu'AlphaZero a joué contre Stockfish. Et chaque preuve démontrera pourquoi le théorème était vrai; AlphaInfinity ne vous forcera pas à accepter des preuves laides et complexes.

Pour les mathématiciens et les scientifiques, une telle journée marquerait l'aube d'une nouvelle ère de pensée. Mais cela peut être de courte durée. Plus les voitures deviennent rapides, dépassant les personnes dont les neurones fonctionnent à une vitesse de tortue à l'échelle d'une milliseconde, plus vite le jour viendra où nous ne les suivrons pas. L'aube de la pensée humaine peut rapidement se transformer en coucher de soleil.

Supposons que certains modèles restent à découvrir - dans la régulation des gènes ou le développement du cancer; dans le fonctionnement du système immunitaire; dans la danse des particules subatomiques. Supposons que ces modèles ne puissent être prédits que par un intellect bien supérieur au nôtre. Si AlphaInfinity pouvait les définir et les comprendre, cela nous semblerait un oracle.

Nous nous asseyions à ses pieds et écoutions attentivement. Nous ne comprendrions pas pourquoi l'oracle a toujours raison, mais nous pourrions vérifier ses calculs et prédictions dans des expériences et des observations et confirmer ses révélations. Dans la science, occupation symbolique des personnes, notre rôle se réduirait à celui d'observateurs, regardant ce qui se passe avec stupéfaction et confusion.

Peut-être qu'un jour notre manque de réflexion ne nous dérangera plus. Après tout, AlphaInfinity pourrait guérir toutes les maladies, résoudre tous les problèmes scientifiques et faire en sorte que tous les autres trains intelligents respectent le calendrier. Nous avons fait du bon travail sans trop penser aux 300 000 premières années de notre existence en tant qu'Homo sapiens. Nous n'aurons pas de problèmes de mémoire, nous serons fiers de rappeler l'époque dorée de l'esprit humain, ce glorieux intermède qui a duré plusieurs millénaires, entre un passé incompréhensible et un avenir inexplicable.

Source: https://habr.com/ru/post/fr436598/


All Articles