
Les programmes informatiques peuvent depuis longtemps jouer aux échecs, et une plate-forme relativement récente de Deep Mind a même été formée
pour jouer professionnellement. Si professionnel qu'il n'y a pas de joueurs parmi les personnes égales à un ordinateur, et probablement pas.
L'autre jour, il est devenu connu que la machine a appris de façon indépendante à résoudre un autre casse-tête complexe - le Rubik's Cube. De plus, lors de la formation, ils ne lui ont pas montré comment assembler correctement le cube, la plateforme logicielle créée par des scientifiques américains a tout appris de manière indépendante. Certains experts estiment qu'un autre «bastion, considéré comme la possession de l'homme», est tombé devant les machines.
Le Rubik's Cube, ou plutôt
son algorithme d'assemblage , est compliqué en ce que chaque action d'assemblage a certaines conséquences, mais il est assez difficile de prédire leur effet sur le processus d'assemblage global. Même pour la voiture. Les gens apprennent généralement à assembler un cube selon des algorithmes développés précédemment qui permettent de résoudre le puzzle dans les plus brefs délais.
Certains étudiants réussissent étonnamment dans ce domaine. Ainsi, en mai de cette année
, un autre record a été
établi pour l'assemblage du Rubik's cube à deux mains. Le champion, un Australien de 22 ans nommé Felix Zemdegs, a pu récupérer le cube en seulement 4,22 secondes. Il a commencé à s'entraîner dès l'âge de 12 ans, en regardant les enregistrements de l'assemblage sur YouTube.
Quant à la voiture, les robots récupèrent le cube encore plus rapidement. Cette année, le record a été établi en 0,38 seconde. Cela aurait pu être plus rapide, mais la mécanique du cube lui-même ne pouvait pas le supporter. Dans une tentative de battre un record, les développeurs ont dû renforcer la conception du cube, sinon il s'est juste détaché des manipulations trop rapides de la machine.
Dans le cas de la plateforme décrite ci-dessus, le travail est effectué selon des algorithmes préalablement entrés dans la mémoire du système. Mais les scientifiques du MIT ont pu former leur propre système pour assembler le cube par eux-mêmes.

Lors de la création du cube lui-même, la tâche la plus intéressante de son inventeur a été de développer un moyen de résoudre le puzzle à partir de n'importe quelle position. L'ingénieur Rubik a réussi à le faire en un mois. À l'avenir, l'algorithme d'assemblage a été amélioré à plusieurs reprises.
Récemment, des experts en IA ont commencé à chercher un moyen d'enseigner à la machine comment fabriquer un dé. Un apprentissage automatique approfondi a été utilisé. Le système a été chargé d'une tâche et les règles ont été expliquées. Ensuite, le robot a dû agir seul. En cas de progrès, la machine a reçu une récompense - quelque chose comme ça et enseigne les formes faibles de l'IA. Après tout, l'ordinateur doit savoir ce qui se déplace dans la bonne direction. Et ils lui ont fait savoir cela grâce au système de récompense. Tout cela aide la machine à apprendre.
Dans le cas du Rubik's Cube, c'est un peu plus compliqué que dans le cas habituel. Le fait est que jusqu'à un certain moment, il est impossible de comprendre si le système fonctionne correctement ou non. Et il ne sert à rien de récompenser un tour de visage accidentel qui n'apporte pas de résultats. Aux échecs, tout est plus simple - dès le deuxième ou le troisième mouvement, vous pouvez comprendre dans quelle direction le jeu se déplace et si la machine fonctionne bien ou non. En conséquence, il y a quelque chose à récompenser.
Afin d'enseigner à un ordinateur comment fabriquer un Rubik's cube, une technologie spécialisée d'apprentissage en profondeur a été utilisée, appelée "itération autodidactique". Cette technologie vous permet de «faire tourner» le cube déjà assemblé pour obtenir une configuration similaire à celle actuelle. Il s'avère quelque chose comme l'ingénierie inverse, si ce terme est applicable à l'apprentissage automatique. Un «arbre de décision» spécialisé est créé, que la machine utilise pour calculer les étapes de chaque configuration.
Le résultat fut impressionnant. Selon les développeurs eux-mêmes, l'algorithme peut résoudre le puzzle en environ 30 mouvements. De plus, la machine récupère le cube dans 100% des cas, quelle que soit la version du puzzle démonté qu'elle rencontre. En général, pour assembler un puzzle bien fragmenté, vous avez besoin de 19 à 23 étapes. Certaines solutions conduisent au résultat souhaité plus rapidement que d'autres. L'algorithme de construction le plus rapide comprend 21 étapes.
La plateforme, développée par les ingénieurs du MIT, s'appelle DeepCube. «Notre plate-forme est capable de s'auto-apprendre dans des environnements complexes, ne recevant qu'un seul prix pour l'ensemble du processus de travail», indique le rapport.
Maintenant, la même équipe de scientifiques travaille sur la mise en œuvre de sa méthode d'enseignement pour résoudre d'autres problèmes combinatoires complexes. Entre autres, la prédiction de la
structure tertiaire de la protéine .