
Malgré son âge considérable, le jeu
Pac-Man , ses différentes versions, est toujours très populaire. Les fans du jeu s'affrontent régulièrement pour savoir qui marquera le plus de points pendant le passage. Les développeurs d'intelligence artificielle l'étudient également, améliorant les compétences de leurs systèmes en passant des jeux.
L'équipe de développement de la startup canadienne Maluuba, précédemment acquise par Microsoft, a
pu créer une plate-forme logicielle qui a montré des résultats exceptionnellement bons lors du passage de Mme. Pac-Man, la version de ce jeu pour Atari 2600. Le programme a battu tous les records précédemment établis, gagnant 999 990 points.
À propos, le jeu a
été créé en 1982. Puis Atari Inc. Sortie du jeu de jeu d'arcade Pac-Man de Namco. Comme dans la version originale, vous devez contrôler le protagoniste avec le joystick. Le protagoniste doit se déplacer dans le labyrinthe, gagner des points, tout en évitant les fantômes. Le créateur du jeu porté est Tod Fry.
Selon certains experts, le fait que la plate-forme logicielle ait marqué le maximum de points dans le jeu est une réalisation importante dans le domaine de l'intelligence artificielle (sa forme faible). Le fait est que d'autres plates-formes logicielles ont donné des résultats beaucoup moins réussis - le jeu s'est avéré assez compliqué pour l'IA. Bien sûr, tous les développeurs n'ont pas créé leurs projets sur la base du dossier de Mme Pac-Man, mais ceux qui y ont travaillé, ont parlé d'un grand nombre de problèmes techniques lorsqu'ils essayaient de montrer des résultats significatifs.
Afin de réussir, l'équipe de Maluuba a décidé de diviser le jeu en un groupe de petits éléments, à la recherche d'une solution pour interagir avec chacun d'eux. De plus, ces éléments ont été répartis entre les agents de l'IA, chacun d'eux ayant résolu sa tâche spécifique. Doina Prekap, professeur à l'Université McGill à Montréal, a déclaré que l'idée proposée par les développeurs mérite l'attention. À son avis, c'est ainsi que le cerveau humain fonctionne dans certains cas - il décompose un problème en plusieurs composants et résout successivement chacun des éléments.
Les développeurs ont appelé leur méthode Hybrid Reward Architecture, elle utilise plus de 150 agents IA, chacun travaillant en parallèle avec les autres dans le processus de réussite du jeu. De plus, chacun des agents reçoit une "récompense" lors du passage réussi de sa propre section du jeu.
En plus des "petits" agents, il existe un autre agent de haut niveau qui est chargé de rassembler toutes les données reçues de tous les "subordonnés". Il décide également où la figure du héros doit se déplacer. Dans ce cas, une grande quantité de données est analysée. Le facteur principal est la direction du mouvement choisie par le nombre maximum d'agents élémentaires. D'un autre côté, si 100 agents veulent aller à droite pour obtenir un trophée, mais 3 agents envisagent de tourner à gauche, car ils ont remarqué un fantôme, alors l'agent principal «écoute» ces trois-là.
Selon le développeur en chef, le système a commencé à montrer de meilleurs résultats après que les agents ont été programmés pour un comportement égoïste. Autrement dit, chacun prend une décision sans regarder les autres. Mais la décision générale sur la direction du mouvement du héros est prise par l'agent principal. Il évalue divers facteurs et ordonne où aller.
«Il s'agit d'un équilibre entre, d'une part, le besoin d'interaction et, d'autre part, la nécessité de prendre des décisions individuelles», a déclaré Harm van Seijen, chef de l'équipe de recherche Microsoft.
Mais pourquoi a-t-on généralement décidé de choisir Mme Pac-Man? Choisir ce jeu peut sembler étrange à la personne moyenne. Mais les experts disent qu'il n'y a rien d'étrange ici, car cette classe de jeux est assez compliquée pour l'intelligence artificielle, car il y a beaucoup de situations «d'urgence» dans une unité de temps, chacune ayant besoin de sa propre version du développement des événements. Et pour trouver une solution, vous devez «penser» presque comme une personne, comme mentionné ci-dessus.
"De nombreuses entreprises travaillent sur l'IA pour les jeux, développant leurs propres projets, car le passage nécessite de nombreuses qualités humaines", a déclaré Raul Mehrotra, l'un des programmeurs de Maluuba.
La plate-forme logicielle développée chez Microsoft
fonctionne selon une méthode d'apprentissage automatique appelée apprentissage par renforcement. Pendant le travail, le système de test (agent ou agents) apprend en interagissant avec l'environnement. C'est, par définition, un type d'expérience cybernétique. La méthode d'apprentissage renforcé est l'une des variétés d'enseignement avec un enseignant, mais le médium ou son modèle est l'enseignant. L'agent agit sur l'environnement et, à son tour, affecte l'agent. Une rétroaction survient.
Le projet lui-même n'est pas une pure théorie. Selon les développeurs, la plate-forme logicielle créée peut être utilisée dans de nombreux domaines. Par exemple, vous pouvez l'attirer pour travailler au sein d'une entreprise qui vend pour prédire la dynamique de l'afflux de clients, la popularité des produits et d'autres choses importantes. Le système peut fonctionner à la fois avec des tendances générales et avec des facteurs individuels, y compris des acheteurs individuels.