Les développeurs ont expliqué comment l'IA a battu les professionnels du poker en Hold'em illimité à une distance de 120 000 mains.


Le joueur de poker professionnel Jason Les parle avec le professeur Tuomas Sandholm de l'Université Carnegie Mellon lors d'un heads-up avec le bot Libratus. Jason a perdu près d'un million de dollars conditionnels au programme, plus que tout autre professionnel

Récemment, les développeurs de systèmes d'IA faibles comparent souvent l'efficacité de leurs programmes dans la confrontation du jeu contre les humains. Autrement dit, simplement dans les jeux. L'ordinateur a déjà vaincu l'homme aux dames, aux échecs et c'est parti. Dans ces jeux avec des informations complètes à tout moment pendant le jeu, tous les joueurs ont des informations complètes sur l'état du jeu, c'est-à-dire sur la position et tous les mouvements possibles de l'un des joueurs.

Contrairement à de telles situations déterministes, dans les jeux avec des informations incomplètes, une partie des informations sur l'état du jeu est cachée au joueur - par exemple, la carte de l'adversaire. Unlimited Texas Hold'em n'est qu'un de ces jeux. En plus des cartes de l'adversaire, ici l'élément d'incertitude est ajouté en raison de la taille arbitraire de chaque pari. Dans cette optique, le nombre de résultats possibles est estimé à 10 161 .

Peut-être que le Texas Hold'em est le jeu le plus populaire avec des informations incomplètes dans le monde. Des milliards de dollars sont joués en ligne tous les jours. L'utilisation de bots était strictement interdite auparavant, et maintenant les propriétaires de salles de poker ont une nouvelle raison de surveiller les processus sur l'ordinateur du joueur, car le programme Libratus supprime de manière fiable les piles de heads-up même des meilleurs professionnels.

Le match gagnant de Libratus contre quatre professionnels du poker s'est déroulé du 11 au 30 janvier 2017 dans le cadre de la compétition «Brains vs. AI . "


Piles du programme Libratus et quatre adversaires pendant les 20 jours de la compétition

AI a joué 120 000 mains face à face et, par conséquent, est resté en territoire positif pour 1 766 250 dollars conventionnels. Les joueurs eux-mêmes ont été très impressionnés par le programme de jeu, qui a habilement changé sa stratégie chaque jour, s'adaptant aux actions des joueurs.

Bien sûr, le jeu n'était pas pour de l'argent réel, donc les joueurs eux-mêmes étaient quelque peu détendus et pas trop responsables du jeu que s'ils jouaient pour leur propre argent. Oui, et ils devaient passer des heures devant l'ordinateur tous les jours, ce qui est épuisant physiquement. Néanmoins, une victoire aussi fiable du programme ne peut qu'impressionner. Plus de 14 big blinds pour cent mains sortent. Selon les développeurs, gagner un tel montant sur une si longue distance avec une probabilité de 99,7% exclut l'influence de la chance, c'est-à-dire qu'il s'agit vraiment d'une victoire statistiquement significative.

Maintenant, les développeurs du programme de l'Université Carnegie Mellon ont publié un article scientifique expliquant l'architecture et les principes de la formation à l'IA, qui a battu les professionnels du poker.

En bref, pour simplifier les calculs, le programme a regroupé 10 161 résultats possibles par des mains similaires (par exemple, une couleur pour le roi et une couleur pour une dame) et des tailles de mise similaires. Libratus se compose de trois modules. La première est une stratégie prédéfinie détaillée sur la façon de jouer dans les premiers tours (plage de mains à lever à partir de chaque position). De plus, la stratégie n'est pas aussi expliquée. La deuxième stratégie dépend en grande partie du déroulement du jeu, c'est-à-dire des cartes tirées et du comportement de l'adversaire, en tenant compte de ses gammes et de ses statistiques. Le troisième modèle est une stratégie de jeu spécifiquement contre des adversaires imprévisibles, c'est-à-dire des gens. Cette troisième stratégie est constamment mise à jour en temps réel. Si une personne a entrepris une manœuvre inattendue pour le programme, elle l'a enregistrée et l'a entrée dans son modèle, en changeant celle en tenant compte des nouvelles données et en s'améliorant.

Selon les développeurs, un travail réussi dans des situations avec des informations incomplètes donne à l'IA un avantage non seulement dans les jeux. Le fait est que de telles situations sont omniprésentes dans la vie réelle. Presque toute la vie humaine, presque toutes les relations sociales et économiques sont des «jeux» avec des informations incomplètes. Par conséquent, la possession d'outils appropriés est extrêmement importante pour la survie réussie de l'IA dans le monde réel. Dans la pratique, ces programmes peuvent être utilisés, par exemple, pour développer des stratégies efficaces dans les systèmes de sécurité, les modèles économiques, les modèles politiques et d'autres systèmes avec des informations incomplètes.

Les techniques utilisées dans le programme Libratus sont largement indépendantes de la portée et peuvent donc être utilisées dans d'autres applications.

L'article scientifique a été publié le 17 décembre dans la revue Science (doi: 10.1126 / science.aao1733, pdf ).

Source: https://habr.com/ru/post/fr409333/


All Articles