Los desarrolladores explicaron cómo la IA venció a los profesionales del póker en Hold'em ilimitado a una distancia de 120,000 manos


El jugador profesional de póker Jason Les habla con el profesor Tuomas Sandholm de la Universidad Carnegie Mellon durante un enfrentamiento con el bot Libratus. Jason perdió casi un millón de dólares condicionales en el programa, más que cualquier otro profesional.

Recientemente, los desarrolladores de sistemas de IA débiles a menudo comparan la efectividad de sus programas en la confrontación de juegos contra humanos. Es decir, simplemente en los juegos. La computadora ya ha derrotado al hombre en damas, ajedrez y listo. En estos juegos con información completa en cualquier momento durante el juego, todos los jugadores tienen información completa sobre el estado del juego, es decir, sobre la posición y todos los movimientos posibles de cualquiera de los jugadores.

A diferencia de tales situaciones deterministas, en juegos con información incompleta, parte de la información sobre el estado del juego está oculta para el jugador, por ejemplo, la tarjeta del oponente. Texas Hold'em ilimitado es solo uno de estos juegos. Además de las cartas del oponente, aquí se agrega el elemento de incertidumbre debido al tamaño arbitrario de cada apuesta. Con esto en mente, el número de posibles resultados se estima en 10161 .

Quizás Texas Hold'em es el juego más popular con información incompleta en el mundo. Miles de millones de dólares se juegan en línea todos los días. El uso de bots estaba estrictamente prohibido antes, y ahora los propietarios de salas de póker tienen una nueva razón para monitorear los procesos en la computadora del jugador, ya que el programa Libratus elimina de forma confiable las pilas de heads-up incluso de los mejores profesionales.

El partido ganador de Libratus contra cuatro profesionales del póker se celebró del 11 al 30 de enero de 2017 como parte de la competencia “Cerebros vs. AI " .


Stacks del programa Libratus y cuatro oponentes durante los 20 días de la competencia.

AI jugó 120,000 manos en mano y, como resultado, permaneció en territorio positivo por $ 1,766,250 dólares convencionales. Los jugadores estaban muy impresionados con el programa del juego, que cambiaba hábilmente su estrategia todos los días, adaptándose a las acciones de los jugadores.

Por supuesto, el juego no era por dinero real, por lo que los jugadores estaban algo relajados y no eran demasiado responsables del juego que si estuvieran jugando por su propio dinero. Sí, y tenían que pasar horas frente a la computadora todos los días, lo cual es agotador físicamente. Sin embargo, una victoria tan confiable del programa no puede dejar de impresionar. Más de 14 ciegas grandes por cien manos salen. Según los desarrolladores, ganar tal cantidad en una distancia tan larga con una probabilidad del 99.7% excluye la influencia de la suerte, es decir, esta es realmente una victoria estadísticamente significativa.

Ahora los desarrolladores del programa de la Universidad Carnegie Mellon han publicado un artículo científico que explica la arquitectura y los principios del entrenamiento de IA, que supera a los profesionales del póker.

En resumen, para simplificar los cálculos, el programa agrupó 10.161 resultados posibles por manos similares (por ejemplo, un color para el rey y un color para la reina) y tamaños de apuesta similares. Libratus consta de tres módulos. La primera es una estrategia detallada predefinida sobre cómo jugar en las primeras rondas (rango de manos para subir desde cada posición). Además, la estrategia no está tan detallada. La segunda estrategia depende en gran medida del curso del juego, es decir, las cartas robadas y el comportamiento del oponente, teniendo en cuenta sus rangos y estadísticas. El tercer modelo es una estrategia de juego específicamente contra oponentes impredecibles, es decir, personas. Esta tercera estrategia se actualiza constantemente en tiempo real. Si una persona realizó una maniobra inesperada para el programa, entonces la guardó y la ingresó en su modelo, cambiando la que toma en cuenta los nuevos datos y mejorándose a sí misma.

Según los desarrolladores, el trabajo exitoso en situaciones con información incompleta le da a la IA una ventaja no solo en los juegos. El hecho es que tales situaciones son ubicuas en la vida real. Casi toda la vida humana, casi todas las relaciones sociales y económicas son "juegos" con información incompleta. Por lo tanto, la posesión de herramientas apropiadas es extremadamente importante para la supervivencia exitosa de la IA en el mundo real. En la práctica, dichos programas pueden usarse, por ejemplo, para desarrollar estrategias efectivas en sistemas de seguridad, modelos económicos, modelos políticos y otros sistemas con información incompleta.

Las técnicas utilizadas en el programa Libratus son en gran medida independientes del alcance y, por lo tanto, pueden utilizarse en otras aplicaciones.

El artículo científico fue publicado el 17 de diciembre en la revista Science (doi: 10.1126 / science.aao1733, pdf ).

Source: https://habr.com/ru/post/es409333/


All Articles