El programa DeepStack Poker supera a los profesionales uno a uno
El árbol de decisión de DeepStack en el heads-up (juego uno a uno) pre-flop y flop sin límite hold'emPionero de la teoría moderna de juegos John von Neumann dijo: "La vida real se trata de farolear, pequeños trucos de engaño, pensar en qué acciones esperar otra persona tuya Esto es lo que el juego representa en mi teoría "(cita de la serie 13 de la serie documental" La exaltación de la humanidad ").En otras palabras, John von Neumann previó que para crear una IA fuerte, una computadora debe aprender a jugar con información incompleta que se asemeja más al comportamiento humano en la vida real. Juegos como el póker.Los juegos de mesa son un área tradicional de experimentación en el campo de la inteligencia artificial. Cada año, AI derrota a una persona en diferentes juegos. Primero, las damas se rindieron, luego el ajedrez, luego los videojuegos de Atari, el último juego cayó. Pero todos estos son juegos con información completa, en los que todos los jugadores tienen información completa sobre el estado del juego. El póker es un asunto completamente diferente.Los científicos han estado intentando desarrollar un programa que podría vencer a una persona en Texas Holdem ilimitado. A diferencia de otras aplicaciones de IA débil, el desarrollo exitoso dará sus frutos instantáneamente aquí, porque se pueden ganar miles de millones de dólares en salas de póker en línea todos los días.John von Neumann dijo que el póker lo deleita, y esto no es sorprendente, dadas las características únicas de este juego con información incompleta. Cada jugador tiene solo una parte de la información sobre el estado del juego, y actúa sobre la base de esta información parcial, además de evaluar las acciones de otros jugadores.Anteriormente, la IA lograba cierto éxito solo cuando jugaba limit hold'em, la versión más primitiva del juego con un paso limitado en el aumento de las apuestas. En la versión limitada, el jugador solo tiene 10 14 opciones de desarrollo. A modo de comparación, en hold'em ilimitado ya hay 10 160 de tales opciones . Por cierto, hay 10.170 opciones de desarrollo en el juego , pero hay un juego con información completa, es decir, una tarea fundamentalmente más simple.Los juegos con información incompleta requieren un nivel de pensamiento recursivo completamente más complejo que los juegos con información completa. Aquí la acción correcta de la IA depende, entre otras cosas, de la información que recibió de las acciones del oponente. Pero la información que el oponente dio, a su vez, es una función derivada de las acciones de IA anteriores y la información que la IA le dio al oponente con sus acciones. Este es el pensamiento recursivo con el que trata DeepStack. Y ella se las arregla muy bien, a juzgar por los resultados de los juegos con profesionales (ver tabla).
Resultados informativos con jugadores profesionalesLa arquitectura del programa DeepStack se muestra en la ilustración. El programa reevalúa sus acciones en cada etapa cuando se requiere una decisión de él. Para calcular el valor de cada apuesta, se utiliza un árbol de búsqueda anticipada, los valores para los que se resaltan se calculan utilizando una red neuronal que se entrenó previamente en situaciones de juego aleatorias.
La estructura de la red neuronal demuestra que el tamaño del bote, las cartas abiertas y los rangos de jugadores (posibles combinaciones con las que el jugador podría ingresar al juego de la forma en que ingresó (call, raise, 3-bet, etc.) se sirven en la entrada, La probabilidad de cada combinación). Una red neuronal consta de siete capas ocultas completamente conectadas. Los valores de salida son procesados por otra red neuronal, que verifica que las acciones satisfacen el límite de suma cero..
Una característica del programa es que se opone activamente al análisis de su estrategia por parte del oponente. En otras palabras, el programa usa el equilibrio de Nash , un concepto clave en la teoría de juegos. El equilibrio de Nash se refiere a un conjunto de estrategias que ningún participante puede aumentar sus ganancias cambiando su estrategia si otros participantes en sus estrategias no cambian. Desde el punto de vista de un juego de póker antagónico, la tarea principal de DeepStack es encontrar el equilibrio de Nash, es decir, minimizar la posibilidad de explotar su estrategia por otro jugador para obtener ganancias. Absolutamente todos los programas de póker desarrollados hasta ahora se han explotado fácilmente después de probar su estrategia utilizando la técnica LBR (mejor respuesta local).Una descripción general de los últimos bots de póker .Entonces, DeepStack no se explota por completo usando LBR. Junto con los resultados reales que el bot mostró en el juego con profesionales, solo hay una pregunta: ¿por qué los desarrolladores publicaron información sobre esta arquitectura en el dominio público?El trabajo científico fue publicado el 6 de enero de 2017 en el sitio arXiv.org, donde se presentan los artículos antes de ser publicados en el diario oficial.El equipo de desarrollo está dirigido por el profesor de informática Michael Bowling de la Universidad de Alberta (EE. UU.).
Equipo de desarrollo de DeepStackEl Departamento de Poker Bots de la Universidad de Alberta (Computer Poker Research Group) se creó en los años 90, el primer bot creado aquí fueLoki en 1997. Luego estaban Poki (1999), PsOpti / Sparbot (2002), Vexbot (2003), Hyperborean (2006), Polaris (2007), Hyperborean No-Limit (2007), Hyperborean Ring (2009), Cepheus (2015), y finalmente , corona de la creación - DeepStack.En el futuro cercano, el programa DeepStack se probará en juegos con profesionales más experimentados, que son de un nivel mucho más alto que los chicos de la mesa al comienzo del artículo. A partir de este fin de semana, el programa jugará en un torneo en el Casino de Pittsburghdonde se espera que lleguen varios profesionales de clase mundial. En 20 días, DeepStack debería jugar unas 120,000 manos. Esto es suficiente para evaluar con bastante precisión la calidad del programa.Hasta la fecha, DeepStack ha jugado 44.852 manos contra voluntarios profesionales seleccionados por la Federación Internacional de Poker. Los jugadores recibieron premios en efectivo por un buen juego (primer premio de $ 5,000 CAD), por lo que la gente jugó con toda su fuerza. Sin embargo, el programa es una buena ventaja.
Source: https://habr.com/ru/post/es400709/
All Articles