😣 👌🏾 ♋️ La estrategia ganadora de Gomoku: 35 movimientos 🧘🏾 🛫 😂

Cuando se juega de acuerdo con las reglas estándar de Gomoku, las negras no necesitan más de 35 movimientos para ganar. El artículo presenta a su atención una estrategia ganadora completa y el algoritmo correspondiente del juego.

Demostración de la solución completa, aquí , puedes jugar y encontrar las opciones más largas. El programa siempre gana y gasta en él no más de 35 movimientos. El código fuente de la aplicación, la solución en sí y ejemplos de partes al final del artículo.

No me detendré en las reglas y tácticas del juego. El tema se discutió en detalle sobre habr aquí , así como los algoritmos de decisión aquí y aquí .

Pequeña digresión

Antes de la era de los teléfonos inteligentes, el tic-tac-toe "cinco en una fila" (Gomoku, Renju) era uno de los asesinos más populares de la época en las clases escolares. Considerar combinaciones fue más interesante que el desarrollo de la economía nacional del norte de África o la clasificación de las flores de trébol.

En el otoño de 1985, las niñas de nuestro décimo grado fueron sacadas de una clase de matemáticas. Nosotros, los seis niños restantes, teníamos más probabilidades de tener comunicación informal con un maestro de matemáticas sobre temas abstractos. La maestra entró al aula en silencio, entregó folletos a todos en una caja y comenzó a escribir los nombres de los presentes en la pizarra. Estábamos deprimidos, se planificó un trabajo independiente o se realizó una encuesta blitz. Pero la lista en el tablero se convirtió en una clasificación y nos anunciaron las reglas del campeonato. Cada uno con cada serie de cinco fiestas. Premio al ganador: cinco a la revista. Según los resultados del torneo, tuve la suerte de ganar, pero el juego no terminó allí. El maestro prometió ponerle cinco a todos los chicos si el ganador gana los cinco juegos de la serie seguidos. El derecho del primer movimiento se le otorga al ganador. Contrariamente a la afirmación de nuestro maestro de que con tal condición, con el juego correcto, puedes ganar 10, 100 o cualquier número de juegos seguidos, la victoria me pareció una suerte increíble.

Nueve años después, en 1994, el Dr. Lewis Victor Allis declaró la evidencia de esta hipótesis en un artículo de Go-Moku y Threat-Space Search . El autor no publicó su estrategia ganadora, que le permite verificar la prueba. Sin embargo, en su libro de 1996 Buscando soluciones en juegos e inteligencia artificial , se proporcionó una descripción general de los algoritmos. En conclusión, mencionamos por separado el procedimiento para verificar la integridad de una estrategia ganadora, que se basa en la corrección de la implementación del algoritmo de búsqueda para la "secuencia de amenazas" y el análisis de las opciones de contrajuego del oponente.

Los ejemplos de soluciones dadas en el artículo y el libro con los "movimientos correctos" de los oponentes, que son parte de una estrategia ganadora, demuestran la debilidad del algoritmo utilizado.

Por ejemplo, en la figura, la solución del programa para las reglas estándar de Gomoku. Si las negras responden con j10 y luego j8 en respuesta al décimo movimiento g9 de las blancas, el juego termina en 29 movimientos en lugar de 45. Luego, el programa dos veces "no notó" la combinación de la "secuencia de amenazas" de las negras en 17 movimientos después del 16 y después del 26- El movimiento de las blancas. Y al final, si las blancas hacen el 36º movimiento f12 en lugar de j12, aguantará al menos hasta el 49º movimiento. Para ser justos, debe decirse que en este ejemplo, todos los movimientos de las negras no le dan a las blancas ninguna posibilidad de terminar el juego a su favor.

En Internet, encontré varias referencias a trabajos similares en busca de una estrategia ganadora. La cuestión de la optimización de las soluciones encontradas sigue sin resolverse. ¿Cuál es el número mínimo de movimientos que las negras necesitan para ganar?

Entonces, teniendo un poco de tiempo libre, recursos informáticos modernos y rindiendo homenaje a los pasatiempos de los niños 33 años después del memorable campeonato escolar, se propuso la tarea de encontrar la estrategia ganadora óptima para Black en Gomoku.

Digitalizar la posición en el tablero

Grabar una parte es bastante primitivo. Solo hay 225 celdas en el campo. En consecuencia, cada celda está codificada por 1 byte. Para grabar un lote de 35 movimientos, solo se requieren 35 bytes. Pero dicho registro no es adecuado para la evaluación de la posición por dos razones: se puede obtener la misma posición en una secuencia diferente de movimientos y no se tienen en cuenta las posiciones simétricas.

Lograr el objetivo del juego (construir cinco piedras seguidas) se puede llevar a cabo en una de las cuatro direcciones: vertical, horizontal y dos diagonales. Por lo tanto, podemos representar cualquier posición como un conjunto de líneas. Líneas horizontales y verticales con una longitud de 15 celdas y líneas diagonales con una longitud de 1 a 15 celdas. Cada movimiento cambia el valor de 4 líneas en diferentes direcciones a la vez.

La tarea de evaluar una posición es determinar todas las cifras significativas para cada línea. Para simplificar, describimos cada celda de la línea con 2 bits. El primer bit está lleno cuando se instala una piedra blanca, el segundo bit es una piedra negra. Cada línea no contiene más de 15 celdas y está codificada en un entero de 32 bits. Por lo tanto, la búsqueda de formas en una línea se reduce a comparar el valor numérico de la línea a través de una ventana deslizante con el patrón de bits de la forma.

En el ejemplo que se muestra en la figura, la posición se describe con 26 líneas. En consecuencia, está codificado con 104 bytes, mientras que un registro de lote regular requiere solo 17 bytes.
Es fácil adivinar que todas las simetrías (giros e imágenes especulares) se obtienen simplemente cambiando el número (barajado) y la dirección de las líneas. Para identificar una posición y buscar rápidamente colecciones, este principio implementa una función hash de 32 bits que proporciona diferentes valores solo para posiciones asimétricas.

El uso de simetrías reduce significativamente el número de posiciones consideradas. Por ejemplo, el número de opciones para el segundo movimiento se reduce de 224 a 35.

Al buscar soluciones y combinaciones (esto se discutirá más adelante), las posiciones calculadas forman los vértices del gráfico multicapa. Los vértices se agrupan en capas según el número de celdas rellenas. Los movimientos forman los bordes del gráfico, conectando los vértices de las capas adyacentes. Cuando se descartan movimientos fallidos durante la búsqueda, los bordes se eliminan y algunos de los vértices pierden su conectividad con la rama principal. Por lo tanto, después de los pasos de cálculo, se realiza la recolección de basura (o la reconstrucción del gráfico desde la parte superior).

Durante el proceso de desarrollo, se consideraron varios algoritmos de codificación, pero el descrito anteriormente mostró la tasa más alta de estimación de posición.

Evaluar posición

Un factor importante para evaluar una posición es lo importante que los oponentes construyeron las piezas significativas.

Cinco : si tal pieza se encuentra en el tablero, el juego termina. Para las reglas estándar, no seises, sietes, etc., dale un premio a Gomoku. Por lo tanto, las cinco, como, por cierto, todas las demás figuras, requieren la ausencia de sus piedras en las celdas vecinas en una línea.

Las cuatro abiertas : la longitud de 6 celdas, las cuatro del medio están ocupadas por piedras del mismo color, las externas están necesariamente vacías. Bueno, en cuanto a cinco, sus piedras están ausentes en las células vecinas. Una figura muy fuerte significa ganar incluso en el movimiento de otra persona.

Cuatro : la longitud de 5 celdas, una (cualquiera) de las cinco celdas es libre. Da una victoria por sí mismo. Crea una amenaza y obliga al oponente a hacer un movimiento en una celda libre si no tiene sus cuatro. Da 5 puntos en la calificación de la posición durante la defensa.

Un triple abierto : la longitud de 6 o 7 celdas, las celdas más externas son necesariamente libres. Para 6 celdas, tres de las cuatro centrales están ocupadas por piedras del mismo color, una libre. Para 7 celdas, tres medianas están ocupadas por piedras del mismo color. Una pieza a su vez se convierte en un cuatro abierto si el oponente no tiene un cuatro o un tres abierto. En el movimiento de otra persona, crea una amenaza y obliga al oponente a cerrar los tres o poner sus cuatro en respuesta. El triple de la sexta celda tiene 1 movimiento de subida y 3 movimientos de cierre. El triple de la séptima celda tiene 2 movimientos de subida y solo 2 movimientos de cierre. Da de 2 a 4 puntos en la calificación de posición.

Un triple , o un triple cerrado, tiene una longitud de 5 celdas, tres de las cuales están ocupadas por piedras del mismo color. Los tres a su vez pueden convertirse en cuatro y se usan en ataque y defensa, creando una amenaza más que un tres abierto del oponente. Da 1 punto en la calificación de posición.

Un deuce abierto (perspectiva): de 6 a 7 celdas de largo. Al atacar, se convierte en un abierto tres. Da 1 o 2 puntos en la calificación de posición.

Un enchufe es al mismo tiempo dos o más amenazas que no se pueden cerrar de una vez. Hay tenedores 3x3 (dos triples abiertos), 3x4 (tres y cuatro abiertos) y tenedores 4x4 (dos abiertos). Las horquillas dan una victoria si el oponente no tiene una amenaza mayor: un cuatro o tres abiertos para una horquilla 3x3, o el oponente no puede cerrar la horquilla sucesivamente, creando grandes amenazas: una secuencia de cuatro patas para una bifurcación de 3x3.

Combinación : una secuencia continua de amenazas y defensas contra amenazas más significativas del oponente, lo que lleva a un resultado positivo para el jugador. Las combinaciones son atacantes (o ganadoras) y defensivas.

La combinación de ataque o victoria es exitosa si, en cualquier movimiento defensivo o de ataque del oponente, se encontraron movimientos de respuesta que conducen a una victoria. La combinación de ataque termina con la instalación de un tapón, que el oponente no puede cerrar.

La combinación defensiva, por el contrario, tiene éxito cuando el oponente deja de crear amenazas, o se excede el límite de movimientos para el cálculo. Una combinación defensiva consiste en movimientos defensivos o crear una mayor amenaza para el oponente.

Al evaluar una posición, se realiza una búsqueda de una combinación ganadora. Si tiene éxito, ganamos. De lo contrario, si no hay amenazas del oponente, el estado es neutral. Si hay amenazas del oponente, buscamos una combinación defensiva. Si tiene éxito, el estado es neutral; si falla, perdemos.

Dado que el número de opciones para atacar y movimientos de represalia forzados es bastante limitado, está permitido buscar combinaciones a una profundidad suficientemente grande. Durante la construcción inicial de la estrategia óptima, la profundidad permitida de la búsqueda de combinaciones se estableció en 25 movimientos. Al volver a calcular la solución para implementar el algoritmo de estimación de posición en JavaScript, la profundidad de búsqueda permitida se redujo a 17 movimientos.
Al calcular la estrategia óptima, la profundidad de búsqueda de la combinación ganadora desde arriba estaba limitada adicionalmente por el número máximo de movimientos objetivo.

Estamos buscando una solucion

Entonces, calificamos la posición dada como neutral y elegimos cuál será el próximo movimiento. Nuestro comportamiento en este caso depende de si somos el lado atacante o defensor. Para el lado atacante, la solución completa será una secuencia de movimientos en los que, para el movimiento de retorno de cualquier oponente, la posición se evalúa como ganadora (se encuentra una combinación ganadora) o contiene el siguiente movimiento propio en la solución. Vale la pena señalar que para calcular la estrategia óptima, el lado atacante siempre es negro, el lado defensor es blanco.

El lado atacante necesita encontrar un solo movimiento, lo que lleva a la victoria más rápida. En las condiciones de falta de recursos, el atacante limita artificialmente el número de opciones para atravesar, primero estudio los movimientos que conducen a la posición con la puntuación más alta. Después de encontrar cualquier solución, en la dirección de la más larga de ellas, el atacante amplía el rango de opciones, explorando posiciones menos valoradas para reducir la duración de la solución.

Es suficiente que el lado defensor encuentre un solo movimiento que no conduzca a la victoria del oponente en el límite de movimientos dado. Todas las celdas libres se pueden usar para la enumeración.
Para reducir la cantidad de movimientos que se ordenarán, utilizamos el algoritmo de "omisión". Nos saltamos el movimiento defensivo y buscamos una combinación de ataque ganadora. Si tiene éxito, los posibles movimientos de defensa pueden limitarse a los movimientos que afectan el éxito de la combinación encontrada. En promedio, en cada paso esto le permite reducir el área de búsqueda de 4 a 6 veces. Tenga en cuenta que entre los movimientos ignorados puede haber ramas más largas de la solución. Por lo tanto, para buscar soluciones óptimas, el algoritmo de "omisión" se usa solo en la búsqueda inicial.

Calculamos la estrategia

Todos los componentes están listos, colocamos la primera piedra negra en el centro del campo, comenzamos la búsqueda de una solución y ... En esto, después de unas horas, los recursos de mi computadora portátil se agotan y tengo que admitir la derrota "en batalla, pero no en batalla".

En verdad, tenía a mi alcance la potencia de cálculo con Xeon de un núcleo y medio y un terabyte de RAM libre. Pero, recuerde que a mediados de los noventa, Allis solo tenía 10 SUN SPARCstation 2 en cada uno de 128 MB de RAM, sintió remordimiento por el comportamiento antideportivo y decidió limitar la cantidad de RAM en la máquina Java a 1 GB y asignó solo 1 hilo para la tarea El procesador. De alguna manera podría compensar mis GHz en comparación con sus MHz. Además, se prometió al final del trabajo transferir los algoritmos a JavaScript para el navegador.

Entonces, la búsqueda de estrategias tuvo que comenzar con la decisión de los bocetos de debut. Una descripción detallada de los debuts para el juego de Renju en ruso se puede encontrar en los famosos libros de Sagar "From Debut to Middlegame" y "Ringing of the Stones" de Mikhail Kozhin y Alexander Nosovsky. Los libros ya tienen 20 años, pero desde entonces se ha publicado un poco de dicha literatura. La colección más reciente de Dmitry Epifanov "Tigre en una jaula" de 2015, lamentablemente, no está disponible en formato electrónico.

La búsqueda de decisiones de apertura óptimas se llevó a cabo de acuerdo con el siguiente algoritmo. En el primer paso, se realizó un cálculo preliminar sin limitar la longitud del lote. Luego, para las soluciones más largas, se realizó la optimización: reemplazando las combinaciones encontradas con soluciones más cortas para los pasos finales y buscando ramas de decisión más cortas para todos los movimientos intermedios. La optimización se realizó hasta que se alcanzó el límite objetivo para todas las ramas de la solución. Luego, el límite objetivo disminuyó y se intentó optimizar a un nuevo valor.

No hubo problemas con el tercer debut vertical en la Figura 3. El resultado fue un conjunto completo de soluciones. Como resultado, las posiciones más difíciles después del cuarto movimiento i8 y j10 se resolvieron en 31 movimientos. Luego se estableció un límite objetivo de 35 movimientos por juego.

Desde la diagonal para la decisión, tradicionalmente eligió el séptimo debut. La posición más difícil surge después del cuarto movimiento g9. Se encontraron soluciones de longitud permisible para 6 movimientos g8 y g7.

Pero para esta opción, con el sexto movimiento en j9, no pude encontrar una solución más corta que 33 movimientos. Fue casi un desastre. Por desesperación, probé las soluciones para el quinto movimiento alternativo, así como todos los otros tipos de aberturas diagonales. Los debuts se resolvieron hasta el final, pero no se pudo encontrar nada más corto que 39 movimientos por juego.

Volviendo al debut de la séptima diagonal original, rehizo el algoritmo para generar oraciones para movimientos de ataque. Como resultado, los movimientos que conducen a posiciones con un puntaje de calificación de los terceros diez inesperadamente comenzaron a dar un resultado y reducir la longitud del camino de la solución. La variabilidad del cálculo con tal cantidad se hizo bastante grande. Con una profundidad de solución de 12 movimientos, había más de 2 millones de posiciones (excluyendo posiciones cuando se buscaban combinaciones). La continuación se basó en 1 GB de RAM asignada para la tarea. Por lo tanto, para verificar la decisión hasta la bifurcación final, en algunos casos fue necesario decidir por separado las posiciones del movimiento 18.

Después de que se decidiera el séptimo debut diagonal en 35 movimientos dados, se podía celebrar la victoria: se ganó la lucha por el centro. Aún quedaba una enorme cantidad de trabajo computacional de rutina, cálculos de movimientos blancos "no óptimos" para completar la estrategia. Del volumen total de la estrategia óptima, la respuesta a tales movimientos como resultado fue del 80%. Afortunadamente, se resolvieron automáticamente por completo en el cálculo preliminar después del segundo movimiento, y todo este volumen se agregó a la estrategia óptima en un par de días.

Entonces, se encontraron soluciones para los 2 movimientos. Ponemos la primera piedra negra en el centro del campo, comenzamos la búsqueda de una solución y ni siquiera tenemos tiempo para sentir la importancia del momento: la posición inicial se resolvió en 35 movimientos. Se construye el gráfico de la estrategia ganadora óptima.

Comprobándonos a nosotros mismos

El siguiente paso es verificar la solución. Apague la inteligencia del lado defensor por completo. Después de cada movimiento de las negras, las blancas van a cualquier casilla libre del tablero. La posición obtenida después del movimiento de las Blancas debe encontrarse en el gráfico de decisión o evaluarse como ganadora por el número de movimientos que no exceden la rama más larga en la posición inicial. Al evaluar cada posición, verificamos la combinación ganadora encontrada para todos los movimientos admisibles de las blancas antes de que las negras construyan la pieza final, cinco seguidas.

La verificación se realizó varias veces hasta completarse. La ejecución final sin errores en modo de subproceso único tardó 14 horas. En el curso de la verificación, se encontraron y corrigieron errores que surgieron como resultado de diferencias en la profundidad de búsqueda de combinaciones, suposiciones para omitir, duplicación de posiciones simétricas.

Responda la pregunta: ¿la decisión en 35 movimientos es realmente la más óptima? Según mi investigación, para varias de las ramas más largas del debut vertical, es posible encontrar soluciones más óptimas con una longitud de 33 movimientos. Pero para la diagonal después del sexto movimiento en j9, se dedicó mucho tiempo a buscar una solución en 33 movimientos, la variación para las negras se expandió a 50 movimientos en cada paso y fue en vano. No es posible demostrar rigurosamente la falta de una solución en 33 movimientos, el tiempo asignado para el proyecto ha llegado a su fin y se tomó la decisión de detenerse en el límite objetivo de 35 movimientos.

Convertir de java a javascript

La publicación de una solución a un problema requiere claridad. Para usar la solución directamente en el navegador, se requería:

Reduce la profundidad de la búsqueda de combinaciones al evaluar posiciones a 17 movimientos. Esto condujo a un aumento de 2-3 veces en el número de movimientos calculados de la estrategia óptima.
Convierta el formato de gráfico de decisión binario a la secuencia JSON de movimientos. Este formato es más conveniente en JavaScript y visual.
Convierta clases java a módulos javascript, excepto para los procedimientos de toma de decisiones. Aquí, en la interfaz web, reemplace las llamadas de servicio de descanso con funciones locales.

Lista de clases de aplicación:

Junta - gestión de fiestas en la junta, interfaz visual
Vértice : parte superior del gráfico de decisión, heredado de la posición
Borde - borde del gráfico de decisión, mover posiciones de conexión
Diseño : posición, contiene una colección de líneas
Línea : una línea en una dirección determinada, contiene una colección de formas
Figura : una figura que determina el tipo y el inicio de una figura en una línea
Patrón : patrones de figuras para comparar al buscar

La solución completa en formato JSON se puede descargar del archivo gomoku.json .

Fuentes en el repositorio en GitHub .

Para mayor claridad, daré a continuación ejemplos de los juegos más largos obtenidos en la demostración haciendo clic en Siguiente.

Debut diagonal:

Debut vertical:

La estrategia ganadora de Gomoku: 35 movimientos