
En diciembre pasado, hubo una
ola de noticias sobre el increíble poder de un nuevo motor de ajedrez utilizando la empresa de inteligencia artificial AlphaMero DeepMind. Hoy lanzaron resultados sorprendentes para una versión actualizada de este motor.
Los resultados nuevamente no dejan dudas de que AlphaZero es uno de los motores de ajedrez más fuertes del mundo.
AlphaZero actualizado derrotó a Stockfish 8 en un nuevo partido con 1000 juegos con el resultado: 155 victorias, 6 derrotas, 839 empates.
AlphaZero también superó a Stockfish en una serie de juegos con un control de tiempo desigual, derrotando al motor tradicional incluso con una desventaja de 10 veces.
Según DeepMind, en partidos adicionales, el nuevo AlphaZero superó la "última versión de desarrollo" de Stockfish el 13 de enero de 2018, mostrando resultados casi idénticos, como en el partido contra Stockfish 8.
Según DeepMind, su motor de aprendizaje automático también ganó todos los partidos contra la "variante Stockfish, que utiliza un libro de debut fuerte". Agregar un libro de debut pareció ayudar a Stockfish, quien finalmente ganó un número significativo de juegos cuando AlphaZero jugó en negro, pero no lo suficiente como para ganar el partido.
Los resultados fueron publicados
en un artículo en la revista Science y proporcionados por
medios de ajedrez seleccionados.
El partido de 1000 juegos se celebró a principios de 2018. En el partido, AlphaZero y Stockfish recibieron tres horas de cada juego más una ganancia de 15 segundos por turno. Es probable que este control de tiempo haga obsoleto uno de los mayores argumentos en contra de los resultados del partido del año pasado, es decir, que en 2017, el control de tiempo de un minuto por turno fue una gran ventaja para AlphaZero.
Con tres horas más un aumento de 15 segundos, tal argumento no tiene sentido, ya que esto es una gran cantidad de tiempo de juego para cualquier motor de ajedrez. En juegos con tiempos desiguales, AlphaZero dominó incluso con una relación de tiempo de 10 a 1. Stockfish solo comenzó a ganar en una proporción de 30 a 1.
Los resultados de AlphaZero en juegos con tiempos desiguales muestran que no solo es mucho más fuerte que cualquier motor de ajedrez tradicional, sino que también utiliza una búsqueda de movimientos mucho más eficiente. Según DeepMind, AlphaZero utiliza la búsqueda de árboles de Monte Carlo y estudia alrededor de 60,000 posiciones por segundo, en comparación con 60 millones para Stockfish.
AlphaZero mueve la ilustración del algoritmo de búsqueda. Imagen de DeepMind de un artículo en Science.Según el artículo, el algoritmo AlphaZero actualizado es idéntico en tres juegos complejos: ajedrez, shogi y go. Esta versión de AlphaZero fue capaz de vencer a los mejores motores de computadora de los tres juegos después de horas de auto entrenamiento, comenzando con reglas simples del juego.
DeepMind ha lanzado 210 juegos del partido, que puedes descargar
aquí .
La nueva versión de AlphaZero se ha entrenado para jugar al ajedrez, comenzando con las reglas del juego, utilizando métodos de aprendizaje automático para actualizar constantemente sus redes neuronales. Según DeepMind, se usaron 5,000 TPU (procesador tensor de Google, circuito integrado especializado para IA) para generar el primer conjunto de juegos para juego independiente, y luego se usaron 16 TPU para entrenar redes neuronales.
El tiempo total de entrenamiento en ajedrez tomó nueve horas desde cero. Según DeepMind, el nuevo AlphaZero requirió solo cuatro horas de entrenamiento para superar a Stockfish; En nueve horas, estaba muy por delante del campeón mundial de ajedrez.
Para los juegos en sí, Stockfish usó 44 procesadores, mientras que AlphaZero usó una máquina con cuatro TPU y 44 núcleos de procesador.
AlphaZero vs. Stockfish resulta en sus debuts más populares. A la izquierda, AlphaZero juega blanco; a la derecha - negro.DeepMind notó el estilo de juego único de su programa en el artículo:
"En varios juegos, AlphaZero sacrificó piezas por una ventaja estratégica a largo plazo, lo que sugiere que tiene una clasificación posicional más contextual que las clasificaciones basadas en reglas utilizadas en programas de ajedrez anteriores", dijeron investigadores de DeepMind.
AI también enfatizó la importancia de usar la misma versión de AlphaZero en tres juegos diferentes, promocionándolo como un avance en la inteligencia general del juego:
"Estos resultados nos acercan al cumplimiento de las ambiciones de inteligencia artificial de larga data: un sistema de juego común que puede aprender a dominar cualquier juego", dijeron los investigadores de DeepMind.