Un paso gigante para una máquina de ajedrez

El increíble éxito de AlphaZero, un algoritmo de aprendizaje en profundidad, marca el comienzo de una nueva era de pensamiento que puede ser de corta duración para los humanos.




A principios de diciembre, los investigadores de DeepMind, una compañía de inteligencia artificial propiedad de Alphabet Inc., una corporación matriz que también es propietaria de Google, hablaron sobre lo que está sucediendo a la vanguardia del ajedrez.

Un año antes, el 5 de diciembre de 2017, el equipo llegó al mundo del ajedrez al anunciar su algoritmo AlphaZero machine learning (MO), que logró dominar no solo el ajedrez regular, sino también el ajedrez japonés shogi y el juego de go . El algoritmo comenzó a funcionar sin ningún concepto de juegos, excepto las reglas básicas. Luego comenzó a jugar consigo mismo varios millones de veces y aprender de sus errores. En solo unas pocas horas, el algoritmo se convirtió en el mejor jugador, tanto entre personas como computadoras, de todo lo que el mundo vio.

Los detalles de los logros de AlphaZero y su estructura interna se encuentran actualmente en revisión formal, luego de lo cual se publicarán en la revista Science . El nuevo trabajo responde a serias críticas a las declaraciones originales. Por ejemplo, era difícil decir si AlphaZero realmente jugó honestamente con su oponente, el monstruo computacional Stockfish. Pero todas estas dudas fueron disipadas. En los últimos 12 meses, AlphaZero no se ha fortalecido, pero se ha convertido en una evidencia más convincente de su superioridad. Él claramente representa un tipo de mente sin precedentes por personas en las que tenemos que pensar durante mucho tiempo.

En los últimos 20 años, el ajedrez informático ha recorrido un largo camino. En 1997, el programa de ajedrez informático de IBM, Deep Blue, logró vencer al entonces campeón mundial de hombres, Garry Kasparov, en un partido de seis juegos. Mirando hacia atrás, podemos decir que no hubo misterio en este logro. Deep Blue podría estimar 200 millones de posiciones por segundo. Nunca se cansó, nunca cometió un error y nunca olvidó lo que pensaba poco antes.

De una forma u otra, ella jugaba como una máquina, brutal y materialista. Ella podría haber pensado mejor que Kasparov, pero no podía pensar mejor que él. En el primer juego de su partido, Deep Blue aceptó previsiblemente el intercambio de la torre por el alfil propuesto por Kasparov, pero perdió 16 movimientos más tarde. La generación actual de los programas de ajedrez más fuertes del mundo, por ejemplo, Stockfish y Komodo, no juegan humanamente. Les gusta tomar las figuras de otras personas. Están construyendo un escudo de hierro. Pero aunque juegan más fuerte que cualquier persona, estas máquinas de ajedrez no tienen idea del juego. Necesitan que se les enseñen los principios básicos del ajedrez.

Estos principios, perfeccionados por décadas de experiencia en grandes maestros humanos, se programan en la máquina en forma de funciones de evaluación complejas, que señalan lo que se debe lograr en la posición y qué evitar: cuánto necesita valorar la seguridad del rey, la actividad de las piezas, la colocación de los peones, el control sobre el centro del tablero, etc. y cómo gestionar las compensaciones entre estas cosas. Las máquinas de ajedrez actuales, a las cuales todos estos principios son ajenos, se comportan como animales groseros: son extremadamente rápidos y fuertes, pero carecen de cerebro.

Pero todo esto ha cambiado desde la llegada de MO. Jugando solos y actualizando sus redes neuronales mientras aprendían de la experiencia, AlphaZero descubrió los principios del ajedrez y rápidamente se convirtió en el mejor jugador. No solo pudo vencer fácilmente a los maestros entre la gente, sino que derrotó a Stockfish, el campeón de ajedrez en computadoras. En un partido por cien juegos contra una máquina impresionante, AlphaZero ganó 28 veces y 72 veces redujo el juego a un empate sin perder uno solo.

Y lo más desagradable fue que AlphaZero demostró pensar. Ella jugó a diferencia de cualquier computadora, intuitiva y bellamente, con un estilo de ataque romántico. Ella jugaba gambits y se arriesgaba. En algunos juegos, paralizó a Stockfish y jugó con ella. Llevando a cabo el ataque en el décimo juego , AlphaZero retiró a la reina a su esquina del tablero, lejos del Rey de Stockfish, comportándose de una manera diferente cuando atacaba al rey.

Sin embargo, este extraño retiro resultó ser tóxico. No importaba cómo respondiera el stockfish, estaba condenada. Era como si AlphaZero estuviera esperando que Stockfish descubriera cuán desesperada era su posición, después de miles de millones de combinaciones probadas, de relajarse y rendirse pacíficamente como un toro derribado frente a un matador. Los grandes maestros nunca han visto algo así. AlphaZero jugó con la gracia de un virtuoso y el poder de una máquina. Fue el primer conocimiento superficial de un nuevo y sorprendente tipo de inteligencia.


Garry Kasparov, a la izquierda, juega contra la computadora IBM Deep Blue en el sexto y último juego del partido, celebrado en Nueva York en mayo de 1997. Las figuras detrás de la computadora fueron movidas por Joseph Joan, un ingeniero de IBM.

Cuando los creadores presentaron AlphaZero por primera vez, algunos observadores se quejaron de que Stockfish había sido privado del acceso a su set de debut. Esta vez, incluso con su propio kit, fue derrotada. E incluso cuando AlphaZero le dio a Stockfish una ventaja inicial en forma de un aumento de diez veces en el tiempo de liquidación, ella todavía la derrotó.

Es impresionante que AlphaZero ganó al pensar no más rápido, sino mejor; estudió solo 60 mil puestos por segundo, y no 60 millones, como Stockfish. Era más inteligente, sabiendo qué pensar y qué ignorar. Después de descubrir de forma independiente los principios del ajedrez, AlphaZero desarrolló un estilo de juego que "reflejaba la verdad" del juego, en lugar de "prioridades y sesgos de los programadores", escribió Kasparov en un comentario que acompaña al artículo en Science.

Ahora la pregunta es si MO puede ayudar a las personas a descubrir verdades similares sobre cosas que realmente importan: los grandes problemas no resueltos de la ciencia y la medicina, como una cura para el cáncer o la conciencia; misterios del sistema inmune, secretos del genoma.

Los primeros signos son inspiradores. En agosto, dos artículos en la revista Nature Medicine examinaron el tema de la aplicación de MO a los diagnósticos médicos. En uno, los investigadores de DeepMind colaboraron con médicos del Murfield Eye Hospital en Londres para desarrollar un algoritmo de aprendizaje en profundidad que pudiera clasificar una amplia gama de patologías retinianas, así como expertos humanos. En oftalmología, existe una grave escasez de expertos que pueden interpretar millones de imágenes de diagnóstico de los ojos obtenidas anualmente; Los asistentes de IA serían invaluables.

Otro artículo examinó el algoritmo MO que reconoce la presencia de imágenes de tomografía computarizada de pacientes con una ambulancia, signos de un derrame cerebral, hemorragia intracraneal u otros problemas neurológicos. Cada minuto cuenta para las víctimas de derrame cerebral; cuanto más se retrasa el tratamiento, peor es el resultado. Los neurólogos incluso tienen un dicho: "El tiempo es el cerebro". El nuevo algoritmo marca estos y otros eventos críticos con una precisión comparable a la de los expertos humanos, pero funciona 150 veces más rápido. Los diagnósticos de alta velocidad le permitirán traducir los casos más urgentes hacia adelante de la cola, después de lo cual ya pueden ser evaluados por un radiólogo humano.

Molesto en MO es que los algoritmos no pueden explicar sus pensamientos. No sabemos por qué funcionan, por lo que no sabemos si se puede confiar en ellos. AlphaZero muestra todos los signos del descubrimiento de los principios importantes del juego de ajedrez, pero no puede compartir esta comprensión con nosotros. Al menos todavía no. La gente necesita más que respuestas. Necesitamos un entendimiento. De ahora en adelante, este problema será una fuente de tensión en nuestra interacción con las computadoras.

De hecho, en matemáticas esto ha estado sucediendo durante mucho tiempo. Considere un problema matemático de larga data llamado el teorema de los cuatro colores . Ella afirma que, bajo ciertas restricciones razonables, cualquier mapa de países en contacto se puede pintar con cuatro colores para que dos países vecinos tengan colores diferentes.

Aunque el teorema se demostró en 1977 usando una computadora, ni una sola persona puede verificar todos los pasos de la prueba. Desde entonces, la prueba se ha confirmado y simplificado, pero aún contiene partes que requieren cálculos con una búsqueda exhaustiva, como las utilizadas por los predecesores de AlphaZero, jugando al ajedrez. Este estado de cosas ha indignado a muchos matemáticos. No necesitaban convencerse de la exactitud del teorema; ellos ya creían en eso. Querían entender por qué era cierto, y tal prueba no hizo nada para ayudar.

Pero imagine que llegará el día, quizás muy pronto, cuando AlphaZero se convierta en un algoritmo de propósito más general; llamémoslo AlphaInfinity. Al igual que su antepasado, tendrá una mente superior: podrá producir pruebas excelentes, tan elegantes como los juegos que AlphaZero jugó contra Stockfish. Y cada prueba demostrará por qué el teorema era verdadero; AlphaInfinity no lo obligará a aceptar ninguna evidencia fea y compleja.

Para matemáticos y científicos, ese día marcaría el comienzo de una nueva era de pensamiento. Pero puede ser de corta duración. Cuanto más rápido se vuelvan los automóviles, superando a las personas cuyas neuronas operan a una velocidad de tortuga en una escala de milisegundos, más rápido llegará el día en que no podamos seguirles el ritmo. El amanecer del pensamiento humano puede convertirse rápidamente en una puesta de sol.

Supongamos que hay ciertos patrones que aún no se han descubierto: en la regulación de los genes o el desarrollo del cáncer; en el funcionamiento del sistema inmune; en la danza de partículas subatómicas. Supongamos que estos patrones solo pueden ser predichos por un intelecto que es muy superior al nuestro. Si AlphaInfinity pudiera definirlos y comprenderlos, nos parecería un oráculo.

Nos sentamos a sus pies y escuchamos atentamente. No entenderíamos por qué el oráculo siempre tiene la razón, pero podríamos verificar sus cálculos y predicciones en experimentos y observaciones y confirmar sus revelaciones. En la ciencia, una ocupación simbólica de las personas, nuestro papel se reduciría al papel de observadores, observando lo que sucede con asombro y confusión.

Quizás algún día nuestra falta de pensamiento ya no nos moleste. Después de todo, AlphaInfinity podría curar todas las enfermedades, resolver todos los problemas científicos y hacer que todos los demás trenes inteligentes funcionen a tiempo. Hicimos un buen trabajo sin pensar mucho los primeros 300,000 años de nuestra existencia como Homo sapiens. No tendremos problemas de memoria, estaremos orgullosos de recordar la era dorada de la mente humana, este glorioso interludio que duró varios milenios, entre un pasado sin comprender y un futuro inexplicable.

Source: https://habr.com/ru/post/es436598/


All Articles