
Los últimos sistemas de inteligencia artificial de autoaprendizaje pueden aprender un juego desde cero y convertirse en campeones de clase mundial. Hasta hace poco, las máquinas que podían vencer a los campeones comenzaron sus estudios estudiando la experiencia humana. Para derrotar a Garry Kasparov en 1997, los ingenieros de IBM subieron a Deep Blue la información acumulada durante siglos de la pasión de la humanidad por el ajedrez. En 2016, la inteligencia artificial
AlphaGo creada en Google DeepMind
superó al campeón Lee Sedola en el antiguo juego de mesa Go, habiendo estudiado previamente millones de posiciones de decenas de miles de juegos jugados por personas. Pero ahora, los desarrolladores de IA están reconsiderando el enfoque para incorporar el conocimiento humano en cerebros electrónicos. Tendencia actual: no te molestes con esto.
En octubre de 2017, el equipo de DeepMind publicó
información sobre un nuevo sistema para jugar Go - AlphaGo Zero. Ella no estudió fiestas jugadas por personas en absoluto. En cambio, aprendió las reglas y comenzó a jugar consigo misma. Los primeros movimientos fueron completamente al azar. Después de cada juego, el sistema analizó lo que condujo a la victoria o la derrota. Después de un tiempo, AlphaGo Zero comenzó a jugar con el ganador bombeado Lee Sedola - AlphaGo. Y ella la derrotó con un puntaje de 100: 0.
Lee Sedol, 18 veces campeón mundial en el juego de Go, durante un partido con AlphaGo en 2016.Luego, los investigadores crearon un sistema que se convirtió en el jugador más fuerte de la familia AlphaGo: AlphaZero. En un
artículo publicado en diciembre, los desarrolladores de DeepMind informaron que AlphaZero, que también había comenzado a aprender desde cero, superó a AlphaGo Zero, es decir, derrotó al bot que derrotó al bot que derrotó al mejor jugador en Go del mundo. Y cuando se alimentó de las reglas del ajedrez, así como de la versión japonesa de este juego:
shogi , AlphaZero aprendió rápidamente a derrotar a los algoritmos más poderosos en estos juegos. Los expertos quedaron sorprendidos por el estilo agresivo e inusual del juego. Como
señaló el gran maestro danés Peter Heine Nielsen: “Siempre me interesó saber qué pasaría si los sobrenaturales volaran a la Tierra y nos mostraron cómo pueden jugar al ajedrez. Ahora lo sé ".
El año pasado, vimos el advenimiento de robots de autoaprendizaje de otro mundo en áreas tan diversas como el póker ilimitado y Dota 2.
Está claro que las empresas que invierten en estos y otros sistemas similares tienen planes mucho más ambiciosos que los campeonatos de juegos dominantes. Los investigadores esperan utilizar métodos similares para resolver problemas reales, como la creación de superconductores que funcionan a temperatura ambiente o el uso de principios de origami para colocar proteínas en moléculas de fármacos potentes. Y, por supuesto, muchos profesionales esperan crear una IA de propósito general: el objetivo es vago, pero emocionante, lo que implica que la máquina podrá pensar como una persona y resolver una variedad de problemas.
Pero a pesar de las grandes inversiones de fuerzas y medios en tales sistemas, no está claro qué tan lejos pueden alejarse de la esfera de los juegos.
Metas ideales para un mundo imperfecto
Muchos juegos, incluidos el ajedrez y el Go, están unidos por el hecho de que los jugadores siempre ven el diseño completo en el campo de juego. Cada jugador en cualquier momento tiene "información completa" sobre el estado del juego. Pero cuanto más difícil es el juego, más necesitas pensar en el momento actual. En realidad, este no suele ser el caso. Imagine que le pide a la computadora que haga un diagnóstico o realice negociaciones comerciales.
Noam Brown , estudiante graduado del Departamento de Ciencias de la Computación de la Universidad Carnegie Mellon: “La mayoría de las relaciones estratégicas reales utilizan información oculta. Tengo la sensación de que muchos participantes en la comunidad de IA ignoran esta circunstancia ”.
Brown se especializa en desarrollar algoritmos de juego de póker, y hay otras dificultades en este juego: no ves las cartas de tus rivales. Pero aquí, las máquinas que aprenden a jugar independientemente ya alcanzan alturas altísimas. En enero de 2017, un programa llamado Libratus, creado por Brown y
Tuomas Sandholm ,
venció a uno de los cuatro jugadores profesionales en el Texas Hold'em ilimitado. Al final del torneo de 20 días, el bot ganó $ 1.7 millones más que sus rivales.
La estrategia multijugador de StarCraft II es un juego aún más impresionante, lo que implica un conocimiento incompleto de la información sobre la situación actual. Aquí, la IA aún no ha llegado al Olimpo. Esto se ve obstaculizado por la gran cantidad de movimientos en el juego, a menudo medidos en miles, y la alta velocidad de su ejecución. Cada jugador, una persona o una máquina, con cada clic debe pensar en la variedad ilimitada de desarrollos posteriores.
Hasta ahora, la IA no puede competir con los mejores jugadores en igualdad de condiciones. Pero los desarrolladores están luchando por esto. En agosto de 2017, DeepMind contó con el apoyo de Blizzard Entertainment (quien creó StarCraft II) para crear herramientas que deberían ayudar a los investigadores de IA.
A pesar de la dificultad del juego, la esencia de StarCraft II se reduce a una tarea simple: destruir a los enemigos. Lo mismo puede decirse sobre ajedrez, Go, póker, Dota 2 y casi cualquier otro juego. Y en los juegos puedes ganar.
Desde el punto de vista del algoritmo, la tarea debe tener una "función de destino", que debe encontrarse. No fue demasiado difícil cuando AlphaZero estaba jugando ajedrez. La pérdida se cuenta como -1, empate - 0, victoria - +1. La función objetivo de AlphaZero era ganar puntos máximos. La función objetivo del robot de póker también es simple: ganar mucho dinero.
El algoritmo aprende un comportamiento complejo: caminar sobre una superficie desconocida.En la vida, no todo está tan claro. Por ejemplo, un vehículo no tripulado necesita una función objetivo más específica. Algo así como una declaración cautelosa de su deseo, que explica el genio. Por ejemplo: entregue rápidamente a los pasajeros al destino correcto, observando todas las reglas y evaluando adecuadamente las vidas humanas en situaciones peligrosas e inciertas.
Pedro Domingos , Especialista en Informática, Universidad de Washington: "Entre otras cosas, la diferencia entre un gran investigador de aprendizaje automático y ordinario es cómo se formula la función objetivo".
Piense en el chatbot de Twitter de Tay lanzado por Microsoft el 23 de marzo de 2016. Su objetivo era involucrar a la gente, y lo logró. Pero de repente se hizo evidente que la mejor manera de maximizar la participación es lanzar todo tipo de insultos. El bot se
apagó menos de un día después.
Tu peor enemigo personal
Algo permanece sin cambios. Los métodos utilizados por los robots de juegos dominantes modernos se basan en estrategias inventadas hace décadas. Los mismos saludos del pasado, solo respaldados por la potencia informática moderna.
Estas estrategias generalmente se basan en el aprendizaje reforzado, una metodología sin intervención humana. En lugar de un control meticuloso del algoritmo utilizando instrucciones detalladas, los ingenieros permiten que la máquina explore el entorno y logre objetivos por prueba y error. Antes del lanzamiento de AlphaGo y sus descendientes, en 2013, el equipo de DeepMind logró un resultado serio e importante, utilizando entrenamiento de refuerzo al
enseñar al bot a jugar siete juegos para el Atari 2600, y en tres de ellos, a nivel experto.
Sin detenerse allí, el 5 de febrero, el equipo de DeepMind lanzó
IMPALA , un sistema de IA que puede jugar 57 juegos para el Atari 2600, así como otros 30 niveles tridimensionales creados en DeepMind. En estos niveles, el jugador camina por varios lugares y habitaciones, resuelve problemas como abrir puertas y recoger hongos. Además, IMPALA transfirió la experiencia acumulada entre tareas, es decir, cada sesión jugada mejoró los resultados de la próxima sesión.
Pero dentro de la categoría más amplia de aprendizaje reforzado, los juegos de mesa y multijugador permiten un enfoque aún más especializado. La investigación puede tomar la forma de un juego consigo mismo, cuando el algoritmo gana experiencia, luchando con su propia copia.
Esta idea también tiene muchos años. En la década de 1950, el ingeniero de IBM Arthur Samuel
creó un programa de borradores que estudió parcialmente en juegos jugados entre alfa y beta. Y en la década de 1990, Gerald Tesauro, también de IBM, creó un juego de backgammon que establece su propio algoritmo contra sí mismo. El bot alcanzó el nivel de un experto humano, desarrollando estrategias no estándar pero efectivas.
Al jugar consigo mismo, el algoritmo en cada juego se encuentra con un competidor igual. Por lo tanto, los cambios en la estrategia conducen a resultados diferentes, dada la respuesta inmediata del algoritmo de copia.
Ilya Sutskever , director de investigación de OpenAI: "Cada vez que aprendes algo nuevo, descubres la información más pequeña sobre el juego y el entorno, tu oponente la usa instantáneamente contra ti". En agosto de 2017, OpenAI lanzó un
bot para Dota 2 , que controlaba al personaje Shadow Fiend, algo así como un demonio nigromante, y derrotó a los mejores jugadores del mundo en peleas. Otro proyecto de la compañía: dos algoritmos controlan a los luchadores de sumo,
aprendiendo unos de otros técnicas de lucha. Y durante dicho entrenamiento es imposible estancarse, debes mejorar constantemente.
El bot creado en OpenAI para Dota 2 aprendió independientemente varias estrategias complejas.Pero la vieja idea de jugar contigo mismo es solo uno de los ingredientes de la superioridad moderna de los bots, que aún necesitan "repensar" de alguna manera su experiencia de juego. En ajedrez, Go y videojuegos como Dota 2, hay una infinidad de combinaciones posibles. Incluso después de haber pasado muchas vidas en batallas con su sombra en arenas virtuales, la máquina no podrá calcular todos los escenarios posibles para elaborar una tabla de acciones y consultar con ella cuando nuevamente se encuentre en una situación similar.
Para mantenerse a flote en un mar de oportunidades, necesita generalizar, captar la esencia. IBM Deep Blue tuvo éxito gracias a las fórmulas integradas de ajedrez. Armado con la capacidad de evaluar combinaciones en el tablero que nunca antes había conocido, la computadora ajustó movimientos y estrategias para aumentar la probabilidad de su victoria. Pero las nuevas técnicas que han aparecido en los últimos años han permitido abandonar las fórmulas.
Las redes neuronales profundas están ganando cada vez más popularidad. Consisten en capas de "neuronas" artificiales, como panqueques en una pila. Cuando se activan las neuronas en una capa, envían señales a la siguiente capa, se envía a la siguiente, y así sucesivamente. Al ajustar las conexiones entre las capas, tales redes neuronales logran resultados fantásticos, transformando los datos de entrada en algún tipo de resultado interconectado, incluso si la conexión parece abstracta. Supongamos que una red neuronal puede recibir una frase en inglés, y eso la traducirá al turco. O puede darle fotos de un refugio de animales, y la red neuronal encontrará esas imágenes que representan gatos. O puede mostrar las reglas del juego de mesa a una red neuronal profunda, y calculará la probabilidad de su victoria. Pero primero, como comprenderá, la red neuronal debe aprender de una muestra de datos etiquetados.
Las redes neuronales que juegan con ellas mismas y las redes neuronales profundas se complementan bien. Los juegos con ellos mismos generan un flujo de información sobre los juegos, proporcionando a las redes profundas una fuente teóricamente interminable de datos para el entrenamiento. A su vez, las redes profundas ofrecen una forma de absorber la experiencia y los patrones obtenidos jugando con ellas mismas.
Pero hay un truco. Para los sistemas que juegan con ellos mismos para generar datos útiles, necesitan un lugar realista para jugar.
Todos los juegos se juegan, todas las alturas se alcanzan en entornos donde puedes emular el mundo con diversos grados de confianza. Y en otras áreas no es tan fácil lograr resultados impresionantes.
Por ejemplo, los vehículos no tripulados son difíciles de manejar con mal tiempo, y los ciclistas en la carretera interfieren en gran medida. Además, los drones pueden evaluar incorrectamente una situación no estándar pero real, como un pájaro volando directamente a la cámara del automóvil. O tome un uso menos exótico de la IA: un manipulador robótico de brazos. Primero, necesita que le enseñen los conceptos básicos de las acciones físicas para que la mano al menos comprenda cómo aprenderla. Pero al mismo tiempo, ella no conoce las peculiaridades de tocar varias superficies y objetos, por lo que la máquina necesita practicar para resolver problemas como desenroscar la tapa de la botella o realizar un procedimiento quirúrgico.
Yoshua Bengio , especialista en aprendizaje profundo en la Universidad de Montreal: “En una situación difícil de simular, el modelo de aprendizaje“ juega contigo mismo ”no es muy útil. "Hay una gran diferencia entre un modelo de ambiente verdaderamente ideal y un modelo de aprendizaje" plagado ", especialmente si el ambiente es complejo".
La vida después de los juegos
Es difícil decir exactamente cuándo comenzó la superioridad de la IA en los juegos. Puedes elegir perder Kasparov o derrotar a Lee Sedola. A menudo, la cuenta regresiva es de 2011, con la pérdida de Ken Jennings, campeón del juego de televisión
Jeopardy. , en una rivalidad de dos días con IBM Watson. La máquina pudo entender la redacción y el juego de palabras. Los desarrolladores han dotado a Watson de la capacidad de procesar el texto que es inherente a nosotros. La computadora puede tomar una sugerencia de frase en inglés para una palabra, con gran velocidad, ver documentos relevantes, resaltar piezas de información y elegir la mejor respuesta.
Pero a lo largo de los años, las tareas de la vida "ordinaria" todavía no son susceptibles a la IA. En septiembre de 2017,
se publicó un informe según el cual había grandes dificultades en la investigación y el desarrollo de métodos personales de tratamiento del cáncer como parte del proyecto Watson for Oncology. ¡La computadora es mucho más fácil de entender el significado de las preguntas en
Jeopardy! que entender la esencia del artículo médico.
Sin embargo, hay una serie de tareas reales que son tan especializadas como los juegos. Se rumorea que el equipo de DeepMind está trabajando en la adaptación de AlphaZero para su uso en la investigación de plegamiento de proteínas biomédicas. Para esto, los desarrolladores tendrán que entender cómo los aminoácidos que forman proteínas pueden
plegarse en pequeñas estructuras tridimensionales, cuyas funciones dependen de la forma. Es tan difícil como un juego de ajedrez: los químicos conocen algunos principios que permiten calcular algunos escenarios, pero la abundancia de posibles configuraciones tridimensionales es tan grande que simplemente no es realista estudiarlas todas. ¿Pero qué pasa si conviertes la proteína en un juego? Eso es lo que ya han hecho. Desde 2008, cientos de miles de jugadores han probado su suerte en el juego en línea
Foldit , en el que se otorgaron puntos por la estabilidad y la viabilidad de las estructuras proteicas creadas. Una máquina puede entrenarse de la misma manera, por ejemplo, a través del entrenamiento de refuerzo, tratando de superar los mejores resultados de los jugadores humanos.
El aprendizaje por refuerzo y el juego personal también pueden ayudar a entrenar sistemas interactivos. Luego, los robots podrán hablar con las personas, primero aprenderán a hablar con ellos mismos. Y dado el aumento en la productividad y la disponibilidad de equipos especializados para IA, los ingenieros recibirán un incentivo para traducir más y más tareas reales en la forma de un juego. Es probable que en el futuro solo aumente la importancia de la metodología de "jugar contigo mismo" y otros enfoques que requieren una enorme potencia informática.
Pero si nuestro objetivo principal es crear una máquina que pueda hacer tanto como las personas, y una máquina de autoaprendizaje, los campeones de juegos de mesa como AlphaZero tendrán posibles caminos de desarrollo. Es necesario darse cuenta de la brecha entre la actividad mental real, la comprensión creativa de las ideas y lo que vemos hoy en el campo de la IA. Esa imagen brillante de inteligencia artificial existe, en su mayor parte, en las mentes de los grandes investigadores.
Muchos científicos que son conscientes del nivel de exageración ofrecen sus propias clasificaciones. No hay necesidad de sobreestimar la importancia de los bots que juegan juegos para el desarrollo de la IA en general. La gente, por ejemplo, no es muy buena jugando. Pero, por otro lado, las herramientas muy simples y especializadas en algunas tareas pueden alcanzar grandes alturas.