Los últimos sistemas de IA comienzan a entrenar sin saber nada sobre el juego y crecen a nivel mundial en unas pocas horas. Pero los investigadores están luchando con el uso de tales sistemas fuera del mundo del juego.

Hasta hace poco, las máquinas capaces de avergonzar a los campeones humanos al menos respetaban el uso de la experiencia humana para enseñar juegos.
Para derrotar a Garry Kasparov en el ajedrez en 1997, los ingenieros de IBM usaron siglos de sabiduría en el ajedrez para crear su propia computadora Deep Blue. En 2016, el programa AlphaGo del proyecto Google DeepMind
derrotó al campeón Lee Sedola en el antiguo juego de mesa go, procesando millones de posiciones de juego recopiladas de decenas de miles de juegos entre personas.
Pero ahora, los investigadores de IA están repensando cómo sus robots deberían absorber el conocimiento humano. La tendencia actual se puede describir como "sí, y que Dios lo bendiga".
En octubre pasado, el equipo de DeepMind
publicó los detalles del nuevo sistema go-game, AlphaGo Zero, que no estudió en absoluto los juegos de las personas. Ella comenzó con las reglas del juego y jugó consigo misma. Los primeros movimientos fueron completamente al azar. Después de cada juego, aceptó nuevos conocimientos sobre lo que condujo a la victoria y lo que no. Después de estos partidos, AlphaGo Zero provocó la versión ya sobrehumana de AlphaGo que derrotó a Lee Sedol. El primero ganó el segundo con un puntaje de 100: 0.
Lee Sedol, 18 veces campeón del mundo en go, partido contra AlphaGo en 2016.El equipo continuó explorando y creó el siguiente jugador brillante en la familia AlphaGo, esta vez simplemente llamado AlphaZero. En un
artículo publicado en arxiv.org en diciembre, los investigadores de DeepMind revelaron cómo, comenzando desde cero nuevamente, AlphaZero entrenó y derrotó a AlphaGo Zero, es decir, derrotó al bot que derrotó al bot que derrotó al mejor jugador del mundo. Y cuando le dieron las reglas para el ajedrez japonés
shogi , AlphaZero aprendió rápidamente y logró vencer a los mejores algoritmos creados especialmente para este juego. Los expertos se maravillaron con el estilo agresivo y desconocido del juego. "Siempre me pregunté cómo sería si seres superiores volaran a la Tierra y nos mostraran cómo juegan al ajedrez", dijo el gran maestro danés Peter Heine Nielsen en
una entrevista con la Fuerza Aérea. "Ahora lo sé".
El año pasado, vimos otros robots de otros mundos que demostraron estar en áreas tan diferentes como el póker ilimitado y Dota 2, un popular juego en línea en el que los héroes de fantasía luchan por el control de otro mundo.
Naturalmente, las ambiciones de las compañías que invierten dinero en tales sistemas se extienden más allá del dominio de los campeonatos de juegos. Los equipos de investigación como DeepMind esperan aplicar métodos similares a las tareas del mundo real: crear superconductores que funcionen a temperatura ambiente o comprender qué origami convertirá las proteínas en moléculas amigables con los medicamentos. Y, por supuesto, muchos profesionales esperan construir inteligencia artificial de propósito general, un objetivo mal definido pero cautivador para darle a la máquina la oportunidad de pensar como una persona y ser flexible para resolver diferentes problemas.
Sin embargo, a pesar de todas las inversiones, aún no está claro hasta qué punto las tecnologías actuales pueden ir más allá de los límites del tablero de juego. "No estoy seguro de que las ideas detrás de AlphaZero sean tan fáciles de resumir",
dijo Pedro Domingos, informático de la Universidad de Washington. "Los juegos son un tema muy, muy inusual".
Metas ideales para un mundo imperfecto
Una característica común de muchos juegos, incluidos el ajedrez y el go - los jugadores están constantemente viendo todas las fichas en ambos lados del tablero. Cada jugador tiene lo que se llama "información ideal" sobre el estado del juego. No importa cuán complicado sea el juego, solo debes pensar en tu posición actual.
Muchas situaciones del mundo real no se pueden comparar con esto. Imagine que le pedimos a la computadora que haga un diagnóstico o realice negociaciones comerciales. "La mayoría de las interacciones estratégicas en el mundo real involucran información oculta", dice
Noam Brown , un estudiante graduado en ciencias de la computación en la Universidad Carnegie Malon. "Me parece que la mayoría de la comunidad de IA ignora este hecho".
Brown Poker ofrece un desafío diferente. No ves las cartas del oponente. Pero aquí, las máquinas que aprenden a través de un juego con ellas mismas ya alcanzan alturas sobrehumanas. En enero de 2017, el programa Libratus, creado por Brown y su curador
Thomas Sandholm ,
venció a cuatro jugadores profesionales ilimitados de
Texas Hold'em al ganar $ 1.7 millones al final del campeonato de 20 días.
Un juego aún más desalentador con información imperfecta es StarCraft II, otro juego multijugador en línea con una gran cantidad de fanáticos. Los jugadores eligen un equipo, construyen un ejército y emprenden una guerra en un paisaje de ciencia ficción. Pero el paisaje está rodeado por la niebla de la guerra, debido a que los jugadores solo ven aquellas partes del territorio en el que se encuentran sus propias tropas o edificios. Incluso la decisión de explorar el territorio del oponente está llena de incertidumbre.
Este es el único juego que la IA aún no puede ganar. Los obstáculos son una gran cantidad de opciones para movimientos en el juego, que generalmente exceden los mil, y la velocidad de la toma de decisiones. Cada jugador, una persona o una máquina, debe preocuparse por una gran cantidad de escenarios de desarrollo probables con cada clic del mouse.
Hasta ahora, la IA no puede competir en igualdad de condiciones con las personas en esta área. Pero este es el objetivo para el desarrollo de la IA. En agosto de 2017, DeepMind
colaboró con Blizzard Entertainment, la compañía que creó StarCraft II, para crear herramientas que, según ellos, abrirían este juego a los investigadores de IA.
A pesar de toda la complejidad, el objetivo de StarCraft II es simple de formular: destruir al enemigo. Esto la hace parecida al ajedrez, ir, póker, Dota 2 y casi cualquier otro juego. En los juegos puedes ganar.
Desde el punto de vista del algoritmo, las tareas deben tener una "función objetivo", un objetivo al que debemos esforzarnos. Cuando AlphaZero jugaba al ajedrez, era fácil. La derrota se estimó en -1, un empate en 0, una victoria en +1. La función objetivo de AlphaZero es maximizar los puntos. La función objetivo del robot de póker es igual de simple: ganar mucho dinero.
Las personas que caminan por computadora pueden entrenar comportamientos complejos como caminar en terrenos desconocidosLas situaciones en la vida real no son tan simples. Por ejemplo, un robot robótico necesita una formación más fina de la función objetivo, algo similar a una buena selección de palabras al describir su deseo de un genio. Por ejemplo: entregue rápidamente a un pasajero a la dirección correcta, obedeciendo todas las leyes y sopesando adecuadamente el costo de la vida humana en situaciones peligrosas e inciertas. Domingos dice que la formación de la función objetiva por parte de los investigadores es "una de las cosas que distingue a un gran investigador en el campo del aprendizaje automático del promedio".
Considere a Tay, el chatbot de Twitter que Microsoft lanzó el 23 de marzo de 2016. Su objetivo era involucrar a las personas en la conversación, lo cual hizo. "Lo que lamentablemente descubrió Tay", dijo Domingos, "es que los insultos racistas son la mejor manera de maximizar la participación de las personas". Se
apagó solo un día después del inicio del trabajo.
Tu propio enemigo principal
Algunas cosas no cambian. Las estrategias utilizadas hoy por los bots de juegos prevalecientes se inventaron hace décadas. "Es una maravilla del pasado, simplemente le dan más poder de cómputo", dice
David Duveno , especialista en TI de la Universidad de Tokio.
Las estrategias a menudo se basan en técnicas de aprendizaje reforzadas con libertad de acción. En lugar de involucrarse en la microgestión, configurando los detalles más pequeños del algoritmo, los ingenieros le dan a la máquina que estudie el entorno para aprender cómo lograr sus propios objetivos, por prueba y error. Antes del lanzamiento de AlphaGo y sus herederos, el equipo DeepMind logró el primer gran éxito en los titulares en 2013, cuando utilizaron entrenamiento de refuerzo para crear un bot que
aprendió a jugar siete juegos Atari 2600, y en tres de ellos, a nivel experto.
Este progreso ha continuado. El 5 de febrero, DeepMind lanzó
IMPALA , un sistema de IA capaz de aprender 57 juegos con el Atari 2600 y otros 30 niveles creados por DeepMind en tres dimensiones. El jugador actúa sobre ellos en diversos entornos y logra objetivos como abrir puertas o recoger setas. IMPALA parecía transferir conocimiento entre tareas: el tiempo dedicado a un juego mejoró los resultados en el resto.
Pero en la categoría más amplia de aprendizaje reforzado, juegos de mesa y multijugador, se puede utilizar un enfoque más específico. Su estudio puede adoptar la forma de un juego consigo mismo, cuando el algoritmo alcanza la superioridad estratégica, compitiendo repetidamente con una copia cercana de sí mismo.
Esta idea tiene muchas décadas de antigüedad. En la década de 1950, el ingeniero de IBM Arthur Samuel
creó un programa de borradores que aprendió parcialmente a jugar compitiendo consigo mismo. En la década de 1990, Gerald Thesaur de IBM creó un programa de backgammon que contrastaba el algoritmo consigo mismo. El programa alcanzó el nivel de personas expertas, al mismo tiempo que inventaba estrategias de juego inusuales pero efectivas.
En un número creciente de juegos, los algoritmos para jugar con uno mismo se proporcionan con un oponente igual. Esto significa que cambiar la estrategia del juego conduce a un resultado diferente, debido a que el algoritmo recibe retroalimentación instantánea. "Cada vez que descubres algo, cuando descubres algo pequeño, tu oponente inmediatamente comienza a usarlo contra ti", dice
Ilya Sutskever , director de investigación de OpenAI, una organización sin fines de lucro que fundó con Ilon Mask, dedicado al desarrollo y difusión de tecnologías de IA y la dirección de su desarrollo en una dirección segura. En agosto de 2017, la organización
lanzó un bot para Dota 2, que controlaba a uno de los personajes del juego, Shadow Fiend, un demonio nigromante, que derrotó a los mejores jugadores del mundo en batallas uno a uno. Otro proyecto de OpenAI empuja a las personas a simular una partida de
sumo , como resultado de lo cual aprenden lucha y trucos. Durante un juego con uno mismo, "no hay tiempo para descansar, necesitas mejorar constantemente", dijo Sutskever.
Openai
Pero la vieja idea de jugar contigo mismo es solo un ingrediente en los bots que prevalecen hoy en día, todavía necesitan una forma de convertir la experiencia de juego en una comprensión más profunda del tema. En ajedrez, go y videojuegos como Dota 2, hay más permutaciones que átomos en el universo. Incluso si esperamos varias vidas humanas mientras la IA lucha contra su sombra en arenas virtuales, la máquina no podrá implementar cada escenario, escribirlo en una tabla especial y consultarlo cuando tal situación vuelva a ocurrir.
Para mantenerse a flote en este mar de oportunidades, "debe resumir y resaltar la esencia", dice
Peter Abbil , un especialista en TI de la Universidad de California en Berkeley. Deep Blue de IBM hizo esto con una fórmula de ajedrez incorporada. Armado con la capacidad de evaluar la fuerza de las posiciones de juego que aún no había visto, el programa pudo aplicar movimientos y estrategias que aumentan sus posibilidades de ganar. En los últimos años, una nueva técnica hace posible abandonar esa fórmula por completo. "Ahora, de repente, todo esto está cubierto por una" red profunda ", dijo Abbil.
Las redes neuronales profundas, cuya popularidad se ha disparado en los últimos años, se construyen a partir de capas de "neuronas" artificiales,
superpuestas , como una pila de panqueques. Cuando se activa una neurona en una de las capas, envía señales a un nivel superior, y allí se envían aún más, y así sucesivamente.
Al ajustar las conexiones entre las capas, estas redes hacen frente sorprendentemente a convertir los datos de entrada en la salida asociada, incluso si la conexión entre ellos parece abstracta. Dales una frase en inglés, y pueden ser entrenados traduciéndola al turco. Déles fotos de refugios de animales y pueden determinar cuál es para los gatos. Muéstreles el juego polivinílico y podrán comprender la probabilidad de ganar. Pero por lo general, tales redes primero deben proporcionar listas de ejemplos etiquetados en los que puedan practicar.
Es por eso que jugar contigo mismo y las redes neuronales profundas se combinan tan bien entre sí. Los juegos independientes producen una gran cantidad de escenarios, y la red profunda tiene una cantidad casi ilimitada de datos para el entrenamiento. Y luego la red neuronal ofrece una forma de aprender la experiencia y los patrones encontrados durante el juego.
Pero hay una trampa. Para que dichos sistemas proporcionen datos útiles, necesitan una plataforma realista para los juegos.
"Todos estos juegos, todos estos resultados, se lograron en condiciones que hicieron posible simular perfectamente el mundo", dijo
Chelsea Finn, una estudiante graduada de Berkeley que usa IA para controlar brazos robóticos e interpretar datos de sensores. Otras áreas no son tan fáciles de simular.
Los robomóviles, por ejemplo, tienen dificultades para hacer frente al mal tiempo o con los ciclistas. O pueden no percibir las posibilidades inusuales que se encuentran en el mundo real, como un pájaro volando directamente a la cámara. En el caso de los brazos robóticos, dice Finn, las simulaciones iniciales proporcionaron una física básica que permitió al brazo aprender a aprender. Pero no pueden hacer frente a los detalles de tocar diferentes superficies, por lo que tareas como torcer la tapa del frasco o realizar una operación quirúrgica compleja requieren la experiencia adquirida en la realidad.
En el caso de problemas que son difíciles de simular, jugar contigo mismo ya no será tan útil. "Hay una gran diferencia entre un modelo de ambiente verdaderamente perfecto y un modelo ejemplar aprendido, especialmente cuando la realidad es realmente complicada", escribió
Yoshua Benggio , pionero del aprendizaje profundo de la Universidad de Montreal. Pero los investigadores de IA todavía tienen formas de seguir adelante.
La vida después de los juegos
Es difícil determinar el comienzo de la superioridad de la IA en los juegos. Puedes elegir la pérdida de Kasparov en el ajedrez, la derrota de Li Sedol en las manos virtuales de AlphaGo. Otra opción popular sería el día de 2011, cuando el legendario campeón del juego
Jeopardy! Ken Jennings perdió ante IBM Watson. Watson pudo manejar pistas y juegos de palabras. "Doy la bienvenida a la aparición de nuestros nuevos señores de las computadoras", escribió Jennings en su última respuesta.
Parecía que Watson tenía habilidades de oficina similares a las que usa la gente para resolver muchos problemas de la vida real. Podía percibir la entrada en inglés, procesar los documentos asociados con ella en un abrir y cerrar de ojos, buscar información conectada y elegir la mejor respuesta. Pero siete años después, la realidad sigue planteando obstáculos complejos para la IA. El
informe de salud de septiembre de Stat indicó que el heredero de Watson, un especialista en investigación del cáncer y pautas de tratamiento personalizado para Watson for Oncology, estaba teniendo problemas.
"Preguntas en el juego Jeopardy! Es más fácil de manejar, porque no necesita sentido común ", escribió Bengio, quien trabajó con el equipo de Watson, en respuesta a una solicitud para comparar los dos casos en términos de IA. “Comprender un artículo médico es mucho más difícil. Se requiere una gran cantidad de investigación básica ".
Pero a pesar de que los juegos están estrechamente especializados, se asemejan a varias tareas reales. Los investigadores de DeepMind no querían responder las preguntas de la entrevista, lo que indica que su trabajo en AlphaZero está siendo estudiado por expertos independientes. Pero el equipo sugirió que dicha tecnología pronto podría ayudar a los investigadores de biomedicina que quieran comprender el plegamiento de proteínas.
Para hacer esto, necesitan comprender cómo los diversos aminoácidos que forman la proteína se
doblan y se pliegan en una pequeña máquina tridimensional, cuya funcionalidad depende de su forma. Esta complejidad es similar a la complejidad del ajedrez: los químicos conocen las leyes a tal nivel que pueden calcular aproximadamente ciertos escenarios, pero hay tantas configuraciones posibles que no podrá buscar todas las opciones posibles. Pero, ¿y si el plegamiento de proteínas es un juego? Y esto ya se ha llevado a cabo. Desde 2008, cientos de miles de personas han probado el juego en línea
Foldit , en el que los usuarios reciben puntos por la estabilidad y la realidad de la estructura de proteínas que han acumulado. Una máquina podría entrenar de manera similar, quizás tratando de superar su mejor logro anterior con entrenamiento de refuerzo.
El aprendizaje de refuerzo y jugar con uno mismo puede ayudar a entrenar sistemas interactivos, sugiere Saskaver. Esto puede dar a los robots que necesitan hablar con las personas la oportunidad de entrenar en esto mientras hablan consigo mismos. Dado que el equipo especializado para IA se está volviendo más rápido y más asequible, los ingenieros obtienen más incentivos para diseñar tareas en forma de juegos. "Creo que en el futuro, aumentará la importancia de jugar contigo mismo y otras formas de consumir una gran cantidad de potencia informática", dijo Satskever.
Pero si el objetivo final de las máquinas es establecer una repetición de todo lo que una persona es capaz de hacer, entonces incluso el campeón generalizado en juegos de mesa como AlphaZero todavía tiene espacio para crecer. "Necesito prestar atención, al menos a mí, a la enorme brecha entre el pensamiento real, la exploración creativa de ideas y las capacidades actuales de la IA", dice
John Tenenbaum , un científico cognitivo en MTI.
"Tal inteligencia existe, pero hasta ahora solo en las mentes de los grandes investigadores de IA".Muchos otros investigadores, que perciben la exageración en su área, ofrecen sus propios criterios. “Recomendaría no sobreestimar la importancia de estos juegos, para la IA o para tareas de propósito general. La gente no es muy buena para jugar ", dice Francois Cholet, un investigador de aprendizaje profundo en Google. "Pero tenga en cuenta que incluso las herramientas muy simples y especializadas pueden lograr mucho".