OpenAI Universe. Plataforma abierta para entrenar IA fuerte


Un conjunto de tareas para el entrenamiento reforzado por una IA fuerte dentro del marco de la plataforma universal OpenAI

Fundada por Ilon Musk y sus asociados, la organización sin fines de lucro OpenAI, que tiene como objetivo crear inteligencia artificial segura (es decir, pública y abierta), ha dado el siguiente paso para implementar sus planes. OpenAI introdujo el middleware Universe para entrenar y aprender inteligencia artificial fuerte. Teóricamente, la capacitación puede llevarse a cabo sobre toda la información de la humanidad, accesible a través de Internet. Estos son juegos, sitios web y otras aplicaciones.

Solo nueve líneas de código, y su IA puede acceder a miles de entornos de entrenamiento.

Usando la plataforma de software Universe, un agente inteligente usará una computadora exactamente de la misma manera que una persona: mirará los píxeles de la pantalla de la computadora e interactuará usando el teclado y el mouse (mientras sea virtual).


La inteligencia artificial aprende el mundo a través de la interfaz VNC para el acceso remoto al escritorio.

Se supone que capacita al agente inteligente en un conjunto completo de tareas. La plataforma Universe abre para AI cualquier tarea que una persona pueda resolver en la computadora.

Entornos de gimnasio OpenAI


La apertura de una plataforma universal universal es una continuación de las acciones planificadas de OpenAI para crear una IA universal abierta en todo el mundo. En abril de este año, la organización lanzó una versión beta pública del kit de herramientas OpenAI Gym para desarrollar y comparar algoritmos de aprendizaje de refuerzo. El "gimnasio" OpenAI Gym consta de una gran cantidad de entornos (desde un simulador de robot humanoide hasta juegos de Atari ). Hay un sitio para comparar y reproducir los resultados .

OpenAI Gym es compatible con algoritmos escritos en cualquier marco, incluidos Tensorflow y Theano. Inicialmente, los entornos se crean en Python, pero en el futuro, los desarrolladores planean hacer posible implementarlos en cualquier lenguaje de programación.

OpenAI cree que el aprendizaje por refuerzo es una forma importante de aprendizaje automático que mejorará en gran medida la inteligencia artificial. En el proceso de aprendizaje mediante este método, el sistema de prueba (agente) aprende interactuando con un determinado entorno. A diferencia de la enseñanza tradicional con un maestro, la respuesta a las decisiones de IA tomadas son señales de refuerzo, mientras que algunas reglas de refuerzo se forman dinámicamente y son difíciles de entender, es decir, en función de la actividad simultánea de las neuronas formales.


La señal de refuerzo es reconocida por el módulo óptico de reconocimiento de texto a una velocidad de 60 fps: video

Middleware OpenAI Universe


El universo presentado hoy es middleware que es totalmente compatible con el kit de herramientas OpenAI Gym y los entornos de tiempo de ejecución. Gracias a este middleware, está planeado aumentar radicalmente la cantidad de entornos para entrenar IA.

Anteriormente, el catálogo más grande de aplicaciones de aprendizaje de refuerzo incluía solo 55 juegos de Atari (Atari Learning Environment), pero en la plataforma Universe se espera que aparezcan juegos de muchos otros desarrolladores, incluidos Valve, EA y Microsoft.

Desde el principio, miles de juegos (juegos flash, serpientes multijugador Slither , Starcraft, GTA V y otros), una variedad de tareas del navegador (como completar formularios) y aplicaciones (como los rompecabezas fold.it ) están disponibles a través del middleware de Universe) Casi cualquier juego se puede lanzar libremente usando el universo de la biblioteca de Python , que se publica en el dominio público en Github.

import gym
import universe # register Universe environments into Gym

env = gym.make('flashgames.DuskDrive-v0') # any Universe environment ID here
observation_n = env.reset()

while True:
  # agent which presses the Up arrow 60 times per second
  action_n = [[('KeyEvent', 'ArrowUp', True)] for _ in observation_n]
  observation_n, reward_n, done_n, info = env.step(action_n)
  env.render()

El código anterior lanza un agente de inteligencia artificial para jugar el juego Dusk Drive .

Juego Dusk Drive

"Nuestro objetivo final es desarrollar un único agente inteligente que pueda aplicar de manera flexible la experiencia adquirida en Universe para resolver nuevos problemas y ganar rápidamente nueva experiencia, lo que será un paso importante hacia una IA fuerte", dijo la declaración de OpenAI. .

Los entornos de software de universo se instalan en contenedores Docker. Como ya se mencionó, se comunican con el agente intelectual a través de la interfaz visual, a través de la "pantalla", el "teclado" y el "mouse", como con una persona. La interfaz se implementa utilizando el programa VNC para acceso remoto al escritorio.

En teoría, la mejora constante de las habilidades de IA con la acumulación de experiencia en varias tareas pequeñas lo ayudará a dominar cada tarea nueva cada vez más rápido, utilizando el conocimiento existente. La plataforma y el conjunto de entornos Universe pueden convertirse para los agentes intelectuales en la misma plataforma unificada estándar para entrenamiento y entrenamiento de refuerzo que el conjunto de datos ImageNet : una base de datos de imágenes para entrenar clasificadores de redes neuronales cuando se enseña con un maestro.

El entrenamiento reforzado puede ser muy efectivo. Por ejemplo, el agente intelectual del Universo se entrenó durante unos seis días para jugar el juego web multijugador Slither. Después de seis días, la IA gana un promedio de 1,000 puntos en las sesiones de juego con un puntaje máximo de 1,400 puntos. A modo de comparación, un empleado de una organización OpenAI con cinco horas de experiencia en juegos gana un promedio de 1.400 puntos con un resultado máximo de 7050.

Actualmente, los agentes a través del middleware Universe están disponibles en los siguientes juegos y aplicaciones de los socios de OpenAI: Portal , Fable Anniversary , World of Goo , RimWorld , Slime Rancher , Shovel Knight , SpaceChem, Wing Commander III , Command & Conquer: Red Alert 2 , Syndicate , Magic Carpet , Mirror's Edge , Sid Meier's Alpha Centauri y Wolfram Mathematica . La lista aumentará.

Source: https://habr.com/ru/post/es399701/


All Articles