El progreso en el juego "La venganza de Montezuma" fue considerado por muchos como un sinónimo de logros en el estudio de entornos desconocidos

Hemos desarrollado un método predictivo de destilación de red aleatoria (RND) que alienta a los agentes de aprendizaje reforzados a explorar el entorno a través de la curiosidad. Este método excedió por primera vez los resultados humanos promedio en el juego de computadora "La venganza de Montezuma" (a excepción de la aplicación anónima en el ICLR, donde el resultado es peor que el nuestro). RND demuestra eficiencia ultramoderna, encuentra periódicamente las 24 habitaciones y pasa el primer nivel sin demostración preliminar y sin acceso al estado básico del juego.

El método RND estimula la transición de un agente a estados desconocidos al medir la complejidad de predecir el resultado de superponer una red neuronal aleatoria aleatoria en datos de estado. Si la condición no es familiar, entonces el resultado final es difícil de predecir, lo que significa que la recompensa es alta. El método se puede aplicar a cualquier algoritmo de aprendizaje de refuerzo; es simple de implementar y efectivo para escalar. A continuación hay un enlace a la implementación de RND, que reproduce los resultados de nuestro artículo.

Texto de un artículo científico , código.

Resultados en la venganza de Montezuma

Para lograr la meta deseada, el agente primero debe estudiar qué acciones son posibles en el entorno y qué constituye el progreso hacia la meta. Muchas señales de recompensa en los juegos proporcionan un plan de estudios, por lo que incluso las estrategias de investigación simples son suficientes para lograr el objetivo. En el trabajo inicial con la presentación de DQN , la venganza de Montezuma fue el único juego donde DQN mostró el resultado del 0% del puntaje humano promedio (4700) . Es poco probable que las estrategias de inteligencia simples obtengan recompensas y no encuentren más que unas pocas habitaciones en el nivel. Desde entonces, el progreso en el juego La venganza de Montezuma ha sido visto por muchos como sinónimo de avances en el estudio de entornos desconocidos.

Se logró un progreso significativo en 2016 al combinar DQN con una bonificación en el mostrador, como resultado de lo cual el agente logró encontrar 15 habitaciones y obtener la puntuación más alta de 6600 con un promedio de aproximadamente 3700. Desde entonces, las mejoras significativas en el resultado se logran solo a través de demostraciones de personas expertas o accediendo a los estados base del emulador .

Llevamos a cabo un experimento RND a gran escala con 1024 trabajadores, obteniendo un resultado promedio de 10,000 en 9 inicios y un mejor resultado promedio de 14,500 . En cada caso, el agente encontró 20-22 habitaciones. Además, en un lanzamiento más pequeño, pero más largo (de 10), el resultado máximo es 17,500, que corresponde a pasar el primer nivel y encontrar las 24 habitaciones . El siguiente gráfico compara estos dos experimentos, mostrando el valor promedio dependiendo de los parámetros de actualización.

La siguiente visualización muestra el progreso del experimento a menor escala. El agente, bajo la influencia de la curiosidad, abre nuevas salas y encuentra formas de sumar puntos. Durante el entrenamiento, esta recompensa externa lo obliga a regresar a estas salas más tarde.

Las habitaciones descubiertas por el agente y el resultado promedio durante el entrenamiento. El grado de transparencia de la habitación corresponde a cuántas veces de 10 pases del agente se detectó. Video

Estudio de aprendizaje a gran escala basado en la curiosidad.

Antes de desarrollar RND, nosotros, junto con el personal de la Universidad de California en Berkeley, exploramos el aprendizaje sin ninguna recompensa ambiental. La curiosidad proporciona una manera más fácil de enseñar a los agentes a interactuar con cualquier entorno, en lugar de utilizar una función de recompensa especialmente diseñada para una tarea específica, que aún no es un hecho que corresponda a la solución del problema. En proyectos como ALE , Universe , Malmo , Gym , Gym Retro , Unity , DeepMind Lab , CommAI , se abre una gran cantidad de entornos simulados para el agente a través de una interfaz estandarizada. Un agente que utiliza una función de recompensa generalizada que no es específica de un entorno particular puede adquirir un nivel básico de competencia en una amplia gama de entornos. Esto le permite determinar un comportamiento útil incluso en ausencia de recompensas elaboradas.

Texto de un artículo científico , código.

En entornos de entrenamiento estándar con refuerzo en cada paso de tiempo discreto, el agente envía la acción al entorno, y reacciona, brindándole al agente una nueva observación, una recompensa por la transición y un indicador del final del episodio. En nuestro artículo anterior, configuramos el entorno para producir solo la siguiente observación. Allí, el agente estudia el modelo predictivo del siguiente estado en función de su experiencia y utiliza el error de predicción como una recompensa interna. Como resultado, se siente atraído por la imprevisibilidad. Por ejemplo, un cambio en la cuenta del juego se recompensa solo si la cuenta se muestra en la pantalla y el cambio es difícil de predecir. Un agente, por regla general, encuentra interacciones útiles con nuevos objetos, ya que los resultados de tales interacciones suelen ser más difíciles de predecir que otros aspectos del entorno.

Al igual que otros investigadores , tratamos de evitar modelar todos los aspectos del entorno, independientemente de si son relevantes o no, eligiendo las características de observación para el modelado. Sorprendentemente, encontramos que incluso las funciones aleatorias funcionan bien.

¿Qué hacen los agentes curiosos?

Probamos nuestro agente en más de 50 entornos diferentes y observamos una gama de competencias desde acciones aparentemente aleatorias hasta interacción consciente con el entorno. Para nuestra sorpresa, en algunos casos, el agente logró pasar el juego, aunque no se le informó el objetivo a través de una recompensa externa.

Retribución interna al inicio de la formación.

El salto en recompensa interna en el primer paso del nivel.

Breakout : salta en la recompensa interna cuando el agente ve una nueva configuración de bloques en una etapa temprana de entrenamiento y cuando el nivel pasa por primera vez después de entrenar durante varias horas.

Pong : entrenamos al agente para controlar ambas plataformas simultáneamente, y aprendió a mantener la pelota en el juego, lo que condujo a peleas prolongadas. Incluso cuando entrenaba contra la IA en el juego, el agente intentó maximizar el juego y no ganar.

Bolos : el agente aprendió a jugar mejor que otros agentes que fueron entrenados directamente para maximizar la recompensa externa. Creemos que esto sucede porque el agente se siente atraído por el parpadeo apenas predecible del marcador después de los lanzamientos.

Mario : la recompensa interna está particularmente bien alineada con el objetivo del juego: progresión de nivel. El agente es recompensado por buscar nuevas áreas, ya que los detalles del área recién encontrada no se pueden predecir. Como resultado, el agente descubrió 11 niveles, encontró habitaciones secretas e incluso derrotó a jefes.

Problema ruidoso de TV

Como jugador en una máquina tragamonedas, atraído por resultados aleatorios, el agente a veces cae en la trampa de su curiosidad como resultado del "problema ruidoso de la televisión". El agente encuentra una fuente de aleatoriedad en el entorno y continúa observándola, siempre experimentando una alta recompensa interna por tales transiciones. Un ejemplo de esa trampa es mirar un televisor que produce ruido estático. Demostramos esto literalmente al poner al agente en el laberinto de Unity con un televisor que reproduce canales aleatorios.

Agente en un laberinto con una televisión ruidosa

Agente en un laberinto sin televisión ruidosa

Teóricamente, el problema de un televisor ruidoso es realmente grave, pero aún esperábamos que en entornos mucho más deterministas como la venganza de Montezuma, la curiosidad haría que el agente encontrara habitaciones e interactuara con objetos. Probamos varias opciones para predecir el siguiente estado basado en la curiosidad, combinando un bono de investigación con una cuenta de juego.

En estos experimentos, el agente controla el entorno a través de un controlador de ruido, que con cierta probabilidad repite la última acción en lugar de la actual. Este escenario con acciones repetidas "pegajosas" se ha propuesto como una mejor práctica para entrenar agentes en juegos totalmente deterministas, como Atari, para evitar la memorización. Las acciones "pegajosas" hacen que la transición de una habitación a otra sea impredecible.

Destilación de red aleatoria

Dado que predecir el siguiente estado es inherentemente susceptible al problema de un televisor ruidoso, hemos identificado las siguientes fuentes relevantes de errores de predicción:

Factor 1 . El error de pronóstico es alto si el predictor no puede generalizar a partir de los ejemplos considerados anteriormente. La nueva experiencia corresponde a un error de predicción alto.
Factor 2 El error de pronóstico es alto debido al objetivo de pronóstico estocástico.
Factor 3 . El error de pronóstico es alto debido a la falta de información necesaria para el pronóstico, o porque la clase del modelo predictor es demasiado limitada para ajustarse a la complejidad de la función objetivo.

Determinamos que el factor 1 es una fuente útil de errores porque cuantifica la novedad de la experiencia, mientras que los factores 2 y 3 conducen al problema de un televisor ruidoso. Para evitar los factores 2 y 3, desarrollamos RND, un nuevo bono de investigación basado en la predicción de la emisión de una red neuronal constante y aleatoriamente inicializada en el siguiente estado, teniendo en cuenta el siguiente estado .

La intuición sugiere que los modelos predictivos tienen un bajo error al predecir las condiciones en las que fue entrenada. En particular, las predicciones del agente sobre la emisión de una red neuronal inicializada aleatoriamente serán menos precisas en los nuevos estados que en los estados que el agente solía conocer antes. La ventaja de usar el problema de pronóstico sintético es que puede ser determinista (omitiendo el factor 2), y dentro de la clase de funciones, el predictor puede elegir un predictor de la misma arquitectura que la red objetivo (omitiendo el factor 3). Esto elimina el problema RND de un televisor ruidoso.

Combinamos el bono de investigación con recompensas externas a través de una forma de optimización de la política más cercana: Optimización de política proximal ( PPO ), que utiliza dos valores de valor para dos flujos de recompensa . Esto le permite usar diferentes descuentos para diferentes recompensas y combinar recompensas episódicas y no episódicas. Debido a esa flexibilidad adicional, nuestro mejor agente a menudo encuentra 22 de 24 habitaciones en el primer nivel en la venganza de Montezuma, y a veces pasa el primer nivel después de encontrar las dos habitaciones restantes. El mismo método demuestra un rendimiento récord en los juegos Venture y Gravitar.

La siguiente visualización muestra un gráfico de la recompensa interna en el episodio de Venganza de Montezuma, donde el agente encuentra por primera vez la antorcha.

La implementación competente es importante

Para seleccionar un buen algoritmo, es importante tener en cuenta consideraciones generales, como la susceptibilidad al problema de un televisor ruidoso. Sin embargo, descubrimos que cambios aparentemente muy pequeños en nuestro algoritmo simple afectan en gran medida su efectividad: desde un agente que no puede salir de la primera sala hasta un agente que pasa por el primer nivel. Para agregar estabilidad al entrenamiento, evitamos la saturación de rasgos y llevamos las recompensas internas a un rango predecible. También notamos mejoras significativas en la efectividad de RND cada vez que encontramos y reparamos un error (nuestro favorito incluía la puesta a cero aleatoria de la matriz, lo que llevó al hecho de que las recompensas externas se consideraban no episódicas; nos dimos cuenta de esto solo después de pensar en la función de valor externo , que parecía sospechosamente periódico). Corregir estos detalles se ha convertido en una parte importante para lograr un alto rendimiento incluso cuando se utilizan algoritmos conceptualmente similares al trabajo anterior. Esta es una de las razones por las cuales es mejor elegir algoritmos simples siempre que sea posible.

Trabajo futuro

Ofrecemos las siguientes áreas para futuras investigaciones:

Análisis de las ventajas de diferentes métodos de investigación y búsqueda de nuevas formas de combinarlos.
Capacitar a un agente curioso en muchos entornos diferentes sin recompensas y aprender a transferir a un entorno objetivo con recompensas.
Inteligencia global, incluidas soluciones coordinadas a lo largo de horizontes a largo plazo.

Una nueva realización de la curiosidad en IA. Entrenamiento con una recompensa que depende de la dificultad para predecir el resultado