🕍 🔖 ㊙️ Agentes de aprendizaje automático en Unity 👋🏿 ☑️ 👲🏾

Este artículo sobre agentes de aprendizaje automático en Unity fue escrito por Michael Lanham, un innovador técnico, desarrollador activo de Unity, consultor, gerente y autor de muchos juegos, proyectos gráficos y libros de Unity.

Los desarrolladores de Unity han implementado el soporte para el aprendizaje automático y, en particular, el aprendizaje por refuerzo en aras de crear SDK de aprendizaje por refuerzo profundo (DRL) para desarrolladores de juegos y simulación. Afortunadamente, el equipo de Unity, dirigido por Danny Lange, ha implementado con éxito un motor DRL confiable y moderno capaz de ofrecer resultados impresionantes. Unity utiliza el modelo de optimización de política proximal (PPO) como base del motor DRL; Este modelo es mucho más complejo y puede diferir en algunos aspectos.

En este artículo, te presentaré las herramientas y los SDK para crear agentes DRL en juegos y simulaciones. A pesar de la novedad y el poder de esta herramienta, es fácil de usar y tiene herramientas auxiliares que le permiten aprender conceptos de aprendizaje automático sobre la marcha. Para trabajar con el tutorial, necesita instalar el motor de Unity.

Instalar agentes ML

En esta sección, hablaré brevemente sobre los pasos que se deben seguir para instalar el SDK de ML-Agents. Este material aún está en versión beta y puede variar de una versión a otra. Sigue estos pasos:

Instale Git en la computadora; Funciona desde la línea de comando. Git es un sistema de gestión de código fuente muy popular, y hay muchos recursos en Internet sobre la instalación y el uso de Git en todas las plataformas. Después de instalar Git, asegúrese de que funcione creando un clon de cualquier repositorio.
Abra un símbolo del sistema o un shell normal. Los usuarios de Windows pueden abrir la ventana de Anaconda.
Vaya a la carpeta de trabajo donde desea colocar su nuevo código e ingrese el siguiente comando (los usuarios de Windows pueden seleccionar C: \ ML-Agents):
```
  git clone https://github.com/Unity-Technologies/ml-agents 
```
Así que clonas el repositorio de ml-agents en tu computadora y creas una nueva carpeta con el mismo nombre. También puede agregar un número de versión al nombre de la carpeta. La unidad, como casi todo el mundo de la inteligencia artificial, cambia constantemente, al menos por ahora. Esto significa que constantemente aparecen nuevos cambios. Al momento de escribir, estamos clonando el repositorio en la carpeta ml-agents.6:
```
  git clone https://github.com/Unity-Technologies/ml-agents ml-agents.6 
```

Cree un nuevo entorno virtual para ml-agents y especifique la versión 3.6, como esta:

  #Windows 
 conda create -n ml-agents python = 3.6
 
 #Mac
 Use la documentación para su entorno preferido

Activa tu entorno nuevamente con Anaconda:
```
  activar ml-agentes 
```
Instale TensorFlow. En Anaconda, esto se puede hacer con el siguiente comando:
```
  pip install tensorflow == 1.7.1 
```

Instalar paquetes de Python. En Anaconda, ingrese lo siguiente:

cd ML-Agents #from root folder cd ml-agents or cd ml-agents.6 #for example cd ml-agents pip install -e . or pip3 install -e .

Por lo tanto, instala todos los paquetes necesarios del SDK de Agentes; Esto puede tomar varios minutos. No cierre la ventana, pronto será útil.

Así que instalamos y configuramos Unity Python SDK para ML-Agents. En la siguiente sección, aprenderemos cómo configurar y capacitar uno de los muchos entornos proporcionados por Unity.

Entrenamiento de agente

Ahora podemos ponernos manos a la obra de inmediato y explorar ejemplos que utilizan el aprendizaje de refuerzo profundo (DRL). Afortunadamente, hay varios ejemplos en el conjunto de herramientas del nuevo agente para demostrar la potencia del motor. Abra Unity o Unity Hub y siga estos pasos:

Haga clic en el botón Abrir proyecto en la parte superior del cuadro de diálogo Proyecto.
Ubique y abra la carpeta del proyecto UnitySDK, como se muestra en la captura de pantalla:

Abra el proyecto Unity SDK
Espere a que se cargue el proyecto y luego abra la ventana Proyecto en la parte inferior del editor. Si se abre una ventana pidiéndole que actualice el proyecto, seleccione sí o continúe. Actualmente, todo el código de agente es compatible con versiones anteriores.
Localice y abra la escena GridWorld como se muestra en la captura de pantalla:

Abrir un ejemplo de una escena de GridWorld
Seleccione el objeto GridAcademy en la ventana Jerarquía.
Vaya a la ventana del Inspector y al lado del campo Cerebros, haga clic en el icono para abrir el cuadro de diálogo Selección de cerebro:
Seleccione el cerebro del GridWorldPlayer. Este cerebro pertenece al jugador, es decir, el jugador (usted) puede controlar el juego.
Haga clic en el botón Reproducir en la parte superior del editor y observe el entorno. Como el juego ahora está configurado para controlar al jugador, puedes usar las teclas WASD para mover el cubo. La tarea es mover el cubo azul al símbolo verde +, evitando la X roja.

Ponte cómodo en el juego. Tenga en cuenta que el juego solo funciona durante un cierto período de tiempo y no está basado en turnos. En la siguiente sección, aprenderemos cómo ejecutar este ejemplo con el agente DRL.

¿Qué hay en el cerebro?

Uno de los aspectos sorprendentes de la plataforma ML-Agents es la capacidad de cambiar rápida y fácilmente de la gestión de jugadores a la gestión de AI / agente. Para esto, Unity utiliza el concepto de "cerebro". El cerebro puede ser controlado por el jugador o por el agente (cerebro de aprendizaje). Lo más sorprendente es que puedes armar el juego y probarlo como jugador, y luego darlo bajo el control de un agente de RL. Gracias a esto, cualquier juego escrito con un poco de esfuerzo puede hacerse para ser controlado usando IA.

El proceso de configurar e iniciar la capacitación de agentes RL en Unity es bastante simple. Unity usa Python externo para construir un modelo del cerebro de aprendizaje. Usar Python tiene mucho sentido porque ya hay varias bibliotecas de aprendizaje profundo (DL) construidas a su alrededor. Para capacitar al agente en GridWorld, complete los siguientes pasos:

Seleccione GridAcademy nuevamente y seleccione el cerebro GridWorldLearning en el campo Brains en lugar de GridWorldPlayer:

Cambio al uso de GridWorldLearning Brain
Marque la casilla Control a la derecha. Este parámetro simple informa que el cerebro puede controlarse externamente. Esta opción debe estar habilitada.
Seleccione el objeto trueAgent en la ventana Jerarquía y luego, en la ventana Inspector, cambie la propiedad Cerebro del componente Agente de cuadrícula al cerebro Aprendizaje mundial de Grid:

Trabajo de GridWorldLearning brain para agente
En este ejemplo, necesitamos que tanto Academy como Agent utilicen el mismo cerebro de GridWorldLearning. Cambie a la ventana Anaconda o Python y seleccione la carpeta ML-Agents / ml-agents.
Ejecute el siguiente comando en una ventana de Anaconda o Python utilizando el entorno virtual ml-agents:
```
  mlagents-learn config / trainer_config.yaml --run-id = firstRun --train 
```
Esto lanzará el modelo de capacitación Unity PPO y un agente de ejemplo con la configuración especificada. En cierto punto, la ventana del símbolo del sistema le pedirá que inicie el editor de Unity con el entorno cargado.
Haga clic en Reproducir en el editor de Unity para iniciar el entorno GridWorld. Poco después, debería ver el entrenamiento del agente y la salida a la ventana del script Python:

Ejecutar GridWorld en modo de aprendizaje
Tenga en cuenta que el script mlagents-learn es un código de Python que crea un modelo RL para ejecutar un agente. Como puede ver en el resultado de la secuencia de comandos, hay varios parámetros (hiperparámetros) que deben configurarse.
Deje que el agente aprenda algunos miles de iteraciones y observe qué tan rápido aprende. El modelo interno utilizado aquí llamado PPO ha demostrado ser un modelo de aprendizaje muy efectivo para muchas tareas diferentes, y es muy adecuado para el desarrollo de juegos. Con un equipo suficientemente potente, un agente puede aprender idealmente en menos de una hora.

Permita que el agente aprenda más y explore otras formas de rastrear el proceso de aprendizaje del agente, como se presenta en la siguiente sección.

Monitoreo del aprendizaje con TensorBoard

Capacitar a un agente utilizando el modelo RL o cualquier modelo DL a menudo es una tarea desalentadora y requiere atención al detalle. Afortunadamente, TensorFlow tiene un conjunto de herramientas de gráficos llamado TensorBoard que puede usar para monitorear su proceso de aprendizaje. Siga estos pasos para iniciar TensorBoard:

Abra una ventana de Anaconda o Python. Active el entorno virtual de ml-agents. No cierre la ventana en la que se ejecuta el modelo de entrenamiento; Lo necesitamos para continuar.
Vaya a la carpeta ML-Agents / ml-agents y ejecute el siguiente comando:
```
  tensorboard --logdir = resúmenes 
```
Entonces lanzamos TensorBoard en nuestro propio servidor web incorporado. Puede cargar la página utilizando la URL que se muestra después del comando anterior.
Ingrese la URL para el TensorBoard como se muestra en la ventana, o escriba localhost: 6006 o machinename: 6006 en el navegador. Después de aproximadamente una hora, debería ver algo como esto:

Ventana de tabla de TensorBoard
La captura de pantalla anterior muestra gráficos, cada uno de los cuales muestra un aspecto separado del entrenamiento. Para comprender cómo se capacita a nuestro agente, debe lidiar con cada uno de estos gráficos, por lo que analizaremos el resultado de cada sección:

Entorno: esta sección muestra cómo el agente se manifiesta en el entorno en su conjunto. A continuación se muestra una vista más detallada de los gráficos con la tendencia preferida:

Una imagen detallada de los gráficos de la sección Medio ambiente.

Recompensa acumulativa: esta es la recompensa total que maximiza al agente. Por lo general, es necesario que aumente, pero por alguna razón puede disminuir. Siempre es mejor maximizar las recompensas entre 1 y -1. Si las recompensas de horario van más allá de este rango, entonces esto también necesita ser arreglado.
Duración del episodio: si este valor disminuye, generalmente es una buena señal. En última instancia, cuanto más cortos son los episodios, más entrenamiento. Sin embargo, tenga en cuenta que si es necesario, la duración de los episodios puede aumentar, por lo que la imagen puede ser diferente.
Lección: este cuadro deja en claro en qué lección se encuentra el agente; Está destinado al aprendizaje curricular.
Pérdidas: esta sección muestra gráficos que representan las pérdidas o los costos calculados para la póliza y el valor. A continuación se muestra una captura de pantalla de esta sección con flechas que apuntan a la configuración óptima:

Pérdidas y entrenamiento preferido

Pérdida de póliza: este cuadro determina la cantidad de cambio de póliza a lo largo del tiempo. La política es un elemento que define acciones, y en el caso general, este cronograma debe tender a la baja, lo que demuestra que la política está tomando mejores decisiones.
Pérdida de valor: esta es la pérdida promedio de la función de valor. En esencia, modela qué tan bien el agente predice el valor de su próximo estado. Inicialmente, este valor debería aumentar, y después de la estabilización de la remuneración, debería disminuir.
Política: para evaluar la calidad de las acciones en PPO, se utiliza el concepto de una política, no un modelo. La siguiente captura de pantalla muestra los cuadros de políticas y la tendencia preferida:

Gráficos de políticas y tendencias preferidas
Entropía: este gráfico muestra la magnitud del agente de investigación. Es necesario reducir este valor, porque el agente aprende más sobre el medio ambiente y necesita menos investigación.
Tasa de aprendizaje: en este caso, este valor debería disminuir gradualmente linealmente.
Estimación del valor: este es el valor promedio visitado por todos los estados del agente. Para reflejar el mayor conocimiento de un agente, este valor debe crecer y luego estabilizarse.

6. Deje el agente en funcionamiento hasta que se complete y no cierre el TensorBoard.
7. Regrese a la ventana Anaconda / Python que entrenó al cerebro y ejecute este comando:

  mlagents-learn config / trainer_config.yaml --run-id = secondRun --train

8. Nuevamente se le pedirá que haga clic en Reproducir en el editor; entonces hazlo. Deje que el agente comience a entrenar y realice varias sesiones. En el proceso, observe la ventana de TensorBoard y observe cómo se muestra secondRun en los gráficos. Puede dejar que este agente se ejecute hasta su finalización, pero puede detenerlo si lo desea.

En versiones anteriores de ML-Agents, primero tenía que construir el ejecutable de Unity como entorno de aprendizaje para el juego y luego ejecutarlo. El cerebro externo de Python debería haber funcionado de la misma manera. Este método hizo muy difícil depurar problemas en el código o en el juego. En la nueva técnica, se eliminaron todas estas dificultades.

Ahora que hemos visto lo fácil que es configurar y entrenar al agente, pasaremos a la siguiente sección, en la que aprenderemos cómo ejecutar el agente sin el cerebro externo de Python y ejecutarlo directamente en Unity.

Lanzamiento de agente

El entrenamiento de Python es genial, pero no puedes usarlo en un juego real. Idealmente, nos gustaría construir un gráfico TensorFlow y usarlo en Unity. Afortunadamente, se creó la biblioteca TensorFlowSharp que permite a .NET usar gráficos TensorFlow. Esto nos permite construir modelos TFModels fuera de línea y luego inyectarlos en el juego. Desafortunadamente, solo podemos usar modelos entrenados, pero no entrenarlos de esa manera, al menos no todavía.

Veamos cómo funciona esto, usando el ejemplo del gráfico que acabamos de entrenar para el entorno GridWorld; Úselo como un cerebro interno en la Unidad. Siga los pasos en la siguiente sección para configurar y usar su cerebro interno:

Descargue el complemento TFSharp desde aquí
En el menú del editor, seleccione Activos | Paquete de importación | Paquete personalizado ...
Encuentre el paquete de activos que acaba de descargar y use los cuadros de diálogo de importación para cargar el complemento en el proyecto.
Desde el menú, seleccione Editar | Configuración del proyecto. Se abre la ventana Configuración (apareció en la versión 2018.3)
Encuentre los caracteres de Scripting Define Symbols en las opciones del reproductor y cambie el texto a ENABLE_TENSORFLOW, y también habilite Permitir código inseguro, como se muestra en la captura de pantalla:

Establecer la bandera ENABLE_TENSORFLOW
Busque el objeto GridWorldAcademy en la ventana Jerarquía y asegúrese de que utiliza Brains | GridWorldLearning. Deshabilite la opción Control en la sección Cerebros del script de Grid Academy.
Encuentre el cerebro de GridWorldLearning en la carpeta Activos / Ejemplos / GridWorld / Brains y asegúrese de que el parámetro Modelo en la ventana del Inspector esté configurado, como se muestra en la captura de pantalla:

Tarea modelo para el cerebro
GridWorldLearning ya debería estar configurado como modelo. En este ejemplo, usamos el TFModel que viene con el ejemplo de GridWorld.
Haga clic en Reproducir para iniciar el editor y ver cómo el agente administra el cubo.

Ahora estamos lanzando el entorno pre-entrenado de Unity. En la siguiente sección, aprenderemos cómo usar el cerebro que entrenamos en la sección anterior.

Carga cerebral entrenada

Todos los ejemplos de Unity tienen cerebros pre-entrenados que pueden usarse para estudiar ejemplos. Por supuesto, queremos poder cargar nuestros propios gráficos TF en Unity y ejecutarlos. Para cargar un gráfico entrenado, siga estos pasos:

Vaya a la carpeta ML-Agents / ml-agents / models / firstRun-0. Dentro de esta carpeta está el archivo GridWorldLearning.bytes. Arrastre este archivo a la carpeta Proyecto / Activos / Agentes ML / Ejemplos / GridWorld / TFModels dentro del editor de Unity:

Arrastrando un gráfico de bytes a Unity
Por lo tanto, importamos el gráfico en el proyecto de Unity como un recurso y le cambiamos el nombre a GridWorldLearning 1. El motor hace esto porque el modelo predeterminado ya tiene el mismo nombre.
Busque GridWorldLearning en la carpeta del cerebro, selecciónelo en la ventana del Inspector y arrastre el nuevo modelo GridWorldLearning 1 al campo Modelo de los parámetros de Parámetros cerebrales:

Cargando el cerebro en el campo Modelo de gráfico
En esta etapa, no necesitamos cambiar ningún otro parámetro, sino prestar especial atención a cómo está configurado el cerebro. Por ahora, la configuración estándar servirá.
Haga clic en Jugar en el editor de Unity y vea cómo el agente se mueve con éxito en el juego.
El éxito del agente en el juego depende del tiempo de su entrenamiento. Si le permites completar el entrenamiento, el agente será similar a un agente de Unity completamente entrenado.