🆖 🤵🏿 💣 Aprendizaje automático reforzado de redes neuronales profundas en tensorflow.js: trucos 🏈 👂🏻 🤜🏻

Entrenar redes neuronales profundas desde cero no es una tarea fácil.

Se necesitan muchos datos y tiempo para aprender, pero algunos trucos pueden ayudar a acelerar el proceso, del que hablaré más adelante.

Demostración del paso de un laberinto simple utilizando trucos. Duración del entrenamiento de red: 1 hora 06 minutos. Grabación acelerada 8 veces.

Para cada tarea, debe desarrollar su propio conjunto de trucos para acelerar el aprendizaje en red. Compartiré algunos trucos que me ayudaron a entrenar la red mucho más rápido.

Para conocimientos teóricos, recomiendo cambiar al canal sim0nsays .
Y contaré sobre mis modestos éxitos en el entrenamiento de redes neuronales.

Declaración del problema.

Aproximar la función de convergencia minimizando la función de pérdida cuadrática mediante la propagación hacia atrás del error por redes neuronales profundas.

Tenía una opción de estrategia sobre cómo entrenar una red neuronal.
Fomente la finalización exitosa de la tarea o aliente a medida que se acerca a la finalización de la tarea.

Elegí el segundo método, por dos razones:

La probabilidad de que la red llegue a la línea de meta por sí sola es muy pequeña, por lo que estará condenada a recibir mucho refuerzo negativo. Esto restablecerá los pesos de todas las neuronas y la red no será capaz de seguir entrenando.
Las redes neuronales profundas son poderosas. No excluyo que el primer método hubiera sido exitoso si tuviera una gran potencia informática y mucho tiempo para la capacitación. Tomé el camino de menor costo desarrollando trucos.

Arquitectura de red neuronal

La arquitectura se está desarrollando experimentalmente, basada en la experiencia del arquitecto y la buena suerte.

Arquitectura para resolver el problema:

3 neuronas de entrada: las coordenadas del agente y el valor de la célula pasada (normalizamos en el rango de 0 a 1).
2 capas ocultas de 256 y 128 neuronas (reducimos la dimensión de las capas hacia la salida de la red).
1 capa de caída de neuronas aleatorias para la red de aprendizaje de sostenibilidad.
4 neuronas de salida: la probabilidad de decidir qué lado elegir para el siguiente paso.
Función de activación neuronal: sigmoidea. Optimizador: Adam.

sigmoid da 4 probabilidades en la salida en el rango de 0 a 1, eligiendo el máximo, obtenemos el lado para el siguiente paso: [jumpTop, jumpRight, jumpBottom, jumpLeft].

Desarrollo de la arquitectura

La reentrenamiento ocurre cuando se usan modelos demasiado complejos.

Esto es cuando la red recordó los datos de entrenamiento y para los nuevos datos que la red aún no ha visto, funcionará mal porque la red no necesitaba buscar generalizaciones, ya que tenía suficiente memoria para memorizar.

Falta de educación - con modelos insuficientemente complejos. Esto es cuando la red tenía pocos datos de entrenamiento para encontrar generalizaciones.

Conclusión: cuantas más capas y neuronas contengan, más datos se necesitan para el entrenamiento.

Campo de juego

Reglas del juego

0: al ingresar a esta celda, el agente se destruye.
1..44 - Celdas cuyos valores aumentan con cada paso.
Cuanto más lejos vaya el agente, más recompensa recibirá.
45 - Acabado. Al mismo tiempo, el entrenamiento no ocurre, solo cuando todos los agentes son destruidos, y el final es una excepción que simplemente usa la red ya entrenada para el próximo pronóstico desde el comienzo del laberinto.

Descripción de los parámetros.

El agente tiene una "antena" en cuatro direcciones: desempeña el papel de inteligencia ambiental y es una descripción de las coordenadas del agente y el valor de la celda en la que se encuentra.

La descripción juega el papel de predecir la siguiente dirección para el movimiento del agente. Es decir, el agente escanea de antemano lo que sigue y, en consecuencia, con el tiempo, la red aprende a moverse en la dirección de aumentar el valor de la celda y no ir más allá de los límites del movimiento permisible.

El propósito de la red neuronal: obtener más recompensas.
Propósito de aprendizaje: para alentar las acciones correctas, cuanto más cerca esté el agente de resolver la tarea, mayor será la recompensa para la red neuronal.

Trucos

Los primeros intentos de aprender sin trucos tomaron varias horas de entrenamiento y el resultado estuvo lejos de ser completo. Aplicando ciertas técnicas, ¡el resultado se logró en solo una hora y seis minutos!

Agente en bucle

Durante el entrenamiento, la red comenzó a tomar decisiones, hacer movimientos de ida y vuelta, el problema del "uso". Ambos movimientos dan a la red una recompensa positiva, que detuvo el proceso de exploración del laberinto y no permitió salir del mínimo local.

El primer intento de solución fue limitar el número de movimientos del agente, pero esto no fue óptimo, ya que el agente pasó mucho tiempo en un ciclo antes de la autodestrucción. La mejor solución era destruir al agente si iba a la celda con un valor más bajo que el que estaba parado: la prohibición de ir en la dirección opuesta.

Investigar o usar

Se usó un truco simple para explorar los caminos alrededor de la posición actual del agente: en cada paso, 5 agentes serán investigadores "voluntarios". El curso de estos agentes se elegirá al azar, y no por el pronóstico de la red neuronal.

Por lo tanto, tenemos una mayor probabilidad de que uno de los cinco agentes avance más que los demás y ayude a capacitar a la red con mejores resultados.

Algoritmo genético

Cada era, 500 agentes participan en el campo de juego. Las predicciones para todos los agentes se realizan en modo asíncrono para todos los agentes a la vez, además, los cálculos se delegan a gpu. Por lo tanto, obtenemos un uso más eficiente de la potencia informática de la computadora, lo que conduce a una reducción en el tiempo para predecir una red neuronal para 500 agentes al mismo tiempo.

La predicción funciona más rápido que el entrenamiento, por lo que la red tiene más posibilidades de avanzar por el laberinto con la menor cantidad de tiempo y el mejor resultado.

Aprendiendo lo mejor de la generación

A lo largo de la era, para 500 agentes, se conservan los resultados de su avance a través del laberinto. Cuando se destruye el último agente, se seleccionan los 5 mejores agentes de cada 500, que llegaron más lejos al laberinto.

Con base en los mejores resultados de la era, se capacitará una red neuronal.

Por lo tanto, reduciremos la cantidad de memoria utilizada al no guardar y no capacitar a la red en agentes que no avanzan la red.

Finalización

Al no ser un especialista en este campo, logré cierto éxito en el entrenamiento de la red neuronal, y usted tendrá éxito, ¡adelante!

Esforzarse por aprender más rápido que las computadoras, mientras lo hacemos mejor.

Materiales

Repositorio con código
Iniciar la capacitación del navegador
La documentación de tensorflow.js , donde también puede encontrar recursos adicionales para el aprendizaje.

Libros

Aprendizaje profundo Inmersión en el mundo de las redes neuronales.
S. Nikolenko, A. Kadurin, E. Arkhangelskaya
Aprendizaje automático y TensorFlow
N. Shakla
Sistemas de autoaprendizaje
S. I. Nikolenko, A. L. Tulupyev
Entrenamiento de refuerzo
R.S. Sutton, E.G. Barto
Tarjetas autoorganizadas
T. Kohonen

Aprendizaje automático reforzado de redes neuronales profundas en tensorflow.js: trucos