Hola Habr!
Raramente decidimos publicar aquí traducciones de textos hace dos años, sin un código y un enfoque claramente académico, pero hoy haremos una excepción. Esperamos que el dilema en el título del artículo sea motivo de preocupación para muchos de nuestros lectores, y que ya haya leído el trabajo original o leerá el trabajo fundamental sobre estrategias evolutivas con el que esta publicación está polémica. ¡Bienvenido a cat!

En marzo de 2017, OpenAI hizo un escándalo en la comunidad de aprendizaje profundo al publicar el artículo "
Estrategias de evolución como una alternativa escalable al aprendizaje de refuerzo ". En este trabajo, se describieron resultados impresionantes a favor del hecho de que la luz no convergió en el entrenamiento con refuerzo (RL), y es aconsejable probar otros métodos al entrenar redes neuronales complejas. Luego surgió una discusión sobre la importancia del aprendizaje reforzado y cuánto merece el estado de la tecnología "obligatoria" para aprender a resolver problemas. Aquí quiero hablar sobre el hecho de que no debe considerar estas dos tecnologías como competidoras, una de las cuales es claramente mejor que la otra; por el contrario, finalmente se complementan entre sí. De hecho, si piensa un poco sobre lo que se requiere para crear una
IA común y sistemas que, a lo largo de su existencia, sean capaces de aprender, juzgar y planificar, entonces seguramente llegaremos a la conclusión de que esta o aquella solución combinada será necesaria . Por cierto, fue la naturaleza la que llegó a una solución combinada, que dotó de la compleja inteligencia de los mamíferos y otros animales superiores durante la evolución.
Estrategias evolutivas
La tesis principal del artículo de OpenAI fue que, en lugar de utilizar el aprendizaje de refuerzo combinado con la propagación hacia atrás tradicional, entrenaron con éxito la red neuronal para resolver problemas complejos utilizando la llamada "estrategia evolutiva" (ES). Tal enfoque de ES consiste en mantener la distribución de los valores de peso en una báscula de red, con muchos agentes trabajando en paralelo y utilizando parámetros seleccionados de esta distribución. Cada agente opera en su propio entorno y al completar un número determinado de episodios o etapas de un episodio, el algoritmo devuelve una recompensa total, expresada como una puntuación de aptitud. Dado este valor, la distribución de parámetros puede cambiarse hacia agentes más exitosos, privando a los menos exitosos. Millones de veces repitiendo una operación de este tipo que involucra a cientos de agentes, es posible trasladar la distribución de pesos a un espacio que nos permita formular una política de calidad para que los agentes resuelvan su tarea. De hecho, los resultados presentados en el artículo son impresionantes: se muestra que si ejecuta miles de agentes en paralelo, el movimiento antropomórfico en dos piernas puede estudiarse en menos de media hora (mientras que incluso los métodos RL más avanzados requieren más de una hora). Para una revisión más detallada, recomiendo leer una excelente
publicación de los autores del experimento, así como el
artículo científico en sí.
Diversas estrategias de aprendizaje para la postura vertical antropomórfica, estudiadas usando el método ES de OpenAI.Caja negra
El gran beneficio de este método es que es fácil de paralelizar. Mientras que los métodos RL, por ejemplo, A3C, requieren el intercambio de información entre los flujos de trabajo y el servidor de parámetros, ES solo necesita estimaciones de validez e información generalizada sobre la distribución de parámetros. Gracias a tal simplicidad, este método evita los métodos modernos de RL en escalabilidad. Sin embargo, todo esto no es en vano: debe optimizar la red según el principio de una caja negra. En este caso, el "recuadro negro" significa que durante el entrenamiento la estructura interna de la red se ignora por completo, y solo se utiliza el resultado general (recompensa por el episodio), y depende de si las futuras generaciones heredarán el peso de una red en particular. En situaciones en las que no recibimos una respuesta pronunciada del entorno, y al resolver muchas tareas tradicionales relacionadas con RL, el flujo de recompensa es muy raro, el problema pasa de ser una "caja parcialmente negra" a una "caja completamente negra". En este caso, es posible aumentar seriamente la productividad, por lo que, por supuesto, tal compromiso está justificado. "¿Quién necesita gradientes si todavía son irremediablemente ruidosos?" - Esta es la opinión general.
Sin embargo, en situaciones donde la retroalimentación es más activa, los asuntos de ES están empezando a salir mal. El equipo de OpenAI describe cómo se entrenó la red de clasificación simple MNIST usando ES, y esta vez la capacitación fue 1000 veces más lenta. El hecho es que la señal de gradiente en la clasificación de imágenes es extremadamente informativa sobre cómo enseñar a la red una mejor clasificación. Por lo tanto, el problema se asocia no tanto con la técnica RL como con las recompensas dispersas en entornos que producen gradientes ruidosos.
Solución encontrada por la naturaleza
Si intenta aprender del ejemplo de la naturaleza, pensando en formas de desarrollar IA, en algunos casos, la IA puede representarse como un
enfoque orientado a los problemas . Al final, la naturaleza opera dentro de tales limitaciones que los informáticos simplemente no tienen. Existe la opinión de que un enfoque puramente teórico para resolver un problema particular puede proporcionar soluciones más efectivas que las alternativas empíricas. Sin embargo, sigo pensando que sería aconsejable verificar cómo un sistema dinámico que opera bajo ciertas condiciones (Tierra) formó agentes (animales, en particular mamíferos), capaces de un comportamiento flexible y complejo. Si bien algunas de estas limitaciones no son aplicables en los mundos simulados de la ciencia de datos, otras son muy buenas.
Tras examinar el comportamiento intelectual de los mamíferos, vemos que se forma como resultado de la interacción compleja de dos procesos estrechamente interrelacionados:
aprender de la experiencia de los demás y
aprender de nuestra propia experiencia . El primero a menudo se identifica con la evolución debido a la selección natural, pero aquí utilizo un término más amplio para tener en cuenta la epigenética, los microbiomas y otros mecanismos que aseguran el intercambio de experiencias entre organismos que no están genéticamente relacionados entre sí. El segundo proceso, el aprendizaje de primera mano, es toda la información que un animal logra asimilar a lo largo de la vida, y esta información está directamente relacionada con la interacción de este animal con el mundo exterior. Esta categoría incluye todo, desde aprender a reconocer objetos hasta dominar la comunicación inherente al proceso educativo.
En términos generales, estos dos procesos que ocurren en la naturaleza se pueden comparar con dos opciones para optimizar las redes neuronales. Las estrategias evolutivas, donde la información de gradiente se utiliza para actualizar la información sobre el cuerpo, se acercan al aprendizaje de la experiencia de otra persona. Del mismo modo, los métodos de gradiente, donde la recepción de una experiencia particular conduce a uno u otro cambio en el comportamiento del agente, son comparables a aprender de la experiencia. Si piensa en las variedades de comportamiento intelectual o en las habilidades que cada uno de estos dos enfoques desarrolla en los animales, dicha comparación es más pronunciada. En ambos casos, los "métodos evolutivos" contribuyen al estudio de los comportamientos reactivos que permiten el desarrollo de un cierto estado físico (suficiente para mantenerse con vida). Aprender a caminar o escapar del cautiverio en muchos casos es equivalente a comportamientos más "instintivos" que están "conectados" en muchos animales a nivel genético. Además, este ejemplo confirma que los métodos evolutivos son aplicables en los casos en que la recompensa de señal es extremadamente rara (como, por ejemplo, el hecho de criar con éxito un cachorro). En tal caso, es imposible correlacionar la recompensa con un conjunto específico de acciones que puedan haberse cometido muchos años antes del inicio de este hecho. Por otro lado, si consideramos el caso en el que la ES falla, es decir, la clasificación de las imágenes, los resultados serán notablemente comparables con los resultados del entrenamiento de animales logrados durante innumerables experimentos psicológicos conductuales realizados durante más de cien años.
Entrenamiento animal
Los métodos utilizados en el aprendizaje por refuerzo se toman en muchos casos directamente de la literatura psicológica sobre
el condicionamiento operante , y el condicionamiento operante se ha estudiado utilizando la psicología animal. Por cierto, Richard Sutton, uno de los dos fundadores del entrenamiento de refuerzo, tiene una licenciatura en psicología. En el contexto del condicionamiento operante, los animales aprenden a asociar la recompensa o el castigo con patrones de comportamiento específicos. Los entrenadores e investigadores pueden de alguna manera manipular tal asociación con recompensas, provocando que los animales muestren ingenio o ciertos comportamientos. Sin embargo, el condicionamiento operante utilizado en el estudio de los animales no es más que una forma más pronunciada de ese condicionamiento, en base al cual los animales se entrenan durante toda la vida. Constantemente recibimos señales positivas de refuerzo del entorno y ajustamos nuestro comportamiento en consecuencia. De hecho, muchos neurofisiólogos y científicos cognitivos creen que, de hecho, las personas y otros animales actúan incluso un nivel más alto y están constantemente aprendiendo a predecir los resultados de su comportamiento en situaciones futuras, contando con recompensas potenciales.
El papel central de la predicción en el autoestudio es cambiar la dinámica descrita anteriormente de la manera más significativa. La señal que anteriormente se consideraba muy enrarecida (recompensa episódica) es muy densa. Teóricamente, la situación es aproximadamente la siguiente: en cada momento, el cerebro de los mamíferos calcula los resultados en función de un complejo flujo de estímulos y acciones sensoriales, mientras que el animal simplemente está inmerso en este flujo. En este caso, el comportamiento final del animal da una señal sólida, que debe guiarse por la corrección de los pronósticos y el desarrollo del comportamiento. El cerebro utiliza todas estas señales para optimizar los pronósticos (y, en consecuencia, la calidad de las acciones tomadas) en el futuro. Una visión general de este enfoque se da en el excelente libro "
Surfing Uncertainty " del científico cognitivo y filósofo Andy Clark. Si extrapolamos tales argumentos al entrenamiento de agentes artificiales, entonces el entrenamiento de refuerzo revela un defecto fundamental: la señal utilizada en este paradigma es irremediablemente débil en comparación con lo que podría ser (o debería ser). En los casos en que es imposible aumentar la saturación de la señal (quizás porque, por definición, es débil o está asociada con una reactividad de bajo nivel), probablemente sea mejor preferir un método de entrenamiento que esté bien paralelo, por ejemplo, ES.
Mejor aprendizaje de las redes neuronales.
Basado en los principios de una mayor actividad nerviosa inherente al cerebro de los mamíferos, que se dedica constantemente a la predicción, últimamente ha sido posible lograr ciertos éxitos en el entrenamiento de refuerzo, que ahora tiene en cuenta la importancia de tales predicciones. Te puedo recomendar dos trabajos similares:
En ambos artículos, los autores complementan las políticas de red neuronal predeterminadas típicas con resultados de pronóstico con respecto a las condiciones ambientales futuras. En el primer artículo, el pronóstico se aplica a una variedad de variables de medición, y en el segundo, los cambios en el entorno y el comportamiento del agente como tal. En ambos casos, la señal dispersa asociada con el refuerzo positivo se vuelve mucho más saturada e informativa, proporcionando un aprendizaje acelerado y la asimilación de modelos conductuales más complejos. Dichas mejoras solo están disponibles cuando se trabaja con métodos que utilizan la señal de gradiente, pero no con métodos que funcionan según el principio de "recuadro negro", como, por ejemplo, ES.
Además, el aprendizaje de primera mano y los métodos de gradiente son mucho más efectivos. Incluso en aquellos casos en los que era posible estudiar un problema particular usando el método de ES en lugar de usar el entrenamiento de refuerzo, la ganancia se logró debido al hecho de que muchas veces más datos estaban involucrados en la estrategia de ES que con RL. Pensando en este caso sobre los principios del aprendizaje en animales, notamos que el resultado del entrenamiento en un ejemplo extraño se manifiesta después de muchas generaciones, mientras que a veces un solo evento, experimentado en persona, es suficiente para que el animal aprenda la lección para siempre. Si bien dicha
capacitación sin ejemplos aún no se ajusta completamente a los métodos de gradiente tradicionales, es mucho más inteligible que ES. Hay, por ejemplo, enfoques como
el control neural episódico , donde los valores Q se almacenan durante el proceso de entrenamiento, después de lo cual el programa se verifica con ellos antes de realizar acciones. Resulta un método de gradiente que le permite aprender a resolver problemas mucho más rápido que antes. En el artículo sobre el control neural episódico, los autores mencionan el hipocampo humano, que puede almacenar información sobre el evento incluso después de una experiencia que alguna vez tuvo experiencia y, por lo tanto, juega un
papel crítico en el proceso de recuperación. Dichos mecanismos requieren acceso a la organización interna del agente, que también es, por definición, imposible en el paradigma ES.
Entonces, ¿por qué no combinarlos?
Probablemente la mayor parte de este artículo podría haber dejado la impresión de que estaba abogando por los métodos de RL. Sin embargo, de hecho, creo que a la larga, la mejor solución sería una combinación de ambos métodos, de modo que cada uno se use en aquellas situaciones en las que es más adecuado. Es obvio que en el caso de muchas políticas reactivas o en situaciones con señales muy escasas de refuerzo positivo, ES gana, especialmente si tiene el poder de cómputo en el que puede realizar un entrenamiento paralelo en masa. Por otro lado, los métodos de gradiente que utilizan el aprendizaje reforzado o la formación del profesorado serán útiles cuando tengamos una amplia retroalimentación, y la solución del problema debe aprenderse rápidamente y con menos datos.
Volviendo a la naturaleza, encontramos que el primer método, en esencia, sienta las bases para el segundo. Es por eso que, durante la evolución, los mamíferos han desarrollado un cerebro que permite un aprendizaje extremadamente eficiente del material de las señales complejas que provienen del medio ambiente. Entonces, la pregunta permanece abierta. Quizás las estrategias evolutivas nos ayudarán a inventar arquitecturas de aprendizaje efectivas que serán útiles para los métodos de aprendizaje gradiente. Después de todo, la solución encontrada por la naturaleza es realmente muy exitosa.