Los empleados de la Universidad de Seúl han publicado un
estudio sobre la simulación del movimiento de caracteres bípedos basado en el trabajo conjunto y las contracciones musculares, utilizando una red neuronal con aprendizaje de refuerzo profundo. Traducción cortada del resumen.

Me llamo Jehee Lee. Soy profesor en la Universidad Nacional de Seúl e investigador de gráficos por computadora con más de 25 años de experiencia. Estoy explorando nuevas formas de entender, representar y simular los movimientos del hombre y el animal.
La simulación de los movimientos de caracteres bípedos basados en la física ha sido un problema bien conocido en el campo de la robótica y los gráficos por computadora desde mediados de los años 80. En los años 90, la mayoría de los controladores bípedos se basaban en un modelo dinámico simplificado (por ejemplo, en un péndulo invertido), que permitía utilizar una estrategia de equilibrio, que se puede derivar en una ecuación de forma cerrada. Desde 2007, han aparecido controladores que utilizan dinámicas de cuerpo completo para lograr un rápido progreso en esta área. Es de destacar que la teoría del control óptimo y los métodos de optimización estocástica, como CMS-ES, fueron las principales herramientas para mantener el equilibrio del bípedo simulado.
Poco a poco, los investigadores construyeron modelos más detallados del cuerpo humano. En 1990, el modelo de péndulo invertido tenía menos de cinco grados de libertad. En 2007, el modelo dinámico era una figura 2D impulsada por motores en las juntas con docenas de grados de libertad. En 2009-2010, aparecieron modelos 3D completos con 100 grados de libertad.
En 2012-2014, aparecieron controladores para modelos biomecánicos, impulsados por los músculos. El controlador envía una señal a cada músculo individual en cada momento para estimularlos. La contracción muscular tira de los huesos unidos y los pone en movimiento. En nuestro trabajo, utilizamos 326 músculos para mover el modelo, incluidos todos los músculos principales de nuestro cuerpo, con la excepción de algunos pequeños.
Dificultad para controlar el movimiento de un personaje bípedo.
El número de grados de libertad de un sistema dinámico ha aumentado rápidamente desde 2007. Los enfoques anteriores para el diseño de controladores sufrieron la "maldición de la dimensionalidad", cuando los recursos informáticos requeridos (tiempo y memoria) aumentan exponencialmente a medida que aumenta el número de grados de libertad.
Utilizamos el aprendizaje de refuerzo profundo para resolver los problemas asociados con la complejidad del modelo del sistema musculoesquelético y la escalabilidad del control de las criaturas bípedas. Las redes pueden representar y almacenar eficientemente políticas de gestión multidimensional (una función que asigna estados a acciones) y explorar estados y acciones invisibles.

Nuevo enfoque
La mejora principal es cómo lidiamos con la activación muscular de todo el cuerpo. Hemos creado una red jerárquica, que en las capas superiores aprende a simular el movimiento de las articulaciones a una velocidad de cuadro baja (30 Hz), y en las capas inferiores aprende a estimular los músculos a altas frecuencias (1500 Hz).
La dinámica de la contracción muscular requiere mayor precisión que con una simulación de esqueleto. Nuestra estructura jerárquica elimina las diferencias en los requisitos.

Que hemos logrado
Es agradable ver cómo funciona nuestro algoritmo en una amplia gama de movimientos humanos. Todavía no sabemos qué tan ancho es realmente y estamos tratando de entender los límites. Hasta ahora no los hemos alcanzado debido al límite de recursos informáticos.
El nuevo enfoque brinda mejores resultados cada vez que invertimos más recursos (principalmente núcleos de procesador). Lo bueno es que el aprendizaje de refuerzo profundo requiere un costo computacional solo en la etapa de capacitación. Una vez que se ha explorado la política de gestión multidimensional, la simulación y la gestión son rápidas. La simulación del sistema musculoesquelético pronto funcionará en aplicaciones interactivas en tiempo real. Por ejemplo, en juegos.
Utilizamos el modelo de músculo Hill, que es el estándar de facto en biomecánica. Nuestro algoritmo es muy flexible, por lo que se puede incluir en él cualquier modelo dinámico de contracción muscular. El uso de un modelo muscular de alta precisión le permite generar movimientos humanos en diversas condiciones, que incluyen patología, prótesis, etc.
El músculo recto femoral. Malla de superficie 3D (izquierda). Aproximación con waypoints (centro). Las coordenadas aproximadas de LBS de los puntos de referencia al doblar la rodilla (derecha).Uso del aprendizaje de refuerzo profundo (DRL)
Compartimos la misma idea fundamental con la investigación de movimiento de Deepmind, que se basa en un modelo de palanca y motor. Sorprendentemente, el algoritmo DRL estándar funciona bien con el modelo de palanca y motor, pero no funciona muy bien con los modelos biomecánicos impulsados por los músculos.
En la última exposición de NeurlPS 2018, hubo un desafío de
IA para las prótesis . En el modelo competitivo solo hay más de 20 músculos, pero incluso para el ganador, el resultado no se ve mejor.
Este ejemplo muestra la dificultad de aprender modelos musculares. Nuestro modelo jerárquico hace un gran avance y nos permite aplicar DRL a un modelo biomecánico de una persona con una gran cantidad de músculos.
Proyecto en
PDF .
Proyecto en
Github .
Tema explorado: Jehee Lee, Seunghwan Lee, Kyoungmin Lee y Moonseok Park.