Le personnel de l'Université de Séoul a publié une
étude sur la simulation du mouvement des personnages bipèdes basée sur le travail conjoint et les contractions musculaires à l'aide d'un réseau neuronal avec Deep Reinforcement Learning. Traduction en dessous de l'aperçu.

Je m'appelle Jehee Lee. Je suis professeur à l'Université nationale de Séoul et chercheur en infographie avec plus de 25 ans d'expérience. J'explore de nouvelles façons de comprendre, de représenter et de simuler les mouvements de l'homme et de l'animal.
La simulation des mouvements de personnages bipèdes basée sur la physique est un problème bien connu dans le domaine de la robotique et de l'infographie depuis le milieu des années 80. Dans les années 90, la plupart des contrôleurs bipèdes étaient basés sur un modèle dynamique simplifié (par exemple, sur un pendule inversé), ce qui permettait d'utiliser une stratégie d'équilibre, qui peut être dérivée dans une équation de forme fermée. Depuis 2007, des contrôleurs sont apparus qui utilisent la dynamique du corps entier pour réaliser des progrès rapides dans ce domaine. Il est à noter que la théorie du contrôle optimal et les méthodes d'optimisation stochastique, telles que CMS-ES, étaient les principaux outils pour maintenir l'équilibre du bipède simulé.
Progressivement, les chercheurs ont construit des modèles plus détaillés du corps humain. En 1990, le modèle à pendule inversé avait moins de cinq degrés de liberté. En 2007, le modèle dynamique était une figure 2D entraînée par des moteurs aux articulations avec des dizaines de degrés de liberté. En 2009-2010, des modèles 3D complets sont apparus avec 100 degrés de liberté.
En 2012-2014, des contrôleurs de modèles biomécaniques sont apparus, mus par les muscles. Le contrôleur envoie un signal à chaque muscle individuel à chaque instant pour les stimuler. La contraction musculaire tire les os attachés et les met en mouvement. Dans notre travail, nous avons utilisé 326 muscles pour déplacer le modèle, y compris tous les principaux muscles de notre corps, à l'exception de quelques petits.
Difficulté à contrôler le mouvement d'un personnage bipède
Le nombre de degrés de liberté d'un système dynamique augmente rapidement depuis 2007. Les approches précédentes de la conception des contrôleurs souffraient de la «malédiction de la dimensionnalité» - lorsque les ressources informatiques requises (temps et mémoire) augmentent de façon exponentielle à mesure que le nombre de degrés de liberté augmente.
Nous avons utilisé Deep Reinforcement Learning pour résoudre les problèmes liés à la complexité du modèle du système musculo-squelettique et à l'évolutivité du contrôle des créatures bipèdes. Les réseaux peuvent représenter et stocker efficacement des politiques de gestion multidimensionnelles (une fonction qui mappe les états aux actions) et explorer les états et les actions invisibles.

Nouvelle approche
La principale amélioration est la façon dont nous gérons l'activation musculaire de tout le corps. Nous avons créé un réseau hiérarchique qui, dans les couches supérieures, apprend à simuler le mouvement des articulations à une faible fréquence d'images (30 Hz) et dans les couches inférieures, il apprend à stimuler les muscles à haute fréquence (1500 Hz).
La dynamique de la contraction musculaire nécessite une plus grande précision qu'avec une simulation de squelette. Notre structure hiérarchique élimine les différences d'exigences.

Qu'avons-nous réalisé
C'est agréable de voir comment notre algorithme fonctionne sur un large éventail de mouvements humains. Nous ne savons toujours pas quelle est sa largeur et essayons de comprendre les limites. Jusqu'à présent, nous ne les avons pas atteints en raison de la limite des ressources informatiques.
La nouvelle approche donne de meilleurs résultats à chaque fois que nous investissons plus de ressources (principalement des cœurs de processeur). Le bon point est que l'apprentissage par renforcement profond ne nécessite des coûts de calcul qu'au stade de la formation. Une fois la politique de gestion multidimensionnelle explorée, la simulation et la gestion sont rapides. La simulation du système musculo-squelettique fonctionnera bientôt en temps réel dans des applications interactives. Par exemple, dans les jeux.
Nous utilisons le modèle musculaire de Hill, qui est la norme de facto en biomécanique. Notre algorithme est très flexible, donc tout modèle dynamique de contraction musculaire peut y être inclus. L'utilisation d'un modèle musculaire de haute précision vous permet de générer des mouvements humains dans diverses conditions, y compris la pathologie, les prothèses, etc.
Le muscle droit fémoral. Maillage de surface 3D (à gauche). Approximation avec waypoints (centre). Les coordonnées LBS approximatives des points de cheminement lors de la flexion du genou (à droite).Utilisation de l'apprentissage par renforcement profond (DRL)
Nous partageons la même idée fondamentale avec la recherche sur les mouvements de Deepmind, qui est basée sur un modèle bâton-moteur. Étonnamment, l'algorithme DRL standard fonctionne bien avec le modèle bâton et moteur, mais il ne fonctionne pas très bien avec les modèles biomécaniques mus par les muscles.
Lors de la dernière exposition NeurlPS 2018, il y avait un défi
IA pour les prothèses . Dans le modèle compétitif, il n'y a que plus de 20 muscles, mais même pour le vainqueur, le résultat ne semble pas le meilleur.
Cet exemple montre la difficulté d'apprendre des modèles musculaires. Notre modèle hiérarchique fait une percée et nous permet d'appliquer le DRL à un modèle biomécanique d'une personne avec un grand nombre de muscles.
Projet en
PDF .
Projet sur
Github .
Sujet exploré: Jehee Lee, Seunghwan Lee, Kyoungmin Lee et Moonseok Park.