Os funcionários da Universidade de Seul publicaram um
estudo sobre a simulação do movimento de caracteres bípedes com base no trabalho conjunto e nas contrações musculares, usando uma rede neural com o Deep Reinforcement Learning. Tradução reduzida da visão geral.

Meu nome é Jehee Lee. Sou professor da Universidade Nacional de Seul e pesquisador de computação gráfica com mais de 25 anos de experiência. Estou explorando novas maneiras de entender, representando e simulando os movimentos do homem e do animal.
A simulação dos movimentos de caracteres bípedes baseados na física tem sido um problema bem conhecido no campo da robótica e computação gráfica desde meados dos anos 80. Nos anos 90, a maioria dos controladores de duas pernas se baseava em um modelo dinâmico simplificado (por exemplo, em um pêndulo invertido), que permitia o uso de uma estratégia de equilíbrio, que pode ser derivada em uma equação de forma fechada. Desde 2007, parece que os controladores usam a dinâmica de corpo inteiro para alcançar um progresso rápido nessa área. Vale ressaltar que a teoria dos métodos ótimos de controle e otimização estocástica, como o CMS-ES, foram as principais ferramentas para manter o equilíbrio dos bípedes simulados.
Gradualmente, os pesquisadores construíram modelos mais detalhados do corpo humano. Em 1990, o modelo de pêndulo invertido tinha menos de cinco graus de liberdade. Em 2007, o modelo dinâmico era uma figura 2D dirigida por motores nas articulações com dezenas de graus de liberdade. Em 2009-2010, modelos 3D completos apareceram com 100 graus de liberdade.
Em 2012-2014, apareceram controladores para modelos biomecânicos, movidos por músculos. O controlador envia um sinal para cada músculo individual a cada momento para estimulá-los. A contração muscular puxa os ossos presos e os coloca em movimento. Em nosso trabalho, usamos 326 músculos para mover o modelo, incluindo todos os principais músculos do nosso corpo, com exceção de alguns pequenos.
Dificuldade em controlar o movimento de um personagem bípede
O número de graus de liberdade de um sistema dinâmico vem aumentando rapidamente desde 2007. As abordagens anteriores ao design de controladores sofreram com a "maldição da dimensionalidade" - quando os recursos computacionais necessários (tempo e memória) aumentam exponencialmente à medida que o número de graus de liberdade aumenta.
Utilizamos o Deep Reforcement Learning para resolver os problemas associados à complexidade do modelo do sistema músculo-esquelético e à escalabilidade do controle de criaturas bípedes. As redes podem representar e armazenar com eficiência políticas de gerenciamento multidimensionais (uma função que mapeia estados para ações) e explorar estados e ações invisíveis.

Nova abordagem
A principal melhoria é como lidamos com a ativação muscular de todo o corpo. Criamos uma rede hierárquica, que nas camadas superiores aprende a simular o movimento das articulações a uma baixa taxa de quadros (30 Hz), e nas camadas inferiores aprende a estimular os músculos em altas frequências (1500 Hz).
A dinâmica da contração muscular requer maior precisão do que com uma simulação de esqueleto. Nossa estrutura hierárquica elimina diferenças nos requisitos.

O que alcançamos
É bom ver como nosso algoritmo funciona em uma ampla gama de movimentos humanos. Ainda não sabemos o quão grande é realmente e estamos tentando entender os limites. Até o momento, não os alcançamos devido ao limite de recursos de computação.
A nova abordagem fornece resultados aprimorados toda vez que investimos mais recursos (principalmente núcleos de processador). O ponto positivo é que o Aprendizado por Reforço Profundo exige custo computacional apenas na fase de treinamento. Uma vez explorada a política de gerenciamento multidimensional, a simulação e o gerenciamento são rápidos. A simulação do sistema músculo-esquelético funcionará em breve em aplicações interativas em tempo real. Por exemplo, em jogos.
Utilizamos o modelo do músculo Hill, que é o padrão de fato na biomecânica. Nosso algoritmo é muito flexível, portanto, qualquer modelo dinâmico de contração muscular pode ser incluído nele. O uso de um modelo muscular de alta precisão permite gerar movimentos humanos em várias condições, incluindo patologia, próteses e assim por diante.
O músculo reto femoral. Malha de superfície 3D (esquerda). Aproximação com waypoints (centro). As coordenadas aproximadas do LBS dos waypoints ao dobrar o joelho (direita).Usando o Deep Reforcement Learning (DRL)
Compartilhamos a mesma idéia fundamental com a pesquisa de movimento do Deepmind, que se baseia em um modelo de motor e vara. Surpreendentemente, o algoritmo DRL padrão funciona bem com o modelo stick-and-motor, mas não funciona muito bem com modelos biomecânicos acionados por músculos.
Na última exposição do NeurlPS 2018, houve um desafio de
IA para próteses . No modelo competitivo, existem apenas mais de 20 músculos, mas mesmo para o vencedor, o resultado não parece o melhor.
Este exemplo mostra a dificuldade de aprender modelos movidos a músculo. Nosso modelo hierárquico faz uma descoberta e nos permite aplicar o DRL a um modelo biomecânico de uma pessoa com um grande número de músculos.
Projeto em
PDF .
Projeto no
Github .
Tópico explorado: Jehee Lee, Seunghwan Lee, Kyoungmin Lee e Moonseok Park.