Hal 9000 lê os lábios perfeitamente, embora em inglêsAs redes neurais são capazes de fazer muito agora e, gradualmente, estão sendo ensinadas mais e mais habilidades. Outro dia, soube-se que uma equipe conjunta de pesquisadores dos EUA e da China conseguiu treinar a rede neural para reconhecer a fala pelos lábios com alto grau de precisão.
Isso foi alcançado graças a um elemento adicional -
o algoritmo de reconhecimento de fala para gravações de áudio . Além disso, o algoritmo foi usado como um sistema de treinamento para o segundo algoritmo, que reconheceu a fala por gravações de vídeo.
Segundo os cientistas, esse método torna possível dominar técnicas adicionais de leitura labial que uma rede neural treinada pelos métodos tradicionais não pode "aprender". Uma simples sequência de imagens permite dominar apenas as técnicas básicas de leitura labial.
Além disso, os desenvolvedores usaram um método de treinamento de redes neurais, chamado de "destilação de conhecimento". Ele permite salvar o tamanho pequeno de um modelo que executa uma tarefa complexa. Em uma situação normal, uma rede neural capaz de ler lábios terá tamanho considerável, o que dificultaria o uso em smartphones ou outros dispositivos móveis.
Mas um modelo chamado destilação de conhecimento torna possível remover essas limitações. Durante o trabalho com esse modelo, o desenvolvedor precisa usar uma rede neural básica que já esteja treinada e, com base nisso, cria um modelo muito menor que é “treinado” com base na primeira. Ambas as redes recebem quase os mesmos dados de origem. Mas a rede menor está tentando repetir os resultados da maior, tanto na camada de saída quanto em todas as intermediárias. A idéia foi introduzida pela primeira vez por Caruana em 2006.
Cientistas liderados por Mingli Song, da Universidade de Zhejiang, usaram a "destilação" para ensinar a rede neural a ler os lábios. Como mencionado acima, o professor aqui é o algoritmo de reconhecimento de fala para gravações de áudio. Ele oferece ampla oportunidade para estudar vários movimentos sutis dos lábios e padrões de fala.

O circuito resultante é simétrico, com duas redes neurais recorrentes localizadas paralelas uma à outra. Uma rede neural convolucional processa quadros de vídeo e fornece dados para outro. O pesquisador pode apenas imaginar a destilação do conhecimento na forma de vários blocos, sendo cada um deles responsável por uma tarefa específica. Um deles é por quadro, o segundo é para uma sequência de dados, o terceiro é para a maior seqüência geral.
Obviamente, para operação normal, essa rede neural requer treinamento cuidadoso em dezenas de milhares de elementos. Os cientistas usaram o conjunto de dados LRS2, que contém cerca de 50.000 frases individuais ditas pelos anunciantes da BBC, bem como o conjunto de dados CMLR, o conjunto mais abrangente para ensinar redes neurais a ler lábios no mandarim. O banco de dados deste último contém cerca de 100 mil ofertas da CNTV.

A precisão do reconhecimento do sistema resultante é
aproximadamente 8% maior que a de outras redes neurais treinadas em CMLR e 3% melhor do que a das redes neurais treinadas em LRS2.