Un réseau de neurones a appris à reconnaître la parole sur les lèvres à l'aide d'un algorithme de reconnaissance d'enregistrement vocal


Hal 9000 lit parfaitement les lèvres, bien qu'en anglais

Les réseaux de neurones sont capables de faire beaucoup de choses maintenant, et progressivement, on leur enseigne de plus en plus de compétences. L'autre jour, il est devenu connu qu'une équipe conjointe de chercheurs des États-Unis et de la Chine a pu former le réseau neuronal à reconnaître la parole par les lèvres avec un haut degré de précision.

Ceci a été réalisé grâce à un élément supplémentaire - l'algorithme de reconnaissance vocale pour les enregistrements audio . En outre, l'algorithme a été utilisé comme système d'apprentissage pour le deuxième algorithme, qui reconnaissait la parole par des enregistrements vidéo.

Selon les scientifiques, cette méthode permet de maîtriser des techniques de lecture labiale supplémentaires qu'un réseau neuronal formé par des méthodes traditionnelles ne peut pas «apprendre». Une simple séquence d'images permet de maîtriser uniquement les techniques de base de lecture labiale.

En outre, les développeurs ont utilisé une méthode de formation des réseaux de neurones, appelée «distillation des connaissances». Il vous permet d'enregistrer la petite taille d'un modèle qui exécute une tâche complexe. Dans une situation normale, un réseau neuronal capable de lire les lèvres sera de taille considérable, ce qui rendrait son utilisation difficile sur les smartphones ou autres appareils mobiles.

Mais un modèle appelé distillation des connaissances permet de lever ces limitations. Au cours de l'utilisation de ce modèle, le développeur doit utiliser un réseau neuronal de base qui est déjà formé et crée sur sa base un modèle beaucoup plus petit qui est «formé» sur la base du premier. Les deux réseaux reçoivent presque les mêmes données source. Mais le plus petit réseau essaie de répéter les résultats du plus grand, à la fois sur la couche de sortie et sur tous les intermédiaires. L'idée a été introduite pour la première fois par Caruana en 2006.

Les scientifiques dirigés par Mingli Song de l'Université du Zhejiang ont utilisé la «distillation» pour enseigner au réseau neuronal à lire sur les lèvres. Comme mentionné ci-dessus, l'enseignant est ici l'algorithme de reconnaissance vocale pour les enregistrements audio. Il offre amplement l'occasion d'étudier un certain nombre de mouvements subtils des lèvres et de modèles de discours.



Le circuit résultant est symétrique, avec deux réseaux de neurones récurrents situés parallèlement l'un à l'autre. Un réseau neuronal convolutionnel traite les trames vidéo et fournit des données à un autre. Le chercheur ne peut qu'imaginer la distillation des connaissances sous la forme de plusieurs blocs, chacun étant responsable d'une tâche spécifique. L'un d'eux est par trame, le second est pour une séquence de données, le troisième est pour la plus grande séquence globale.

Bien entendu, pour un fonctionnement normal, un tel réseau de neurones nécessite une formation minutieuse sur des dizaines de milliers d'éléments. Les scientifiques ont utilisé l'ensemble de données LRS2, qui contient environ 50000 phrases individuelles prononcées par les annonceurs de la BBC, ainsi que l'ensemble de données CMLR, l'ensemble le plus complet pour enseigner aux réseaux de neurones à lire les lèvres en mandarin. La base de données de ce dernier contient environ 100 000 offres de CNTV.



La précision de reconnaissance du système résultant est environ 8% supérieure à celle des autres réseaux de neurones formés sur le CMLR, et 3% supérieure à celle des réseaux de neurones formés sur le LRS2.

Source: https://habr.com/ru/post/fr479092/


All Articles