Technologie de synthèse vocale de haute qualité, légère et adaptable utilisant LPCNet


Les progrès récents de l'apprentissage en profondeur apportent des améliorations significatives au développement de systèmes de synthèse vocale (ci-après - TTS). Cela est dû à l'utilisation de méthodes plus efficaces et plus rapides pour étudier la voix et le style des locuteurs, ainsi qu'à la synthèse de discours plus naturels et de meilleure qualité.

Cependant, pour y parvenir, la plupart des systèmes TTS doivent utiliser des modèles de réseaux neuronaux vastes et complexes qui sont difficiles à former et qui ne permettent pas la synthèse vocale en temps réel, même avec des GPU.

Pour résoudre ces problèmes, notre équipe IBM Research AI a développé une nouvelle méthode de synthèse de réseaux neuronaux basée sur une architecture modulaire. Cette méthode combine trois réseaux de neurones profonds (ci-après dénommés DNN) avec un traitement intermédiaire de leurs signaux de sortie. Nous avons présenté ce travail dans notre article «Technologie TTS de haute qualité, légère et adaptable utilisant LPCNet» à Interspeech 2019. L'architecture TTS est légère et peut synthétiser un discours de haute qualité en temps réel. Chaque réseau est spécialisé dans divers aspects de la voix du locuteur, ce qui vous permet de former efficacement n'importe lequel des composants indépendamment des autres.


Diagramme 1. Architecture du système TTS

Un autre avantage de notre approche est qu'après la formation des réseaux principaux, ils peuvent être facilement adaptés à un nouveau style de parole ou de voix, même sur de petits volumes de données de formation, par exemple, à des fins de personnalisation et de personnalisation.

Dans le processus de synthèse, un module d'interface pour une langue spécifique est utilisé, qui convertit le texte d'entrée en une séquence de caractéristiques linguistiques. Ensuite, les DNN suivants sont appliqués l'un après l'autre:

1. Prédiction de la prosodie


Les caractéristiques prosodiques de la parole sont présentées comme un vecteur à quatre dimensions par unité TTS (environ un tiers des conditions sonores selon SMM (modèle de Markov caché)), qui comprend la durée de log, la hauteur de log initiale et finale, ainsi que l'énergie de log. Ces caractéristiques sont déterminées au cours du processus de formation, de sorte qu'elles peuvent être prédites par les caractéristiques du texte reçu par l'interface pendant la synthèse. La prosodie est extrêmement importante non seulement pour que la parole soit naturelle et vivante, mais aussi pour que les données destinées à la formation ou à l'adaptation reflètent le plus complètement le style de parole du locuteur. L'adaptation de la prosodie à la voix du locuteur est basée sur le Variational Auto Encoder (VAE).


Schéma 2. Formation et recyclage du générateur de prosodie

2. Prédiction des caractéristiques acoustiques


Les vecteurs de caractéristiques acoustiques fournissent une représentation spectrale de la parole dans de courtes trames de 10 millisecondes à partir desquelles le son réel peut être généré. Les caractéristiques acoustiques sont déterminées dans le processus d'apprentissage, et elles peuvent être prédites par les marques phonétiques et la prosodie pendant la synthèse.


Schéma 3. Synthétiseur réseau

Le modèle DNN créé est constitué de données audio (annonceur vocal), nécessaires à la formation ou à l'adaptation. L'architecture du modèle se compose de couches convolutives et récurrentes conçues pour extraire le contexte local et les dépendances temporelles dans la séquence des sons et la structure des tons. DNN prédit les caractéristiques acoustiques à partir de leur dérivée première et seconde. Elle est suivie par la méthode du maximum de vraisemblance et des filtres de formants sont appliqués pour aider à générer une parole de meilleure qualité.

3. vocodeur neuronal


Un vocodeur neuronal est responsable de la génération de la parole à partir des caractéristiques acoustiques. Il apprend des modèles de discours naturels du locuteur, compte tenu de leurs caractéristiques respectives. Techniquement, nous avons été les premiers à utiliser un nouveau vocodeur neuronal léger et de haute qualité appelé LPCNet dans un système TTS entièrement commercialisé.

La nouveauté de ce vocodeur est qu'il n'essaie pas de prédire un signal vocal complexe directement en utilisant DNN. Au lieu de cela, le DNN ne prédit que le signal de trajet vocal résiduel le moins complexe, puis utilise des filtres de codage prédictif linéaire (LPC) pour le convertir en signal vocal final.


Schéma 4. Vocodeur neuronal LPCNet

Adaptation vocale


L'adaptation à la voix est facilement réalisée en recyclant trois réseaux sur la base d'une petite quantité de données audio provenant du locuteur cible. Dans notre article, nous présentons les résultats d'expériences d'adaptation en termes de qualité de la parole et sa similitude avec le vrai discours du locuteur. Cette page présente également des exemples d'adaptation à huit haut-parleurs VCTK (Voice Cloning Toolkit) différents, dont 4 hommes et 4 femmes.

RĂ©sultats d'Ă©coute


La figure ci-dessous montre les résultats des tests d'écoute des modèles vocaux synthétisés et naturels des haut-parleurs VCTK. Les valeurs moyennes du score d'opinion (MOS) sont basées sur l'analyse des auditeurs de la qualité de la parole sur une échelle de 1 à 5. La similitude entre les paires d'échantillons a été évaluée par les élèves sur une échelle de 1 à 4.

Nous avons mesuré la qualité de la parole synthétisée, ainsi que sa similitude avec la parole des locuteurs «live», en comparant les voix féminines et masculines adaptées durant 5, 10 et 20 minutes avec la parole naturelle des locuteurs.

Les résultats des tests montrent que nous pouvons maintenir à la fois une haute qualité et une grande similitude avec l'original, même pour les voix qui ont été formées sur des exemples de cinq minutes.



Diagramme 5. Résultats des tests de qualité et de similitude

Ce travail a été effectué par IBM Watson et a fourni la base d'une nouvelle version du service IBM Watson TTS avec une qualité vocale améliorée (voir Voix «* V3» dans la démo IBM Watson TTS ).

Source: https://habr.com/ru/post/fr473400/


All Articles