Jüngste Fortschritte beim Deep Learning bringen signifikante Verbesserungen bei der Entwicklung von Sprachsynthesesystemen (im Folgenden - TTS). Dies ist auf die Verwendung effektiverer und schnellerer Methoden zum Studium der Stimme und des Stils von Sprechern sowie auf die Synthese natürlicherer und qualitativ hochwertigerer Sprache zurückzuführen.
Um dies zu erreichen, müssen die meisten TTS-Systeme jedoch große und komplexe neuronale Netzwerkmodelle verwenden, die schwer zu trainieren sind und selbst mit GPUs keine Sprachsynthese in Echtzeit ermöglichen.
Um diese Probleme zu lösen, hat unser IBM Research AI-Team eine neue Methode zur Synthese neuronaler Netze entwickelt, die auf einer modularen Architektur basiert. Dieses Verfahren kombiniert drei tiefe neuronale Netze (im Folgenden als DNN bezeichnet) mit einer Zwischenverarbeitung ihrer Ausgangssignale. Wir haben diese Arbeit in unserem Artikel
„Hochwertige, leichte und anpassungsfähige TTS-Technologie mit LPCNet“ auf der Interspeech 2019 vorgestellt. Die TTS-Architektur ist
leichtgewichtig und kann qualitativ hochwertige Sprache in Echtzeit synthetisieren. Jedes Netzwerk ist auf verschiedene Aspekte der Stimme des Sprechers spezialisiert, sodass Sie alle Komponenten unabhängig von den anderen effektiv trainieren können.
Diagramm 1. TTS-SystemarchitekturEin weiterer Vorteil unseres Ansatzes besteht darin, dass die Kernnetzwerke nach dem Training auch bei kleinen Mengen von Trainingsdaten, beispielsweise für Branding- und Anpassungszwecke, problemlos an einen neuen Sprach- oder Sprachstil angepasst werden können.
Im Synthesevorgang wird ein Schnittstellenmodul für eine bestimmte Sprache verwendet, das den eingegebenen Text in eine Folge von Sprachmerkmalen umwandelt. Dann werden die folgenden DNNs nacheinander angewendet:
1. Vorhersage der Prosodie
Prosodische Sprachmerkmale werden als vierdimensionaler Vektor pro TTS-Einheit dargestellt (ungefähr ein Drittel der Schallbedingungen gemäß
SMM (Hidden-Markov-Modell)), der die logarithmische Dauer, die anfängliche und endgültige logarithmische Tonhöhe sowie die logarithmische Energie umfasst. Diese Merkmale werden während des Trainingsprozesses bestimmt, sodass sie durch die Merkmale des Textes vorhergesagt werden können, der während der Synthese von der Schnittstelle empfangen wird. Prosodie ist äußerst wichtig, damit Sprache nicht nur natürlich und lebendig klingt, sondern auch, damit die Daten, die für das Training oder die Anpassung bestimmt sind, den Sprachstil des Sprechers am vollständigsten widerspiegeln. Die Anpassung der Prosodie an die Stimme des Sprechers basiert auf dem Variational Auto Encoder (VAE).
Schema 2. Schulung und Umschulung des Prosodie-Generators2. Vorhersage akustischer Merkmale
Akustische Merkmalsvektoren liefern eine spektrale Darstellung von Sprache in kurzen 10-Millisekunden-Frames, aus denen tatsächlicher Ton erzeugt werden kann. Akustische Merkmale werden im Lernprozess bestimmt und können durch phonetische Markierungen und Prosodie während der Synthese vorhergesagt werden.
Schema 3. NetzwerksynthesizerDas erstellte DNN-Modell besteht aus Audiodaten (Sprachansager), die für das Training oder die Anpassung erforderlich sind. Die Architektur des Modells besteht aus Faltungs- und wiederkehrenden Schichten, die den lokalen Kontext und die Zeitabhängigkeiten in der Folge von Klängen und Tonstrukturen extrahieren sollen. DNN sagt akustische Merkmale aus ihrer ersten und zweiten Ableitung voraus. Darauf folgt
die Maximum-Likelihood-Methode, und es werden
Formantenfilter angewendet, die dazu beitragen, eine besser klingende Sprache zu erzeugen.
3. Neuronaler Vocoder
Ein neuronaler Vocoder ist für die Erzeugung von Sprache aus akustischen Merkmalen verantwortlich. Er lernt aus den natürlichen Sprachmustern des Sprechers aufgrund seiner jeweiligen Eigenschaften. Technisch gesehen waren wir die ersten, die einen neuen, leichten und hochwertigen neuronalen Vocoder
namens LPCNet in einem vollständig kommerzialisierten TTS-System verwendeten.
Das Neue an diesem Vocoder ist, dass er nicht versucht, ein komplexes Sprachsignal direkt mit DNN vorherzusagen. Stattdessen sagt der DNN nur das weniger komplexe verbleibende Sprachpfadsignal voraus und konvertiert es dann mithilfe von LPC-Filtern (Linear Predictive Coding) in das endgültige Sprachsignal.
Schema 4. Neuronaler Vocoder LPCNetSprachanpassung
Die Anpassung an die Sprache wird leicht erreicht, indem drei Netzwerke basierend auf einer kleinen Menge von Audiodaten vom Ziellautsprecher umgeschult werden. In unserem Artikel präsentieren wir die Ergebnisse von Anpassungsexperimenten in Bezug auf die Sprachqualität und ihre Ähnlichkeit mit der Sprache des wahren Sprechers.
Diese Seite zeigt auch Beispiele für die Anpassung an acht verschiedene
VCTK-Lautsprecher (Voice Cloning Toolkit), von denen 4 Männer und 4 Frauen sind.
Hörergebnisse
Die folgende Abbildung zeigt die Ergebnisse von Hörtests synthetisierter und natürlicher Sprachmuster von VCTK-Lautsprechern. Die MOS-Werte (Mean Opinion Score) basieren auf der Analyse der Sprachqualität durch die Hörer auf einer Skala von 1 bis 5. Die Ähnlichkeit zwischen Stichprobenpaaren wurde von den Schülern auf einer Skala von 1 bis 4 bewertet.
Wir haben die Qualität der synthetisierten Sprache sowie ihre Ähnlichkeit mit der Sprache von „Live“ -Sprechern gemessen und die an Frauen und Männer angepassten Stimmen von 5, 10 und 20 Minuten Dauer mit der natürlichen Sprache der Sprecher verglichen.
Die Testergebnisse zeigen, dass wir sowohl für Stimmen, die an fünfminütigen Beispielen trainiert wurden, sowohl eine hohe Qualität als auch eine hohe Ähnlichkeit mit dem Original beibehalten können.
Abbildung 5. Ergebnisse von Tests auf Qualität und ÄhnlichkeitDiese Arbeit wurde von
IBM Watson durchgeführt und diente als Grundlage für eine neue Version des IBM Watson TTS-Dienstes mit verbesserter Sprachqualität (siehe "* V3" -Stimmen in der
IBM Watson TTS- Demo).