Das Wörterbuch in
Puzzle English hilft Benutzern, Vokabeln sowie Audio- und Videopuzzles, Podcasts, Filme, TV-Shows und Songs zu lernen. Im Wörterbuch werden Übersetzungen von Audiobeispielen von Wörtern und Phrasen begleitet. Für den Ton verwenden wir Aufzeichnungen von Live-Lautsprechern und TTS - Text-to-Speech-System, Sprachsynthesizer aus Text. Heute erfahren Sie, wie wir uns für die Vocalware TTS-Engine entschieden haben, warum wir stattdessen das Amazon Polly-System anschließen möchten und welche Aufgaben eine Person besser lösen kann als ein Roboter.
Das Wörterbuch enthält mehr als 20 Stimmen mit unterschiedlichen Akzenten, Klangfarben und Aussprachemöglichkeiten. Man hört männliche und weibliche Stimmen mit unterschiedlichen Sprachgeschwindigkeiten. Die "Ansager" haben Namen und Herkunftsländer - die USA, Großbritannien oder Australien. Mithilfe von Ausspracheoptionen lernen Benutzer, wie man Fremdsprache spricht und wahrnimmt. So sieht der Ausspracheschalter für ein Wort aus:

So finden Sie das richtige TTS
Basierend auf der Funktionalität des Wörterbuchs benötigen wir ein TTS, das mindestens drei Akzente unterstützt: Amerikanisch (General American), Britisch (Erhaltene Aussprache) und Australisch. Männliche und weibliche Stimmen waren erforderlich und vorzugsweise Transkriptionsunterstützung.
Wir suchten nach TTS, das Sprache nahe an einer natürlichen Stimme synthetisiert, einen klaren Klang erzeugt und die Qualität der Internetverbindung auf der Benutzerseite nicht zu stark beansprucht. Puzzle Englisch Studenten leben in verschiedenen Regionen Russlands, nutzen den Service von Mobiltelefonen über 2G und 3G. Ich wollte, dass TTS nicht nur Wörter synthetisieren, sondern auch Phrasen mit Ausdruck lesen kann.
Wir haben uns bereits 2015 um dieses Problem gekümmert, aber festgestellt, dass es fast unmöglich ist, eine angemessene TTS-Anforderung zu finden. Es gab mehrere Motoren auf dem Markt:
Acapela - kann Texte in 34 Sprachen erkennen und
aussprechen . Mehr als 100 synthetisierte Stimmen mit unterschiedlichen Altersgruppen, Emotionen und Akzenten. Es erzeugt eine hohe Klangqualität.
Vocalizer - die Stimme klingt natürlich, die Sprache ist klar. Verschiedene Wörterbücher werden installiert, Volumen, Geschwindigkeit und Belastung werden angepasst.
eSpeak - unterstützt über 50 Sprachen. Synthetisierte Sprache ist keine perfekte, aber lesbare, durchschnittliche Klangqualität. Der Nachteil ist, dass eSpeak-Dateien mit synthetisierter Sprache im WAV-Format gespeichert werden und viel Platz beanspruchen.
RSynth - keine Dokumentation, Sprachqualität ist mittelmäßig.
Festival ist ein mehrsprachiges Sprachsynthesesystem, das nicht immer stabil funktioniert.
Vocalware - mehr als 100 synthetisierte Stimmen in 20 Sprachen.
Acapela und Vocalizer funktionierten nur unter Android, andere Systeme unterstützten dies nicht. Außerdem waren sie wie das Festival instabil. ESpeak- und RSynth-Engines passten nicht, da die Qualität der Sprachsynthese für das Wörterbuch ideal sein sollte.
Von diesen Optionen haben wir die Vocalware-Engine ausgewählt, die unsere Kriterien erfüllt: Akzente, Stimmen heterosexueller "Ansager", Transkriptionen. Dann bot diese Engine eine der besten Eigenschaften für die Synthese von beliebigem Text. Damit haben wir mehr als ein Drittel der Sondierungen erstellt. Vocalware übersetzt gut einzelne Wörter, aber keine ganzen Sätze. Live-Ansager übersetzen sie ins Puzzle-Englisch.
Warum wollen wir Amazon Polly verbinden?
Leider entspricht Vocalware nicht den Anforderungen der Zeit.
- Die Sprachsynthesequalität dieses TTS ist nicht die beste auf dem Markt. Wir geben dem Benutzer die Möglichkeit, aus Ausspracheoptionen zu wählen. Je besser die Sprachausgabe, desto nützlicher sind sie für den Schüler.
- Gelegentlich kommt es zu Abstürzen von Vocalware. Es kommt vor, dass der Dienst erst zwei Tage hintereinander verfügbar ist. Das ist nicht akzeptabel.
- Dieses TTS bietet keine Unterstützung für Markup-Sprachen für SSML-Sprachsyntheseanwendungen. Über SSML können Sie die Intonationsakzente, die Pausenlänge und andere Parameter anpassen.
Das System mit der besten Synthesequalität wurde bei Amazon vorgestellt. Es heißt Amazon Polly, ein weiteres befindet sich bei Google in der Entwicklung - Cloud Text-to-Speech.
Amazon Polly ist in jeder Hinsicht besser als Vocalware: Es bietet Dutzende von Sprachen, Männer- und Frauenstimmen, die natürlicher klingen. Die Engine unterstützt Vokabeln und SSML-Tags, mit denen Sie Aussprache, Lautstärke, Tonhöhe und Geschwindigkeit steuern können. Polly ist schneller.
Google Cloud Text-to-Speech ist noch nicht in Produktion, befindet sich im Beta-Test. Die Engine basiert auf der WaveNet-Technologie, die Google Translate und andere Google-Dienste ausführt. Sie verwendet neuronale Netze, um Wörter und Phrasen natürlich klingen zu lassen. Der Service bietet eine Auswahl von 30 Stimmen mit Soundoptionen. Die Tonhöhe jeder Stimme wird angepasst, 20 Halbtöne über oder unter dem Original.
Wir haben beide Systeme getestet und sind zu dem Schluss gekommen, dass kleine Unternehmen, die zuvor den TTS-Markt repräsentierten, ihre Chance verpasst haben und zurückgelassen wurden. Es ist unwahrscheinlich, dass sie das Produkt besser machen als die Giganten - Google und Amazon. Diese Unternehmen nutzen große Datenmengen und Rechenleistung für Sprachmodelle und erobern nach und nach den Markt.
Jetzt planen wir, auf die Amazon-Lösung umzusteigen, da die Qualität der Sprachsynthese von Polly mit der von WaveNet vergleichbar ist. Unser Favorit ist der "Ansager" für britisches Englisch namens Brian, was am natürlichsten klingt.
Sogar Polly synthetisiert im Gegensatz zu WaveNet russische Sprache. Dieses TTS bietet englische Aussprachemöglichkeiten mit irischen und indischen Akzenten. Diese Aussprachen sind nützlich für die englische Version der Website, die von Indern verwendet wird, die Englisch lernen möchten. Gleichzeitig ist das System günstiger.
Als Ergebnis der Analyse dieser TTS planten wir, in naher Zukunft weitere Stimmen von Polly zu verbinden. Auch alte „Ansager“ bleiben vorerst erhalten: Die Bedeutung des Wörterbuchs besteht darin, dass der Benutzer verschiedene Aussprachevarianten hören kann. Es ist jedoch nicht möglich, zusammengesetzte Sätze mit Hilfe von Robotern zu sprechen. Während des Dienstes wurden viele Phrasen über TTS erstellt, aber es ist immer noch nicht möglich, Live-Sprecher vollständig aufzugeben.
Warum ist ein Roboter einer Person unterlegen, wenn er Phrasen ausspricht?
In Puzzle English werden Phrasen von Live-Sprechern gesprochen. Die Maschine spricht einfache Sätze aus - narrativ, mit einer Frage, Verleugnung, ohne emotionale Färbung. Sie kann mit komplexeren Texten nicht umgehen und macht einige typische Fehler.
"Jagen"
Diese Aussprache ist jeweils ein Wort. Ein solches Überspielen ähnelt nicht einmal annähernd der Sprache, sie haben keine Intonation, keine phrasale Aufteilung der Äußerung und keine semantische Belastung, da jedes Wort unter Belastung ausgesprochen wird.
So lesen TTS in Google Translate und ein Live-Ansager denselben Satz.Der Roboter macht kleine Pausen zwischen den Wörtern, als würde er sie "prägen".
Der Ansager verwendet einen Phrasenakzent, er teilt den großen Satz entsprechend der Bedeutung. Der Satz wird vom Ohr besser wahrgenommen.
Intonation
Eine Maschine kann normalerweise die gewünschte Intonation nicht reproduzieren. Dieser Punkt in der Aussprache von Phrasen ist für viele Englischlerner wichtig. Oft denken die Schüler, dass es ausreicht, Töne zu liefern, und die Rede klingt wie ein Engländer. Es ist nicht so. Der Ausländer gibt eine falsche Intonation aus. Eine lebende Person kann die notwendigen Teile eines Satzes hervorheben, wenn der Kontext dies erfordert. Der Roboter wird dies nicht tun. Hören Sie sich die Beispiele der obigen Sätze noch einmal an und Sie werden verstehen, worum es geht.
Direkte Rede
Das Gerät gibt keine direkte unterbrochene Sprache aus. Sie liest den Text weiter und behält dabei das gesamte Intonationsbild bei.
So liest ein Muttersprachler Text:
Und so der Roboter:
Emotionen im Gespräch
Der Roboter erkennt keine Fragmente, auf denen das Medium bestimmte Wörter hervorhebt, beispielsweise wenn die Phrase eine ironische Konnotation hat. Ein Roboter behält normalerweise einen neutralen Ton bei.
Dies ist auch in den vorherigen Beispielen zu hören.
Falsche Aussprachegeschwindigkeit
Ein häufiger Fehler in einem Roboter ist das Dehnen, was eine Hemmwirkung hervorruft. Und im Gegenteil, eine zu schnelle Aussprache eines Wortes oder einer Phrase führt zu einem „Kauen“ des Textes.
Unnatürliche Belastungen
Der Roboter liest jedes Wort mit Nachdruck, was für Live-Sprache unnatürlich ist.
In diesem Beispiel hebt der Roboter die Präposition bei hervor.
Der Ansager hebt die Ausrede nicht hervor, in der Live-Rede verschmilzt er mit dem Spielen und ist selbst nicht gestresst.
Die Google- und Amazon-Engines lesen Phrasen besser als die anderen von uns getesteten TTS. Nach den Ergebnissen der Analyse konnten beide Lösungen großer Unternehmen sechs Phrasen mit komplexer Intonation nicht verarbeiten und kamen nur mit fünf gut zurecht. Google las zwei Standard- "Sprecher" schlecht, zwei zufriedenstellend, und Amazon las schlecht zwei und zufriedenstellend nur einen.
Das Gesamtergebnis von Google ist etwas besser, aber einige der Stimmen von Amazon Polly schienen interessanter zu sein, da ihre Stimme und ihr Ton natürlicher klangen. Im Allgemeinen ist es bereits möglich, die Aussprache von TTS-Phrasen anzuvertrauen, jedoch nicht in allen Fällen und nicht in einem Produkt für Schüler einer Fremdsprache. Sie schätzen die Qualität und Nuancen der Aussprache, die der Roboter nicht immer vermitteln kann.
Fazit
Mit TTS können Sie einzelne Wörter für Ihre Dienste in verschiedenen Sprachen aussprechen. Neue Amazon- und Google-Lösungen können dies besser als bereits vorhandene Engines kleiner Unternehmen. Phrasen, insbesondere komplexe Sätze mit mehreren Kommas, klingen in ihrer bisherigen Darstellung jedoch unnatürlich. Der Roboter kann keine direkte Sprache unterscheiden, keine Ironie vermitteln, keine semantische Betonung vornehmen und keine korrekte Intonation für die Trennungsfrage am Ende des Satzes auswählen. Dies ist für unsere Zwecke nicht akzeptabel. Daher bitten wir Live-Sprecher, solche Materialien zu äußern und weiterhin neue Angebote auf diesem Markt zu testen.
Wenn Sie Englisch pumpen möchten, kommen Sie zu uns.
Wir geben den Lesern des Blogs einen
Gutschein von 700 Rubel für den Kauf von "Aufgaben".