Le dictionnaire en
anglais Puzzle aide les utilisateurs à apprendre le vocabulaire avec des puzzles audio et vidéo, des podcasts, des films, des émissions de télévision et des chansons. Dans le dictionnaire, les traductions sont accompagnées d'exemples audio de mots et de phrases. Pour le son, nous utilisons des enregistrements de haut-parleurs en direct et TTS - système de synthèse vocale, synthétiseurs vocaux à partir de texte. Aujourd'hui, nous allons vous expliquer comment nous avons choisi le moteur Vocalware TTS, pourquoi nous voulons plutôt connecter le système Amazon Polly et quelles tâches une personne peut mieux résoudre qu'un robot.

Dans le dictionnaire, nous avons impliqué plus de 20 voix avec différents accents, timbre et options de prononciation. Des voix masculines et féminines avec des vitesses de parole différentes sont entendues. Les "annonceurs" ont des noms et des pays d'origine - les États-Unis, la Grande-Bretagne ou l'Australie. Les options de prononciation aident les utilisateurs à apprendre à parler et à percevoir la parole étrangère. Voici à quoi ressemble le commutateur de prononciation d'un mot:

Comment trouver le bon TTS
Basé sur la fonctionnalité du dictionnaire, nous avons besoin d'un TTS qui prend en charge au moins trois accents: américain (général américain), britannique (prononciation reçue) et australien. Des voix masculines et féminines étaient nécessaires, et de préférence un support de transcription.
Nous recherchions le TTS, qui synthétise une parole proche d'une voix naturelle, produit un son clair et n'est pas trop exigeant sur la qualité de la connexion Internet côté utilisateur. Les étudiants en anglais Puzzle vivent dans différentes régions de la Russie, utilisent le service à partir de téléphones mobiles via 2G et 3G. Je voulais que TTS soit capable de synthétiser non seulement des mots, mais aussi de lire des phrases avec expression.
Nous avons résolu ce problème en 2015, mais nous avons constaté qu'il était presque impossible de trouver une condition TTS adéquate. Il y avait plusieurs moteurs sur le marché:
Acapela - peut reconnaître et exprimer des textes en 34 langues. Plus de 100 voix synthétisées avec différents âges, émotions, accents. Il produit un son de haute qualité.
Vocalizer - la voix semble naturelle, le discours est clair. Divers dictionnaires sont installés, le volume, la vitesse et la contrainte sont ajustés.
eSpeak - prend en charge plus de 50 langues. La parole synthétisée n'est pas parfaite, mais lisible, une qualité sonore moyenne. L'inconvénient est que les fichiers eSpeak avec synthèse vocale sont enregistrés au format .wav et prennent beaucoup de place.
RSynth - pas de documentation, la qualité de la parole est médiocre.
Festival est un système de synthèse vocale multilingue, il ne fonctionne pas toujours de manière stable.
Vocalware - plus de 100 voix synthétisées dans 20 langues.
Acapela et Vocalizer ne fonctionnaient que sur Android, les autres systèmes ne prenaient pas en charge. De plus, ils étaient instables, comme Festival. Les moteurs ESpeak et RSynth ne convenaient pas, car la qualité de la synthèse vocale pour le dictionnaire devrait être idéale.
Parmi ces options, nous avons choisi le moteur Vocalware, qui répondait à nos critères: accents, voix "d'annonceurs" hétérosexuels, transcriptions. Ce moteur offrait alors l'une des meilleures qualités de synthèse de texte arbitraire. Avec lui, nous avons créé plus d'un tiers des sondages. Vocalware fait un bon travail de traduction de mots simples, mais pas de phrases entières. Les annonceurs en direct les traduisent en anglais Puzzle.
Pourquoi voulons-nous connecter Amazon Polly
Malheureusement, Vocalware ne répond pas aux exigences de l'époque.
- La qualité de synthèse vocale de ce TTS n'est pas la meilleure du marché. Nous donnons à l'utilisateur la possibilité de choisir parmi les options de prononciation, et plus la voix est efficace, plus elle sera utile à l'élève.
- Nous rencontrons occasionnellement des plantages de Vocalware. Il arrive que le service ne soit disponible que deux jours de suite. C'est inacceptable.
- Ce TTS ne prend pas en charge le langage de balisage pour les applications de synthèse vocale SSML. Grâce à SSML, vous pouvez ajuster les accents d'intonation, la durée de la pause et d'autres paramètres.
Le système avec la meilleure qualité de synthèse est apparu chez Amazon, il s'appelle Amazon Polly, un autre est en cours de développement chez Google - Cloud Text-to-Speech.
Amazon Polly est meilleur que Vocalware à tous égards: il propose des dizaines de langues, des voix masculines et féminines qui semblent plus naturelles. Le moteur prend en charge le vocabulaire et les balises SSML qui vous permettent de contrôler la prononciation, le volume, la hauteur et la vitesse. Polly est plus rapide.
La synthèse vocale Google Cloud n'est pas encore entrée en production, est en phase de test bêta. Le moteur est basé sur la technologie WaveNet - celle-là même qui exécute Google Translate et d'autres services Google. Elle utilise les réseaux de neurones pour donner un son naturel aux mots et aux phrases. Le service offre un choix de 30 voix avec des options sonores. La hauteur de chaque voix est ajustée, 20 demi-tons au-dessus ou au-dessous de l'original.
Nous avons testé les deux systèmes et sommes arrivés à la conclusion que les petites entreprises qui représentaient auparavant le marché TTS ont raté leur chance et ont été laissées pour compte. Il est peu probable qu'ils améliorent le produit que les géants - Google et Amazon. Ces sociétés utilisent d'énormes quantités de données et de puissance de traitement pour les modèles vocaux et conquièrent progressivement le marché.
Nous prévoyons maintenant de passer à la solution Amazon, car la qualité de la synthèse vocale de Polly est comparable à celle de WaveNet. Notre préféré est l '«annonceur» de l'anglais britannique du nom de Brian, ce qui semble le plus naturel.
Même Polly, contrairement à WaveNet, synthétise le discours russe. Ce TTS a des options de prononciation anglaise avec des accents irlandais et indiens. Ces prononciations sont utiles pour la version anglaise du site, qui sera utilisée par les Indiens qui souhaitent apprendre l'anglais. Dans le même temps, le système est moins cher.
À la suite de l'analyse de ces TTS, nous avons prévu de connecter des voix supplémentaires de Polly dans un avenir proche. Les anciens «annonceurs» resteront également pour l'instant: le sens du dictionnaire est que l'utilisateur peut entendre différentes variantes de prononciation. Mais il n'est pas possible de faire du doublage de phrases composites à l'aide de robots seuls. Sur le service, de nombreuses phrases ont été créées via TTS, mais il n'est toujours pas possible d'abandonner complètement les enceintes live.
Pourquoi un robot est-il inférieur à une personne lorsqu'il exprime des phrases
Dans Puzzle English, les phrases sont exprimées par des locuteurs en direct. La machine se traduit par des phrases simples - narratives, avec une question, un déni, sans coloration émotionnelle. Elle ne peut pas faire face à un texte plus complexe; elle fait plusieurs erreurs typiques.
"Chasing"
Cette prononciation est un mot à la fois. Un tel doublage n'est même pas à peu près similaire à la parole, ils n'ont pas d'intonation, de division phrasale de l'énoncé et de stress sémantique, car chaque mot est prononcé sous stress.
C'est ainsi que TTS dans Google Translate et un annonceur en direct ont lu la même phrase.Le robot fait de petites pauses entre les mots, comme s'il les "frappait".
L'annonceur utilise un accent phrasal, il partage la grosse phrase selon le sens. La phrase est mieux perçue à l'oreille.
Intonation
Une machine ne peut généralement pas reproduire l'intonation souhaitée. Ce point dans la prononciation des phrases est important pour de nombreux apprenants d'anglais. Souvent, les élèves pensent qu'il suffit de délivrer des sons, et le discours sonnera comme un Anglais. Ce n'est pas le cas. L'étranger donne une mauvaise intonation. Une personne vivante peut mettre en évidence les parties nécessaires d'une phrase, si le contexte l'exige. Le robot ne le fera pas. Écoutez à nouveau les exemples de phrases ci-dessus et vous comprendrez de quoi il s'agit.
Discours direct
La machine n'émet pas de parole directe ponctuée. Elle continue de lire le texte, préservant l'image d'intonation globale.
Voici comment un locuteur natif lit le texte:
Et donc le robot:
Émotions dans la conversation
Le robot ne reconnaît pas les fragments sur lesquels le médium met l'accent sur certains mots, par exemple lorsque la phrase a une connotation ironique. Un robot maintient généralement un ton neutre.
Ceci est également entendu dans les exemples précédents.
Vitesse de prononciation incorrecte
Une erreur courante dans un robot est l'étirement, ce qui produit un effet d'inhibition. Et, au contraire, la prononciation trop rapide d'un mot ou d'une phrase donne une «mastication» du texte.
Contraintes non naturelles
Le robot lit chaque mot avec emphase, ce qui n'est pas naturel pour la parole en direct.
Dans cet exemple, le robot met en surbrillance la préposition à.
L'annonceur ne met pas en évidence l'excuse; dans le discours en direct, il se confond avec le jeu et n'est lui-même pas stressé.
Les moteurs Google et Amazon lisent mieux les phrases que les autres TTS que nous avons testés. Selon les résultats de l'analyse, les deux solutions des grandes sociétés ne pouvaient pas faire face à six phrases avec une intonation complexe et se débrouillaient bien avec seulement cinq. Google a mal lu deux «haut-parleurs» standard, deux de façon satisfaisante, et Amazon a mal lu deux et un seul de manière satisfaisante.
Le résultat global de Google est un peu meilleur, mais certaines voix d'Amazon Polly semblaient plus intéressantes, car leur voix et leur intonation semblaient plus naturelles. En général, il est déjà possible de confier la prononciation des phrases TTS, mais pas dans tous les cas et pas dans un produit pour les étudiants d'une langue étrangère. Ils apprécient la qualité et les nuances de la prononciation, que le robot ne peut pas toujours transmettre.
Conclusion
Avec TTS, vous pouvez exprimer des mots individuels dans différentes langues pour vos services. Les nouvelles solutions Amazon et Google font mieux que les moteurs de petites entreprises préexistants. Mais les phrases, en particulier les phrases complexes avec plusieurs virgules, dans leur performance jusqu'à présent, ne semblent pas naturelles. Le robot ne peut pas distinguer la parole directe, transmettre l'ironie, mettre l'accent sémantique, choisir l'intonation correcte pour la question de séparation à la fin de la phrase. Ceci est inacceptable pour nos objectifs, c'est pourquoi nous demandons aux intervenants en direct d'exprimer ces documents et de continuer à tester de nouvelles offres sur ce marché.
Si vous voulez pomper l'anglais, venez nous voir.
Nous remettons aux lecteurs du blog un
coupon de 700 roubles pour l'achat de "Tâches".