Cómo elegimos TTS por ejemplo suena en el Diccionario

El diccionario en Puzzle English ayuda a los usuarios a aprender vocabulario junto con rompecabezas de audio y video, podcasts, películas, programas de televisión y canciones. En el Diccionario, las traducciones van acompañadas de ejemplos en audio de palabras y frases. Para el sonido, utilizamos grabaciones de altavoces en vivo y TTS: sistema de texto a voz, sintetizadores de voz a partir de texto. Hoy le diremos cómo elegimos el motor Vocalware TTS, por qué queremos conectar el sistema Amazon Polly y qué tareas puede resolver una persona mejor que un robot.

imagen

En el Diccionario, hemos involucrado más de 20 voces con diferentes acentos, timbres, opciones de pronunciación. Se escuchan voces masculinas y femeninas con diferentes velocidades de habla. Los "anunciadores" tienen nombres y países de origen: Estados Unidos, Gran Bretaña o Australia. Las opciones de pronunciación ayudan a los usuarios a aprender a hablar y percibir el habla extranjera. Así es como se ve el cambio de pronunciación para una palabra:

imagen

Cómo encontrar el TTS correcto


Según la funcionalidad del Diccionario, necesitamos un TTS que admita al menos tres acentos: americano (general americano), británico (pronunciación recibida) y australiano. Se requerían voces masculinas y femeninas, y preferiblemente soporte de transcripción.

Estábamos buscando TTS, que sintetiza el habla cerca de una voz natural, produce un sonido claro y no exige demasiado la calidad de la conexión a Internet en el lado del usuario. Los estudiantes de Puzzle English viven en diferentes regiones de Rusia, usan el servicio desde teléfonos móviles a través de 2G y 3G. Quería que TTS pudiera sintetizar no solo palabras, sino también leer frases con expresión.

Nos ocupamos de este problema en 2015, pero descubrimos que encontrar un requisito de TTS adecuado es casi imposible. Había varios motores en el mercado:

Acapela : puede reconocer y expresar textos en 34 idiomas. Más de 100 voces sintetizadas con diferentes edades, emociones, acentos. Produce sonido de alta calidad.

Vocalizador : la voz suena natural, el habla es clara. Se instalan varios diccionarios, se ajusta el volumen, la velocidad y el estrés.

eSpeak : admite más de 50 idiomas. El discurso sintetizado no es perfecto, sino legible, con una calidad de sonido promedio. La desventaja es que los archivos eSpeak con voz sintetizada se guardan en formato .wav y ocupan mucho espacio.

RSynth : sin documentación, la calidad de voz es mediocre.

Festival es un sistema de síntesis de voz multilingüe; no siempre funciona de manera estable.

Vocalware : más de 100 voces sintetizadas en 20 idiomas.

Acapela y Vocalizer solo funcionaban en Android, otros sistemas no eran compatibles. Además, eran inestables, como el Festival. Los motores ESpeak y RSynth no encajaban, porque la calidad de la síntesis de voz para el Diccionario debería ser ideal.

De estas opciones, elegimos el motor Vocalware, que cumplía con nuestros criterios: acentos, voces de "anunciadores" heterosexuales, transcripciones. Entonces este motor ofreció una de las mejores cualidades para sintetizar texto arbitrario. Con él, creamos más de un tercio de los sondeos. Vocalware hace un buen trabajo al traducir palabras sueltas, pero no frases completas. Los locutores en vivo los traducen al inglés Puzzle.

¿Por qué queremos conectar Amazon Polly?


Desafortunadamente, Vocalware no cumple con los requisitos de la época.

  • La calidad de síntesis de voz de este TTS no es la mejor del mercado. Le damos al usuario la oportunidad de elegir entre las opciones de pronunciación, y cuanto mejor sea la actuación de la voz, más útiles serán para el estudiante.
  • Ocasionalmente experimentamos bloqueos de Vocalware. Sucede que el servicio no está disponible hasta dos días seguidos. Esto es inaceptable.
  • Este TTS no tiene soporte de lenguaje de marcado para aplicaciones de síntesis de voz SSML. A través de SSML, puede ajustar los acentos de entonación, la duración de la pausa y otros parámetros.

El sistema con la mejor calidad de síntesis apareció en Amazon, se llama Amazon Polly, otro está en desarrollo en Google: Cloud Text-to-Speech.

Amazon Polly es mejor que Vocalware en todos los aspectos: ofrece docenas de idiomas, voces masculinas y femeninas que suenan más naturales. El motor admite vocabulario y etiquetas SSML que le permiten controlar la pronunciación, el volumen, el tono y la velocidad. Polly es más rápida.

Google Cloud Text-to-Speech aún no ha entrado en producción, está en pruebas beta. El motor está basado en la tecnología WaveNet, la misma que ejecuta Google Translate y otros servicios de Google. Ella usa redes neuronales para hacer que las palabras y frases suenen naturales. El servicio ofrece una selección de 30 voces con opciones de sonido. Se ajusta el tono de cada voz, 20 semitonos por encima o por debajo del original.

Probamos ambos sistemas y llegamos a la conclusión de que las pequeñas empresas que anteriormente representaban el mercado de TTS perdieron su oportunidad y se quedaron atrás. Es poco probable que hagan que el producto sea mejor que los gigantes: Google y Amazon. Estas corporaciones utilizan grandes cantidades de datos y poder de procesamiento para los modelos de voz, y gradualmente capturan el mercado.

Ahora planeamos cambiar a la solución de Amazon, porque la calidad de la síntesis de voz de Polly es comparable a la de WaveNet. Nuestro favorito es el "locutor" del inglés británico con el nombre de Brian, que suena muy natural.


Incluso Polly, a diferencia de WaveNet, sintetiza el discurso ruso. Este TTS tiene opciones de pronunciación en inglés con acentos irlandeses e indios. Estas pronunciaciones son útiles para la versión en inglés del sitio, que será utilizada por los indios que quieran aprender inglés. Al mismo tiempo, el sistema es más barato.

Como resultado del análisis de estos TTS, planeamos conectar voces adicionales de Polly en el futuro cercano. Los viejos "anunciadores" también permanecerán por ahora: el significado del Diccionario es que el usuario puede escuchar diferentes variantes de pronunciación. Pero no es posible hacer una actuación de voz de frases compuestas solo con la ayuda de robots. En el servicio, se crearon muchas frases a través de TTS, pero aún no es posible abandonar completamente los altavoces en vivo.

¿Por qué un robot es inferior a una persona al expresar frases?


En Puzzle English, las frases son expresadas por hablantes en vivo. La máquina resulta expresar oraciones simples: narrativas, con una pregunta, negación, sin color emocional. No puede hacer frente a textos más complejos; comete varios errores típicos.

"Persiguiendo"


Esta pronunciación es una palabra a la vez. Tal doblaje ni siquiera es aproximadamente similar al discurso, no tienen entonación, división de la frase de la expresión y estrés semántico, porque cada palabra se pronuncia bajo estrés.

Así es como TTS en Google Translate y un locutor en vivo leen la misma frase.

El robot hace pequeñas pausas entre las palabras, como si "las acuñara".


El locutor usa acento compuesto, comparte la oración grande de acuerdo con el significado. La frase se percibe mejor por el oído.


Entonación


Una máquina generalmente no puede reproducir la entonación deseada. Este punto en la pronunciación de las frases es importante para muchos estudiantes de inglés. A menudo, los estudiantes piensan que es suficiente para emitir sonidos, y el discurso sonará como un inglés. Esto no es asi. El extranjero da entonación incorrecta. Una persona viva puede resaltar las partes necesarias de una oración, si el contexto lo requiere. El robot no hará esto. Escuche nuevamente los ejemplos de frases anteriores y comprenderá de qué se trata.

Discurso directo


La máquina no emite voz directa puntuada. Ella continúa leyendo el texto, conservando la imagen general de la entonación.

Así es como un hablante nativo lee el texto:


Y entonces el robot:


Emociones en conversación


El robot no reconoce fragmentos en los que el medio enfatiza ciertas palabras, por ejemplo, cuando la frase tiene una connotación irónica. Un robot generalmente mantiene un tono neutral.

Esto también se escucha en los ejemplos anteriores.

Velocidad de pronunciación incorrecta


Un error común en un robot es el estiramiento, que produce un efecto de inhibición. Y, por el contrario, la pronunciación de una palabra o frase demasiado rápido da una "masticación" del texto.



Estrés antinaturales


El robot lee cada palabra con énfasis, lo cual no es natural para el habla en vivo.

En este ejemplo, el robot resalta la preposición en.


El locutor no resalta la excusa; en el discurso en vivo, se fusiona con el juego y no está estresado.


Los motores de Google y Amazon leen frases mejor que los otros TTS que probamos. Según los resultados del análisis, ambas soluciones de las grandes corporaciones no pudieron hacer frente a seis frases con entonación compleja y se las arreglaron bien con solo cinco. Google leyó mal dos "altavoces" estándar, dos satisfactoriamente, y Amazon leyó mal dos y satisfactoriamente uno solo.

El resultado general de Google es ligeramente mejor, pero algunas de las voces de Amazon Polly parecían más interesantes, ya que su voz y tono sonaban más naturales. En general, ya es posible confiar la pronunciación de las frases TTS, pero no en todos los casos y no en un producto para estudiantes de un idioma extranjero. Valoran la calidad y los matices de la pronunciación, que el robot no siempre puede transmitir.

Conclusión


Con TTS, puede expresar palabras individuales en diferentes idiomas para sus servicios. Las nuevas soluciones de Amazon y Google lo hacen mejor que los motores preexistentes de pequeñas empresas. Pero las frases, especialmente las oraciones complejas con varias comas, en su interpretación hasta ahora suenan poco naturales. El robot no puede distinguir el discurso directo, transmitir ironía, hacer énfasis semántico, elegir la entonación correcta para la pregunta de separación al final de la oración. Esto es inaceptable para nuestros propósitos, por lo tanto, pedimos a los oradores en vivo que expresen dichos materiales y sigan probando nuevas ofertas en este mercado.

Si quieres aprender inglés, ven a nosotros.

Les damos a los lectores del blog un cupón de 700 rublos para la compra de "Tareas".

Source: https://habr.com/ru/post/es423589/


All Articles