Los avances recientes en el aprendizaje profundo aportan mejoras significativas al desarrollo de sistemas de síntesis de voz (en adelante, TTS). Esto se debe al uso de métodos más efectivos y rápidos para estudiar la voz y el estilo de los hablantes, así como a la síntesis de un habla más natural y de alta calidad.
Sin embargo, para lograr esto, la mayoría de los sistemas TTS deben usar modelos de redes neuronales grandes y complejos que son difíciles de entrenar y que no permiten la síntesis de voz en tiempo real, incluso con GPU.
Para resolver estos problemas, nuestro equipo de IBM Research AI ha desarrollado un nuevo método de síntesis de redes neuronales basado en una arquitectura modular. Este método combina tres redes neuronales profundas (en adelante denominadas DNN) con procesamiento intermedio de sus señales de salida. Presentamos este trabajo en nuestro artículo
"Tecnología TTS ligera, adaptable y de alta calidad utilizando LPCNet" en Interspeech 2019. La arquitectura TTS es
ligera y puede sintetizar voz de alta calidad en tiempo real. Cada red se especializa en varios aspectos de la voz del hablante, lo que le permite entrenar eficazmente cualquiera de los componentes independientemente de los demás.
Diagrama 1. Arquitectura del sistema TTSOtra ventaja de nuestro enfoque es que después de entrenar las redes centrales, se pueden adaptar fácilmente a un nuevo estilo de voz o voz incluso en pequeños volúmenes de datos de entrenamiento, por ejemplo, para fines de marca y personalización.
El proceso de síntesis utiliza un módulo de interfaz para un idioma específico, que convierte el texto de entrada en una secuencia de características lingüísticas. Luego, los siguientes DNN se aplican uno tras otro:
1. Predicción de prosodia
Las características prosódicas del habla se presentan como un vector de cuatro dimensiones por unidad TTS (aproximadamente un tercio de las condiciones de sonido según
SMM (modelo oculto de Markov)), que incluye la duración del registro, el inicio de sesión inicial y final, así como la energía del registro. Estas características se determinan durante el proceso de capacitación, por lo que pueden predecirse por las características del texto recibido por la interfaz durante la síntesis. La prosodia es extremadamente importante no solo para que el habla suene natural y animado, sino también para que los datos destinados al entrenamiento o la adaptación tengan el reflejo más completo del estilo de habla del hablante. La adaptación de la prosodia a la voz del locutor se basa en el codificador automático variable (VAE).
Esquema 2. Capacitación y reciclaje del generador de prosodia.2. Predicción de características acústicas.
Los vectores de características acústicas proporcionan una representación espectral del habla en cuadros cortos de 10 milisegundos a partir de los cuales se puede generar el sonido real. Las características acústicas se determinan en el proceso de aprendizaje y pueden predecirse mediante marcas fonéticas y prosodia durante la síntesis.
Esquema 3. Sintetizador de redEl modelo DNN creado son datos de audio (locutor de voz), necesarios para el entrenamiento o la adaptación. La arquitectura del modelo consiste en capas convolucionales y recurrentes diseñadas para extraer el contexto local y las dependencias de tiempo en la secuencia de sonidos y estructura de tonos. DNN predice características acústicas de su primera y segunda derivada. Esto es seguido por
el método de máxima verosimilitud y se aplican
filtros formantes que ayudan a generar un mejor sonido del habla.
3. Vocoder neuronal
Un vocoder neuronal es responsable de generar voz a partir de características acústicas. Aprende de los patrones de habla natural del hablante, dadas sus respectivas características. Técnicamente, fuimos los primeros en utilizar un nuevo vocoder neuronal ligero y de alta calidad
llamado LPCNet en un sistema TTS totalmente comercializado.
La novedad de este vocoder es que no trata de predecir una señal de voz compleja directamente usando DNN. En cambio, el DNN solo predice la señal de ruta de voz residual menos compleja, y luego usa filtros de Codificación Predictiva Lineal (LPC) para convertirla en la señal de voz final.
Esquema 4. Vocoder neuronal LPCNetAdaptación de voz
La adaptación a la voz se logra fácilmente mediante el reentrenamiento de tres redes basadas en una pequeña cantidad de datos de audio del altavoz objetivo. En nuestro artículo, presentamos los resultados de los experimentos de adaptación en términos de calidad del habla y su similitud con el verdadero discurso del hablante.
Esta página también muestra ejemplos de adaptación a ocho diferentes
altavoces VCTK (Voice Cloning Toolkit), de los cuales 4 son hombres y 4 son mujeres.
Resultados de escucha
La siguiente figura muestra los resultados de las pruebas de audición de los patrones de voz sintetizados y naturales de los altavoces VCTK. Los valores de la Media Opinion Score (MOS) se basan en el análisis de los oyentes de la calidad del habla en una escala de 1 a 5. Los estudiantes evaluaron la similitud entre pares de muestras en una escala de 1 a 4.
Medimos la calidad del discurso sintetizado, así como su similitud con el habla de los oradores "en vivo", comparando las voces adaptadas femeninas y masculinas que duran 5, 10 y 20 minutos con el habla natural de los hablantes.
Los resultados de la prueba muestran que podemos mantener tanto la alta calidad como la alta similitud con el original, incluso para voces que fueron entrenadas en ejemplos de cinco minutos.
Diagrama 5. Resultados de las pruebas de calidad y similitud.Este trabajo fue llevado a cabo por
IBM Watson y sirvió de base para una nueva versión del servicio TTS de IBM Watson con una calidad de voz mejorada (ver voces "* V3" en la demostración
TTS de IBM Watson ).