Os recentes avanços na aprendizagem profunda trazem melhorias significativas para o desenvolvimento de sistemas de síntese de fala (doravante, TTS). Isso se deve ao uso de métodos mais eficazes e rápidos de estudar a voz e o estilo dos alto-falantes, bem como à síntese de um discurso mais natural e de alta qualidade.
No entanto, para conseguir isso, a maioria dos sistemas TTS deve usar modelos de redes neurais grandes e complexos que são difíceis de treinar e que não permitem a síntese de fala em tempo real, mesmo com GPUs.
Para resolver esses problemas, nossa equipe do IBM Research AI desenvolveu um novo método de síntese de redes neurais com base em uma arquitetura modular. Este método combina três redes neurais profundas (doravante denominadas DNN) com o processamento intermediário de seus sinais de saída. Apresentamos este trabalho em nosso artigo
“Tecnologia TTS de alta qualidade, leve e adaptável usando LPCNet” na Interspeech 2019. A arquitetura TTS é
leve e pode sintetizar discurso de alta qualidade em tempo real. Cada rede é especializada em vários aspectos da voz do falante, o que permite treinar efetivamente qualquer componente independentemente dos outros.
Diagrama 1. Arquitetura do sistema TTSOutra vantagem de nossa abordagem é que, depois de treinar as redes principais, elas podem ser facilmente adaptadas a um novo estilo de fala ou voz, mesmo em pequenos volumes de dados de treinamento, por exemplo, para fins de marca e personalização.
No processo de síntese, é usado um módulo de interface para um idioma específico, que converte o texto de entrada em uma sequência de recursos linguísticos. Em seguida, os seguintes DNNs são aplicados um após o outro:
1. Previsão de prosódia
Os recursos prosódicos da fala são apresentados como um vetor quadridimensional por unidade TTS (aproximadamente um terço das condições sonoras de acordo com o
SMM (modelo Markov oculto)), que inclui duração do log, log-pitch inicial e final, além de log-energy. Esses recursos são determinados durante o processo de treinamento, para que possam ser previstos pelos recursos do texto recebido pela interface durante a síntese. A prosódia é extremamente importante não apenas para que a fala pareça natural e viva, mas também para que os dados destinados ao treinamento ou adaptação tenham o reflexo mais completo do estilo de fala do falante. A adaptação da prosódia à voz do locutor é baseada no Variational Auto Encoder (VAE).
Esquema 2. Treinamento e reciclagem do gerador de prosódia2. Previsão de características acústicas
Os vetores de características acústicas fornecem uma representação espectral da fala em quadros curtos de 10 milissegundos a partir dos quais o som real pode ser gerado. As características acústicas são determinadas no processo de aprendizagem e podem ser previstas por marcas fonéticas e prosódia durante a síntese.
Esquema 3. Sintetizador de redeO modelo DNN criado é de dados de áudio (locutor de voz), necessários para treinamento ou adaptação. A arquitetura do modelo consiste em camadas convolucionais e recorrentes, projetadas para extrair as dependências locais de contexto e tempo na sequência de sons e estrutura de tons. O DNN prevê características acústicas de sua primeira e segunda derivada. Isso é seguido pelo
método de máxima verossimilhança e são aplicados
filtros formantes que ajudam a gerar um discurso com melhor som.
3. Vocoder neural
Um vocoder neural é responsável por gerar fala a partir de recursos acústicos. Ele aprende com os padrões naturais de fala do palestrante, dadas as respectivas características. Tecnicamente, fomos os primeiros a usar um novo vocoder neural leve, de alta qualidade,
chamado LPCNet, em um sistema TTS totalmente comercializado.
A novidade desse codificador de voz é que ele não tenta prever um sinal de fala complexo diretamente usando DNN. Em vez disso, o DNN prevê apenas o sinal de caminho de voz residual menos complexo e, em seguida, usa os filtros Linear Predictive Coding (LPC) para convertê-lo no sinal de voz final.
Esquema 4. Vocoder neural LPCNetAdaptação de voz
A adaptação à voz é facilmente alcançada através da reciclagem de três redes com base em uma pequena quantidade de dados de áudio do alto-falante alvo. Em nosso artigo, apresentamos os resultados de experimentos de adaptação em termos de qualidade da fala e sua similaridade com a fala do verdadeiro orador.
Esta página também mostra exemplos de adaptação a oito alto-falantes diferentes do
VCTK (Voice Cloning Toolkit), dos quais 4 são homens e 4 são mulheres.
Resultados da Audição
A figura abaixo mostra os resultados dos testes de audição dos padrões de fala sintetizados e naturais dos alto-falantes do VCTK. Os valores do Average Opinion Score (MOS) são baseados na análise da qualidade da fala dos ouvintes em uma escala de 1 a 5. A similaridade entre pares de amostras foi avaliada pelos alunos em uma escala de 1 a 4.
Medimos a qualidade da fala sintetizada, bem como sua semelhança com a fala dos falantes "ao vivo", comparando as vozes adaptadas de mulheres e homens com duração de 5, 10 e 20 minutos com a fala natural dos falantes.
Os resultados dos testes mostram que podemos manter alta qualidade e alta similaridade com o original, mesmo para vozes que foram treinadas em exemplos de cinco minutos.
Diagrama 5. Resultados dos testes de qualidade e similaridadeEste trabalho foi realizado pelo
IBM Watson e serviu de base para um novo release do serviço IBM Watson TTS com qualidade de voz aprimorada (consulte as vozes "* V3" na demonstração do
IBM Watson TTS ).