O dicionário do
Puzzle English ajuda os usuários a aprender vocabulário, além de quebra-cabeças de áudio e vídeo, podcasts, filmes, programas de TV e músicas. No dicionário, as traduções são acompanhadas por exemplos de áudio de palavras e frases. Para o som, usamos gravações de alto-falantes ao vivo e TTS - sistema de conversão de texto em fala, sintetizadores de fala de texto. Hoje, mostraremos como escolhemos o mecanismo Vocalware TTS, por que queremos conectar o sistema Amazon Polly e quais tarefas uma pessoa pode resolver melhor do que um robô.
No dicionário, envolvemos mais de 20 vozes com diferentes sotaques, timbres e opções de pronúncia. São ouvidas vozes masculinas e femininas com diferentes velocidades de fala. Os "anunciadores" têm nomes e países de origem - EUA, Grã-Bretanha ou Austrália. As opções de pronúncia ajudam os usuários a aprender a falar e perceber fala estrangeira. É assim que a pronúncia muda para uma palavra:

Como encontrar o TTS certo
Com base na funcionalidade do Dicionário, precisamos de um TTS que suporte pelo menos três sotaques: americano (americano geral), britânico (pronúncia recebida) e australiano. Vozes masculinas e femininas eram necessárias e, de preferência, suporte à transcrição.
Estávamos procurando pelo TTS, que sintetiza a fala próximo a uma voz natural, produz um som nítido e não exige muito da qualidade da conexão à Internet no lado do usuário. Os estudantes de inglês de quebra-cabeça vivem em diferentes regiões da Rússia, usam o serviço de telefones celulares via 2G e 3G. Eu queria que o TTS fosse capaz de sintetizar não apenas palavras, mas também ler frases com expressão.
Nós resolvemos esse problema em 2015, mas descobrimos que encontrar um requisito de TTS adequado é quase impossível. Havia vários motores no mercado:
Acapela - pode reconhecer e expressar textos em 34 idiomas. Mais de 100 vozes sintetizadas com diferentes idades, emoções, sotaques. Produz som de alta qualidade.
Vocalizador - a voz soa natural, a fala é clara. Vários dicionários são instalados, volume, velocidade e tensão são ajustados.
eSpeak - suporta mais de 50 idiomas. A fala sintetizada não é perfeita, mas legível, com qualidade de som média. A desvantagem é que os arquivos eSpeak com fala sintetizada são salvos no formato .wav e ocupam muito espaço.
RSynth - sem documentação, a qualidade da fala é medíocre.
O Festival é um sistema multilíngue de síntese de fala, que nem sempre funciona de maneira estável.
Vocalware - mais de 100 vozes sintetizadas em 20 idiomas.
Acapela e Vocalizer funcionavam apenas no Android, outros sistemas não eram compatíveis. Além disso, eles eram instáveis, como o Festival. Os mecanismos ESpeak e RSynth não se encaixam, porque a qualidade da síntese de fala do Dicionário deve ser ideal.
Entre essas opções, escolhemos o mecanismo Vocalware, que atendia aos nossos critérios: sotaques, vozes de "anunciadores" heterossexuais, transcrições. Então esse mecanismo ofereceu uma das melhores qualidades de sintetizar texto arbitrário. Com isso, criamos mais de um terço das sondagens. O Vocalware faz um bom trabalho ao traduzir palavras únicas, mas não frases inteiras. Os anunciantes ao vivo os traduzem para o Puzzle English.
Por que queremos conectar o Amazon Polly
Infelizmente, o Vocalware não atende aos requisitos da época.
- A qualidade da síntese de fala deste TTS não é a melhor do mercado. Damos ao usuário a oportunidade de escolher entre as opções de pronúncia e, quanto melhor a dublagem, mais úteis serão para o aluno.
- Ocasionalmente, ocorrem falhas do Vocalware. Acontece que o serviço fica indisponível até dois dias seguidos. Isso é inaceitável.
- Este TTS não possui suporte à linguagem de marcação para aplicativos de síntese de fala SSML. Através do SSML, você pode ajustar os acentos da entonação, a duração da pausa e outros parâmetros.
O sistema com a melhor qualidade de síntese apareceu na Amazon, chamado Amazon Polly, outro em desenvolvimento no Google - Cloud Text-to-Speech.
O Amazon Polly é melhor que o Vocalware em todos os aspectos: oferece dezenas de idiomas, vozes masculinas e femininas que parecem mais naturais. O mecanismo suporta tags de vocabulário e SSML que permitem controlar a pronúncia, volume, afinação e velocidade. Polly é mais rápida.
A conversão de texto em fala do Google Cloud ainda não entrou em produção, está em teste beta. O mecanismo é baseado na tecnologia WaveNet - a mesma que executa o Google Translate e outros serviços do Google. Ela usa redes neurais para fazer com que palavras e frases soem naturais. O serviço oferece uma escolha de 30 vozes com opções de som. O tom de cada voz é ajustado, 20 semitons acima ou abaixo do original.
Testamos os dois sistemas e chegamos à conclusão de que pequenas empresas que anteriormente representavam o mercado de TTS perderam a chance e foram deixadas para trás. É improvável que eles tornem o produto melhor do que os gigantes - Google e Amazon. Essas empresas usam enormes quantidades de dados e poder de processamento para modelos de voz e gradualmente capturam o mercado.
Agora, planejamos mudar para a solução Amazon, porque a qualidade da síntese de fala de Polly é comparável à da WaveNet. O nosso favorito é o "locutor" do inglês britânico com o nome de Brian, que parece mais natural.
Mesmo Polly, diferentemente do WaveNet, sintetiza a fala russa. Este TTS possui opções de pronúncia em inglês com sotaques irlandeses e indianos. Essas pronúncias são úteis para a versão em inglês do site, que será usada pelos indianos que desejam aprender inglês. Ao mesmo tempo, o sistema é mais barato.
Como resultado da análise desses TTS, planejamos conectar vozes adicionais de Polly em um futuro próximo. Os "anunciadores" antigos também permanecerão por enquanto: o significado do Dicionário é que o usuário pode ouvir diferentes variantes de pronúncia. Mas não é possível fazer dublagem de frases compostas apenas com a ajuda de robôs. No serviço, muitas frases foram criadas por meio do TTS, mas ainda não é possível abandonar completamente os alto-falantes ao vivo.
Por que um robô é inferior a uma pessoa ao expressar frases
No Puzzle English, as frases são dubladas por alto-falantes ao vivo. A máquina acaba por expressar frases simples - narrativa, com uma pergunta, negação, sem coloração emocional. Ela não consegue lidar com textos mais complexos; comete vários erros típicos.
"Perseguindo"
Esta pronúncia é uma palavra de cada vez. Essa dublagem não é nem um pouco parecida com a fala, eles não têm entonação, divisão frasal do enunciado e estresse semântico, porque cada palavra é pronunciada sob estresse.
É assim que o TTS no Google Translate e um locutor ao vivo lêem a mesma frase.O robô faz pequenas pausas entre as palavras, como se estivesse "cunhando".
O locutor usa sotaque frasal, ele compartilha a grande frase de acordo com o significado. A frase é melhor percebida pelo ouvido.
Entonação
Uma máquina geralmente não pode reproduzir a entonação desejada. Este ponto na pronúncia das frases é importante para muitos alunos de inglês. Freqüentemente, os alunos pensam que basta emitir sons, e o discurso soa como um inglês. Isto não é verdade. O estrangeiro dá entonação errada. Uma pessoa viva pode destacar as partes necessárias de uma frase, se o contexto exigir. O robô não fará isso. Ouça novamente os exemplos de frases acima e você entenderá o que é isso.
Discurso direto
A máquina não emite fala direta pontuada. Ela continua a ler o texto, preservando a imagem geral da entonação.
É assim que um falante nativo lê o texto:
E então o robô:
Emoções na conversa
O robô não reconhece fragmentos nos quais o médium enfatiza certas palavras, por exemplo, quando a frase tem uma conotação irônica. Um robô normalmente mantém um tom neutro.
Isso também é ouvido nos exemplos anteriores.
Velocidade de pronúncia incorreta
Um erro comum em um robô é o alongamento, que produz um efeito de inibição. E, pelo contrário, a pronúncia de uma palavra ou frase muito rápido fornece uma "mastigação" do texto.
Estresses não naturais
O robô lê cada palavra com ênfase, o que não é natural para a fala ao vivo.
Neste exemplo, o robô destaca a preposição em.
O locutor não destaca a desculpa; no discurso ao vivo, mescla-se ao jogo e não é estressado.
Os mecanismos do Google e da Amazon leem frases melhor do que os outros TTS que testamos. De acordo com os resultados da análise, ambas as soluções de grandes empresas não conseguiram lidar com seis frases com entonação complexa e lidaram bem com apenas cinco. O Google leu mal dois "alto-falantes" padrão, dois satisfatoriamente, e a Amazon leu mal dois e satisfatoriamente apenas um.
O resultado geral do Google é um pouco melhor, mas algumas das vozes da Amazon Polly pareciam mais interessantes, pois sua voz e tom soavam mais naturais. Em geral, já é possível confiar a pronúncia das frases TTS, mas não em todos os casos e nem em um produto para estudantes de uma língua estrangeira. Eles valorizam a qualidade e as nuances da pronúncia, que o robô nem sempre pode transmitir.
Conclusão
Com o TTS, você pode expressar palavras individuais em diferentes idiomas para seus serviços. As novas soluções da Amazon e do Google fazem isso melhor do que os mecanismos de pequenas empresas preexistentes. Mas frases, especialmente frases complexas com várias vírgulas, em seu desempenho até agora parecem não naturais. O robô não pode distinguir a fala direta, transmitir ironia, enfatizar semântica, escolher a entonação correta para a questão da separação no final da frase. Isso é inaceitável para nossos propósitos, portanto, pedimos aos palestrantes ao vivo que expressem esses materiais e continuemos a testar novas ofertas neste mercado.
Se você quer aprender inglês, venha até nós.
Damos aos leitores do blog um
cupom de 700 rublos para a compra de "Tarefas".