我们如何选择TTS作为字典中的声音示例

Puzzle English 》中的词典可帮助用户学习词汇以及音频和视频拼图,播客,电影,电视节目和歌曲。 在字典中,翻译伴随有单词和短语的音频示例。 对于声音,我们使用现场演讲者和TTS的录音-文本到语音系统,文本的语音合成器。 今天,我们将告诉您如何选择Vocalware TTS引擎,为什么要连接Amazon Polly系统以及一个人可以比机器人更好地完成哪些任务。

图片

在《词典》中,我们涉及了20多种不同音调,音色和发音选项的声音。 听到具有不同语音速度的男性和女性声音。 “播音员”具有名称和原籍国-美国,英国或澳大利亚。 语音选项可帮助用户学习如何说和感知外语。 这是一个单词的发音开关的外观:

图片

如何找到合适的TTS


基于词典的功能,我们需要一个至少支持三种口音的TTS:美国(普通美国人),英国(已接收发音)和澳大利亚。 需要男性和女性的声音,最好是转录支持。

我们一直在寻找TTS,它可以合成接近自然声音的语音,产生清晰的声音,并且对用户端Internet连接的质量要求不高。 益智英语学生生活在俄罗斯的不同地区,可以通过2G和3G通过手机使用该服务。 我希望TTS不仅能够合成单词,而且能够阅读带有表达的短语。

我们早在2015年就解决了这个问题,但是发现找到合适的TTS要求几乎是不可能的。 市场上有几种引擎:

Acapela-可以识别和支持34种语言的文本。 超过100种具有不同年龄,情感和口音的合成声音。 它产生高质量的声音。

Vocalizer-声音听起来自然,语音清晰。 安装了各种字典,调整了音量,速度和压力。

eSpeak-支持50多种语言。 合成语音不是完美的,而是清晰的平均声音质量。 缺点是具有合成语音的eSpeak文件以.wav格式保存,并且占用大量空间。

RSynth-没有文档,语音质量中等。

Festival是一种多语言语音合成系统;它并不总是稳定运行。

Vocalware-超过20种语言的100多种合成声音。

Acapela和Vocalizer仅在Android上工作,其他系统不支持。 此外,他们像节庆活动一样不稳定。 ESpeak和RSynth引擎不合适,因为Dictionary的语音合成质量应该是理想的。

在这些选项中,我们选择了满足以下条件的Vocalware引擎:重音,异性“播音员”的声音,转录。 然后,此引擎提供了合成任意文本的最佳质量之一。 有了它,我们创造了三分之一以上的声音。 Vocalware可以很好地翻译单个单词,但不能翻译整个短语。 现场播音员将其翻译成拼图英语。

我们为什么要连接Amazon Polly


不幸的是,Vocalware跟不上时代的要求。

  • 这种TTS的语音合成质量不是市场上最好的。 我们为用户提供了从发音选项中进行选择的机会,并且声音表现越好,它们对学生越有用。
  • 我们偶尔会遇到Vocalware崩溃。 碰巧,该服务直到连续两天才可用。 这是不可接受的。
  • 该TTS不支持SSML语音合成应用程序的标记语言。 通过SSML,您可以调整音调重音,暂停长度和其他参数。

具有最佳综合质量的系统出现在亚马逊上,称为Amazon Polly,另一种正在Google进行开发的-Cloud Text-to-Speech。

Amazon Polly在所有方面都比Vocalware更好:它提供了数十种语言,听起来更自然,有男有女。 该引擎支持词汇表和SSML标签,可让您控制发音,音量,音调和速度。 波莉更快。

Google Cloud Text-to-Speech尚未投入生产,正在进行beta测试。 该引擎基于WaveNet技术-一种运行Google Translate和其他Google服务的引擎。 她使用神经网络使单词和短语听起来自然。 该服务提供30种声音和声音选项供您选择。 调整每个声音的音调,在原始声音之上或之下20个半音。

我们测试了这两个系统,得出的结论是,以前代表TTS市场的小公司错过了机会,被甩在了后面。 他们不太可能使产品比巨头-Google和Amazon更好。 这些公司为语音模型使用大量的数据和处理能力,并逐渐占领了市场。

现在,我们计划切换到Amazon解决方案,因为Polly语音合成的质量与WaveNet相当。 我们最喜欢的是布莱恩(Brian)命名的英式英语“播音员”,听起来很自然。


甚至与波网(WaveNet)一样,波莉(Polly)也会合成俄语语音。 此TTS提供英语发音选项,带有爱尔兰和印度口音。 这些发音对于网站的英语版本很有用,想要学习英语的印度人将使用这些发音。 同时,该系统更便宜。

对这些TTS进行分析的结果是,我们计划在不久的将来连接来自Polly的其他声音。 旧的“播音员”也将暂时保留:该词典的意思是用户可以听到不同的发音变体。 但是不可能仅借助机器人来完成复合短语的语音操作。 在服务中,许多短语是通过TTS创建的,但是仍然不可能完全放弃现场演讲者。

为什么说语音时机器人不如人


在“ Puzzle English”中,现场演讲者会说出短语。 这台机器可以说出简单的句子-叙述性的,带有问题的,否定的,没有情感色彩。 她无法应付更复杂的文字;她犯了一些典型的错误。

“追逐”


这个发音一次是一个字。 这样的配音甚至与语音几乎不相似,它们没有语调,发声的短语划分和语义重音,因为每个单词都在重音下发音。

这就是Google Translate中的TTS和现场播音员朗读相同短语的方式。

机器人会在字词之间稍作停顿,就像“在意”。


播音员使用短语重音,按其意思分享大句。 这个短语更容易被人听到。


语调


机器通常无法再现所需的语调。 短语发音中的这一点对许多英语学习者来说很重要。 通常,学生认为传递声音就足够了,并且讲话听起来像英国人。 事实并非如此。 外国人发出错误的语调。 如果上下文需要,在世人员可以突出句子的必要部分。 机器人不会这样做。 再次听上面的短语示例,您将了解它的含义。

直接讲话


机器不会发出直接打断的语音。 她继续阅读课文,保留了整体语调图片。

这是母语使用者阅读文本的方式:


因此,机器人:


谈话中的情绪


例如,当短语具有讽刺意味时,机器人不会识别媒介强调某些单词的片段。 机器人通常保持中立的语调。

在前面的示例中也听到了这一点。

错误的发音速度


机器人的常见错误是拉伸,这会产生抑制效果。 相反,单词或短语的发音过快会给文本“咀嚼”。



不自然的压力


机器人会重点读取每个单词,这对于现场演讲来说是不自然的。

在此示例中,机器人突出显示了介词。


播音员没有强调借口;在现场演讲中,在与演奏融为一体的同时,自己也没有压力。


Google和Amazon引擎阅读的短语比我们测试过的其他TTS更好。 根据分析结果,两个大公司的解决方案都无法应付六个具有复杂语调的短语,而只能应付五个。 Google的两个标准“说话者”听得不好,两个人令人满意,而Amazon的两个人听得不好,只有一个人令人满意。

Google的整体效果略好一些,但Amazon Polly的某些声音似乎更有趣,因为它们的声音和语调听起来更自然。 通常,已经有可能将TTS短语的发音委托给他人,但并非在所有情况下都将委托给外语学生的产品。 它们重视机器人无法始终传达的语音质量和细微差别。

结论


借助TTS,您可以为不同服务的语音说出不同语言的单词。 新的Amazon和Google解决方案比现有的小型公司引擎做得更好。 但是,到目前为止,短语(尤其是带有多个逗号的复杂句子)的表现听起来并不自然。 机器人无法区分直接语音,表达讽刺意味,强调语义,在句子末尾为分隔问题选择正确的语调。 这对于我们的目的而言是无法接受的,因此,我们要求现场演讲者发表此类材料的声音,并继续测试该市场中的新报价。

如果您想讲英语,请来找我们。

我们向博客读者提供700卢布的优惠券,用于购买“任务”。

Source: https://habr.com/ru/post/zh-CN423589/


All Articles