使用LPCNet的高质量,轻量级和自适应的文本语音转换技术


深度学习的最新进展为语音合成系统(以下简称TTS)的开发带来了重大改进。 这是由于使用了更有效,更快速的方法来研究说话者的声音和风格,以及合成了更加自然和高质量的语音。

但是,要实现这一点,大多数TTS系统必须使用大型且复杂的神经网络模型,这些模型难以训练并且即使使用GPU也无法进行实时语音合成。

为了解决这些问题,我们的IBM Research AI团队开发了一种基于模块化体系结构的神经网络综合新方法。 该方法将三个深度神经网络(以下称为DNN)与它们的输出信号的中间处理相结合。 我们在Interspeech 2019的文章“使用LPCNet的高质量,轻量级和自适应TTS技术”中介绍了这项工作。TTS体系结构轻巧 ,可以实时合成高质量的语音。 每个网络都专注于扬声器语音的各个方面,这使您可以独立于其他组件有效地训练任何组件。


图1. TTS系统架构

我们的方法的另一个优势是,在训练了核心网络之后,即使在少量的训练数据上,例如为了品牌和定制目的,它们也可以轻松适应新的语音或语音样式。

在综合过程中,使用了特定语言的接口模块,该模块将输入文本转换为一系列语言功能。 然后,依次应用以下DNN:

1.韵律的预测


语音的韵律特征以每个TTS单位的三维矢量(根据SMM (隐马尔可夫模型)大约为声音条件的三分之一)表示,其中包括对数持续时间,初始和最终对数音高以及对数能量。 这些特征是在训练过程中确定的,因此可以通过合成过程中界面接收到的文本的特征来预测它们。 韵律不仅对于使声音听起来自然生动,而且对于旨在用于训练或改编的数据能够最完整地反映讲话者的言语风格至关重要。 韵律对说话人声音的适应基于变分自动编码器(VAE)。


方案2.韵律生成器的培训和再培训

2.声学特征的预测


声学特征向量可在10毫秒的短帧中提供语音的频谱表示,从中可以生成实际声音。 声学特征是在学习过程中确定的,并且可以在合成过程中通过语音标记和韵律对其进行预测。


方案3.网络合成器

创建的DNN模型是音频数据(语音播音员),对于训练或适应来说是必需的。 该模型的体系结构由卷积层和递归层组成,这些卷积层和递归层旨在提取声音和音调序列中的局部上下文和时间依赖性。 DNN根据其一阶和二阶导数预测声学特征。 接下来是最大似然法,并应用共振峰滤波器来帮助生成听起来更好的语音。

3.神经声码器


神经声码器负责根据声学特征生成语音。 他会根据说话者的自然说话模式学习声音,并赋予他们各自的特点。 从技术上讲,我们是第一个在完全商业化的TTS系统中使用新型,轻便,高质量的神经声码器LPCNet的公司

该声码器的新颖之处在于它不会尝试直接使用DNN预测复杂的语音信号。 相反,DNN仅预测不太复杂的残留语音路径信号,然后使用线性预测编码(LPC)滤波器将其转换为最终语音信号。


方案4.神经声码器LPCNet

语音适应


通过基于来自目标扬声器的少量音频数据重新训练三个网络,可以轻松实现对语音的适应。 在我们的文章中,我们从语音质量及其与真实说话人语音的相似性方面介绍了自适应实验的结果。 此页面还显示了适应八种不同的VCTK (语音克隆工具包)扬声器的示例,其中,男性4位,女性4位。

听力结果


下图显示了VCTK扬声器的合成语音和自然语音模式的听力测试结果。 平均意见得分(MOS)值基于听众对语音质量的分析,范围为1到5。学生对样本之间的相似性以1到4的等级进行评估。

我们测量了合成语音的质量及其与“现场”演讲者语音的相似性,将持续5、10和20分钟的女性和男性适应语音与自然语音进行了比较。

测试结果表明,即使是经过五分钟示例训练的声音,我们也可以保持与原始声音的高质量和高度相似性。



图5.质量和相似性测试结果

这项工作由IBM Watson进行 ,并作为新版IBM Watson TTS服务的基础,该服务具有改进的语音质量(请参阅IBM Watson TTS演示中的“ * V3”语音)。

Source: https://habr.com/ru/post/zh-CN473400/


All Articles