WaveNet:计算机合成的类人语音



DeepMind是Google的独立部门,从事人工智能开发。该公司开发了AlphaGo,该系统击败了世界冠军Go Lee Sedol。

但是DeepMind不仅仅与游戏有关。现在,该公司的员工正在开发基于计算机的语音合成系统。像其他所有DeepMind项目一样,此处涉及的是弱形式的人工智能。根据专家的说法,她可以通过合成语音极大地改善这种情况。

使用计算机合成语音根本不是一个新主意。最简单的解决方案是使用翻译成数字的真实人的语音片段。我们正在谈论构成更复杂的声音短语,单词和句子的单个声音。但是这种方法不能称为理想方法。在这里,任何人都会立即注意到发音和语调方面的问题。

在其他情况下,可以使用各种数学模型来合成声音,从中可以组装单词和句子。问题与先前的情况大致相同。现在可以很清楚地看到机器说的是什么,而不是那个人。



两种方法的相似之处在于,更大,更复杂的方法是由小片段组装而成。作为这种编译的结果,计算机发音单词和复杂短语。

DeepMind提出的第三种方法WaveNet结合了前两种方法的优点。该方法使用了使用真实人类语音片段的神经网络训练。该系统还接收与每个个案对应的语言和语音规则的信息。在此过程中,系统显示一行文本,并允许您“收听”适当的声音集。之后,系统尝试使用许多片段来合成人类语音。这一步一步完成,并针对每个特定片段的示例进行了培训。进行开发的方式是,每个先前的“通过的材料”都使神经网络有了新任务的想法。

WaveNet可以做的与传统语音合成系统的类似物是制造杯子。传统的基于计算机的语音合成系统使用乐高积木制作杯子。结果,杯子看起来不错,但不是完全的杯子,而是模仿的杯子。但是WaveNet使用黏土来制作杯子。这项工作是手动完成的,没有陶轮,但杯子看上去像杯子。所以有演讲。 WaveNet可以合成人类的语音,这与我们过去所用的语言略有不同,但并不十分明显。

结果令人印象深刻。你可以听听这里发生的事情。听起来真的很人性化。当然,存在差异,但是它们不再像其他情况一样重要。



唯一的问题是此方法需要大量的计算机时间和资源。可以产生可理解的人类语音的系统必须非常强大。事实是,WaveNet用于合成人类语音,每秒处理16,000个音频样本。即使在这种情况下,结果也可以达到平均质量。但是,在对“人或机器”定义的测试中,结果约为50%。也就是说,一半听过机器创建的音频样本的志愿者认为这是一个人说的。

DeepMind的研究人员已经将超过44个小时的语音下载到系统中。载入系统的单词,声音和短语属于该实验的109位讲英语的参与者。事实证明,WaveNet可以模拟实验中几乎每个参与者的语音。该系统甚至可以重现原始“扬声器”的愿望和语音缺陷。

尽管该系统已经说的很好,但仍然离真正的完善还差得很远。另一个问题是,较弱的AI形式尚无法理解该语言。 IBM通过其IBM Watson认知系统在该领域取得了最大的成功。但是到目前为止,我们在这里谈论的是识别不太复杂的口头和书面命令,以及对简单问题的解答。认知系统尚无法维持对话。尽管如此,技术仍在发展,专家们说,这种情况在5-10年内会发生巨大变化。

许多科学家认为,现在弱小的AI形式仍然缺乏思维的特定组成部分。而且它不取决于网络本身的大小。特南鲍姆说: “这种语言是建立在其他可能性之上的,它们甚至可能在婴儿开始掌握该语言之前就已经存在于更深的地方:对世界的视觉感知,与我们的运动器械合作,对世界物理学的理解以及其他生物的意图。”



DeepMind和牛津大学的一组研究人员目前正在研究另一个项目。这是为有力的AI形式创建有条件的“红色按钮”,它可能在人创造出虚构的思维后可能脱离人的控制。

Source: https://habr.com/ru/post/zh-CN397327/


All Articles