🎑 👩🏿‍⚖️ 🕵️ WaveNet：计算机合成的类人语音 ✏️ 👴🏼 😡

DeepMind是Google的独立部门，从事人工智能开发。该公司开发了AlphaGo，该系统击败了世界冠军Go Lee Sedol。

但是DeepMind不仅仅与游戏有关。现在，该公司的员工正在开发基于计算机的语音合成系统。像其他所有DeepMind项目一样，此处涉及的是弱形式的人工智能。根据专家的说法，她可以通过合成语音极大地改善这种情况。

使用计算机合成语音根本不是一个新主意。最简单的解决方案是使用翻译成数字的真实人的语音片段。我们正在谈论构成更复杂的声音短语，单词和句子的单个声音。但是这种方法不能称为理想方法。在这里，任何人都会立即注意到发音和语调方面的问题。

在其他情况下，可以使用各种数学模型来合成声音，从中可以组装单词和句子。问题与先前的情况大致相同。现在可以很清楚地看到机器说的是什么，而不是那个人。

两种方法的相似之处在于，更大，更复杂的方法是由小片段组装而成。作为这种编译的结果，计算机发音单词和复杂短语。

DeepMind提出的第三种方法WaveNet结合了前两种方法的优点。该方法使用了使用真实人类语音片段的神经网络训练。该系统还接收与每个个案对应的语言和语音规则的信息。在此过程中，系统显示一行文本，并允许您“收听”适当的声音集。之后，系统尝试使用许多片段来合成人类语音。这一步一步完成，并针对每个特定片段的示例进行了培训。进行开发的方式是，每个先前的“通过的材料”都使神经网络有了新任务的想法。

WaveNet可以做的与传统语音合成系统的类似物是制造杯子。传统的基于计算机的语音合成系统使用乐高积木制作杯子。结果，杯子看起来不错，但不是完全的杯子，而是模仿的杯子。但是WaveNet使用黏土来制作杯子。这项工作是手动完成的，没有陶轮，但杯子看上去像杯子。所以有演讲。 WaveNet可以合成人类的语音，这与我们过去所用的语言略有不同，但并不十分明显。

结果令人印象深刻。你可以听听这里发生的事情。听起来真的很人性化。当然，存在差异，但是它们不再像其他情况一样重要。

唯一的问题是此方法需要大量的计算机时间和资源。可以产生可理解的人类语音的系统必须非常强大。事实是，WaveNet用于合成人类语音，每秒处理16,000个音频样本。即使在这种情况下，结果也可以达到平均质量。但是，在对“人或机器”定义的测试中，结果约为50％。也就是说，一半听过机器创建的音频样本的志愿者认为这是一个人说的。

DeepMind的研究人员已经将超过44个小时的语音下载到系统中。载入系统的单词，声音和短语属于该实验的109位讲英语的参与者。事实证明，WaveNet可以模拟实验中几乎每个参与者的语音。该系统甚至可以重现原始“扬声器”的愿望和语音缺陷。

尽管该系统已经说的很好，但仍然离真正的完善还差得很远。另一个问题是，较弱的AI形式尚无法理解该语言。 IBM通过其IBM Watson认知系统在该领域取得了最大的成功。但是到目前为止，我们在这里谈论的是识别不太复杂的口头和书面命令，以及对简单问题的解答。认知系统尚无法维持对话。尽管如此，技术仍在发展，专家们说，这种情况在5-10年内会发生巨大变化。

许多科学家认为，现在弱小的AI形式仍然缺乏思维的特定组成部分。而且它不取决于网络本身的大小。特南鲍姆说： “这种语言是建立在其他可能性之上的，它们甚至可能在婴儿开始掌握该语言之前就已经存在于更深的地方：对世界的视觉感知，与我们的运动器械合作，对世界物理学的理解以及其他生物的意图。”

DeepMind和牛津大学的一组研究人员目前正在研究另一个项目。这是为有力的AI形式创建有条件的“红色按钮”，它可能在人创造出虚构的思维后可能脱离人的控制。

WaveNet：计算机合成的类人语音

More articles: