Google的音质更好,搜索更轻松

Google宣布他们已经完成了语音搜索系统的安装,以便在嘈杂的地方更好地识别用户的语音。



它一直是最好的语音识别系统之一,使用智能手机搜索时特别方便。现在,语音搜索功能比以往任何时候都更加发达。 Google Research博客概述了已更新系统的改进。

自2012年以来,这家搜索巨头已经在30年前放弃使用高斯混合方法(MGS)进行语音识别。新系统开始使用深度神经网络(Deep Neural Networks)。 STS可以更好地识别用户在特定时间点发出的声音,从而大大提高了识别的准确性。



现在,Google专家宣布,他们已经设法创建了一个更高级的声学模型神经网络,该网络使用连接主义的时间分类和区分学习算法。这些模型代表了周期性神经网络的特殊扩展,它更加精确,尤其是在嘈杂的环境中,而且速度惊人!

在传统的语音识别中,用户填写的语音形式被分为10毫秒的连续帧(段)。每个帧都经过频率分析,然后将具有特征的矢量通过声学模型(如​​GNS)传递,该模型给出了所有声音匹配的概率。隐马尔可夫模型(SMM)有助于在已获得细节的基础上解开未知细节;这使得有可能引入这种概率分布序列的结构。该模型还与其他知识来源相结合,例如“语音模型”,该模型将声音序列与某些单词,所选语言和“语言模型”链接在一起,后者又表达了该单词对所选语言的引用程度。

然后,识别器将所有这些信息进行协调,以确定用户做出的句子。如果用户说例如单词“ museum”(博物馆)(mju:'zɪəm是语音形式),那么可能很难确定声音“ j”何时结束以及声音“ u”何时开始。但是,实际上,行列式并不关心何时发生此转换。唯一令他困扰的就是发出的声音。

新的改进的声学模型基于周期性神经网络(PNS)。在PNS的拓扑中,有一些反馈循环可让您模拟时间依赖性。在上一个示例中,当用户发音/ U /时,首先,该人的发音设备会从声音/ J /平稳地移动到声音/ M /。尝试发音“博物馆”一词,对于会英语的人来说,这并不难,而且一口气就能轻松发音,PNS可以抓住这一刻。



该系统中周期性神经网络的一种类型是长时短时记忆,在记忆细胞的帮助下,复杂的门控机制可以比其他PNS更好地记忆信息。选通是一种分配一定时间间隔以增加在干扰背景下检测有用信号的可能性的方法。这种模型的采用已经大大改善了语音识别的质量。

下一步是教声学模型,以识别所传递语音中的音素(声音),而无需对每个帧进行预测。具有关联时间分类的模型会准备一个带有一系列“尖峰”的图形,这些尖峰显示接收到的信号中的声音序列,他们可以这样做直到序列被破坏为止。
实际上,Google的语音识别系统现在可以检查单词的上下文,而不再是背景声音。



一个完全不同的问题:如何使所有这些都实时可访问和方便?经过大量迭代后,Google程序员设法创建了单流流模型,该模型处理的输入信号的块大于标准声学模型中的块,但实际计算却较少。减少计算操作的数量可以大大加快识别过程。此外,系统训练程序中还添加了人工噪声和混响(声音的人工还原),以使识别系统更能抵抗外部噪声。在下面的视频中,您可以观看系统学习该句子。



但是,还有一个问题需要解决:系统产生的预测较少,但同时将它们延迟了大约300毫秒。通过在句子完全完成后输出结果,识别级别得到了提高,但同时给用户带来了额外的延迟,这对于Goolge专家来说是完全不可接受的。为了解决该问题,对系统进行了培训,以在每个短语完成之前分析并生成结果。这使识别过程与人的正常发音速度更加同步。不再需要用户等待程序显示其自己的口头短语版本。

新的声学模型已经在Google应用程序中用于语音搜索和命令(在Android和iOS上)以及在Android设备上听写。新型号开始需要更少的资源,变得对环境噪声具有更强的抵抗力,并且能够比以前的型号更快地产生结果。这使得语音搜索对于用户而言更加令人愉悦。

Source: https://habr.com/ru/post/zh-CN384747/


All Articles