最近,发表了一篇非常有趣的文章“使用SincNet从原始波形中识别说话者” ,该文章描述了用于通过语音识别说话者的神经网络的端到端架构。 该体系结构的关键特征是特殊的一维卷积层,它们只有两个参数,并且具有清晰的解释。 神经网络参数的解释是一件相当困难的事情,因此本文引起了我的兴趣。
如果您对本文的想法的描述以及为什么这个想法与粉笔光谱图的构造很接近的内容感兴趣,那么欢迎您。
我注意到,本文中使用的所有图像都来自原始文章,或者可以使用存储在此存储库中的Jupyter Notebook获得。
所描述文章的作者发布了github的源代码,可以在此处找到 。
粉笔频谱图
为了理解本文的本质,让我们首先回顾一下粉笔频谱图是什么,如何得到它以及它的含义是什么。 如果您熟悉此主题,那么本部分将不会很有趣。 它是通过使用窗口傅立叶变换构造的通常的频谱图来计算的:
F(k,m)= sum limitsL−1n=0x[n+m]w[n]e−i2 pi overLkn
此操作的本质是将傅立叶变换顺序应用到语音信号的短片段,再乘以某些窗口函数。 应用窗口变换的结果是一个矩阵,其中每一列是原始信号的一小段的频谱。 看下面的例子:
科学家的实验表明,人耳对低频变化的感觉比对高频更敏感。 也就是说,如果声音的频率从100 Hz变为120 Hz,则人很可能会注意到这种变化。 但是,如果频率从10000 Hz变为10020 Hz,我们将不太可能捕捉到这一变化。
在这方面,引入了一种用于测量音高的新装置-白垩。 它基于人对声音的心理生理感知,并且从对数上取决于频率:
mel = 1127.01048 \ ln(1 + {{{freq} \ over {700}}))
mel = 1127.01048 \ ln(1 + {{{freq} \ over {700}}))
实际上,粉笔频谱图是常规频谱图,频率不是以Hz而是以粉笔表示。 通过将粉笔滤镜应用于原始频谱图,可以实现向粉笔的过渡。 粉笔过滤器是三角功能,平均分布在粉笔刻度上。 例如,这里有10个粉笔过滤器(实际上,它们需要更多的过滤器,为清晰起见,这里很少使用):
当转换为频率标度时,相同的滤波器将如下所示:
初始频谱图的每一列都与每个粉笔过滤器(位于频率标度上)按标量相乘,然后获得大小等于过滤器数量的数字向量。 下图显示了频谱图的其中一列(为清晰起见,振幅值已转换为对数刻度,图中颜色编码的内容沿纵坐标显示)和两个粉笔过滤器,用于构建粉笔频谱图:
作为这种变换的结果,来自频谱图的低频的值在白垩频谱中几乎保持不变,而在高频时,这些值是在较宽的范围内进行平均的。 例如,我建议看一下使用64个粉笔滤镜从上一个频谱图构造的粉笔频谱图:
总结以上所有内容:粉笔频谱图上存储了更多的信息,相比通常的频谱图,人们可以更好地感知和区分这些信息。 换句话说,声音的这种表示更多地集中在低频上,而较少集中在高频上。
SincNet与它有什么关系?
回想一下,粉笔刻度是基于人类对声音的心理心理感知而创建的。 但是,如果我们想选择在任何特定任务中比其他频段更感兴趣的其他频段,该怎么办? 如何选择最佳的过滤器集来解决问题?
作者提出的体系结构正好解决了这个问题。
作者考虑将以下功能用作过滤器:
G(f,f1,f2)=rect(f over2f2)−rect(f over2f1)
rect(t) 在这个公式中是一个矩形函数 。 这样的滤波器将频率范围设置为 f1 之前 f2 。 这是她的时间表:
使用此函数的傅立叶逆变换,可以在时域中获得其模拟量:
g(n,f1,f2)=2f2sinc(2 pif2n)−2f1sinc(2 pif1n)
sinc(t)=sin(t) overt
功能介绍 克(吨) -这是无法在实践中实现的理想带通滤波器的脉冲响应,这就是为什么作者使用汉明窗截断该功能的原因。 在数字信号处理中,这种方法称为窗口合成。
窗口截断功能选项 g 作者建议将所有应用于原始音频数据的卷积用作模板。 此功能可通过参数区分。 f1 和 f2 ,这意味着可以使用反向传播方法将其用于优化网络参数。
通过卷积定理,将原始信号与函数进行卷积 g 相当于将原始信号的频谱乘以一个函数 G 。 粗略地说,用函数对原始信号进行卷积 g ,我们将神经网络“吸引”到正在考虑的信号中给定的频率范围。
当然,此处不应用傅立叶变换,并且未将范围内频谱的特定值明确报告给神经网络。 [f1;f2] 。 显然,提取光谱特征的任务分配给了位于神经网络中的以下块。
在此方法的优点中,作者注意以下几点:
- 快速收敛
- 参数数量少得多。 在经典的卷积块中,参数的数量等于卷积的长度。 使用所描述的方法,参数的数量不取决于卷积的长度,并且等于2
- 参数的可解释性
结论
有许多过滤器可用来转换频谱图。 例如,除了所描述的粉笔过滤器之外,还有树皮过滤器(您可以在此处和此处阅读)。 至少树皮还是一种心理物理价值,被“为一个男人”所选择。
在他们的研究中,作者提出了一种方法,神经网络可以根据数据集独立地选择学习过程中最合适的频率范围。 对我而言,这与构造粉笔频谱图的过程非常相似,在该过程中,低频优先考虑。 这只是基于人类对声音的感知而发明的粉笔频谱图,在所提出的方法中,神经网络本身决定了什么是重要的,什么不是重要的。