大多数现代人类语音识别系统都基于将语音记录分解为音素并分析其幅度-频率特征的方法,以便根据特定字母的频率特征集对单个字母的音素进行搜索。 这些方法将每个音素视为具有准静态频率特性的声音信号的单个不可分割的单元。 使用这种方法,不会考虑时间动态变化的音素特征。

但是,这种分析语音的方法不仅可以用于语音识别,而且可以用于训练音素的分析描述,根据接收到的数据建立数学模型以及进行声音合成,几乎与原始方法相同。
人类语音成分分析
每个学校的人仍然知道一个单词由一个或多个音节组成,而这些音节又由一个或多个音素组成。 音素是这种语言的最小单位(最重要的是它很有意义),它没有任何词汇或语法含义,但是使我们能够理解语言的基本单位-单词。
这就是字母“ O”的音素的幅度时间特性。

为了方便起见,我在这里指出了三个不同的时间段:
- a-游览过程(每个音素都以该过程开始)
- b-老化过程(需要说明的音素的“位置”)
- c-递归的过程(大致来说-我们结束交谈了,声音结束了:))
我对音素(其幅度-时间特性)保持准平稳状态的时间长度进行了分析。 在这里,我们可以假设,此时的声谱(几乎)成分保持不变。
为了进行进一步的分析和描述,您需要将曝光声音分解为频谱分量。

但是音素就像原子一样,似乎不可能将似乎不可分割的部分分成多个部分。 但是事实并非如此:上图中的每个峰值对应于音素的一个谐波成分-共振峰。 因此,如果描述了每个音素的最简单组成部分,则可以对其进行描述。 而且没有人应该对后者有任何问题。 如果仔细查看该图,则可以轻松确定两个参数同时描述了共振峰:频率和相对振幅。 因此,纯粹在数学上,这两个参数形成一个向量,并且与现有有效共振峰对应的这种向量的集合对应于参数矩阵。
然后,音素(准平稳过程)可以通过以下参数集来表征:

其他一些元音的参数也在此处列出。 字母
A是振幅,
v是频率。 可以公平地说,最“复杂”的字母是“ E”和“ I”-它们的音素范围更广,有效频率处于两个不同的间隔中。
音素合成
为了实现评估所描述方法质量的可能性,提出了一个模型,该模型使用获得的参数矩阵来重建人类语音的音素:
。 在此,以金额的符号表示共振峰的正式记录。 因此,使用上表中的数据,您可以制作声音模型(例如字母“ U”)并进行合成。

矩阵值的参数集取决于音素的属性。 因此,为了真实再现元音“ U”的录音,使用了一个矩阵,该矩阵由描述九个有效共振峰的十八个数字参数组成。 为了建立更准确的模型,有必要考虑所有重要的音素共振峰。 准确比较原始信号和合成信号的另一个条件是声音信号的持续时间相等。
结论与结论
您了解音素并不是人类语音分析中不可分割的单元。 我还向您展示了一种简单的方法来分析性地描述人类语音音素的共振峰。 在最后一部分中,我们检查了可以从获得的参数构建音素的数学模型,然后将获得的模型用于合成音素。 希望您喜欢这些材料。 在下一篇文章中,我们将分析语音的情感色彩如何复杂以及如何凭经验建立数学模型。
聚苯乙烯
可在
此处找到已出版作品的主要文本。