La mayoría de los sistemas modernos de reconocimiento de voz humana se basan en métodos que descomponen la grabación de voz en fonemas y analizan sus características de frecuencia de amplitud para buscar fonemas de letras individuales en función de su clasificación por conjuntos específicos de características de frecuencia. Dichos métodos consideran cada fonema como una sola unidad indivisible de una señal de sonido con características de frecuencia cuasiestacionaria. Con este enfoque, no se tienen en cuenta las características del fonema que cambian dinámicamente en el tiempo.

imagen

Pero tales enfoques para el análisis del habla pueden aplicarse no solo para su reconocimiento, sino también para entrenar una descripción analítica de fonemas, construir un modelo matemático a partir de los datos recibidos y la síntesis de sonido, casi lo mismo que el original.

Análisis de los componentes del habla humana.

Todos en la escuela todavía saben que una palabra consiste en una o más sílabas, que a su vez consisten en uno o más fonemas. Un fonema es una unidad de lenguaje tan mínima (lo más importante es que tiene significado), no tiene ningún significado léxico o gramatical, pero sirve para permitirnos comprender las unidades elementales del lenguaje: las palabras.

Así es como se ve la característica de amplitud-tiempo del fonema de la letra "O".

Por conveniencia, noté aquí tres períodos de tiempo diferentes:

a - el proceso de excursión (cada fonema comienza con este proceso)
b - proceso de envejecimiento (el mismo "lugar" del fonema que requiere una descripción)
c - el proceso de recursión (en términos generales, terminamos de hablar, el sonido terminó :))

Realicé un análisis del período de tiempo durante el cual el fonema (su característica de amplitud-tiempo) permanece en un estado cuasi estacionario. Aquí, podemos suponer que es en este momento que (casi) los componentes del espectro de sonido permanecen sin cambios.
Para un mayor análisis y descripción, debe descomponer el sonido de la exposición en componentes espectrales.

Pero un fonema, como un átomo, parecería imposible dividir en componentes lo que parece indivisible. Pero esto no es así: cada pico en el gráfico anterior corresponde a un componente armónico del fonema: el formante. Por lo tanto, cada fonema puede describirse si se describen sus componentes más simples. Y nadie debería tener problemas con esto último. Si observa cuidadosamente el gráfico, puede determinar fácilmente que el formante se describe simultáneamente por dos parámetros: frecuencia y amplitud relativa. Por consiguiente, puramente matemáticamente, estos dos parámetros forman un vector, y el conjunto de dichos vectores que corresponde a los formantes significativos existentes corresponde a la matriz de parámetros.

Entonces el fonema (proceso cuasiestacionario) puede caracterizarse por el siguiente conjunto de parámetros:

Los parámetros para algunas otras vocales también se enumeran aquí. La letra A es la amplitud, respectivamente, v es la frecuencia. Será justo decir que las letras más "complejas" son "E" e "I": el espectro de sus fonemas es más amplio y las frecuencias significativas están en dos intervalos diferentes.

Síntesis de fonemas

Para darse cuenta de la posibilidad de evaluar la calidad del método descrito, se propuso un modelo para reconstruir los fonemas del habla humana utilizando las matrices paramétricas obtenidas:

f (t) = s u m l i m i t s_{i = 1}^{N} A_{i} s i n (2 p i v_{i} t)

$f (t) = \ sum \ limits_ {i = 1} ^ {N} {A_i sin (2 \ pi v_i t)}$ . Aquí, bajo el signo de la suma, se indica el registro formal del formante. En consecuencia, utilizando los datos de la tabla anterior, puede hacer un modelo de sonido, por ejemplo, la letra "U" y sintetizarlo.

El conjunto de parámetros para los valores de las matrices depende de las propiedades del fonema. Entonces, para una reconstrucción realista de la grabación de sonido de la vocal "U", se utilizó una matriz que consta de dieciocho parámetros numéricos que describen nueve formantes significativos. Para construir un modelo más preciso, es necesario tener en cuenta todos los formantes de fonemas importantes. Otra condición para la precisión de comparar la señal original y la sintetizada es la duración igual de las señales de sonido.

Conclusión y conclusiones

Usted comprende que el fonema no es una unidad tan indivisible en el análisis del habla humana. También te mostré una manera simple de describir analíticamente los formantes de los fonemas del habla humana. En la última sección examinamos que es posible construir un modelo matemático del fonema a partir de los parámetros obtenidos, y el modelo obtenido, a su vez, puede usarse para sintetizar el fonema. Espero que hayas disfrutado este material. En el próximo artículo, analizaremos cómo el color emocional de la voz es complicado y cómo los modelos matemáticos podrían construirse empíricamente para ello.

PS

El texto principal del trabajo publicado se puede encontrar aquí .

El modelo matemático del fonema de la voz humana.

Análisis de los componentes del habla humana.

Síntesis de fonemas

Conclusión y conclusiones

PS

More articles: