O modelo matemático do fonema da voz humana

A maioria dos sistemas modernos de reconhecimento de fala humana são baseados em métodos que dividem a gravação de voz em fonemas e analisam suas características de amplitude-frequência, a fim de procurar fonemas de letras individuais com base em sua classificação por conjuntos específicos de características de frequência. Tais métodos consideram cada fonema como uma única unidade indivisível de um sinal sonoro com características de frequência quasistacionárias. Com essa abordagem, as características dos fonemas que mudam dinamicamente no tempo não são levadas em consideração.

imagem

Mas tais abordagens para a análise da fala podem ser aplicadas não apenas para seu reconhecimento, mas também para o treinamento de uma descrição analítica dos fonemas, construindo um modelo matemático a partir dos dados recebidos e a síntese sonora, quase a mesma do original.

Análise dos componentes da fala humana


Todos na escola ainda sabem que uma palavra consiste em uma ou mais sílabas, que por sua vez consistem em um ou mais fonemas. Um fonema é uma unidade de linguagem tão mínima (o mais importante é que é significativo), não tem nenhum significado lexical ou gramatical, mas serve para nos permitir entender as unidades elementares da linguagem - palavras.

É assim que a característica de amplitude-tempo do fonema da letra “O” se parece.



Por conveniência, observei aqui três períodos diferentes:

  • a - o processo de excursão (cada fonema começa com esse processo)
  • b - processo de envelhecimento (o próprio "lugar" do fonema que requer uma descrição)
  • c - o processo de recursão (grosso modo - terminamos de conversar, o som terminou :))

Realizei uma análise do período de tempo durante o qual o fonema (sua característica de amplitude-tempo) permanece em um estado quase-estacionário. Aqui, podemos assumir que é neste momento que os (quase) componentes do espectro sonoro permanecem inalterados.
Para análises e descrições adicionais, é necessário decompor o som da exposição em componentes espectrais.



Mas um fonema, como um átomo, parece impossível dividir em componentes o que parece indivisível. Mas não é assim: cada pico no gráfico acima corresponde a um componente harmônico do fonema - o formante. Assim, cada fonema pode ser descrito se seus componentes mais simples forem descritos. E ninguém deve ter problemas com o último. Se você observar atentamente o gráfico, poderá facilmente determinar que o formante é descrito simultaneamente por dois parâmetros: frequência e amplitude relativa. Por conseguinte, puramente matematicamente, esses dois parâmetros formam um vetor, e o conjunto desses vetores correspondente aos formantes significativos existentes corresponde à matriz de parâmetros.

Então o fonema (processo quasistacionário) pode ser caracterizado pelo seguinte conjunto de parâmetros:



Os parâmetros para algumas outras vogais também estão listados aqui. A letra A é a amplitude, respectivamente, v é a frequência. Seria justo dizer que as letras mais "complexas" são "E" e "I" - o espectro de seus fonemas é mais amplo e frequências significativas estão em dois intervalos diferentes.

Síntese de fonemas


Para perceber a possibilidade de avaliar a qualidade do método descrito, foi proposto um modelo para reconstruir os fonemas da fala humana utilizando as matrizes paramétricas obtidas: f(t)= soma limitesi=1NAisen(2 pivit). Aqui, sob o signo da soma, é indicado o registro formal do formante. Assim, usando os dados da tabela acima, você pode criar um modelo de som, por exemplo, a letra "U" e sintetizá-lo.



O conjunto de parâmetros para os valores das matrizes depende das propriedades do fonema. Assim, para uma reconstrução realista da gravação sonora da vogal "U", foi utilizada uma matriz composta por dezoito parâmetros numéricos que descrevem nove formantes significativos. Para construir um modelo mais preciso, é necessário levar em consideração todos os formantes de fonemas significativos. Outra condição para a precisão da comparação do sinal original e sintetizado é a duração igual dos sinais sonoros.

Conclusão e Conclusões


Você entende que o fonema não é uma unidade indivisível na análise da fala humana. Também mostrei uma maneira simples de descrever analiticamente os formantes de fonemas da fala humana. Na última seção, examinamos que é possível construir um modelo matemático do fonema a partir dos parâmetros obtidos, e o modelo obtido, por sua vez, pode ser usado para sintetizar o fonema. Espero que tenham gostado deste material. No próximo artigo, analisaremos como a coloração emocional da voz é complicada e como modelos matemáticos podem ser construídos empiricamente para ela.

PS


O texto principal do trabalho publicado pode ser encontrado aqui .

Source: https://habr.com/ru/post/pt427813/


All Articles