Das mathematische Modell des Phonems der menschlichen Stimme

Die meisten modernen menschlichen Spracherkennungssysteme basieren auf Methoden, die die Sprachaufzeichnung in Phoneme zerlegen und ihre Amplituden-Frequenz-Eigenschaften analysieren, um nach Phonemen einzelner Buchstaben basierend auf ihrer Klassifizierung nach bestimmten Sätzen von Frequenz-Eigenschaften zu suchen. Solche Verfahren betrachten jedes Phonem als eine einzelne unteilbare Einheit eines Tonsignals mit quasistationären Frequenzcharakteristiken. Bei diesem Ansatz werden Phonemeigenschaften, die sich zeitlich dynamisch ändern, nicht berücksichtigt.

Bild

Solche Ansätze zur Analyse von Sprache können jedoch nicht nur zur Erkennung, sondern auch zum Trainieren einer analytischen Beschreibung von Phonemen, zum Erstellen eines mathematischen Modells aus den empfangenen Daten und zur Klangsynthese angewendet werden, fast wie beim Original.

Analyse der Komponenten der menschlichen Sprache


Jeder aus der Schule weiß immer noch, dass ein Wort aus einer oder mehreren Silben besteht, die wiederum aus einem oder mehreren Phonemen bestehen. Ein Phonem ist eine so minimale Spracheinheit (das Wichtigste ist, dass es sinnvoll ist), es hat keine lexikalische oder grammatikalische Bedeutung, sondern dient dazu, die elementaren Einheiten der Sprache - Wörter - zu verstehen.

So sieht die Amplituden-Zeit-Charakteristik des Phonems des Buchstabens „O“ aus.



Der Einfachheit halber habe ich hier drei verschiedene Zeiträume notiert:

  • a - der Prozess der Exkursion (jedes Phonem beginnt mit diesem Prozess)
  • b - Alterungsprozess (der „Ort“ des Phonems, der einer Beschreibung bedarf)
  • c - der Prozess der Rekursion (grob gesagt - wir haben aufgehört zu reden, der Ton ist beendet :))

Ich habe eine Analyse der Zeitdauer durchgeführt, während der das Phonem (seine Amplituden-Zeit-Charakteristik) in einem quasistationären Zustand bleibt. Hier können wir davon ausgehen, dass zu diesem Zeitpunkt die (fast) Komponenten des Klangspektrums unverändert bleiben.
Zur weiteren Analyse und Beschreibung müssen Sie den Belichtungsschall in Spektralkomponenten zerlegen.



Aber ein Phonem, wie ein Atom, scheint es unmöglich, das, was unteilbar erscheint, in Komponenten zu unterteilen. Dies ist jedoch nicht der Fall: Jeder Peak in der obigen Grafik entspricht einer harmonischen Komponente des Phonems - dem Formanten. Somit kann jedes Phonem beschrieben werden, wenn seine einfachsten Komponenten beschrieben werden. Und niemand sollte Probleme mit letzterem haben. Wenn Sie sich das Diagramm genau ansehen, können Sie leicht feststellen, dass der Formante gleichzeitig durch zwei Parameter beschrieben wird: Frequenz und relative Amplitude. Dementsprechend bilden diese beiden Parameter rein mathematisch einen Vektor, und der Satz solcher Vektoren, der den vorhandenen signifikanten Formanten entspricht, entspricht der Parametermatrix.

Dann kann das Phonem (quasistationärer Prozess) durch die folgenden Parameter charakterisiert werden:



Hier sind auch Parameter für einige andere Vokale aufgeführt. Der Buchstabe A ist die Amplitude, v ist die Frequenz. Man kann mit Recht sagen, dass die „komplexesten“ Buchstaben „E“ und „I“ sind - das Spektrum ihrer Phoneme ist breiter und die signifikanten Frequenzen liegen in zwei verschiedenen Intervallen.

Phonemsynthese


Um die Möglichkeit der Bewertung der Qualität der beschriebenen Methode zu realisieren, wurde ein Modell zur Rekonstruktion von Phonemen menschlicher Sprache unter Verwendung der erhaltenen parametrischen Matrizen vorgeschlagen: f(t)= sum limiti=1NAisin(2 pivit). Hier wird unter dem Vorzeichen der Summe die formale Aufzeichnung des Formanten angegeben. Dementsprechend können Sie anhand der Daten aus der obigen Tabelle ein Klangmodell erstellen, z. B. den Buchstaben "U", und es synthetisieren.



Der Parametersatz für die Werte der Matrizen hängt von den Eigenschaften des Phonems ab. Für eine realistische Rekonstruktion der Vokal-U-Tonaufzeichnung wurde daher eine Matrix verwendet, die aus achtzehn numerischen Parametern bestand, die neun signifikante Formanten beschreiben. Um ein genaueres Modell zu erstellen, müssen alle signifikanten Phonemformanten berücksichtigt werden. Eine weitere Bedingung für die Genauigkeit des Vergleichs des ursprünglichen und des synthetisierten Signals ist die gleiche Dauer der Tonsignale.

Schlussfolgerung und Schlussfolgerungen


Sie verstehen, dass das Phonem bei der Analyse der menschlichen Sprache keine so unteilbare Einheit ist. Ich habe Ihnen auch eine einfache Möglichkeit gezeigt, die Formanten von Phonemen menschlicher Sprache analytisch zu beschreiben. Im letzten Abschnitt haben wir untersucht, dass es möglich ist, aus den erhaltenen Parametern ein mathematisches Modell des Phonems zu erstellen, und dass das erhaltene Modell wiederum zur Synthese des Phonems verwendet werden kann. Ich hoffe dir hat dieses Material gefallen. Im nächsten Artikel werden wir analysieren, wie kompliziert die emotionale Färbung der Stimme ist und wie mathematische Modelle empirisch dafür erstellt werden können.

PS


Den Haupttext der veröffentlichten Arbeit finden Sie hier .

Source: https://habr.com/ru/post/de427813/


All Articles