La plupart des systèmes modernes de reconnaissance de la parole humaine sont basés sur des méthodes qui décomposent l'enregistrement vocal en phonèmes et analysent leurs caractéristiques amplitude-fréquence afin de rechercher des phonèmes de lettres individuelles en fonction de leur classification par des ensembles spécifiques de caractéristiques de fréquence. De telles méthodes considèrent chaque phonème comme une seule unité indivisible d'un signal sonore avec des caractéristiques de fréquence quasi-stationnaires. Avec cette approche, les caractéristiques des phonèmes qui changent dynamiquement dans le temps ne sont pas prises en compte.

Mais de telles approches de l'analyse de la parole peuvent être appliquées non seulement pour sa reconnaissance, mais aussi pour la formation d'une description analytique des phonèmes, la construction d'un modèle mathématique à partir des données reçues et la synthèse sonore, presque la même que l'original.
Analyse des composants de la parole humaine
Tout le monde à l'école sait toujours qu'un mot se compose d'une ou plusieurs syllabes, qui à leur tour se composent d'un ou plusieurs phonèmes. Un phonème est une unité de langage minimale (la chose la plus importante est qu'il a un sens), il n'a pas de signification lexicale ou grammaticale, mais sert à nous permettre de comprendre les unités élémentaires de la langue - les mots.
Voilà à quoi ressemble la caractéristique amplitude-temps du phonème de la lettre «O».

Pour plus de commodité, j'ai noté ici trois périodes différentes:
- a - le processus d'excursion (chaque phonème commence par ce processus)
- b - processus de vieillissement (le «lieu» même du phonème qui nécessite une description)
- c - le processus de récursivité (en gros - nous avons fini de parler, le son s'est terminé :))
J'ai effectué une analyse de la durée pendant laquelle le phonème (sa caractéristique amplitude-temps) reste dans un état quasi stationnaire. Ici, nous pouvons supposer que c'est à ce moment précis que les (presque) composantes du spectre sonore restent inchangées.
Pour une analyse et une description plus approfondies, vous devez décomposer le son de l'exposition en composantes spectrales.

Mais un phonème, comme un atome, il semblerait impossible de diviser en composants ce qui semble indivisible. Mais ce n'est pas le cas: chaque pic du graphique ci-dessus correspond à une composante harmonique du phonème - le formant. Ainsi, chaque phonème peut être décrit si ses composants les plus simples sont décrits. Et personne ne devrait avoir de problèmes avec ce dernier. Si vous regardez attentivement le graphique, vous pouvez facilement déterminer que le formant est décrit simultanément par deux paramètres: fréquence et amplitude relative. En conséquence, purement mathématiquement, ces deux paramètres forment un vecteur, et l'ensemble de ces vecteurs correspondant aux formants significatifs existants correspond à la matrice de paramètres.
Ensuite, le phonème (processus quasi-stationnaire) peut être caractérisé par l'ensemble de paramètres suivant:

Les paramètres de certaines autres voyelles sont également répertoriés ici. La lettre
A est l'amplitude, respectivement,
v est la fréquence. Il sera juste de dire que les lettres les plus «complexes» sont «E» et «I» - le spectre de leurs phonèmes est plus large et les fréquences significatives sont à deux intervalles différents.
Synthèse des phonèmes
Pour réaliser la possibilité d'évaluer la qualité de la méthode décrite, un modèle a été proposé pour reconstruire les phonèmes de la parole humaine à l'aide des matrices paramétriques obtenues:
. Ici, sous le signe de la somme, l'enregistrement formel du formant est indiqué. En conséquence, en utilisant les données du tableau ci-dessus, vous pouvez créer un modèle sonore, par exemple, la lettre "U" et le synthétiser.

L'ensemble des paramètres pour les valeurs des matrices dépend des propriétés du phonème. Ainsi, pour une reconstruction réaliste de l'enregistrement sonore de la voyelle en "U", une matrice composée de dix-huit paramètres numériques décrivant neuf formants significatifs a été utilisée. Pour construire un modèle plus précis, il est nécessaire de prendre en compte tous les formants phonémiques significatifs. Une autre condition pour la précision de la comparaison du signal d'origine et du signal synthétisé est la durée égale des signaux sonores.
Conclusion et conclusions
Vous comprenez que le phonème n'est pas une unité aussi indivisible dans l'analyse de la parole humaine. Je vous ai également montré un moyen simple de décrire analytiquement les formants des phonèmes de la parole humaine. Dans la dernière section, nous avons examiné qu'il est possible de construire un modèle mathématique du phonème à partir des paramètres obtenus, et le modèle obtenu, à son tour, peut être utilisé pour synthétiser le phonème. J'espère que vous avez apprécié ce matériel. Dans le prochain article, nous analyserons comment la coloration émotionnelle de la voix est compliquée et comment des modèles mathématiques pourraient être construits empiriquement pour cela.
PS
Le texte principal de l'ouvrage publié se trouve
ici .