Concept d'interface vocale de système informatique pour aider les personnes souffrant de troubles de la parole

image

Présentation


Actuellement, une grande attention est accordée à la création d'un environnement accessible aux personnes handicapées et handicapées. Les moyens informatiques et les systèmes d'information spécialisés constituent un moyen important de garantir l'accessibilité et d'améliorer la qualité de vie, l'interaction sociale et l'intégration dans la société des personnes handicapées. Une analyse de la littérature a montré qu'aujourd'hui, divers développements sont en cours pour faciliter l'interaction entre l'homme et l'ordinateur, y compris dans le sens du développement d'interfaces vocales pour la gestion d'un système informatique. Cependant, ces développements sont guidés par la création de systèmes indépendants du locuteur qui sont formés sur les mégadonnées et ne prennent pas en compte les particularités de la prononciation des commandes vers un ordinateur par des personnes souffrant de diverses violations des fonctions vocales.

Le but des travaux de recherche est de concevoir une interface vocale dépendante du locuteur pour gérer un système informatique basé sur des méthodes d'apprentissage automatique.

Tâches résolues dans le travail:

  1. Procéder à un examen des interfaces vocales et de la façon de les utiliser pour contrôler les systèmes informatiques;
  2. Étudier les approches de personnalisation de la commande vocale d'un système informatique;
  3. Développer un modèle mathématique d'une interface vocale pour gérer un système informatique;
  4. Développer un algorithme d'implémentation logicielle.

Méthodes de solution. Pour résoudre les tâches utilisées des méthodes d'analyse de système, de modélisation mathématique, d'apprentissage automatique.

Interface vocale comme moyen de contrôler un système informatique


La création de systèmes de reconnaissance vocale est une tâche extrêmement difficile. Il est particulièrement difficile de reconnaître la langue russe, qui présente de nombreuses caractéristiques. Tous les systèmes de reconnaissance vocale peuvent être divisés en deux classes:

Systèmes dépendants du locuteur - adaptés au discours du locuteur lors du processus d'apprentissage. Pour fonctionner avec un autre haut-parleur, de tels systèmes nécessitent une reconfiguration complète.

Systèmes indépendants du haut-parleur - dont le fonctionnement est indépendant du haut-parleur. De tels systèmes ne nécessitent aucune formation préalable et sont capables de reconnaître la parole de n'importe quel locuteur.

Initialement, le premier type de système est apparu sur le marché. En eux, l'image sonore de l'équipe a été stockée sous la forme d'un standard intégral. Pour comparer la prononciation inconnue et l'équipe standard a utilisé des méthodes de programmation dynamique. Ces systèmes fonctionnaient bien lors de la reconnaissance de petits ensembles de 10 à 30 équipes et ne comprenaient qu'un seul orateur. Pour fonctionner avec un autre haut-parleur, ces systèmes nécessitaient une reconfiguration complète.
Pour comprendre la parole continue, il a fallu passer à des dictionnaires de tailles beaucoup plus grandes, de plusieurs dizaines à des centaines de milliers de mots. Les méthodes utilisées dans les systèmes du premier type n'étaient pas adaptées pour résoudre ce problème, car il est tout simplement impossible de créer des normes pour un tel nombre de mots.

Pour comprendre la parole continue, il a fallu passer à des dictionnaires de tailles beaucoup plus grandes, de plusieurs dizaines à des centaines de milliers de mots. Les méthodes utilisées dans les systèmes du premier type n'étaient pas adaptées pour résoudre ce problème, car il est tout simplement impossible de créer des normes pour un tel nombre de mots.

De plus, il y avait une volonté de rendre un système indépendant de l'annonceur. C'est une tâche très difficile, car chaque personne a une façon de prononcer individuelle: le rythme de la parole, le timbre de la voix, les caractéristiques de la prononciation. Ces différences sont appelées variabilité de la parole. Pour en tenir compte, de nouvelles méthodes statistiques ont été proposées, basées principalement sur les appareils mathématiques des modèles de Markov cachés (SMM) ou des réseaux de neurones artificiels . Les meilleurs résultats ont été obtenus en combinant ces deux méthodes. Au lieu de créer des motifs pour chaque mot, des motifs de sons individuels sont créés qui composent les mots, les soi-disant modèles acoustiques. Les modèles acoustiques sont formés par le traitement statistique de grandes bases de données vocales contenant des enregistrements vocaux de centaines de personnes. Les systèmes de reconnaissance vocale existants utilisent deux approches fondamentalement différentes:

Reconnaissance d' étiquette vocale - reconnaissance de fragments de discours à partir d'un modèle préenregistré. Cette approche est largement utilisée dans des systèmes relativement simples conçus pour exécuter des commandes vocales préenregistrées.

Reconnaissance des éléments lexicaux - isolation du discours des éléments lexicaux les plus simples, tels que les phonèmes et les allophones. Cette approche convient à la création de systèmes de dictée de texte dans lesquels la conversion complète des sons prononcés en texte a lieu.

Un aperçu des différentes sources Internet vous permet de mettre en évidence les produits logiciels suivants qui résolvent les problèmes de reconnaissance vocale et leurs principales caractéristiques:

Gorynych PROF 3.0 est un programme facile à utiliser pour reconnaître la langue parlée et taper par dictée avec prise en charge de la langue russe. Il est basé sur les développements russes dans le domaine de la reconnaissance vocale.

CARACTÉRISTIQUES
  • dépendance aux locuteurs;
  • dépendance linguistique (russe et anglais);
  • la précision de la reconnaissance dépend du cœur du système American Dragon Dictate;
  • fournit une commande vocale pour certaines fonctions du système d'exploitation, des éditeurs de texte et des programmes d'application;
  • nécessite une formation.

VoiceNavigator est une solution de haute technologie pour les centres de contact, conçue pour construire des systèmes vocaux en libre-service (GHS). VoiceNavigator vous permet de traiter automatiquement les appels à l'aide des technologies de synthèse et de reconnaissance vocale.

CARACTÉRISTIQUES

  • indépendance du locuteur;
  • immunité au bruit ambiant et aux interférences dans le canal téléphonique;
  • La reconnaissance vocale russe fonctionne avec une fiabilité de 97% (dictionnaire de 100 mots).

Speereo Speech Recognition - la reconnaissance vocale se produit directement sur l'appareil, et non sur le serveur, ce qui est un avantage clé, selon les développeurs.

CARACTÉRISTIQUES

  • La reconnaissance vocale russe fonctionne avec une fiabilité d'environ 95%;
  • indépendance du locuteur;
  • vocabulaire d'environ 150 000 mots;
  • prise en charge simultanée de plusieurs langues;
  • taille compacte du moteur Sakrament ASR Engine (développé par Sacrament)

Sakrament ASR Engine - (développé par Sacrament) - La technologie de reconnaissance vocale est utilisée pour créer des outils de gestion de la parole - des programmes qui contrôlent les actions d'un ordinateur ou d'un autre appareil électronique à l'aide de commandes vocales, ainsi que pour organiser l'aide téléphonique et les services d'information.

CARACTÉRISTIQUES
  • indépendance du locuteur;
  • indépendance linguistique;
  • la précision de reconnaissance atteint 95-98%;
  • reconnaissance de la parole sous forme d'expressions et de petites phrases;
  • aucune opportunité d'apprentissage.

Recherche vocale Google - Récemment, la recherche vocale de Google a été intégrée dans le navigateur Google Chrome, ce qui vous permet d'utiliser ce service sur différentes plateformes.

CARACTÉRISTIQUES

  • Prise en charge de la langue russe;
  • la capacité d'intégrer la reconnaissance vocale aux ressources Web;
  • commandes vocales, phrases;
  • Pour travailler, vous avez besoin d'une connexion permanente à Internet.

Dragon NaturallySpeaking - (Nuance Company) Un leader mondial des logiciels de reconnaissance vocale humaine. La possibilité de créer de nouveaux documents, d'envoyer des e-mails, de gérer des navigateurs populaires et une variété d'applications via des commandes vocales.

CARACTÉRISTIQUES

  • manque de soutien pour la langue russe;
  • précision de reconnaissance jusqu'à 99%.

ViaVoice - (IBM) est un produit logiciel pour les implémentations matérielles. Sur la base de ce noyau, ProVox Technologies a créé un système pour dicter les rapports des radiologistes VoxReports.

CARACTÉRISTIQUES

  • la précision de reconnaissance atteint 95-98%;
  • indépendance du locuteur;
  • le dictionnaire système est limité à un ensemble de termes spécifiques.

Sphinx est un logiciel de reconnaissance vocale open source bien connu et efficace pour aujourd'hui. Le développement est effectué à l'Université Carnegie Mellon, est autorisé sous la Berkley Software Distribution (BSD) et est disponible pour une utilisation commerciale et non commerciale.

CARACTÉRISTIQUES

  • indépendance du locuteur;
  • reconnaissance vocale continue;
  • capacité d'apprentissage;
  • disponibilité de la version pour les systèmes embarqués - Pocket Sphinx.

Ainsi, l'enquête a montré que les produits logiciels destinés à un grand nombre d'utilisateurs prévalent sur le marché, sont indépendants du locuteur, en règle générale, ont une licence propriétaire, ce qui limite considérablement leur utilisation par les personnes handicapées pour gérer le système informatique. Les systèmes de commande vocale d'outils spécialisés, tels que la maison intelligente, l'exosquelette, etc., ne sont pas universels. Cependant, l'intérêt pour les nouvelles technologies augmente, il existe des opportunités pour contrôler divers appareils via les communications mobiles, les technologies Bluetooth. Y compris les appareils électroménagers. L'utilisation de technologies de commande vocale axées sur un utilisateur spécifique améliorera la qualité de la vie quotidienne et l'adaptation sociale des personnes handicapées.

Appareil mathématique pour reconnaître l'état du locuteur et ses caractéristiques


Pour résoudre le problème posé dans le travail, nous analysons les exigences du système.

Le système devrait être:

  1. dépendant du locuteur;
  2. Apprenez en fonction de la prononciation particulière d'un utilisateur particulier;
  3. reconnaître un certain nombre de balises vocales et les traduire en commandes de contrôle.

L'interface vocale doit être: dépendante du locuteur, avec un ensemble limité de vocabulaire.

Les commandes vocales sont une onde sonore. Une onde sonore peut être représentée comme un spectre de fréquences qui y est inclus. Le son numérique est un moyen de représenter un signal électrique à travers des valeurs numériques discrètes de son amplitude. Un fichier audio dans la mémoire principale agit comme une information d'entrée pour que l'interface vocale fonctionne, à la suite de la soumission du fichier au réseau neuronal, le programme donne le résultat correspondant.

La numérisation est une fixation de l'amplitude du signal à certains intervalles de temps et un enregistrement des valeurs d'amplitude obtenues sous la forme de valeurs numériques arrondies. La numérisation d'un signal comprend deux processus: le processus d'échantillonnage et le processus de quantification.

Le processus d'échantillonnage est le processus d'obtention de valeurs de signal, qui est converti avec un pas de temps spécifique, cette étape est appelée étape d'échantillonnage. Le nombre de mesures de l'amplitude du signal, effectuées en une seconde, est appelé fréquence d'échantillonnage ou fréquence d'échantillonnage, ou fréquence d'échantillonnage. Plus l'étape d'échantillonnage est petite, plus la fréquence d'échantillonnage est élevée et la représentation du signal plus précise que nous obtiendrons.

La quantification est le processus consistant à remplacer les valeurs réelles de l'amplitude du signal par des valeurs approximatives avec une certaine précision. Chacun des 2N niveaux possibles est appelé niveau de quantification, et la distance entre les deux niveaux de quantification les plus proches est appelée étape de quantification. Si l'échelle d'amplitude est divisée linéairement en niveaux, la quantification est appelée linéaire ou homogène.

Les valeurs d'amplitude du signal enregistrées sont appelées échantillons. Plus la fréquence d'échantillonnage et les niveaux de quantification sont élevés, plus la représentation numérique du signal est précise.

Il est conseillé d'utiliser un réseau de neurones qui peut apprendre et sélectionner automatiquement les signes nécessaires comme appareil mathématique pour résoudre le problème de la distinction des traits caractéristiques. Cela vous permettra d'entraîner le système à la prononciation particulière des commandes vocales d'un utilisateur particulier. En comparant les mécanismes de différents réseaux de neurones, nous avons choisi les deux plus adaptés. Il s'agit du réseau de Kosco et Cohoken.

La carte auto-organisatrice de Kohonen est un réseau de neurones avec apprentissage sans professeur, effectuant la tâche de visualisation et de regroupement. Il s'agit d'une méthode de projection d'un espace multidimensionnel dans un espace de dimension inférieure (le plus souvent bidimensionnel), il est également utilisé pour résoudre des problèmes de modélisation, de prévision, identifier des ensembles de fonctionnalités indépendantes, rechercher des modèles dans de grands ensembles de données et développer des jeux informatiques. C'est l'une des versions des réseaux de neurones de Kohonen.

Le réseau Kohonen est un réseau approprié, car ce réseau peut automatiquement diviser les exemples de formation en clusters, où le nombre de clusters est défini par l'utilisateur. Après avoir formé le réseau, vous pouvez calculer à quel cluster l'exemple d'entrée appartient et générer le résultat correspondant.

Le réseau neuronal de Kosco ou mémoire associative bidirectionnelle (DAP) est un réseau neuronal à rétroaction monocouche basé sur deux idées: la théorie de la résonance adaptative de Stefan Grosberg et la mémoire auto-associative de Hopfield. Le DAP est hétéroassociatif: le vecteur d'entrée arrive à un ensemble de neurones, et le vecteur de sortie correspondant est généré à un autre ensemble de neurones. Comme le réseau Hopfield, le DAP est capable de généralisation, produisant les bonnes réactions, malgré des entrées déformées. De plus, des versions adaptatives du WCT peuvent être implémentées, mettant en évidence l'image de référence des instances bruyantes. Ces capacités ressemblent fortement au processus de la pensée humaine et permettent aux réseaux de neurones artificiels de faire un pas dans la direction de la modélisation cérébrale.

L'avantage de ce réseau est que, basé sur des réseaux neuronaux discrets de théorie de la résonance adaptative, une nouvelle mémoire associative bidirectionnelle est développée qui est capable de stocker de nouvelles informations sans recycler le réseau neuronal. Cela permet à l'utilisateur de reconstituer le stock de balises vocales si nécessaire.

La conception


Le concept d'implémentation logicielle comprend trois étapes qui sont implémentées dans un produit logiciel ayant une interface graphique ergonomique.

Collection d'exemples de formation.

Pour former le réseau neuronal, l'utilisateur est invité à répéter plusieurs fois les balises vocales préparées. Étant donné que les phrases enregistrées se composent d'un seul mot, la taille du fichier n'a pas d'importance. Et pour un traitement ultérieur, le son est enregistré au format WAV. Il s'agit d'un format d'enregistrement sans perte PCM. Il s'agit de la norme pour le traitement ultérieur du son à l'aide de la bibliothèque python_speech_features de Python. La «valeur» nécessaire à la formation continue du réseau neuronal (commandes correspondantes) doit être attachée au fichier audio.

Formation au réseau neuronal.

Le programme lit les fichiers audio et génère de nouveaux fichiers audio en modifiant la longueur de la piste audio, ainsi qu'en changeant la hauteur, le volume et le ton de la parole. Cela est nécessaire pour augmenter le nombre d'exemples pour l'échantillon d'apprentissage, ce qui augmentera la qualité de la reconnaissance par le réseau neuronal. Dans le programme, l'utilisateur sera invité à former le réseau sur des étiquettes vocales enregistrées précédemment. L'utilisateur peut également compléter la base avec des étiquettes vocales d'entraînement et recycler le réseau neuronal plus tard.

Utilisation du programme.

Après avoir formé le programme dans les mots donnés, l'utilisateur peut se mettre au travail ou ajouter de nouvelles étiquettes vocales à la formation. Un réseau neuronal formé peut reconnaître les fichiers audio fournis.

Conclusion


Ainsi, dans les travaux de recherche, une revue du marché moderne des interfaces vocales et de leurs utilisations est réalisée. Il est démontré que ce type de logiciel est axé sur l'utilisation de systèmes de commande vocale indépendants de la voix et ne prend pas en compte les caractéristiques individuelles de l'utilisateur, ce qui est particulièrement important pour les personnes handicapées et les troubles de la parole.

Les exigences d'une interface de commande vocale d'un système informatique pour aider les personnes souffrant de troubles de la parole sont définies.

Un appareil mathématique adapté à la mise en œuvre du concept est décrit. Un algorithme pour l'implémentation logicielle de l'interface vocale est compilé.

Le développement ultérieur implique le développement d'un programme avec une interface graphique pratique pour la mise en œuvre d'une interface prototype de commande vocale qui peut être utilisée pour diverses tâches, telles que le contrôle d'appareils électroménagers, d'ordinateurs, d'appareils robotiques (exosquelettes) par des personnes handicapées.

Source: https://habr.com/ru/post/fr429778/


All Articles