Concepto de interfaz de voz del sistema informático para ayudar a las personas con impedimentos del habla

imagen

Introduccion


Actualmente, se presta mucha atención a la creación de un entorno accesible para personas con discapacidades y discapacidades. Un medio importante para garantizar la accesibilidad y mejorar la calidad de vida, la interacción social y la integración en la sociedad para las personas con discapacidad son las instalaciones informáticas y los sistemas de información especializados. Un análisis de la literatura mostró que hoy en día se están desarrollando varios desarrollos para facilitar la interacción del hombre y la computadora, incluso en la dirección del desarrollo de interfaces de voz para administrar un sistema informático. Sin embargo, estos desarrollos se guían por la creación de sistemas independientes del hablante que están entrenados en big data y no tienen en cuenta las peculiaridades de la pronunciación de comandos a una computadora por parte de personas con diversas violaciones de las funciones del habla.

El propósito del trabajo de investigación es diseñar una interfaz de voz dependiente del hablante para administrar un sistema informático basado en métodos de aprendizaje automático.

Tareas resueltas en el trabajo:

  1. Realizar una revisión de las interfaces de voz y cómo usarlas para controlar los sistemas informáticos;
  2. Estudiar enfoques para la personalización del control de voz de un sistema informático;
  3. Desarrollar un modelo matemático de una interfaz de voz para administrar un sistema informático;
  4. Desarrollar un algoritmo de implementación de software.

Métodos de solución. Para resolver las tareas se utilizan métodos de análisis de sistemas, modelos matemáticos, aprendizaje automático.

Interfaz de voz como una forma de controlar un sistema informático.


Crear sistemas de reconocimiento de voz es una tarea extremadamente difícil. Es especialmente difícil reconocer el idioma ruso, que tiene muchas características. Todos los sistemas de reconocimiento de voz se pueden dividir en dos clases:

Sistemas dependientes del hablante: sintonizados con el discurso del hablante en el proceso de aprendizaje. Para trabajar con otro altavoz, dichos sistemas requieren una reconfiguración completa.

Sistemas independientes del hablante: cuya operación es independiente del hablante. Dichos sistemas no requieren capacitación previa y pueden reconocer el discurso de cualquier hablante.

Inicialmente, el primer tipo de sistema apareció en el mercado. En ellos, la imagen sonora del equipo se almacenó en forma de un estándar integral. Para comparar la pronunciación desconocida y el equipo estándar utilizó métodos de programación dinámica. Estos sistemas funcionaron bien al reconocer pequeños grupos de 10-30 equipos y entendieron solo un orador. Para trabajar con otro orador, estos sistemas requieren una reconfiguración completa.
Para comprender el discurso continuo, era necesario pasar a diccionarios de tamaños mucho más grandes, desde varias decenas hasta cientos de miles de palabras. Los métodos utilizados en los sistemas del primer tipo no eran adecuados para resolver este problema, ya que es simplemente imposible crear estándares para tal cantidad de palabras.

Para comprender el discurso continuo, era necesario pasar a diccionarios de tamaños mucho más grandes, desde varias decenas hasta cientos de miles de palabras. Los métodos utilizados en los sistemas del primer tipo no eran adecuados para resolver este problema, ya que es simplemente imposible crear estándares para tal cantidad de palabras.

Además, había un deseo de hacer un sistema independiente del locutor. Esta es una tarea muy difícil, ya que cada persona tiene una forma individual de pronunciar: el ritmo del habla, el timbre de la voz y las características de la pronunciación. Tales diferencias se llaman variabilidad del habla. Para tenerlo en cuenta, se propusieron nuevos métodos estadísticos, basados ​​principalmente en los aparatos matemáticos de los modelos ocultos de Markov (SMM) o redes neuronales artificiales . Los mejores resultados se lograron combinando estos dos métodos. En lugar de crear patrones para cada palabra, se crean patrones de sonidos individuales que forman las palabras, los llamados modelos acústicos. Los modelos acústicos se forman mediante el procesamiento estadístico de grandes bases de datos de voz que contienen grabaciones de voz de cientos de personas. Los sistemas de reconocimiento de voz existentes utilizan dos enfoques fundamentalmente diferentes:

Reconocimiento de etiqueta de voz : reconocimiento de fragmentos de voz de un patrón pregrabado. Este enfoque se usa ampliamente en sistemas relativamente simples diseñados para ejecutar comandos de voz pregrabados.

Reconocimiento de elementos léxicos : aislamiento del habla de los elementos léxicos más simples, como fonemas y alófonos. Este enfoque es adecuado para crear sistemas de dictado de texto en los que tiene lugar la conversión completa de sonidos pronunciados en texto.

Una descripción general de varias fuentes de Internet le permite resaltar los siguientes productos de software que resuelven problemas de reconocimiento de voz y sus características principales:

Gorynych PROF 3.0 es un programa fácil de usar para reconocer el idioma hablado y escribir a través del dictado con soporte para el idioma ruso. Se basa en los desarrollos rusos en el campo del reconocimiento de voz.

Caracteristicas
  • adicción al hablante;
  • dependencia del idioma (ruso e inglés);
  • la precisión del reconocimiento depende del núcleo del sistema American Dragon Dictate;
  • proporciona control de voz para ciertas funciones del sistema operativo, editores de texto y programas de aplicación;
  • requiere entrenamiento

VoiceNavigator es una solución de alta tecnología para centros de contacto, diseñada para construir sistemas de autoservicio de voz (GHS). VoiceNavigator le permite procesar llamadas automáticamente utilizando tecnologías de síntesis y reconocimiento de voz.

Caracteristicas

  • independencia del hablante;
  • inmunidad al ruido ambiental e interferencia en el canal telefónico;
  • El reconocimiento de voz en ruso funciona con una fiabilidad del 97% (diccionario de 100 palabras).

Speereo Speech Recognition : el reconocimiento de voz se produce directamente en el dispositivo y no en el servidor, lo que es una ventaja clave, según los desarrolladores.

Caracteristicas

  • El reconocimiento de voz en ruso funciona con una fiabilidad de aproximadamente el 95%;
  • independencia del hablante;
  • vocabulario de aproximadamente 150 mil palabras;
  • soporte simultáneo para múltiples idiomas;
  • tamaño de motor compacto Motor Sakrament ASR (desarrollado por Sacramento)

Motor Sakrament ASR - (desarrollado por Sacrament) - La tecnología de reconocimiento de voz se utiliza para crear herramientas de gestión del habla, programas que controlan las acciones de una computadora u otro dispositivo electrónico mediante comandos de voz, así como la organización de ayuda telefónica y servicios de información.

Caracteristicas
  • independencia del hablante;
  • independencia del lenguaje;
  • la precisión de reconocimiento alcanza el 95-98%;
  • reconocimiento de voz en forma de expresiones y oraciones pequeñas;
  • Sin oportunidad de aprendizaje.

Búsqueda por voz de Google : recientemente, la búsqueda por voz de Google se ha integrado en el navegador Google Chrome, lo que le permite utilizar este servicio en varias plataformas.

Caracteristicas

  • Soporte de idioma ruso;
  • la capacidad de incrustar reconocimiento de voz en recursos web;
  • comandos de voz, frases;
  • Para trabajar necesitas una conexión permanente a internet.

Dragon NaturallySpeaking - (Nuance Company) Un líder mundial en software de reconocimiento de voz humana. La capacidad de crear nuevos documentos, enviar correos electrónicos, administrar navegadores populares y una variedad de aplicaciones a través de comandos de voz.

Caracteristicas

  • falta de apoyo para el idioma ruso;
  • Precisión de reconocimiento de hasta el 99%.

ViaVoice - (IBM) es un producto de software para implementaciones de hardware. Basado en este núcleo, ProVox Technologies creó un sistema para dictar los informes de los radiólogos de VoxReports.

Caracteristicas

  • la precisión de reconocimiento alcanza el 95-98%;
  • independencia del hablante;
  • El diccionario del sistema está limitado a un conjunto de términos específicos.

Sphinx es un software de reconocimiento de voz de código abierto bien conocido y eficiente para hoy. El desarrollo se lleva a cabo en la Universidad Carnegie Mellon, está licenciado por Berkley Software Distribution (BSD) y está disponible tanto para uso comercial como no comercial.

Caracteristicas

  • independencia del hablante;
  • reconocimiento continuo de voz;
  • capacidad de aprendizaje;
  • Disponibilidad de versión para sistemas integrados: Pocket Sphinx.

Por lo tanto, la encuesta mostró que los productos de software dirigidos a un gran número de usuarios prevalecen en el mercado, son independientes de los hablantes, por regla general, tienen una licencia patentada, lo que limita significativamente su uso para que las personas con discapacidades administren el sistema informático. Los sistemas para el control de voz de herramientas especializadas, como el hogar inteligente, el exoesqueleto, etc., no son universales. Sin embargo, el interés en las nuevas tecnologías está creciendo, hay oportunidades para controlar varios dispositivos a través de comunicaciones móviles, tecnologías bluetooth. Incluyendo electrodomésticos. El uso de tecnologías de control de voz centradas en un usuario específico mejorará la calidad de la vida cotidiana y la adaptación social para las personas con discapacidad.

Aparato matemático para reconocer el estado del hablante y sus características.


Para resolver el problema planteado en el trabajo, analizamos los requisitos del sistema.

El sistema debe ser:

  1. dependiente del hablante;
  2. Aprenda de acuerdo con la pronunciación particular de un usuario particular;
  3. reconocer un cierto número de etiquetas de voz y traducirlas en comandos de control.

La interfaz de voz debe ser: dependiente del hablante, con un conjunto limitado de vocabulario.

Los comandos de voz son una onda de sonido. Una onda de sonido puede representarse como un espectro de frecuencias incluidas en ella. El sonido digital es una forma de representar una señal eléctrica a través de valores numéricos discretos de su amplitud. Un archivo de audio en la memoria principal actúa como información de entrada para que funcione la interfaz de voz, como resultado de que el archivo se envíe a la red neuronal, el programa da el resultado correspondiente.

La digitalización es una fijación de la amplitud de la señal a ciertos intervalos de tiempo y el registro de los valores de amplitud obtenidos en forma de valores digitales redondeados. La digitalización de una señal incluye dos procesos: el proceso de muestreo y el proceso de cuantificación.

El proceso de muestreo es el proceso de obtener valores de señal, que se convierte con un paso de tiempo específico, este paso se llama paso de muestreo. El número de mediciones de la magnitud de la señal, realizadas en un segundo, se denomina frecuencia de muestreo o frecuencia de muestreo, o frecuencia de muestreo. Cuanto más pequeño sea el paso de muestreo, mayor será la frecuencia de muestreo y la representación más precisa de la señal que obtendremos.

La cuantización es el proceso de reemplazar valores reales de la amplitud de la señal con valores aproximados con cierta precisión. Cada uno de los 2N niveles posibles se denomina nivel de cuantificación, y la distancia entre los dos niveles de cuantificación más cercanos se denomina paso de cuantificación. Si la escala de amplitud se divide linealmente en niveles, la cuantización se llama lineal u homogénea.

Los valores de amplitud de señal grabados se denominan muestras. Cuanto mayor sea la frecuencia de muestreo y más niveles de cuantificación, más precisa será la representación digital de la señal.

Es aconsejable utilizar una red neuronal que pueda aprender y seleccionar automáticamente los signos necesarios como un aparato matemático para resolver el problema de distinguir los rasgos característicos. Esto le permitirá entrenar el sistema para la pronunciación particular de los comandos de voz de un usuario en particular. Comparando los mecanismos de varias redes neuronales, hemos elegido las dos más adecuadas. Esta es la red de Kosco y Cohoken.

El mapa autoorganizado de Kohonen es una red neuronal con el aprendizaje sin un maestro, que realiza la tarea de visualización y agrupación. Es un método para proyectar un espacio multidimensional en un espacio con una dimensión inferior (con mayor frecuencia, bidimensional), también se utiliza para resolver problemas de modelado, pronóstico, identificar conjuntos de características independientes, buscar patrones en grandes conjuntos de datos y desarrollar juegos de computadora. Es una de las versiones de las redes neuronales de Kohonen.

La red Kohonen es una red adecuada, ya que esta red puede dividir automáticamente los ejemplos de entrenamiento en grupos, donde el usuario establece el número de grupos. Después de entrenar la red, puede calcular a qué clúster pertenece el ejemplo de entrada y generar el resultado correspondiente.

La red neuronal de Kosco o memoria asociativa bidireccional (DAP) es una red neuronal de retroalimentación de una sola capa basada en dos ideas: la teoría de resonancia adaptativa de Stefan Grosberg y la memoria autoasociativa de Hopfield. DAP es heteroasociativo: el vector de entrada llega a un conjunto de neuronas, y el vector de salida correspondiente se genera en otro conjunto de neuronas. Al igual que la red Hopfield, DAP es capaz de generalización, produciendo las reacciones correctas, a pesar de las entradas distorsionadas. Además, se pueden implementar versiones adaptativas del WCT, destacando la imagen de referencia de instancias ruidosas. Estas capacidades se parecen mucho al proceso del pensamiento humano y permiten que las redes neuronales artificiales den un paso en la dirección del modelado cerebral.

La ventaja de esta red es que, basándose en redes neuronales discretas de la teoría de resonancia adaptativa, se desarrolla una nueva memoria asociativa bidireccional que puede almacenar nueva información sin volver a entrenar la red neuronal. Esto permite al usuario reponer el stock de etiquetas de voz si es necesario.

Diseño


El concepto de implementación de software contiene tres etapas que se implementan en un producto de software que tiene una interfaz gráfica ergonómica.

Colección de ejemplos de formación.

Para entrenar la red neuronal, se invita al usuario a decir varias veces las etiquetas de voz preparadas. Dado que las frases grabadas consisten en una palabra, el tamaño del archivo no importa. Y para su posterior procesamiento, el sonido se graba en formato WAV. Este es un formato de grabación PCM sin pérdida. Es el estándar para el procesamiento de sonido adicional utilizando la biblioteca python_speech_features de Python. El "valor" necesario para la formación adicional de la red neuronal (comandos correspondientes) debe adjuntarse al archivo de audio.

Entrenamiento de la red neuronal.

El programa lee archivos de audio y genera nuevos archivos de audio al cambiar la longitud de la pista de audio, así como al cambiar el tono, el volumen y el tono de voz. Esto es necesario para aumentar el número de ejemplos para la muestra de entrenamiento, lo que aumentará la calidad del reconocimiento por parte de la red neuronal. En el programa, se le pedirá al usuario que entrene a la red en etiquetas de voz previamente grabadas. El usuario también puede complementar la base con etiquetas de voz de entrenamiento y volver a entrenar la red neuronal más tarde.

Usando el programa.

Después de entrenar el programa en las palabras dadas, el usuario puede ponerse a trabajar o agregar nuevas etiquetas de voz a la capacitación. Una red neuronal entrenada puede reconocer los archivos de audio entregados.

Conclusión


Por lo tanto, en el trabajo de investigación, se lleva a cabo una revisión del mercado moderno de las interfaces de voz y sus usos. Se muestra que este tipo de software se centra en el uso de sistemas de control de voz independientes de la voz y no tiene en cuenta las características individuales del usuario, lo cual es especialmente importante para las personas con discapacidad y discapacidad del habla.

Se definen los requisitos para una interfaz de control de voz de un sistema informático para ayudar a las personas con impedimentos del habla.

Se describe un aparato matemático adecuado para implementar el concepto. Se compila un algoritmo para la implementación de software de la interfaz de voz.

El desarrollo adicional implica el desarrollo de un programa con una interfaz gráfica conveniente para la implementación de una interfaz prototipo de control de voz que puede ser utilizada para diversas tareas, como el control de electrodomésticos, computadoras, aparatos robóticos (exoesqueletos) por personas con discapacidades.

Source: https://habr.com/ru/post/es429778/


All Articles