Red neuronal entrenada para reconocer la depresión mediante el discurso arbitrario de una persona sin contexto


La red neuronal evalúa la coloración emocional del fragmento de 30 segundos del discurso del hablante. Ilustración del trabajo científico anterior de los autores.

En los últimos años, el aprendizaje automático se ha utilizado cada vez más como una herramienta de diagnóstico útil. Los modelos existentes son capaces de identificar palabras y entonaciones del habla que pueden indicar depresión. Pero estos modelos generalmente funcionan solo si el paciente responde preguntas específicas del médico: por ejemplo, sobre su estado de ánimo, estilo de vida, historial médico, etc. Es decir, el trabajo de la red neuronal en este caso no es diferente del trabajo de un psicoterapeuta ordinario que habla con el paciente.

Pero para una nueva generación de medicamentos, un sistema que determina la depresión en un conjunto arbitrario de palabras , sin un conjunto específico de preguntas, es mucho más efectivo. Teóricamente, en este caso, puede controlar automáticamente la salud mental de toda la población en tiempo real (todo el tráfico de voz) y hospitalizar rápidamente a los pacientes. El módulo de detección automática de depresión se puede implementar en aplicaciones móviles y juegos.

Este modelo fue desarrollado por científicos del Instituto de Tecnología de Massachusetts, escribe la publicación MIT News . El artículo científico se presentará en la conferencia Interspeech 2018 , que se realizará del 2 al 6 de septiembre en India.

“Si desea implementar modelos de [detección de depresión] de forma escalable ... entonces debe minimizar el número de restricciones en los datos utilizados. Un modelo debe extraer datos de cualquier conversación ordinaria e interacción natural entre las personas ", dijo Tuka Alhanai, investigadora del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del Instituto Tecnológico de Massachusetts, uno de los principales autores de trabajos científicos.

Los investigadores esperan que el nuevo método se use para detectar signos de depresión en una conversación natural. Por ejemplo, según el modelo, se pueden desarrollar aplicaciones móviles que rastrean el texto y la voz del usuario en busca de trastornos mentales y envían alertas. Esto es especialmente útil para aquellos que no pueden llegar al médico para un diagnóstico inicial debido a la ausencia de un médico, el alto costo de una consulta o simplemente porque no saben que tiene un problema mental.

La depresión es una enfermedad mental muy peligrosa, que se acompaña de una disminución de la autoestima, pérdida de interés en la vida y la actividad habitual. En algunos casos, una persona que lo padece puede comenzar a abusar del alcohol u otras sustancias.

La innovación clave de la nueva tecnología radica en su capacidad para detectar patrones que indican depresión, y luego comparar estos patrones con nuevas personas sin información adicional, es decir, sin capacitación previa sobre una persona en particular. "Lo llamamos trabajo" sin contexto "porque no impone ninguna restricción sobre el tipo de preguntas que está buscando y el tipo de respuestas a estas preguntas", explica Alkhanay.

Para entrenar la red neuronal, se utilizó una técnica llamada "modelado de secuencia", que a menudo se usa para el procesamiento del habla. El modelo aprende de secuencias de texto y datos de sonido de preguntas y respuestas de personas con y sin depresión. Gradualmente, ella revela patrones generales, ya que algunas palabras están asociadas con diferentes sonidos en personas sanas y enfermas. Además, las personas con depresión pueden hablar más lentamente y usar pausas más largas entre las palabras. Estos identificadores de texto y sonido para trastornos mentales han sido estudiados en estudios previos. Finalmente, el modelo en sí mismo determina si hay signos de depresión en el habla o no.

El modelo se probó en un conjunto de datos de 142 fragmentos de voz del Corpus corpus de Distress Analysis Interview (sonido, texto, video). La precisión del diagnóstico fue del 71% (es decir, el 29% de los resultados falsos positivos), y la integridad de la detección de la enfermedad fue del 83% de todos los pacientes de la muestra. En la mayoría de las pruebas, la precisión superó el rendimiento de todos los modelos anteriores para diagnosticar la depresión. Los investigadores encuentran que los resultados preliminares son muy alentadores.

En un artículo científico anterior de 2017, los autores describieron una red neuronal que reconoce el estado de ánimo del hablante mediante los siguientes signos:

  • características de voz;
  • conjunto de palabras;
  • el pulso


La ilustración muestra la distribución del contenido emocional en intervalos de cinco segundos. Los segmentos negativos son aquellos que muestran signos de tristeza, asco, enojo, miedo o aburrimiento. Los segmentos positivos contienen signos de felicidad, interés o entusiasmo.

Además de la depresión, los científicos tienen la intención de entrenar la red neuronal para reconocer otros estados mentales, como la demencia.

Source: https://habr.com/ru/post/es421775/


All Articles