A rede neural avalia a coloração emocional do fragmento de 30 segundos do discurso do falante. Ilustração de trabalhos científicos anteriores dos autoresNos últimos anos, o aprendizado de máquina tem sido cada vez mais utilizado como uma ferramenta de diagnóstico útil. Os modelos existentes são capazes de identificar palavras e entonações da fala que podem indicar depressão. Mas esses modelos geralmente funcionam apenas se o paciente responde a perguntas específicas do médico: por exemplo, sobre seu humor, estilo de vida, histórico médico, etc. Ou seja, o trabalho da rede neural nesse caso não é diferente do trabalho de um psicoterapeuta comum que fala com o paciente.
Mas para uma nova geração de medicamentos, um sistema que determina a depressão em
um conjunto arbitrário de palavras , sem um conjunto específico de perguntas, é muito mais eficaz. Teoricamente, nesse caso, você pode monitorar automaticamente a saúde mental de toda a população em tempo real (todo o tráfego de voz) - e hospitalizar rapidamente os pacientes. O módulo de detecção automática de depressão pode ser implementado em aplicativos e jogos para dispositivos móveis.
Este modelo foi desenvolvido por cientistas do Instituto de Tecnologia de Massachusetts,
escreve a publicação
MIT News . O artigo científico será apresentado na conferência
Interspeech 2018 , que será realizada de 2 a 6 de setembro na Índia.
“Se você deseja implantar modelos de [detecção de depressão] de forma escalável ... é necessário minimizar o número de restrições nos dados usados. Um modelo deve extrair dados de qualquer conversa comum e interação natural entre pessoas ”, disse Tuka Alhanai, pesquisadora do Laboratório de Ciência da Computação e Inteligência Artificial do Instituto de Tecnologia de Massachusetts (CSAIL), um dos principais autores de trabalhos científicos.
Os pesquisadores esperam que o novo método seja usado para detectar sinais de depressão nas conversas naturais. Por exemplo, com base no modelo, podem ser desenvolvidos aplicativos móveis que rastreiam o texto e a voz do usuário em busca de transtornos mentais e enviam alertas. Isso é especialmente útil para aqueles que não podem ir ao médico para um diagnóstico inicial devido à ausência de um médico, ao alto custo de uma consulta ou simplesmente porque não sabem que ele tem um problema mental.
A depressão é uma doença mental muito perigosa, que é acompanhada por uma diminuição da auto-estima, perda de interesse na vida e atividade habitual. Em alguns casos, uma pessoa que sofre disso pode começar a abusar de álcool ou outras substâncias.
A principal inovação da nova tecnologia está em sua capacidade de detectar padrões que indicam depressão e, em seguida, comparar esses padrões com novas pessoas sem informações adicionais, ou seja, sem treinamento prévio sobre uma pessoa em particular. "Chamamos isso de trabalho" sem contexto "porque você não impõe nenhuma restrição aos tipos de perguntas que está procurando e ao tipo de respostas a essas perguntas", explica Alkhanay.
Para treinar a rede neural, foi utilizada uma técnica chamada “modelagem de sequência”, que é frequentemente usada para processamento de fala. O modelo aprende com sequências de dados de texto e som com perguntas e respostas de pessoas com e sem depressão. Gradualmente, ela revela padrões gerais, pois algumas palavras são associadas a sons diferentes em pessoas saudáveis e doentes. Além disso, as pessoas com depressão podem falar mais lentamente e fazer pausas mais longas entre as palavras. Esses identificadores de texto e som para transtornos mentais foram estudados em estudos anteriores. Por fim, o próprio modelo determina se há sinais de depressão no discurso ou não.
O modelo foi testado em um conjunto de dados de 142 fragmentos de fala do corpus Distress Analysis Interview Corpus (som, texto, vídeo). A precisão do diagnóstico foi de 71% (ou seja, 29% dos resultados falso-positivos) e a integridade da detecção da doença foi de 83% de todos os pacientes da amostra. Na maioria dos testes, a precisão excedeu o desempenho de todos os modelos anteriores para diagnosticar depressão. Os pesquisadores acham que os resultados preliminares são muito encorajadores.
Em um
artigo científico anterior de 2017, os autores descreveram uma rede neural que reconhece o humor do falante pelos seguintes sinais:
- características de voz;
- conjunto de palavras;
- o pulso.
A ilustração mostra a distribuição do conteúdo emocional em intervalos de cinco segundos. Segmentos negativos são aqueles que mostram sinais de tristeza, nojo, raiva, medo ou tédio. Segmentos positivos contêm sinais de felicidade, interesse ou entusiasmo.
Além da depressão, os cientistas pretendem treinar a rede neural para reconhecer outros estados mentais, como a demência.