Le réseau neuronal évalue la coloration émotionnelle du fragment de 30 secondes du discours du locuteur. Illustration des précédents travaux scientifiques des auteursCes dernières années, l'apprentissage automatique a été de plus en plus utilisé comme outil de diagnostic utile. Les modèles existants sont capables d'identifier les mots et les intonations de la parole qui peuvent indiquer une dépression. Mais ces modèles ne fonctionnent généralement que si le patient répond à des questions spécifiques du médecin: par exemple, sur son humeur, son mode de vie, ses antécédents médicaux, etc. C'est-à-dire que le travail du réseau neuronal dans ce cas n'est pas différent du travail d'un psychothérapeute ordinaire qui parle avec le patient.
Mais pour une nouvelle génération de médicaments, un système qui détermine la dépression sur
un ensemble arbitraire de mots , sans un ensemble spécifique de questions, est beaucoup plus efficace. Théoriquement, dans ce cas, vous pouvez surveiller automatiquement la santé mentale de toute la population en temps réel (tout le trafic vocal) - et hospitaliser rapidement les patients. Le module de détection automatique de dépression peut être implémenté dans des applications mobiles et des jeux.
Ce modèle a été développé par des scientifiques du Massachusetts Institute of Technology,
écrit la publication
MIT News . L'article scientifique sera présenté lors de la conférence
Interspeech 2018 , qui se tiendra du 2 au 6 septembre en Inde.
«Si vous souhaitez déployer des modèles de [détection de la dépression] de manière évolutive ... alors vous devez minimiser le nombre de restrictions sur les données utilisées. Un modèle devrait extraire des données de toute conversation ordinaire et interaction naturelle entre les gens », a déclaré Tuka Alhanai, chercheur au laboratoire d'informatique et d'intelligence artificielle (CSAIL) du Massachusetts Institute of Technology, un des principaux auteurs de travaux scientifiques.
Les chercheurs espèrent que la nouvelle méthode sera utilisée pour détecter les signes de dépression dans les conversations naturelles. Par exemple, sur la base du modèle, des applications mobiles peuvent être développées pour suivre le texte et la voix de l'utilisateur en cas de troubles mentaux et envoyer des alertes. Cela est particulièrement utile pour ceux qui ne peuvent pas se rendre chez le médecin pour un diagnostic initial en raison de l’absence d’un médecin, du coût élevé d’une consultation ou simplement parce qu’ils ne savent pas qu’il a un problème mental.
La dépression est une maladie mentale très dangereuse, qui s'accompagne d'une diminution de l'estime de soi, d'une perte d'intérêt pour la vie et d'une activité habituelle. Dans certains cas, une personne qui en souffre peut commencer à abuser de l'alcool ou d'autres substances.
L'innovation clé de la nouvelle technologie réside dans sa capacité à détecter des schémas indiquant la dépression, puis à comparer ces schémas avec de nouvelles personnes sans informations supplémentaires, c'est-à-dire sans formation préalable sur une personne en particulier. «Nous l'appelons travail« sans contexte »car vous n'imposez aucune restriction sur les types de questions que vous recherchez et le type de réponses à ces questions», explique Alkhanay.
Pour former le réseau neuronal, une technique appelée «modélisation de séquence», souvent utilisée pour le traitement de la parole, a été utilisée. Le modèle apprend à partir de séquences de texte et de données sonores à partir de questions et réponses de personnes souffrant ou non de dépression. Progressivement, elle révèle des schémas généraux, certains mots étant associés à des sons différents chez des personnes en bonne santé et malades. De plus, les personnes souffrant de dépression peuvent parler plus lentement et faire des pauses plus longues entre les mots. Ces identificateurs textuels et sonores des troubles mentaux ont été étudiés dans des études antérieures. En fin de compte, le modèle lui-même détermine s'il y a des signes de dépression dans le discours ou non.
Le modèle a été testé sur un ensemble de données de 142 fragments de parole provenant du corpus Corpus Distress Analysis Interview (son, texte, vidéo). La précision du diagnostic était de 71% (soit 29% des résultats faussement positifs) et l'exhaustivité de la détection de la maladie était de 83% de tous les patients de l'échantillon. Dans la plupart des tests, la précision dépassait les performances de tous les modèles précédents pour diagnostiquer la dépression. Les chercheurs trouvent les résultats préliminaires très encourageants.
Dans un
précédent article scientifique de 2017, les auteurs ont décrit un réseau neuronal qui reconnaît l'humeur du locuteur par les signes suivants:
- caractéristiques vocales;
- ensemble de mots;
- le pouls.
L'illustration montre la distribution du contenu émotionnel sur des intervalles de cinq secondes. Les segments négatifs sont ceux qui montrent des signes de tristesse, de dégoût, de colère, de peur ou d'ennui. Les segments positifs contiennent des signes de bonheur, d'intérêt ou d'enthousiasme.
En plus de la dépression, les scientifiques ont l'intention de former le réseau neuronal à reconnaître d'autres états mentaux, tels que la démence.