De nombreuses personnes paralysées qui sont incapables de parler ont des signaux de ce qu'ils veulent dire cachés dans leur cerveau. Et personne ne pouvait décrypter ces signaux. Mais récemment, trois équipes de recherche ont fait des progrès dans la traduction chirurgicale des données des électrodes placées sur le cerveau en paroles synthétisées par ordinateur.
En utilisant des modèles construits sur des réseaux de neurones, ils ont reconstruit des mots et même des phrases entières, qui, dans certains cas, étaient assez intelligibles pour l'auditeur humain moyen.
Aucune des tentatives décrites dans les prépublications de travaux sur bioRxiv pour recréer le discours à partir de pensées n'a abouti. Au lieu de cela, les chercheurs ont observé l'activité de diverses régions du cerveau du patient pendant qu'ils lisaient à haute voix, soit en se lisant tout en bougeant leurs lèvres, en prononçant le texte en interne ou en écoutant les notes.
"Pour montrer que le discours reconstruit est tout à fait compréhensible, c'est vraiment excitant." Dit Stephanie Martin, neuro-ingénieure à l'Université de Genève en Suisse, qui est impliquée dans ce projet.
Les personnes qui ont perdu la capacité de parler après un AVC ou à la suite d'une maladie peuvent utiliser leurs yeux ou d'autres petits mouvements pour contrôler le curseur ou sélectionner des lettres à l'écran (le cosmologiste Stephen Hawking a tendu la joue pour activer l'interrupteur installé sur ses lunettes). Mais si l'interface cerveau-ordinateur peut reproduire directement le discours des patients, cela augmentera considérablement leurs capacités: elle donnera un contrôle sur la tonalité et vous permettra de participer à des conversations en cours rapidement.
"Nous essayons de développer un schéma ... de neurones qui sont activés à différents moments et de tirer une conclusion sur la façon dont le discours sonne", explique Nima Mesgarani, ingénieur à l'Université Columbia. "La conversion de l'un en l'autre n'est pas si simple."
La façon dont ces signaux des neurones sont convertis en parole varie d'une personne à l'autre, donc les modèles informatiques doivent être formés séparément pour chaque individu. Et surtout, cela s'avère pour les modèles qui apprennent à partir de données extrêmement précises, dont la réception nécessite l'ouverture du crâne.
Les chercheurs peuvent saisir cette opportunité dans un cas très rare. L'un d'eux est lorsqu'un patient est retiré d'une tumeur au cerveau. Les chirurgiens utilisent les lectures de capteurs qui lisent les signaux électriques directement du cerveau pour localiser et éviter les zones de la parole et du moteur. Un autre exemple est lorsque des électrodes sont implantées chez un patient épileptique pendant plusieurs jours pour localiser la source des crises avant d'effectuer une intervention chirurgicale.
«Nous avons un maximum de 20, parfois 30 minutes, pour collecter des données», explique Stephanie Martin. "Nous sommes très, très limités dans le temps."
Les meilleurs résultats ont été obtenus par les équipes «alimentant» les données obtenues de l'enregistrement de l'activité cérébrale vers des réseaux de neurones artificiels. En sortie (éd. Labels), les réseaux ont reçu un discours que le patient a dit à haute voix ou entendu.
L'équipe de Nima Mesgarani s'est appuyée sur les données de cinq patients différents atteints d'épilepsie. Leurs réseaux de neurones ont été formés sur les enregistrements du cortex auditif du cerveau des gens (qui est actif à la fois pendant son propre discours et en écoutant celui de quelqu'un d'autre), qui à l'époque jouaient des enregistrements de diverses histoires et doublaient une séquence de nombres de 0 à 9. Puis un modèle informatique a synthétisé la parole prononçant la même séquence de chiffres et un groupe témoin de personnes a pu reconnaître 75% de ces données.
Parole générée par ordinateur obtenue à partir des données d'activité cérébrale d'un patient lors de l'écoute de nombres Une autre équipe, dirigée par Tanja Schultz de l'Université de Brême en Allemagne, a utilisé les données de 6 personnes subissant une intervention chirurgicale pour retirer des tumeurs cérébrales. Leur discours a été enregistré sur un microphone pendant qu'ils lisaient à haute voix des mots monosyllabiques. Dans le même temps, des électrodes placées sur leur cerveau capturaient l'activité des zones de planification et des zones motrices, envoyant des commandes au chemin vocal pour prononcer des mots.
Les ingénieurs Miguel Angrick et Christian Herff, de l'Université de Maastricht, ont formé un réseau de neurones qui a fait correspondre les données lues à l'aide des électrodes avec les enregistrements audio résultants, puis reconstruit les mots et les phrases pour le modèle précédemment non représenté des ensembles de données lus. Selon ces données, le modèle a synthétisé un discours dont environ 40% se sont avérés compréhensibles pour l'homme.
Enregistrement de la parole générée par ordinateur sur la base des données des électrodes Et enfin, le neurochirurgien Edward Chang et son équipe de l'Université de Californie à San Francisco ont reconstruit des phrases entières sur l'activité du centre de parole, lues par des électrodes chez 6 patients épileptiques, au moment où elles lisent à haute voix. Les chercheurs ont effectué un test en ligne dans lequel 166 personnes ont écouté l'une des phrases générées par le modèle informatique et ont ensuite dû choisir parmi les 10 options proposées celle qui, à leur avis, a été lue. Certaines phrases ont été correctement identifiées dans plus de 80% des cas. Mais les chercheurs ne se sont pas arrêtés là et ont forcé le modèle à recréer le discours d'une personne en fonction des données sur l'activité cérébrale obtenues pendant qu'il lisait des mots pour lui-même, mais il a bougé ses lèvres à ce moment-là, comme s'il les "prononçait en interne".
«Il s'agit d'un résultat très important», déclare Christian Herff, «nous sommes un pas de plus vers les prothèses de la parole.»
"Cependant, ce que nous attendons vraiment, c'est comment ces méthodes se montreront lorsque le patient ne pourra pas du tout parler." - Répond à Stephanie Riès, neuroscientifique à l'Université de San Diego en Californie. «Les signaux du cerveau, lorsqu'une personne se lit à elle-même ou écoute les autres, sont différents de ceux qui apparaissent en lisant à haute voix ou en communication directe. Sans un son externe avec lequel on pourrait comparer l'activité cérébrale, il sera très difficile pour les modèles informatiques de prédire où la parole interne commence et où elle se termine. »
«Le décodage de la parole imaginaire fera un énorme bond en avant.», Déclare Gerwin Schalk, neuroscientifique au National Center for Adaptive Neurotechnology du New York State Department of Health. "Et maintenant, on ne sait pas vraiment comment y parvenir."
Selon Herff, l'une des méthodes peut être la rétroaction que le patient donnera à un modèle informatique qui reproduira la parole en temps réel lorsque la personne prononcera mentalement les mots. Avec une formation suffisante pour le patient et l'IA, le cerveau et l'ordinateur peuvent se rencontrer quelque part au milieu.