KI übersetzte Gehirnaktivität in Sprache

Bild

Viele gelähmte Menschen, die nicht sprechen können, haben Signale von dem, was sie sagen wollen, in ihrem Gehirn versteckt. Und niemand konnte diese Signale entschlüsseln. Vor kurzem haben drei Forscherteams Fortschritte bei der Übersetzung von Daten von Elektroden, die auf chirurgische Weise am Gehirn platziert wurden, in computer-synthetisierte Sprache erzielt.

Mithilfe von Modellen, die auf neuronalen Netzen basieren, rekonstruierten sie Wörter und sogar ganze Sätze, die in einigen Fällen für den durchschnittlichen menschlichen Hörer durchaus verständlich waren.

Keiner der in den Vorabdrucken der Arbeit an bioRxiv beschriebenen Versuche, Sprache aus Gedanken wiederherzustellen, hat zum Erfolg geführt. Stattdessen beobachteten die Forscher die Aktivität verschiedener Regionen des Gehirns des Patienten, während sie laut vorlas, entweder vorlesen, aber immer noch ihre Lippen bewegen, den Text intern sprechen oder den Notizen zuhören.

"Zu zeigen, dass rekonstruierte Sprache durchaus verständlich ist, ist wirklich aufregend." Sagt Stephanie Martin, eine Neuroingenieurin an der Universität Genf in der Schweiz, die an diesem Projekt beteiligt ist.

Menschen, die nach einem Schlaganfall oder infolge einer Krankheit nicht mehr sprechen können, können mit ihren Augen oder anderen kleinen Bewegungen den Cursor steuern oder Buchstaben auf dem Bildschirm auswählen (der Kosmologe Stephen Hawking spannte seine Wange an, um den auf seiner Brille installierten Schalter zu aktivieren). Wenn die Gehirn-Computer-Schnittstelle jedoch die Sprache von Patienten direkt reproduzieren kann, wird dies ihre Fähigkeiten erheblich erweitern: Sie gibt die Kontrolle über die Tonalität und ermöglicht es Ihnen, an schnell laufenden Gesprächen teilzunehmen.

"Wir versuchen, ein Schema zu entwickeln ... von Neuronen, die zu verschiedenen Zeitpunkten aktiviert werden und eine Schlussfolgerung darüber ziehen, wie die Sprache klingt", sagt Nima Mesgarani, Ingenieurin an der Columbia University. "Eine in eine andere umzuwandeln ist nicht so einfach."

Die Art und Weise, wie diese Signale von Neuronen in Sprache umgewandelt werden, variiert von Person zu Person. Daher müssen Computermodelle für jede Person separat trainiert werden. Und das Beste ist, dass es sich um Modelle handelt, die aus äußerst genauen Daten lernen, deren Empfang das Öffnen des Schädels erfordert.

Forscher können diese Gelegenheit in einem sehr seltenen Fall erhalten. Eine davon ist, wenn ein Patient aus einem Gehirntumor entfernt wird. Chirurgen verwenden die Messwerte von Sensoren, die elektrische Signale direkt vom Gehirn lesen, um Sprach- und Motorbereiche zu lokalisieren und zu vermeiden. Ein anderes Beispiel ist, wenn einem Patienten mit Epilepsie mehrere Tage lang Elektroden implantiert werden, um die Quelle der Anfälle zu lokalisieren, bevor eine Operation durchgeführt wird.

„Wir haben maximal 20, manchmal 30 Minuten Zeit, um Daten zu sammeln“, sagt Stephanie Martin. "Wir sind sehr, sehr zeitlich begrenzt."

Die besten Ergebnisse erzielten die Teams, die die Daten aus der Aufzeichnung der Gehirnaktivität in künstliche neuronale Netze „einspeisten“. Als Ausgabe (Hrsg. Labels) erhielten die Netzwerke eine Rede, die der Patient entweder laut sagte oder hörte.

Das Nima Mesgarani-Team stützte sich auf Daten von fünf verschiedenen Patienten mit Epilepsie. Ihre neuronalen Netze wurden auf Aufzeichnungen aus dem auditorischen Kortex des Gehirns von Menschen trainiert (das sowohl während der eigenen Sprache als auch beim Hören anderer Personen aktiv ist), die zu dieser Zeit Aufzeichnungen verschiedener Geschichten spielten und eine Folge von Zahlen von 0 bis 9 überspielten. Dann synthetisierte ein Computermodell Sprache Durch das Aussprechen derselben Zahlenfolge und einer Kontrollgruppe von Personen konnten 75% dieser Daten erkannt werden.

Computergenerierte Sprache, die aus Gehirnaktivitätsdaten eines Patienten beim Hören von Zahlen erhalten wird

Ein anderes Team unter der Leitung von Tanja Schultz von der Universität Bremen in Deutschland verwendete Daten von 6 Personen, die sich einer Operation unterzogen, um Hirntumoren zu entfernen. Ihre Rede wurde auf einem Mikrofon aufgezeichnet, während sie einsilbige Wörter laut vorlas. Gleichzeitig erfassten Elektroden in ihrem Gehirn die Aktivität der Planungsbereiche und Motorbereiche und sendeten Befehle an den Sprachpfad, um Wörter auszusprechen.

Die Ingenieure Miguel Angrick und Christian Herff von der Universität Maastricht trainierten ein neuronales Netzwerk, das die mit den Elektroden gelesenen Daten mit den resultierenden Audioaufzeichnungen abglichen, und rekonstruierten dann die Wörter und Phrasen für das zuvor nicht gezeigte Modell der gelesenen Datensätze. Nach diesen Daten synthetisierte das Modell Sprache, von der etwa 40% für den Menschen verständlich waren.

Aufzeichnen von computergenerierter Sprache basierend auf Daten von Elektroden

Und schließlich rekonstruierten der Neurochirurg Edward Chang und sein Team von der University of California in San Francisco ganze Sätze über die Aktivität des Sprachzentrums, die von Elektroden bei 6 Patienten mit Epilepsie gelesen wurden, als sie laut vorlas. Die Forscher führten einen Online-Test durch, bei dem 166 Personen einen der vom Computermodell generierten Sätze hörten und dann unter den 10 vorgeschlagenen Optionen die auswählen mussten, die ihrer Meinung nach gelesen wurde. Einige Sätze wurden in mehr als 80% der Fälle korrekt identifiziert. Aber die Forscher hörten hier nicht auf und zwangen das Modell, die Sprache einer Person anhand von Daten zur Gehirnaktivität nachzubilden, die sie beim Lesen von Wörtern für sich selbst erhalten hatte, aber er bewegte zu diesem Zeitpunkt seine Lippen, als würde er sie „intern aussprechen“.

"Dies ist ein sehr wichtiges Ergebnis", sagt Christian Herff, "wir sind der Sprachprothetik einen Schritt näher gekommen."

"Was wir jedoch wirklich erwarten, ist, wie sich diese Methoden zeigen, wenn der Patient überhaupt nicht sprechen kann." - Antwortet Stephanie Riès, Neurowissenschaftlerin an der Universität von San Diego in Kalifornien. „Die Signale des Gehirns, während eine Person sich selbst vorliest oder anderen zuhört, unterscheiden sich von denen, die beim Vorlesen oder in der Live-Kommunikation auftreten. Ohne einen externen Klang, mit dem man die Gehirnaktivität vergleichen könnte, wird es für Computermodelle sehr schwierig sein, vorherzusagen, wo die interne Sprache beginnt und wo sie endet. “

"Die Entschlüsselung imaginärer Sprache wird einen großen Sprung nach vorne machen", sagt Gerwin Schalk, Neurowissenschaftler am Nationalen Zentrum für adaptive Neurotechnologie des New York State Department of Health. "Und jetzt ist völlig unklar, wie dies erreicht werden kann."

Eine der Methoden, so Herff, kann das Feedback sein, das der Patient an ein Computermodell gibt, das die Sprache in Echtzeit reproduziert, während die Person die Wörter mental ausspricht. Mit einer ausreichenden Menge an Training für den Patienten und die KI können sich Gehirn und Computer irgendwo in der Mitte treffen.

Source: https://habr.com/ru/post/de435904/


All Articles