AI tradujo la actividad cerebral al habla

imagen

Muchas personas paralizadas que no pueden hablar tienen señales de lo que quieren decir ocultas en sus cerebros. Y nadie podría descifrar estas señales. Pero recientemente, tres equipos de investigación han progresado en la traducción de datos de electrodos colocados en el cerebro de manera quirúrgica en lenguaje sintetizado por computadora.

Utilizando modelos construidos en redes neuronales, reconstruyeron palabras e incluso oraciones completas, que, en algunos casos, eran bastante inteligibles para el oyente humano promedio.

Ninguno de los intentos descritos en las preimpresiones de trabajo en bioRxiv para recrear el habla de los pensamientos ha llevado al éxito. En cambio, los investigadores observaron la actividad de varias regiones del cerebro del paciente mientras leían en voz alta, o leían a sí mismos pero aún movían los labios, hablaban el texto internamente o escuchaban las notas.

"Mostrar que el discurso reconstruido es bastante comprensible es realmente emocionante". Dice Stephanie Martin, una neuroingeniera de la Universidad de Ginebra en Suiza, que participa en este proyecto.

Las personas que han perdido la capacidad de hablar después de un derrame cerebral, o como resultado de una enfermedad, pueden usar sus ojos u otros movimientos pequeños para controlar el cursor o seleccionar letras en la pantalla (el cosmólogo Stephen Hawking se tensó la mejilla para activar el interruptor instalado en sus gafas). Pero si la interfaz cerebro-computadora puede reproducir directamente el habla de los pacientes, esto ampliará en gran medida sus capacidades: dará control sobre la tonalidad y le permitirá participar en conversaciones rápidas y continuas.

"Estamos tratando de desarrollar un esquema ... de neuronas que se activan en diferentes momentos y hacer una conclusión sobre cómo suena el discurso", dice Nima Mesgarani, ingeniera de la Universidad de Columbia. "Convertir uno en otro no es tan sencillo".

La forma en que estas señales de las neuronas se convierten en habla varía de persona a persona, por lo tanto, los modelos de computadora deben entrenarse por separado para cada individuo. Y lo mejor de todo, resulta que los modelos aprenden de datos extremadamente precisos, cuyo recibo requiere la apertura del cráneo.

Los investigadores pueden obtener esta oportunidad en un caso muy raro. Una de ellas es cuando se extrae a un paciente de un tumor cerebral. Los cirujanos usan las lecturas de sensores que leen señales eléctricas directamente del cerebro para localizar y evitar áreas del habla y motoras. Otro ejemplo es cuando se implantan electrodos en un paciente con epilepsia durante varios días para localizar la fuente de las convulsiones antes de realizar la cirugía.

"Tenemos un máximo de 20, a veces 30 minutos, para recopilar datos", dice Stephanie Martin. "Estamos muy, muy limitados en el tiempo".

Los mejores resultados fueron logrados por los equipos "alimentando" los datos obtenidos del registro de la actividad cerebral en redes neuronales artificiales. Como resultado (ed. Labels), las redes recibieron un discurso que el paciente dijo en voz alta o escuchó.

El equipo de Nima Mesgarani se basó en datos de cinco pacientes diferentes con epilepsia. Sus redes neuronales fueron entrenadas en grabaciones de la corteza auditiva del cerebro de las personas (que está activo tanto durante el propio discurso como mientras escucha el de otra persona), que en ese momento estaban reproduciendo registros de varias historias y doblando una secuencia de números del 0 al 9. Luego, un modelo de computadora sintetizó el habla pronunciando la misma secuencia de números y un grupo de control de personas pudo reconocer el 75% de estos datos.

Discurso generado por computadora obtenido de los datos de actividad cerebral de un paciente mientras escucha números

Otro equipo, dirigido por Tanja Schultz de la Universidad de Bremen en Alemania, utilizó datos de 6 personas sometidas a cirugía para extirpar tumores cerebrales. Su discurso fue grabado en un micrófono mientras leían palabras monosilábicas en voz alta. Al mismo tiempo, los electrodos colocados en su cerebro capturaron la actividad de las áreas de planificación y las áreas motoras, enviando comandos a la ruta de voz para pronunciar palabras.

Los ingenieros Miguel Angrick y Christian Herff, de la Universidad de Maastricht, entrenaron una red neuronal que combinaba los datos leídos utilizando los electrodos con las grabaciones de audio resultantes, y luego reconstruyeron las palabras y frases para el modelo no mostrado previamente de los conjuntos de datos leídos. De acuerdo con estos datos, el modelo sintetizó el habla, aproximadamente el 40% de los cuales resultó ser comprensible para los humanos.

Grabación de voz generada por computadora basada en datos de electrodos

Y finalmente, el neurocirujano Edward Chang y su equipo de la Universidad de California en San Francisco reconstruyeron oraciones completas sobre la actividad del centro del habla, leídas por electrodos en 6 pacientes con epilepsia, en el momento en que leían en voz alta. Los investigadores realizaron una prueba en línea en la que 166 personas escucharon una de las oraciones generadas por el modelo de computadora y luego tuvieron que elegir entre las 10 opciones propuestas la que, en su opinión, se leyó. Algunas oraciones se identificaron correctamente en más del 80% de los casos. Pero los investigadores no se detuvieron allí y forzaron al modelo a recrear el discurso de una persona de acuerdo con los datos sobre la actividad cerebral obtenidos mientras leía palabras para sí mismo, pero movió los labios en ese momento, como si "los pronunciara internamente".

"Este es un resultado muy importante", dice Christian Herff, "estamos un paso más cerca de las prótesis de lenguaje".

"Sin embargo, lo que realmente esperamos es cómo estos métodos se mostrarán cuando el paciente no pueda hablar en absoluto". - Responde a Stephanie Riès, neurocientífica de la Universidad de San Diego en California. “Las señales del cerebro, mientras una persona se lee a sí misma o escucha a los demás, son diferentes de las que aparecen mientras lee en voz alta o en comunicación en vivo. Sin un sonido externo con el que se pueda comparar la actividad cerebral, será muy difícil para los modelos informáticos predecir dónde comienza y dónde termina el habla interna ".

"Decodificar el discurso imaginario dará un gran paso adelante", dice Gerwin Schalk, neurocientífico del Centro Nacional de Neurotecnología Adaptativa del Departamento de Salud del Estado de Nueva York. "Y ahora no está completamente claro cómo lograr esto".

Según Herff, uno de los métodos puede ser la retroalimentación que el paciente dará a un modelo de computadora que reproducirá el habla en tiempo real a medida que la persona pronuncia mentalmente las palabras. Con una cantidad suficiente de entrenamiento tanto para el paciente como para la IA, el cerebro y la computadora pueden encontrarse en algún punto intermedio.

Source: https://habr.com/ru/post/es435904/


All Articles