IA traduziu a atividade cerebral em fala

imagem

Muitas pessoas paralisadas que são incapazes de falar têm sinais do que querem dizer escondidos em seus cérebros. E ninguém poderia decifrar esses sinais. Recentemente, porém, três equipes de pesquisa fizeram progressos na tradução de dados de eletrodos colocados no cérebro de maneira cirúrgica em fala sintetizada por computador.

Usando modelos construídos em redes neurais, eles reconstruíram palavras e até sentenças inteiras, que, em alguns casos, eram bastante inteligíveis para o ouvinte humano comum.

Nenhuma das tentativas descritas nas pré-impressões do trabalho em bioRxiv para recriar a fala dos pensamentos levou ao sucesso. Em vez disso, os pesquisadores observaram a atividade de várias regiões do cérebro do paciente enquanto liam em voz alta, lendo para si mesmas, mas ainda mexendo os lábios, falando o texto internamente ou ouvindo as notas.

"Mostrar que a fala reconstruída é bastante compreensível é realmente emocionante". Diz Stephanie Martin, engenheira neuro da Universidade de Genebra, na Suíça, que está envolvida nesse projeto.

As pessoas que perderam a capacidade de falar após um derrame ou como resultado de uma doença podem usar os olhos ou outros pequenos movimentos para controlar o cursor ou selecionar letras na tela (o cosmologista Stephen Hawking esticou a bochecha para ativar o interruptor instalado nos óculos). Mas se a interface cérebro-computador puder reproduzir diretamente a fala dos pacientes, isso aumentará muito suas capacidades: dará controle sobre a tonalidade e permitirá que você participe de conversas rapidamente em andamento.

"Estamos tentando desenvolver um esquema ... de neurônios que são ativados em diferentes momentos no tempo e concluir sobre como a fala soa", diz Nima Mesgarani, engenheiro da Universidade de Columbia. "Converter um para o outro não é tão simples."

A maneira como esses sinais dos neurônios são convertidos em fala varia de pessoa para pessoa; portanto, os modelos de computador devem ser treinados separadamente para cada indivíduo. E o melhor de tudo, é o caso de modelos que aprendem com dados extremamente precisos, cujo recebimento requer a abertura do crânio.

Os pesquisadores podem obter essa oportunidade em um caso muito raro. Uma delas é quando um paciente é removido de um tumor cerebral. Os cirurgiões usam as leituras de sensores que lêem sinais elétricos diretamente do cérebro para localizar e evitar áreas motoras e de fala. Outro exemplo é quando os eletrodos são implantados em um paciente com epilepsia por vários dias para localizar a fonte das crises antes de realizar a cirurgia.

"Temos no máximo 20, às vezes 30 minutos, para coletar dados", diz Stephanie Martin. "Somos muito, muito limitados no tempo."

Os melhores resultados foram alcançados pelas equipes “alimentando” os dados obtidos a partir do registro da atividade cerebral em redes neurais artificiais. Como saída (ed. Labels), as redes receberam um discurso que o paciente disse em voz alta ou ouviu.

A equipe de Nima Mesgarani contou com dados de cinco pacientes diferentes com epilepsia. Suas redes neurais foram treinadas em gravações do córtex auditivo do cérebro das pessoas (que são ativas durante a própria fala e enquanto ouvem a de outra pessoa), que na época estavam reproduzindo registros de várias histórias e dublando uma sequência de números de 0 a 9. Em seguida, um modelo de computador sintetizou a fala pronunciar a mesma sequência de números e um grupo de controle de pessoas foi capaz de reconhecer 75% desses dados.

Fala gerada por computador obtida a partir de dados da atividade cerebral de um paciente enquanto ouve números

Outra equipe, liderada por Tanja Schultz, da Universidade de Bremen, na Alemanha, usou dados de 6 pessoas submetidas a cirurgia para remover tumores cerebrais. A fala deles foi gravada em um microfone enquanto eles liam palavras monossilábicas em voz alta. Ao mesmo tempo, os eletrodos colocados no cérebro capturavam a atividade das áreas de planejamento e motor, enviando comandos ao caminho da voz para pronunciar palavras.

Os engenheiros Miguel Angrick e Christian Herff, da Universidade de Maastricht, treinaram uma rede neural que combinava os dados lidos usando os eletrodos com as gravações de áudio resultantes e depois reconstruíram as palavras e frases para o modelo não mostrado anteriormente dos conjuntos de dados lidos. Segundo esses dados, o modelo sintetizou a fala, cerca de 40% da qual se mostrou compreensível para os seres humanos.

Gravação de fala gerada por computador com base em dados de eletrodos

E finalmente, o neurocirurgião Edward Chang e sua equipe da Universidade da Califórnia em São Francisco reconstruíram frases inteiras sobre a atividade do centro de fala, lidas por eletrodos em 6 pacientes com epilepsia, no momento em que liam em voz alta. Os pesquisadores realizaram um teste on-line no qual 166 pessoas ouviram uma das frases geradas pelo modelo de computador e tiveram que escolher entre as 10 opções propostas a que, em sua opinião, foi lida. Algumas sentenças foram corretamente identificadas em mais de 80% dos casos. Mas os pesquisadores não pararam por aí e forçaram o modelo a recriar a fala de uma pessoa de acordo com dados sobre a atividade cerebral obtida enquanto ele lia palavras para si mesmo, mas ele moveu os lábios naquele momento, como se estivesse "pronunciando-os internamente".

"Este é um resultado muito importante", diz Christian Herff, "estamos um passo mais perto das próteses de fala".

"No entanto, o que realmente esperamos é como esses métodos se mostrarão quando o paciente não puder falar." - Responde a Stephanie Riès, neurocientista da Universidade de San Diego, na Califórnia. “Os sinais do cérebro, enquanto uma pessoa está lendo para si mesma ou ouvindo outras pessoas, são diferentes daqueles que aparecem durante a leitura em voz alta ou em comunicação ao vivo. Sem um som externo com o qual se possa comparar a atividade cerebral, será muito difícil para os modelos de computador prever onde a fala interna começa e onde termina. ”

"A decodificação da fala imaginária dará um enorme salto adiante", diz Gerwin Schalk, neurocientista do Centro Nacional de Neurotecnologia Adaptativa, Departamento de Saúde do Estado de Nova York. "E agora não está completamente claro como conseguir isso."

Um dos métodos, de acordo com Herff, pode ser o feedback que o paciente dará a um modelo de computador que reproduz a fala em tempo real, à medida que a pessoa pronuncia mentalmente as palavras. Com uma quantidade suficiente de treinamento para o paciente e a IA, o cérebro e o computador podem se encontrar em algum lugar no meio.

Source: https://habr.com/ru/post/pt435904/


All Articles