O MIT desenvolveu um novo tipo de interface que permite transformar "pensamentos" em voz


Arnav Kapoor, um dos desenvolvedores de um novo tipo de interface, demonstra a operação do dispositivo

Os engenheiros do MIT criaram um sistema que transcreve palavras e frases auto-faladas em texto. Para que o sistema funcione com sucesso, sua operadora precisa pronunciar claramente palavras e frases para si. Nesse caso, os músculos do rosto, garganta e língua responsáveis ​​pela fala começam a funcionar. Eles não funcionam com força total, mas apenas ativam, o que é suficiente para o novo sistema "ler".

Do lado de fora, é assim: uma pessoa é simplesmente silenciosa e o sistema "fala", ou melhor, imprime. O desenvolvimento consiste em duas partes: um dispositivo que deve ser usado no rosto e uma rede neural especialmente “treinada”, que analisa as informações recebidas e as associa a letras e palavras. Além disso, a interface permite que você controle os gadgets - troque de canal na TV, acompanhe os custos e mantenha atividades bastante normais.

O dispositivo a ser usado no ouvido inclui um "fone de ouvido com osso", ou seja, um fone de ouvido que conduz o som ao longo do osso até o ouvido interno. O canal externo permanece aberto e a pessoa ouve tudo o que acontece por aí.

Esse sistema é muito portátil e adequado para uso na rua e em casa. Algumas maneiras de usá-lo são incomuns. Por exemplo, você pode jogar xadrez, falando consigo mesmo sobre os movimentos do inimigo e obter ajuda do computador.

Você pode usar o desenvolvimento não apenas para pessoas com problemas físicos, mas também para usuários comuns em várias situações. A tarefa dos desenvolvedores era criar um sistema que pudesse melhorar as habilidades de uma pessoa, complementar seu intelecto e, de alguma forma, seus sentidos.

"Não podemos mais viver sem smartphones e outros dispositivos digitais", diz Petty Maes, um dos participantes do projeto. “Mas o uso desses aparelhos nos impede, é necessário interromper para trabalhar com eles. Por exemplo, há uma conversa e, de repente, é necessário usar o telefone. Você precisa encontrá-lo, buscá-lo, inserir a senha e abrir o aplicativo. Portanto, meus alunos e eu experimentamos novos tipos de sistemas e seus fatores de forma por um longo tempo, que permitem que as pessoas aproveitem as tecnologias e serviços modernos sem serem distraídos pelos gadgets, de fato. ”

Os resultados foram relatados na conferência ACM Intelligent User Interface da Association for Computing Machinery.

Em princípio, a ideia proposta pelos cientistas não é nova. Apareceu em algum lugar do século 19 e, com o advento das novas tecnologias, elas começaram a trabalhar seriamente em sua implementação. Nos anos 60, falar as frases e as palavras para si mesmo durante a leitura começou a ser considerado um fator externo que dificulta a velocidade da leitura (de fato, é). Mas falar tem suas vantagens, pode ser usado no desenvolvimento de interfaces de computador. Um exemplo foi dado acima.


No processo de criação do sistema, os cientistas primeiro precisaram entender quais músculos no rosto da pessoa estão mais ativamente envolvidos no processo de falar. Depois disso, começou o desenvolvimento de um protótipo de dispositivo para converter "pensamentos em texto". O principal elemento sensor de sinal do sistema eram 16 eletrodos.

Eles tomaram testemunhos e compararam com o que o homem disse a si mesmo. Então, com base na matriz de dados recebida, os desenvolvedores começaram a treinar a rede neural. A propósito, inicialmente o dispositivo cobria os dois lados do rosto. Mas então a rede neural converte os sinais em texto sem problemas, mesmo que os eletrodos estejam apenas em um lado da face. Portanto, para reduzir o tamanho do sistema, ele foi dividido pela metade.

O treinamento em redes neurais começou pequeno - com apenas 20 palavras. Com o tempo, o dicionário foi aumentado e a rede neural tornou-se mais "inteligente". Segundo os cientistas, ele pode ser personalizado para qualquer pessoa, aumentando a precisão do reconhecimento de "pensamentos". Quanto mais treinamento você tiver, melhor o sistema funcionará.

Os desenvolvedores não tinham planos de aperfeiçoá-lo, isso é apenas uma prova de conceito. A tecnologia pode ser usada em muitos campos, incluindo fabricação. Você pode imaginar uma empresa industrial, o nível de ruído em que interfere na comunicação normal dos funcionários sobre questões de trabalho. Nesse caso, você pode usar esse sistema. Uma situação semelhante é com bombeiros ou mergulhadores. Eles não precisarão conversar, o sistema expressará "pensamentos".

Até agora, não estamos falando sobre a comercialização de tecnologia, mas esse desenvolvimento também não está excluído.


Source: https://habr.com/ru/post/pt411651/


All Articles