Reconhecimento de fala com aceleração de hardware. ASIC especializado consome menos de 8 mW


Especificações técnicas para reconhecimento de fala ASIC

Os comandos de voz são a interface mais natural e conveniente para o controle de componentes eletrônicos. Pode-se imaginar que, no futuro, quase todos os dispositivos eletrônicos compreendam os comandos do proprietário: desde lâmpadas no apartamento até a geladeira, microondas e chaleira na cozinha. Conectados a uma rede comum da Internet das coisas, esses dispositivos não apenas entenderão o proprietário, mas também coordenarão suas ações entre si.

Nos últimos anos, as tecnologias de reconhecimento de fala atingiram um alto nível e amadureceram para várias aplicações comerciais: controle de computadores automotivos, assistência médica (documentação digital para reconhecimento de fala de médicos) e uso militar. Por exemplo, na aeronave de treinamento italiana M-346 e no caça-bombardeiro americano F-35, a precisão dos sistemas de reconhecimento de fala chega a 98% . Mas, para realizar o reconhecimento de fala em eletrodomésticos e aparelhos eletrônicos, você precisa reduzir drasticamente o consumo de energia dessa interface.

Os engenheiros do Laboratório de Informática e Inteligência Artificial (MIT) do Instituto de Tecnologia de Massachusetts (CSAIL) já começaram os preparativos para esse quadro futurista quando todos os eletrônicos ao redor começam a entender a voz humana. Como parte de um projeto conjunto do Qmulus com a Quanta Computer, os pesquisadores do MIT desenvolveram um protótipo de um microchip especializado (ASIC) para reconhecimento de fala. Uma característica exclusiva deste chip é o seu consumo de energia ultrabaixo: de apenas 0,2 mW a 10 mW, dependendo do número de palavras que precisam ser reconhecidas. Isso possibilita o uso desses eletrônicos em literalmente qualquer dispositivo, inclusive alimentado pelo corpo humano.

O metabolismo normal no corpo de um homem adulto produz cerca de 80 watts de calor e um ciclista treinado produz até 400 watts de energia mecânica. Obviamente, esse poder não pode ser usado para alimentar a eletrônica ao máximo, mas não é necessário muito. Alguns watts são facilmente removidos do corpo humano no modo passivo. Por exemplo, uma pequena pulseira de 10 cm de comprimento no pulso gera continuamente cerca de 40 mW devido à diferença de temperatura do corpo humano (cerca de 37 ° C) e ar ambiente (20 ° C).



Se você não colocar uma pulseira, mas uma jaqueta térmica inteira ou uma orset de 50 a 100 cm de largura, ela removerá cerca de 2 watts do corpo. Mas você ainda pode converter a energia cinética do movimento e quebrar o açúcar do sangue. Isso é suficiente para alimentar eletrônicos, roupas e os aparelhos mais simples.

Além do corpo humano, dispositivos eletrônicos de baixa potência podem produzir energia, por exemplo, a partir de ondas de rádio de fundo (microondas, rádio, Wi-Fi, etc.), a partir de vibrações de janelas e pisos, etc.

É improvável que um smartphone comum média funcione com a energia coletada do corpo humano ou do éter. Segundo os desenvolvedores, o programa de reconhecimento de fala em um smartphone em um hardware móvel regular irá consumir cerca de 1 W. Isso é muito. Usar um chip MIT especializado e o Quanta Computer em condições reais significa economia de energia de 90 a 99%. Mais importante, esse dispositivo de baixa potência expande drasticamente o escopo do reconhecimento de fala. Agora, ele pode ser implementado não apenas em smartphones ou dispositivos eletrônicos caros, mas nos objetos circundantes mais comuns, mesmo em um espelho do banheiro.

Se você coletar energia do ambiente, esse dispositivo nunca precisará substituir as baterias. Se você ainda fornecer uma bateria para obter confiabilidade, uma carga será suficiente por meses ou anos.

O projeto conjunto Qmulus do MIT e da Quanta Computer começou em 2005, quando foi chamado T-Party. Os desenvolvedores sugerem que, com a disseminação da Internet, os chips de computador serão incorporados em vários objetos, mesmo em animais de estimação e gado, para dar conta do gado e monitorar sua condição. Os microchips constantemente coletam informações e as enviam para o servidor central em tempo real.

Talvez os chips de reconhecimento de fala possam ser incorporados em coleiras para animais de estimação - por exemplo, um comando de voz pode enviar um pulso elétrico fraco para a coleira, estimulando o animal a executar uma ou outra ação. No entanto, animais de estimação e sem um microchip compreendem muito bem os comandos de voz do proprietário, portanto essa invenção é mais útil em outras áreas.

"Os comandos de voz se tornarão a interface natural para dispositivos portáteis e inteligentes", disse Anantha Chandrakasan, professora de engenharia elétrica do MIT, cujo grupo desenvolveu o novo microchip. - A miniaturização de tais dispositivos exigirá uma interface diferente do teclado. É essencial integrar a funcionalidade de reconhecimento de voz localmente, reduzindo o consumo de energia do sistema em comparação com a execução dessa operação na nuvem. "

O ASIC projetado mostra a precisão do reconhecimento aproximadamente o mesmo que o software comercial Kaldi, com um dicionário de 145 mil palavras, e com uma frequência de clock de 80 MHz, o desempenho do microcircuito (a velocidade de busca de palavras na estrutura do vocabulário) corresponde aproximadamente ao desempenho de um computador com um processador Xeon e uma freqüência de clock de 3, 7 GHz.



Qualidade de reconhecimento de fala contínua (WER) e consumo de energia ASIC são mostrados na tabela.
DesafioVocabulárioFrequênciaTroca de memóriaWerConsumo de energia
Figuras113 MHz0,11 MB / s1,65%172 mcw
O tempo2k23 MHz10,1 MB / s4,38%4,70 mW
Diário alimentar7k46 MHz9,02 MB / s8,57%4,67 mW
Notícias (1)5k15 MHz4,84 MB / s3,12%1,78 mW
Notícias (2)145k40 MHz15,0 MB / s8,78%7,78 mW
O artigo científico "Um Reconhecedor de Fala Escalável com Modelos Acústicos de Redes Neurais Profundas e Power-Activated por Voz" com uma descrição do microchip foi apresentado na semana passada na Conferência Internacional de Circuitos de Estado Sólido ( apresentação, pdf ).

Source: https://habr.com/ru/post/pt401503/


All Articles