📴 🧐 ↪️ Reconocimiento de voz con aceleración de hardware. ASIC especializado consume menos de 8 mW 👩🏽‍🤝‍👨🏼 👩🏻‍🏫 🏂🏽

Especificaciones técnicas para el reconocimiento de voz ASIC

Los comandos de voz son la interfaz más natural y conveniente para controlar la electrónica. Uno puede imaginar que en el futuro, casi todos los dispositivos electrónicos comprenderán los comandos del propietario: desde las bombillas en el departamento hasta el refrigerador, el microondas y la tetera en la cocina. Conectados a una red común de Internet de las cosas, estos dispositivos no solo comprenderán al propietario, sino que también coordinarán sus acciones entre ellos.

En los últimos años, las tecnologías de reconocimiento de voz han alcanzado un alto nivel y han madurado para diversas aplicaciones comerciales: conducir una computadora de automóvil, atención médica (mantenimiento de documentación digital para reconocimiento de voz de médicos) y aplicaciones militares. Por ejemplo, en el avión de entrenamiento italiano M-346 y en el cazabombardero estadounidense F-35, la precisión de los sistemas de reconocimiento de voz alcanza el 98% . Pero para realizar el reconocimiento de voz en electrodomésticos y dispositivos electrónicos portátiles, debe reducir drásticamente el consumo de energía de esta interfaz.

Los ingenieros del Laboratorio de Informática e Inteligencia Artificial (CSAIL) del Instituto Tecnológico de Massachusetts (MIT) ya han comenzado los preparativos para esta imagen futurista cuando toda la electrónica circundante comienza a comprender la voz humana. Como parte de un proyecto conjunto de Qmulus con Quanta Computer, los investigadores del MIT han desarrollado un prototipo de un microchip especializado (ASIC) para el reconocimiento de voz. Una característica única de este chip es su consumo de energía ultra bajo: de solo 0.2 mW a 10 mW, dependiendo de la cantidad de palabras que necesitan ser reconocidas. Esto hace posible el uso de dichos dispositivos electrónicos en literalmente cualquier dispositivo, incluso alimentado por el cuerpo humano.

El metabolismo normal en el cuerpo de un hombre adulto produce alrededor de 80 vatios de calor, y un ciclista entrenado produce hasta 400 vatios de energía mecánica. Por supuesto, dicha potencia no se puede utilizar para alimentar la electrónica al máximo, pero no se necesita mucho. Algunos vatios se eliminan fácilmente del cuerpo humano en modo pasivo. Por ejemplo, un pequeño brazalete de 10 cm de largo en la muñeca genera continuamente unos 40 mW debido a la diferencia en la temperatura del cuerpo humano (aproximadamente 37 ° C) y el aire ambiente (20 ° C).

Si no se pone un brazalete, sino una chaqueta térmica completa o un conjunto de 50-100 cm de ancho, eliminará aproximadamente 2 vatios del cuerpo. Pero aún puede convertir la energía cinética del movimiento y descomponer el azúcar de la sangre. Esto es suficiente para alimentar la electrónica del cuerpo, la ropa y los dispositivos más simples.

Además del cuerpo humano, los dispositivos electrónicos de baja potencia pueden producir energía, por ejemplo, a partir de ondas de radio de fondo (microondas, radio, WiFi, etc.), de vibraciones de ventanas y pisos, etc.

Es poco probable que un teléfono inteligente promedio común funcione con la energía recolectada del cuerpo humano o del éter. Según los desarrolladores, el programa de reconocimiento de voz en un teléfono inteligente en un hardware móvil regular generará aproximadamente 1 W. Esto es mucho El uso de un chip MIT especializado y una computadora Quanta en condiciones reales significa un ahorro de energía del 90-99%. Lo más importante, un dispositivo de tan bajo consumo expande dramáticamente el alcance del reconocimiento de voz. Ahora se puede implementar no solo en teléfonos inteligentes o dispositivos electrónicos caros, sino en los objetos circundantes más comunes, incluso en un espejo del baño.

Si recolecta energía del medio ambiente, ese dispositivo nunca necesitará reemplazar las baterías. Si todavía le proporciona una batería para mayor confiabilidad, una carga es suficiente durante meses o años.

El proyecto conjunto Qmulus en MIT y Quanta Computer comenzó en 2005, cuando se llamó T-Party. Los desarrolladores sugieren que con la difusión de Internet de las cosas, los chips de computadora se incrustarán en varios objetos, incluso en mascotas y ganado, para dar cuenta del ganado y controlar su estado. Los microchips recopilan información constantemente y la envían al servidor central en tiempo real.

Quizás los chips de reconocimiento de voz se pueden construir en collares para mascotas; por ejemplo, un comando de voz puede enviar un pulso eléctrico débil al collar, estimulando a la mascota a realizar una u otra acción. Sin embargo, las mascotas y sin un microchip entienden muy bien los comandos de voz del propietario, por lo que tal invención es más útil en otras áreas.

"Los comandos de voz se convertirán en la interfaz natural para dispositivos portátiles e inteligentes", dijo Anantha Chandrakasan, profesora de ingeniería eléctrica en el MIT, cuyo grupo desarrolló el nuevo microchip. - La miniaturización de dichos dispositivos requerirá una interfaz que no sea un teclado. Es fundamental integrar la funcionalidad de reconocimiento de voz localmente, reduciendo el consumo de energía del sistema en comparación con la realización de esta operación en la nube ".

El ASIC diseñado muestra una precisión de reconocimiento aproximadamente igual a la del software comercial Kaldi con un diccionario de 145 mil palabras, y a una frecuencia de reloj de 80 MHz, el rendimiento del microcircuito (la velocidad de búsqueda de palabras en la red de vocabulario) corresponde aproximadamente al rendimiento de una computadora con un procesador Xeon y una frecuencia de reloj de 3, 7 GHz.

La calidad del reconocimiento continuo de voz (WER) y el consumo de energía ASIC se muestran en la tabla.

Desafío	Vocabulario	Frecuencia	Intercambio de memoria	Wer	El consumo de energía
Figuras	11	3 MHz	0.11 MB / s	1,65%	172 mcw
El clima	2k	23 MHz	10.1 MB / s	4.38%	4,70 mW
Diario de alimentos	7k	46 MHz	9.02 MB / s	8,57%	4,67 mW
Noticias (1)	5k	15 megaciclos	4.84 MB / s	3,12%	1,78 mW
Noticias (2)	145k	40 MHz	15.0 MB / s	8,78%	7,78 mW

El artículo científico "Un reconocimiento de voz escalable con modelos acústicos de redes neuronales profundas y activación de voz activada por voz" con una descripción del microchip se presentó la semana pasada en la Conferencia Internacional de Circuitos de Estado Sólido ( presentación, pdf ).

Reconocimiento de voz con aceleración de hardware. ASIC especializado consume menos de 8 mW

More articles: