Reconnaissance vocale avec accélération matérielle. L'ASIC spécialisé consomme moins de 8 mW


Les spécifications des

commandes vocales à puce de reconnaissance vocale d' ASIC sont l'interface la plus naturelle et la plus conviviale pour contrôler l'électronique. On peut imaginer qu'à l'avenir, presque tous les appareils électroniques comprendront les commandes du propriétaire: des ampoules électriques dans l'appartement au réfrigérateur, micro-ondes et bouilloire dans la cuisine. Connectés à un réseau commun d'Internet des objets, ces appareils non seulement comprendront le propriétaire, mais coordonneront également leurs actions entre eux.

Ces dernières années, les technologies de reconnaissance vocale ont atteint un niveau élevé et ont mûri pour diverses applications commerciales: contrôle informatique de voiture, soins de santé (documentation numérique pour la reconnaissance vocale des médecins) et usage militaire. Par exemple, dans l'avion d'entraînement italien M-346 et dans le chasseur-bombardier américain F-35, la précision des systèmes de reconnaissance vocale atteint 98% . Mais pour effectuer la reconnaissance vocale sur les appareils électroménagers et l'électronique portable, vous devez réduire considérablement la consommation d'énergie de cette interface.

Les ingénieurs du laboratoire d'informatique et d'intelligence artificielle du Massachusetts Institute of Technology (MIT) (CSAIL) ont déjà commencé à préparer cette image futuriste lorsque toute l'électronique environnante commence à comprendre la voix humaine. Dans le cadre d'un projet commun Qmulus avec Quanta Computer, les chercheurs du MIT ont développé un prototype de puce spécifique à l'application (ASIC) pour la reconnaissance vocale. Une caractéristique unique de cette puce est sa consommation d'énergie ultra-faible: de seulement 0,2 mW à 10 mW, selon le nombre de mots à reconnaître. Cela permet d'utiliser une telle électronique dans littéralement n'importe quel appareil, même alimenté par le corps humain.

Le métabolisme normal dans le corps d'un homme adulte produit environ 80 watts de chaleur et un cycliste entraîné produit jusqu'à 400 watts d'énergie mécanique. Bien sûr, une telle puissance ne peut pas être utilisée pour alimenter complètement l'électronique, mais beaucoup n'est pas nécessaire. Quelques watts sont facilement éliminés du corps humain en mode passif. Par exemple, un petit bracelet de 10 cm de long au poignet génère en continu environ 40 mW en raison de la différence de température du corps humain (environ 37 ° C) et de l'air ambiant (20 ° C).



Si vous ne portez pas de bracelet, mais une veste thermique entière ou un orset de 50 à 100 cm de large, cela supprimera environ 2 watts du corps. Mais vous pouvez toujours convertir l'énergie cinétique du mouvement et décomposer le sucre du sang. Cela suffit pour alimenter l'électronique du corps, les vêtements et les gadgets les plus simples.

En plus du corps humain, les appareils électroniques de faible puissance peuvent produire de l'énergie, par exemple, à partir des ondes radio de fond (micro-ondes, radio, WiFi, etc.), des vibrations des fenêtres et du sol, etc.

Un smartphone ordinaire moyen ne fonctionnera probablement pas avec l'énergie collectée par le corps humain ou par l'éther. Selon les développeurs, le programme de reconnaissance vocale sur un smartphone sur un matériel mobile ordinaire tirera environ 1 W. C’est beaucoup. L'utilisation d'une puce MIT spécialisée et d'un ordinateur Quanta en conditions réelles signifie des économies d'énergie de 90 à 99%. Plus important encore, un tel appareil de faible puissance élargit considérablement la portée de la reconnaissance vocale. Maintenant, il peut être mis en œuvre non seulement dans les smartphones ou les appareils électroniques coûteux, mais dans les objets environnants les plus courants, même dans un miroir de salle de bain.

Si vous collectez de l'énergie de l'environnement, un tel appareil n'aura jamais besoin de remplacer les piles. Si vous le fournissez toujours avec une batterie pour plus de fiabilité, une seule charge suffit pendant des mois ou des années.

Le projet commun Qmulus au MIT et Quanta Computer a commencé en 2005, quand il a été appelé T-Party. Les développeurs suggèrent qu'avec la propagation de l'Internet des objets, les puces informatiques seront intégrées dans divers objets, même chez les animaux de compagnie et les bovins, pour tenir compte du bétail et surveiller leur état. Les micropuces collectent constamment des informations et les envoient au serveur central en temps réel.

Peut-être que des puces de reconnaissance vocale peuvent être intégrées dans les colliers pour animaux de compagnie - par exemple, une commande vocale peut envoyer une faible impulsion électrique au collier, ce qui stimule l'animal à effectuer l'une ou l'autre action. Cependant, les animaux domestiques et sans micropuce comprennent très bien les commandes vocales du propriétaire, une telle invention est donc plus utile dans d'autres domaines.

«Les commandes vocales deviendront l'interface naturelle pour les appareils portables et intelligents», expliqueAnantha Chandrakasan, professeur de génie électrique au MIT, dont l'équipe a développé une nouvelle puce. - La miniaturisation de ces appareils nécessitera une interface autre qu'un clavier. Il est essentiel d'intégrer la fonctionnalité de reconnaissance vocale localement, ce qui réduit la consommation d'énergie du système par rapport à l'exécution de cette opération dans le cloud. "

L'ASIC conçu montre une précision de reconnaissance approximativement la même que le logiciel Kaldi commercial avec un dictionnaire de 145 mille mots, et à une fréquence d'horloge de 80 MHz, les performances du microcircuit (la vitesse de recherche des mots dans le réseau de vocabulaire) correspondent approximativement aux performances d'un ordinateur avec un processeur Xeon et une fréquence d'horloge de 3, 7 GHz.



La qualité de reconnaissance vocale continue (WER) et la consommation électrique ASIC sont indiquées dans le tableau.
DéfiVocabulaireLa fréquenceÉchange de mémoireWerConsommation d'énergie
Les chiffres113 MHz0,11 Mo / s1,65%172 mcw
La météo2k23 MHz10,1 Mo / s4,38%4,70 mW
Journal alimentaire7k46 MHz9,02 Mo / s8,57%4,67 mW
Actualités (1)5k15 MHz4,84 Mo / s3,12%1,78 mW
Actualités (2)145k40 MHz15,0 Mo / s8,78%7,78 mW
L'article scientifique "A Scalable Speech Recognizer with Deep-Neural-Network Acoustic Models and Voice-Activated Power Gating" avec une description de la puce électronique a été présenté la semaine dernière à la Conférence internationale des circuits à semi-conducteurs ( présentation, pdf ).

Source: https://habr.com/ru/post/fr401503/


All Articles