Spracherkennung mit Hardwarebeschleunigung. Spezialisierte ASIC verbrauchen weniger als 8 mW


Technische Daten für die Spracherkennung ASIC

Sprachbefehle sind die natürlichste und bequemste Schnittstelle zur Steuerung der Elektronik. Man kann sich vorstellen, dass in Zukunft fast alle elektronischen Geräte die Befehle des Besitzers verstehen werden: von Glühbirnen in der Wohnung bis zum Kühlschrank, Mikrowelle und Wasserkocher in der Küche. Diese Geräte sind mit einem gemeinsamen Netzwerk des Internets der Dinge verbunden und verstehen nicht nur den Eigentümer, sondern koordinieren auch ihre Aktionen miteinander.

In den letzten Jahren haben Spracherkennungstechnologien ein hohes Niveau erreicht und sind für verschiedene kommerzielle Anwendungen gereift: Autocomputersteuerung, Gesundheitswesen (digitale Dokumentation für die Spracherkennung von Ärzten) und militärische Verwendung. Beispielsweise erreicht im italienischen Trainingsflugzeug M-346 und im amerikanischen Jagdbomber F-35 die Genauigkeit von Spracherkennungssystemen 98% . Um jedoch die Spracherkennung für Haushaltsgeräte und tragbare Elektronik durchzuführen, müssen Sie den Stromverbrauch dieser Schnittstelle drastisch reduzieren.

Ingenieure des Labors für Informatik und künstliche Intelligenz des Massachusetts Institute of Technology (MIT) (CSAIL) haben bereits mit den Vorbereitungen für dieses futuristische Bild begonnen, als die gesamte umgebende Elektronik beginnt, die menschliche Stimme zu verstehen. Im Rahmen eines gemeinsamen Qmulus- Projekts mit Quanta Computer haben Forscher am MIT einen Prototyp eines spezialisierten Mikrochips (ASIC) zur Spracherkennung entwickelt. Ein einzigartiges Merkmal dieses Chips ist sein extrem geringer Stromverbrauch: von nur 0,2 mW bis 10 mW, abhängig von der Anzahl der Wörter, die erkannt werden müssen. Dies macht es möglich, solche Elektronik in buchstäblich jedem Gerät zu verwenden, selbst wenn es vom menschlichen Körper angetrieben wird.

Der normale Stoffwechsel im Körper eines erwachsenen Mannes erzeugt etwa 80 Watt Wärme, und ein ausgebildeter Radfahrer erzeugt bis zu 400 Watt mechanische Energie. Natürlich kann diese Leistung nicht verwendet werden, um die Elektronik vollständig mit Strom zu versorgen, aber es wird nicht viel benötigt. Einige Watt können im passiven Modus leicht aus dem menschlichen Körper entfernt werden. Beispielsweise erzeugt ein 10 cm langes kleines Armband am Handgelenk aufgrund des Temperaturunterschieds zwischen menschlichem Körper (etwa 37 ° C) und Umgebungsluft (20 ° C) kontinuierlich etwa 40 mW .



Wenn Sie kein Armband anziehen, sondern eine ganze Thermojacke oder einen Orset mit einer Breite von 50 bis 100 cm, werden etwa 2 Watt vom Körper entfernt. Sie können jedoch die kinetische Energie der Bewegung umwandeln und Zucker aus dem Blut abbauen. Dies reicht aus, um Körperelektronik, Kleidung und die einfachsten Geräte mit Strom zu versorgen.

Zusätzlich zum menschlichen Körper können elektronische Geräte mit geringem Stromverbrauch Energie erzeugen, beispielsweise aus Hintergrundfunkwellen (Mikrowelle, Radio, WiFi usw.), aus Fenster- und Bodenvibrationen usw.

Es ist unwahrscheinlich, dass ein gewöhnliches durchschnittliches Smartphone mit Energie arbeitet, die vom menschlichen Körper oder vom Äther gesammelt wird. Laut den Entwicklern wird das Spracherkennungsprogramm auf einem Smartphone auf einer normalen mobilen Hardware etwa 1 W ziehen. Das ist sehr viel. Die Verwendung eines speziellen MIT-Chips und eines Quanta-Computers unter realen Bedingungen bedeutet eine Energieeinsparung von 90-99%. Am wichtigsten ist, dass ein solches Gerät mit geringem Stromverbrauch den Umfang der Spracherkennung dramatisch erweitert. Jetzt kann es nicht nur in Smartphones oder teuren elektronischen Geräten implementiert werden, sondern auch in den gängigsten umgebenden Objekten, sogar in einem Badezimmerspiegel.

Wenn Sie Energie aus der Umgebung sammeln, muss ein solches Gerät niemals die Batterien ersetzen. Wenn Sie es aus Gründen der Zuverlässigkeit immer noch mit einem Akku versorgen, reicht eine Ladung für Monate oder Jahre aus.

Das gemeinsame Projekt Qmulus am MIT und Quanta Computer begann 2005 mit dem Namen T-Party. Die Entwickler schlagen vor, dass mit der Verbreitung des Internet der Dinge Computerchips in verschiedene Objekte eingebettet werden, sogar in Haustiere und Rinder, um das Vieh zu berücksichtigen und ihren Zustand zu überwachen. Mikrochips sammeln ständig Informationen und senden sie in Echtzeit an den zentralen Server.

Möglicherweise können Spracherkennungs-Chips in Haustierhalsbänder eingebaut werden. Beispielsweise kann ein Sprachbefehl einen schwachen elektrischen Impuls an das Halsband senden und das Haustier dazu anregen, die eine oder andere Aktion auszuführen. Haustiere und ohne Mikrochip verstehen die Sprachbefehle des Besitzers jedoch sehr gut, so dass eine solche Erfindung in anderen Bereichen nützlicher ist.

"Sprachbefehle werden zur natürlichen Schnittstelle für tragbare und intelligente Geräte", sagte Anantha Chandrakasan, Professorin für Elektrotechnik am MIT, deren Gruppe den neuen Mikrochip entwickelte. - Für die Miniaturisierung solcher Geräte ist eine andere Schnittstelle als eine Tastatur erforderlich. Es ist wichtig, die Spracherkennungsfunktionen lokal zu integrieren, um den Stromverbrauch des Systems im Vergleich zur Ausführung dieses Vorgangs in der Cloud zu senken. “

Der entworfene ASIC zeigt eine Erkennungsgenauigkeit, die in etwa der kommerziellen Kaldi-Software mit einem Wörterbuch von 145.000 Wörtern entspricht, und bei einer Taktfrequenz von 80 MHz entspricht die Leistung der Mikroschaltung (die Geschwindigkeit der Suche nach Wörtern im Vokabulargitter) ungefähr der Leistung eines Computers mit einem Xeon-Prozessor und einer Taktfrequenz von 3, 7 GHz.



Die Qualität der kontinuierlichen Spracherkennung (WER) und der ASIC-Stromverbrauch sind in der Tabelle aufgeführt.
HerausforderungWortschatzFrequenzSpeicheraustauschWerStromverbrauch
Zahlen113 MHz0,11 MB / s1,65%172 mcw
Das Wetter2k23 MHz10,1 MB / s4,38%4,70 mW
Ernährungstagebuch7k46 MHz9,02 MB / s8,57%4,67 mW
Nachrichten (1)5k15 MHz4,84 MB / s3,12%1,78 mW
Nachrichten (2)145k40 MHz15,0 MB / s8,78%7,78 mW
Der wissenschaftliche Artikel "Ein skalierbarer Spracherkenner mit akustischen Modellen für tiefe neuronale Netze und sprachaktiviertem Power Gating" mit einer Beschreibung des Mikrochips wurde letzte Woche auf der International Solid-State Circuits Conference vorgestellt ( Präsentation, pdf ).

Source: https://habr.com/ru/post/de401503/


All Articles