Rhasspy ist ein Open-Source- und Offline-Sprach-Toolkit. Anerkennung der russischen Sprache. Keine Lecks in die Wolke


Foto aus einem Vergleich von Mikrofon-Arrays für Heimwerker-Geräte wie einem selbstgemachten Smart Speaker

Systeme wie Amazon Echo senden Ihre vertraulichen (auch versehentlich aufgezeichneten) Gespräche zur Speicherung an die Cloud . In einigen Fällen werden Aufnahmen von Live-Betreibern abgehört . Dies ist nicht nur ein Verlust der Privatsphäre. Es ist, als würde man freiwillig einen "Genossenmajor" hereinlassen, der 24 Stunden am Tag in der Nähe steht, aufmerksam zuhört und aufzeichnet und vorgibt, ein hilfreicher Assistent zu sein.

Anstatt ein kommerzielles System von Unternehmen wie Google, Amazon oder Yandex zu kaufen, können Sie ein ähnliches Open-Source-System auf der Basis des Raspberry Pi 2-3 B / B +, eines PCs oder eines Laptops erstellen.

Rhasspy ist ein sicherer Sprachassistent, der autonom arbeitet. Es überträgt nichts an entfernte Dienste, während Spracherkennung und Sprachbefehle erfolgreich verarbeitet werden.

Rhasspy lässt sich sehr einfach in jedes Software- oder Hardwaresystem integrieren, in dem Sie die Sprachsteuerung hinzufügen möchten. Der Autor erklärt, dass das Tool ursprünglich für das Home Assistant- Projekt geschrieben wurde, aber jetzt mit den meisten anderen Hausautomationssystemen (Hass.io, Node-RED, OpenHAB, Jeedom) kompatibel ist.

Rhasspy ist für die Arbeit mit externen Diensten über MQTT, HTTP oder Websockets optimiert. Speziell für Sprachbefehle mit einer klar definierten grammatikalischen Struktur optimiert (Licht ein- / ausschalten, Musik lauter / leiser machen usw.)

14 Sprachen werden unterstützt, darunter Russisch.

Das Arbeitsmodell ist in der Dokumentation beschrieben . Es basiert auf der Erkennung von Sprachbefehlen durch eine spezielle Vorlagensprache , die speziell für diesen Bereich angepasst wurde. Diese Befehle sind absichtlich klassifiziert und können Steckplätze oder Tags enthalten , z. B. die Farbe für die Beleuchtung oder den Namen des Geräts, an das der Befehl gesendet wird.

Führen Sie zunächst die Absichten (in eckigen Klammern) und die möglichen Aufrufmöglichkeiten auf. Die Vorlage sieht ungefähr so ​​aus:

[LightState] states = (on | off) turn (<states>){state} [the] light 

Nach diesem Muster generiert Rhasspy einen JSON-Code, der von einem Hausautomationssystem, einer externen Anwendung oder einem Hardwaregerät (über Node-RED , Web-Sockets) verwendet werden kann:

 { "text": "turn on the light", "intent": { "name": "LightState" }, "slots": { "state": "on" } } 

Die Spracherkennung wird direkt von pocketsphinx durchgeführt : einer leichten Open-Source-Engine mit Unterstützung für die russische Sprache. Es eignet sich hervorragend für mobile Geräte oder Single-Board-Computer wie den Raspberry Pi.

Die Tonverarbeitung ist auf Ihrem Gerät offline . Der Sound selbst kann von einem Raspberry Pi-Mikrofonarray (wie einem ReSpeaker 4 Mic Array oder ReSpeaker 2 Mics pHAT ) oder von einem Audiostream über ein Netzwerk stammen .

Rhasspy ist nur ein sehr praktisches Tool, um die Spracherkennungs-Engine mit einem Hausautomationssystem oder einem anderen System zu verbinden, das eine Sprachsteuerung erfordert. Grundsätzlich kann es überall eingesetzt werden, zum Beispiel in mobilen Anwendungen. Oder in einer Art Heimroboter wie einem Staubsauger oder einem Barkeeper.

Es ist schön, wenn der Roboter die gleichen Aktionen wie zuvor ausführt, aber jetzt per Sprachbefehl.

Der Autor von Rhasspy ist auch der Autor des voice2json- Projekts: Es ist ein Konsolenprogramm für ungefähr dieselbe Aufgabe, mit dem menschliche Sprache auf einfache Weise in eine Liste von Computerbefehlen umgewandelt werden kann (oder umgekehrt).

Es sieht so aus, als ob die Zukunft bei Sprachschnittstellen liegt. In diesem Fall ist es sehr wichtig, dass die Verarbeitung der Tonströme lokal erfolgt und kein Internetzugang erforderlich ist.

Source: https://habr.com/ru/post/de482764/


All Articles