Rhasspy est une boîte à outils vocale open source et entièrement hors ligne. Reconnaissance de la langue russe. Aucune fuite vers le cloud


Photo à partir d'une comparaison de réseaux de microphones pour des appareils de bricolage tels qu'un haut-parleur intelligent fait maison

Des systèmes comme Amazon Echo envoient vos conversations sensibles (même enregistrées accidentellement) vers le cloud pour le stockage . Dans certains cas, les enregistrements sont entendus par des opérateurs en direct . Ce n'est pas seulement une perte d'intimité. C’est comme laisser volontairement un «camarade major» qui se tient à proximité 24 heures sur 24, écouter et enregistrer attentivement, se faisant passer pour un assistant utile.

Au lieu d'acheter un système commercial auprès de sociétés telles que Google, Amazon ou Yandex, vous pouvez créer un système open source similaire basé sur le Raspberry Pi 2-3 B / B +, un ordinateur personnel ou un ordinateur portable.

Rhasspy est un assistant vocal sécurisé qui fonctionne de manière autonome. Il ne transmet rien aux services distants, tout en gérant avec succès la reconnaissance vocale et les commandes vocales.

Rhasspy a une intégration très simple dans n'importe quel système logiciel ou matériel où vous souhaitez ajouter un contrôle vocal. L'auteur explique que l'outil a été initialement écrit pour le projet Home Assistant , mais qu'il est désormais compatible avec la plupart des autres systèmes domotiques (Hass.io, Node-RED, OpenHAB, Jeedom).

Rhasspy est optimisé pour travailler avec des services externes via MQTT, HTTP ou Websockets. Optimisé spécifiquement pour les commandes vocales avec une structure grammaticale clairement définie (allumer / éteindre la lumière, rendre la musique plus forte / plus silencieuse, etc.)

14 langues sont prises en charge, y compris le russe.

Le modèle de travail est décrit dans la documentation . Il est basé sur la reconnaissance des commandes vocales à travers un langage de modèle spécifique, spécialement adapté à ce domaine. Ces commandes sont classées par intention et peuvent contenir des fentes ou des étiquettes , telles que la couleur de l'éclairage ou le nom du luminaire particulier auquel la commande est donnée.

Pour commencer, énumérez les intentions (entre crochets) et les façons possibles de les appeler. Le modèle ressemble à ceci:

[LightState] states = (on | off) turn (<states>){state} [the] light 

Selon ce modèle, Rhasspy va générer un code JSON qui peut être utilisé par un système domotique, une application externe ou un périphérique matériel (via Node-RED , sockets web):

 { "text": "turn on the light", "intent": { "name": "LightState" }, "slots": { "state": "on" } } 

La reconnaissance vocale est effectuée directement par pochesphinx : un moteur open source léger avec prise en charge de la langue russe. Il est idéal pour les appareils mobiles ou les ordinateurs à carte unique comme le Raspberry Pi.

Le traitement du son est hors ligne sur votre appareil. Le son lui-même peut provenir d'un réseau de microphones Raspberry Pi (comme un ReSpeaker 4 Mic Array ou ReSpeaker 2 Mics pHAT ) ou d'un flux audio sur un réseau .

Rhasspy est juste un outil très pratique pour relier le moteur de reconnaissance vocale à un système domotique ou à un autre système qui nécessite un contrôle vocal. En principe, il peut être utilisé n'importe où: par exemple, dans les applications mobiles. Ou dans une sorte de robot domestique comme un aspirateur ou un barman.

C'est bien quand le robot effectue toutes les mêmes actions qu'auparavant, mais maintenant par commande vocale.

Rhasspy est également l'auteur du projet voice2json : c'est un programme console pour à peu près la même tâche, pour convertir facilement la parole humaine en une liste de commandes informatiques (ou vice versa).

Il semble que l'avenir soit avec les interfaces vocales. Dans ce cas, il est très important que le traitement des flux sonores ait lieu localement et ne nécessite pas d'accès à Internet.

Source: https://habr.com/ru/post/fr482764/


All Articles