Foto de una comparación de conjuntos de micrófonos para dispositivos de bricolaje, como un altavoz inteligente caseroLos sistemas como Amazon Echo
envían sus conversaciones sensibles (incluso grabadas accidentalmente)
a la nube para su almacenamiento . En algunos casos, las grabaciones son
escuchadas por operadores en vivo . Esto no es solo una pérdida de privacidad. Es como dejar entrar voluntariamente a un "camarada mayor" que está parado cerca las 24 horas del día, escucha y graba cuidadosamente, pretendiendo ser un asistente útil.
En lugar de comprar un sistema comercial de corporaciones como Google, Amazon o Yandex, puede crear un sistema de código abierto similar basado en Raspberry Pi 2-3 B / B +, computadora personal o computadora portátil.
Rhasspy es un asistente de voz seguro que funciona de forma autónoma. No transmite nada a los servicios remotos, mientras hace frente con éxito al reconocimiento de voz y los comandos de voz.

Rhasspy tiene una integración muy simple en cualquier sistema de software o hardware donde desee agregar control de voz. El autor
explica que la herramienta se escribió originalmente para el proyecto
Home Assistant , pero ahora es compatible con la mayoría de los otros sistemas de automatización del hogar (Hass.io, Node-RED, OpenHAB, Jeedom).
Rhasspy está optimizado para trabajar con servicios externos a través de MQTT, HTTP o Websockets. Optimizado específicamente para comandos de voz con una estructura gramatical claramente definida (enciende / apaga la luz, hace que la música sea más alta / más baja, etc.)
Se admiten 14 idiomas, incluido el ruso.
El modelo de trabajo se describe en la
documentación . Se basa en el reconocimiento de comandos de voz a través de un
lenguaje de plantilla específico, especialmente adaptado para esta área. Estos comandos se clasifican por intención y pueden contener
ranuras o
etiquetas , como el color de la iluminación o el nombre del dispositivo en particular al que se le da el comando.
Para comenzar, enumere las intenciones (entre corchetes) y las posibles formas de llamarlas. La plantilla se ve así:
[LightState] states = (on | off) turn (<states>){state} [the] light
De acuerdo con este patrón, Rhasspy generará un código JSON que puede ser utilizado por un sistema de automatización del hogar, una aplicación externa o un dispositivo de hardware (a través de
Node-RED , sockets web):
{ "text": "turn on the light", "intent": { "name": "LightState" }, "slots": { "state": "on" } }
El reconocimiento de voz se realiza
directamente por
pocketsphinx : un motor liviano de código abierto con soporte para el idioma ruso. Es ideal para dispositivos móviles o computadoras de placa única como Raspberry Pi.
El procesamiento de sonido está
fuera de
línea en su dispositivo. El sonido en sí puede provenir de una matriz de micrófonos Raspberry Pi (como un
ReSpeaker 4 Mic Array o
ReSpeaker 2 Mics pHAT ) o de una
transmisión de audio a través de una red .
Rhasspy es solo una herramienta muy conveniente para vincular el motor de reconocimiento de voz a un sistema de automatización del hogar o algún otro sistema que requiera control de voz. En principio, se puede usar en cualquier lugar: por ejemplo, en aplicaciones móviles. O en algún tipo de robot doméstico, como una aspiradora o un barman.
Es agradable cuando el robot realiza las mismas acciones que antes, pero ahora por comando de voz.
El autor de Rhasspy también es el autor del proyecto
voice2json : es un programa de consola para aproximadamente la misma tarea, para convertir fácilmente el habla humana en una lista de comandos de computadora (o viceversa).
Parece que el futuro es con interfaces de voz. En este caso, es muy importante que el procesamiento de las secuencias de sonido se realice localmente y no requiera acceso a Internet.