O Rhasspy é um kit de ferramentas de fala de código aberto e totalmente offline. Reconhecimento da língua russa. Sem vazamentos para a nuvem


Foto de uma comparação de matrizes de microfone para dispositivos DIY, como um alto-falante inteligente caseiro

Sistemas como o Amazon Echo enviam suas conversas confidenciais (mesmo gravadas acidentalmente) para a nuvem para armazenamento . Em alguns casos, as gravações são ouvidas pelos operadores ao vivo . Isso não é apenas uma perda de privacidade. É como voluntariamente admitir um "camarada major" que está nas proximidades 24 horas por dia, ouve e registra cuidadosamente, fingindo ser um assistente útil.

Em vez de comprar um sistema comercial de empresas como Google, Amazon ou Yandex, você pode criar um sistema de código aberto semelhante baseado no Raspberry Pi 2-3 B / B +, computador pessoal ou laptop.

Rhasspy é um assistente de voz seguro que funciona de forma autônoma. Ele não transmite nada para serviços remotos, enquanto consegue lidar com reconhecimento de voz e comandos de voz.

O Rhasspy possui uma integração muito simples em qualquer sistema de software ou hardware em que você deseja adicionar controle de voz. O autor explica que a ferramenta foi originalmente escrita para o projeto Home Assistant , mas agora é compatível com a maioria dos outros sistemas de automação residencial (Hass.io, Node-RED, OpenHAB, Jeedom).

O Rhasspy é otimizado para trabalhar com serviços externos via MQTT, HTTP ou Websockets. Otimizado especificamente para comandos de voz com uma estrutura gramatical claramente definida (ligar / desligar a luz, tornar a música mais alta / silenciosa etc.)

São suportados 14 idiomas, incluindo russo.

O modelo de trabalho é descrito na documentação . Baseia-se no reconhecimento de comandos de voz através de uma linguagem de modelo específica, especialmente adaptada para esta área. Esses comandos são classificados por intenção e podem conter slots ou tags , como a cor da iluminação ou o nome do equipamento específico ao qual o comando é fornecido.

Para começar, liste as intenções (entre colchetes) e as formas possíveis de chamá-las. O modelo é mais ou menos assim:

[LightState] states = (on | off) turn (<states>){state} [the] light 

De acordo com esse padrão, o Rhasspy irá gerar um código JSON que pode ser usado por um sistema de automação residencial, um aplicativo externo ou um dispositivo de hardware (via Node-RED , soquetes da web):

 { "text": "turn on the light", "intent": { "name": "LightState" }, "slots": { "state": "on" } } 

O reconhecimento de fala é realizado diretamente pelo pocketsphinx : um mecanismo leve de código aberto com suporte para o idioma russo. É ótimo para dispositivos móveis ou computadores de placa única como o Raspberry Pi.

O processamento de som está offline no seu dispositivo. O som em si pode vir de uma matriz de microfone Raspberry Pi (como um ReSpeaker 4 Mic Array ou ReSpeaker 2 Mics pHAT ) ou de um fluxo de áudio em uma rede .

O Rhasspy é apenas uma ferramenta muito conveniente para vincular o mecanismo de reconhecimento de fala a um sistema de automação residencial ou algum outro sistema que exija controle de voz. Em princípio, pode ser usado em qualquer lugar: por exemplo, em aplicativos móveis. Ou em algum tipo de robô doméstico, como um aspirador de pó ou um barman.

É bom quando o robô executa as mesmas ações de antes, mas agora por comando de voz.

O autor de Rhasspy também é o autor do projeto voice2json : é um programa de console para a mesma tarefa, converter facilmente a fala humana em uma lista de comandos do computador (ou vice-versa).

Parece que o futuro está com interfaces de voz. Nesse caso, é muito importante que o processamento de fluxos de som ocorra localmente e não exija acesso à Internet.

Source: https://habr.com/ru/post/pt482764/


All Articles