Acabamos de apresentar nosso novo dispositivo - Yandex.Station Mini. Este é um alto-falante inteligente compacto que pode tocar música, gerenciar uma casa inteligente, definir lembretes - e muito mais. Essa também é a primeira coluna com Alice, que pode ser controlada com gestos.
Hoje contaremos aos leitores de Habr várias histórias sobre as etapas de criação da Mini Estação. Desde calibração óptica e teste de UX até recursos não óbvios ao trabalhar com fontes de alimentação. Você também aprenderá o que é o theremin e como ele está associado ao dispositivo Yandex.

Mas, para começar, um pequeno flashback.
No ano passado,
conversamos com Habré sobre o desenvolvimento da “grande” Yandex.Station (e também a plataforma Yandex.IO, que nós e parceiros usamos). Este é o nosso dispositivo principal com Alice, projetado para estar no centro de uma grande sala ao lado da TV. Ela tem um som poderoso de 50 watts. Três alto-falantes ativos com uma ampla gama de frequências. Sete microfones trabalhando como um único radar. Afinal, saída HDMI.
Todo esse ano não ficamos parados. A voz de Alice tornou-se cada vez mais natural. Ela aprendeu a resolver o problema da pronúncia para muitos homógrafos, ou seja, dependendo do contexto, é correto enfatizar palavras escritas da mesma forma, mas com significados diferentes. A audiência também se desenvolveu: recentemente, já
conversamos sobre como ensinamos Alice a não responder aos nomes de outras pessoas. Recentemente, começamos a
testar a capacidade de reconhecer o proprietário de uma coluna por voz.
E também
lançamos a plataforma doméstica inteligente. Agora, com a ajuda da voz, você pode controlar dispositivos de terceiros e até combiná-los em scripts. A rejeição de controles remotos e botões em favor da voz é uma característica essencial da nossa plataforma. E para isso, Alice deve estar por perto.
Além disso, um alto-falante inteligente não é apenas música, rádio e vídeo, mas também lembretes, despertador, clima, respostas factuais, contos de fadas e jogos para crianças etc. O dispositivo pode ser útil na cama, no escritório, na cozinha, qualquer outro canto do apartamento.
Portanto, decidimos criar outra estação - para quem precisa de um dispositivo mais simples e compacto com Alice.
Reduza o dispositivo
A mini-versão não precisa de um som alto, então os alto-falantes pesados e grandes foram substituídos por um trehvatnym. Isso é mais do que suficiente para tarefas simples. Embora ele possa causar problemas com o poder, se você não levar em conta uma nuance, mas mais tarde.
Recusou-se a acessar a TV. Isso reduz a carga, o calor e, portanto, os requisitos para a eletrônica. A enorme estrutura metálica da estação com um radiador passivo para refrigeração também se tornou desnecessária.
Em vez de sete microfones, restaram quatro, porque o som alto não interfere mais na aquisição da fala. Mas, ao mesmo tempo, os microfones, como na Estação, funcionam com o princípio de antenas de arranjo faseado, ou um microfone direcional. O dispositivo pesquisa algoritmicamente no ruído ao redor um comando de voz com a palavra "Alice". Em seguida, determina a direção e apaga o sinal do ruído, incluindo a subtração de música. E somente depois disso o sinal vai para a nuvem e é reconhecido.
Para que o reconhecimento de fala funcione com mais precisão, a rede neural precisa ser treinada em registros que foram falados especificamente para este dispositivo. Não faz sentido tirar um modelo de rede neural da estação "grande", porque sua eficiência na Mini Estação não será tão alta.
Este problema pode ser resolvido de várias maneiras. Por exemplo, contrate pessoas para ler uma coluna de frase em um pedaço de papel. Mas receberemos poucos registros que não são semelhantes às solicitações reais do usuário, porque, na realidade, os registros contêm ruído imprevisível, vozes sobrepostas e muito mais.
Portanto, não economizamos em qualidade e imediatamente encomendamos várias centenas de alto-falantes prontos na fábrica, que distribuímos aos participantes de um teste beta fechado em Yandex em troca de ajuda no treinamento da rede neural. E funcionou.
A propósito, eles não recusaram o botão de hardware Mute, que desenergiza os microfones e silencia a "audição" de Alice. Ele não adiciona nenhuma complexidade específica ao dispositivo e agora está localizado ao lado.

Mas os botões restantes foram abandonados. E aqui começa a diversão.
Adicione magia e laser
Dê uma olhada na foto abaixo. Esta é uma vista superior das duas estações. Hoje não falaremos sobre design - tente encontrar outra diferença importante.

Atenção: não há botões. E não há anel rotativo para ajustar o som. Se criarmos um dispositivo pequeno e leve, quase todos cujos componentes eletrônicos se encaixam em uma placa, os elementos mecânicos apenas complicam o design e aumentam o tamanho.
A voz é a maneira mais natural de controlar alto-falantes inteligentes. Mas acontece que uma pessoa fala ao telefone ou janta, por isso ainda é necessário um subestudo. E nós encontramos uma opção. E não menos natural.
Imagine: você está fazendo um gesto com a mão - e sua música favorita está ficando mais alta. Ou simplesmente coloque a palma da mão na coluna e o alarme dispara.
Então, como funciona a magia com gestos? O sensor de profundidade, oculto sob a tampa do dispositivo, é responsável por ele. É assim que fica no quadro com um aumento significativo (o comprimento na realidade é de apenas 4 mm, a espessura é de 1 mm):

Este é um laser infravermelho de emissão vertical com um comprimento de onda de 940 nm em conjunto com um fotodiodo receptor. A viga salta de um obstáculo acima da coluna e retorna. E como a velocidade da luz é conhecida, é possível a qualquer momento determinar a distância do objeto.

Parece ser suficiente comprar um sensor e conectá-lo à placa para que tudo funcione bem. Mas não.
O sensor está oculto por dentro, acima dele existem furos no gabinete (caso contrário, como funcionaria). Isso significa que poeira e outros detritos podem distorcer as medições.
Precisamos de uma placa de proteção que cubra o laser e o fotodiodo, mas que se encaixe no estojo. Seu material é estritamente regulado, pois nem todos os tipos de plástico funcionam bem na faixa do infravermelho próximo. Com um forte desejo, o vidro também pode ser cortado, mas é bastante difícil, o que significa que é muito caro.

Além disso, cada placa de proteção é fundida e única no sentido literal. É impossível fazer duas placas idênticas. Portanto, cada um deles, à sua maneira, afeta a propagação do feixe. Se isso não for levado em consideração, obteremos um erro ao medir a distância.
Cada nova Mini Station passa por uma etapa de calibração do sensor no transportador para levar em consideração as características individuais da lente. Simplificando, para que o dispositivo perceba um obstáculo a uma altura de 15 cm nessa altura. Calibração é algo parecido com isto. As folhas são retiradas de materiais semelhantes ao papel fotográfico, mas não ultrapassam a faixa de infravermelho e são colocadas estaticamente a uma altura conhecida.
Como resultado, chegamos ao estágio em que você precisa testar a precisão do sensor no dispositivo montado. Mas acabou que um dispositivo industrial pronto para isso simplesmente não existe. Não há nada a ser feito - eles construíram seu dispositivo. Na foto abaixo, você pode ver o primeiro protótipo em nosso escritório em Moscou, montado literalmente a partir de folhas de compensado impressas em uma impressora 3D de buchas, dois motores e um controlador para controlá-los. Essa coisa move automaticamente a plataforma, simulando uma mão acima da coluna para avaliar com que precisão o sensor determina a distância.

Mais tarde, cópias finas foram enviadas para produção.
Estamos estabilizando o poder
É hora de pensar na fonte de alimentação, sobre a qual prometemos falar acima.
A coluna consome energia. Em média, um pouco menos de 5 watts, mesmo em alto volume. Mas, diferentemente de muitos outros pequenos eletrodomésticos, seu consumo é extremamente desigual. Percebemos esse efeito em um protótipo inicial quando usamos um sensor de gesto enquanto ouvíamos esta faixa:
Tente adivinhar o que há de errado com ele? Transições repentinas para baixas frequências. E como as frequências baixas diferem das altas? A amplitude de oscilação do diafragma do alto-falante. Quanto mais alto, mais energia o dispositivo consome.
Acrescente a isso controle de gestos, comandos de voz, tráfego de rede - e você obtém momentos curtos, mas imprevisíveis, em que o consumo aumenta tanto que fontes de alimentação simples simplesmente não conseguem lidar com o suporte de tensão estável. Por exemplo, as cobranças típicas dos smartphones não são projetadas para isso, porque essa classe de dispositivos possui uma bateria e o consumo é bastante uniforme. A coluna, se a tensão de alimentação diminuir brevemente, pode simplesmente reiniciar.
Para evitar esse problema, testamos protótipos em um som com uma frequência de 100 Hz. É nele que o alto-falante cria a maior carga. Nossa fonte de alimentação externa, embora pareça uma carga típica com um USB tipo C de 1,5 amperes, está pronta para essas situações. Além disso, entendemos que as pessoas podem conectar suas próprias fontes de alimentação; portanto, durante o desenvolvimento, elas substituíram os conversores de energia internos (os chamados conversores DC-DC) por aqueles que podem suportar quedas de tensão de curto prazo. Obviamente, fontes de alimentação de terceiros são diferentes, não as testamos nem as recomendamos, mas a solução com a substituição dos conversores ajuda.
A propósito, também levamos em conta os desejos dos usuários: o Station Mini branco possui uma fonte de alimentação e um fio brancos. Um pouco, mas legal.
Faça gestos
Um dispositivo e sensor estáveis é apenas metade da batalha. Resta inventar os próprios gestos. A melhor maneira de criar algo é coletar o máximo de idéias e filtrá-las e testá-las passo a passo. Fizemos exatamente isso: organizamos um hackathon interno com prêmios. Qualquer funcionário da empresa poderia oferecer e realizar imediatamente seus gestos para o dispositivo. No Yandex, essa abordagem funciona bem.
Havia muitas opções. Nós os eliminamos de acordo com vários critérios, mas o mais importante - dois. Em primeiro lugar, se uma função é popular e frequentemente necessária, o gesto para ela deve ser simples e facilmente reproduzível. Em segundo lugar, um gesto de sucesso é intuitivo. Você pode escrever instruções, gravar um vídeo de treinamento, mas tudo isso é menos eficaz do que a boa e velha intuição.
Decidimos rapidamente o gesto "Alice, pare com isso". Os usuários já estão acostumados a colocar as mãos em um despertador, telefone ou relógio inteligente para interromper o som.
Mas com o gesto de ajustar o som, tudo não era tão óbvio. Tivemos duas opções de vencedor. Em ambos, entendeu-se que o som é controlado usando uma escala vertical imaginária acima do alto-falante. Mas basta colocar a mão acima do alto-falante: quanto maior a distância, maior o volume? Ou é melhor fazer uma escala relativa e mover a palma da mão para cima / baixo para alterar suavemente o volume?

O teste UX é adequado para encontrar respostas para essas perguntas. No Yandex, foi criado um laboratório especial para isso: trazemos pessoas da rua para lá e observamos como elas usam o produto. Essa prática é bastante útil.
Esperávamos que uma das duas opções vencesse definitivamente nos testes de experiência do usuário. Mas não desta vez. O comportamento das pessoas foi dividido aproximadamente igualmente. Então, você precisa verificar as duas opções. O mesmo aconteceu na versão beta, e seus participantes rapidamente apontaram uma falha significativa da escala absoluta. Esta opção leva ao fato de que uma onda aleatória da mão (ou o vôo de um gato) pode repentinamente ativar o volume máximo. E isso é desagradável.
A opção de escala relativa ganhou. Embora tenha havido melhorias com base no feedback dos usuários beta. Por exemplo, foram adicionadas heurísticas a partir de objetos em queda aleatória: para o som mudar, a palma da mão deve congelar por um momento na mesma altura e só então se mover. E eles também adicionaram uma indicação sonora dos níveis de volume para que a pessoa pudesse ouvir exatamente quantos passos ele havia alterado.
Isso poderia ter encerrado a história, mas os colegas que trabalhavam em gestos se mostraram grandes amantes da música e maneiras não-convencionais de tocá-la.
Adicionar gravitsapu
No decorrer dos trabalhos sobre gestos, nasceu a seguinte idéia: com a ajuda dos movimentos das mãos, não apenas ajuste o volume, mas também crie música. Mais tarde, lembramos que essa idéia já é aplicada no termo. Este instrumento eletromusical foi criado em 1920 pelo inventor soviético Lev Sergeyevich Termen. Theremin funciona da seguinte maneira: os movimentos das mãos alteram a capacidade do seu circuito oscilatório e, consequentemente, a frequência do som. Basta ouvir o próprio inventor:

O instrumento clássico de Leo Theremin usa um campo eletromagnético e duas antenas: para controlar o volume e o tom. Temos apenas um raio infravermelho, para que você possa controlar com uma coisa. Tomamos o volume como uma constante.
Peter Termen, compositor e intérprete do theremin, bisneto de Lev Theremin, nos ajudou a desenvolver um novo regime. E o músico experimental Anton Maskeliade e o estúdio Monoleak criaram estilos instrumentais para o sintetizador: de pianos e guitarras familiares a espadas e panelas incomuns. Você pode até tocar música espacial - basta dizer: "Alice, dê o som de uma gravitsapa". A coleção já possui várias dezenas de ferramentas e será reabastecida.
No thereminvox, o menor movimento da mão altera a frequência do som. Você precisa ser um profissional com uma mão forte para acertar com precisão as notas e reproduzir algo melódico. Queríamos que todos tocassem música em nosso alto-falante. Portanto, para muitos estilos instrumentais, um raio imaginário foi dividido em segmentos, cada um dos quais recebeu um som específico.
A propósito, inicialmente o modo sintetizador se desenvolveu como um projeto pessoal de um de nossos colegas. Mas as crianças, que também convidamos para o estudo da UX, estavam muito entusiasmadas com o novo regime. Então percebemos que não devemos ser tímidos e devemos trazer iniciativa pessoal para o produto.
***
Hoje mostramos que mesmo um dispositivo pequeno e aparentemente simples esconde toda uma história e inúmeras soluções tecnológicas. Quais histórias individuais você gostaria de ouvir com mais detalhes?
Acreditamos que o futuro está no controle de voz, porque, em muitos casos, é fácil dizer - é muito mais conveniente e mais natural do que pressionar botões. E o novo dispositivo é outro passo nessa direção.