Acabamos de presentar nuestro nuevo dispositivo: Yandex.Station Mini. Este es un altavoz inteligente compacto que puede reproducir música, administrar un hogar inteligente, establecer recordatorios y mucho más. Esta es también la primera columna con Alice, que se puede controlar con gestos.
Hoy les contaremos a los lectores de Habr varias historias sobre las etapas de creación de la Mini Station. Desde calibración óptica y pruebas UX hasta características obvias de trabajar con fuentes de alimentación. También aprenderá qué es el theremin y cómo está asociado con el dispositivo Yandex.

Pero para empezar, un pequeño flashback.
El año pasado,
hablamos en Habré sobre el desarrollo de la "gran" Yandex.Station (y también la plataforma Yandex.IO, que nosotros y nuestros socios usamos). Este es nuestro dispositivo estrella con Alice, diseñado para estar en el centro de una habitación grande al lado del televisor. Ella tiene un potente sonido de 50 vatios. Tres altavoces activos con una amplia gama de frecuencias. Siete micrófonos que funcionan como un solo radar. Salida HDMI, después de todo.
Todo este año no nos quedamos quietos. La voz de Alice se volvió más y más natural. Aprendió a resolver el problema de pronunciación de muchas homógrafos, es decir, según el contexto, es correcto enfatizar las palabras que se escriben igual pero tienen significados diferentes. La audición también se desarrolló: recientemente ya
hablamos sobre cómo le enseñamos a Alice a no responder a los nombres de otras personas. Recientemente, comenzamos a
probar la capacidad de reconocer al propietario de una columna por voz.
Y también
lanzamos la plataforma de casa inteligente. Ahora, con la ayuda de la voz, puede controlar dispositivos de terceros e incluso combinarlos en scripts. El rechazo de controles remotos y botones a favor de la voz es una característica clave de nuestra plataforma. Y para esto, Alice debería estar cerca.
Además, un altavoz inteligente no solo es música, radio y video, sino también recordatorios, un despertador, clima, respuestas fácticas, cuentos de hadas y juegos para niños, etc. El dispositivo puede ser útil en la cama, en la oficina, en la cocina, en Cualquier otro rincón del apartamento.
Por lo tanto, decidimos hacer otra estación, para aquellos que necesitan un dispositivo más simple y compacto con Alice.
Reducir el dispositivo
La mini versión no necesita un sonido fuerte, por lo que los altavoces pesados y grandes fueron reemplazados por un trehvatnym. Esto es más que suficiente para tareas simples. Aunque incluso puede causar problemas con el poder, si no tiene en cuenta un matiz, pero más sobre eso más adelante.
Se negó a acceder a la televisión. Esto reduce la carga, el calor y, por lo tanto, los requisitos para la electrónica. El marco metálico masivo de la estación con un radiador pasivo para enfriamiento también se volvió innecesario.
En lugar de siete micrófonos, quedaron cuatro, porque el sonido fuerte ya no interfiere con la adquisición del habla. Pero al mismo tiempo, los micrófonos, como en la estación, funcionan según el principio de antenas de matriz en fase o un micrófono direccional. El dispositivo busca algorítmicamente en el ruido circundante un comando de voz con la palabra "Alice". Luego determina la dirección y borra la señal del ruido, incluida la resta de música. Y solo después de eso, la señal va a la nube y se reconoce.
Para que el reconocimiento de voz funcione con mayor precisión, la red neuronal necesita capacitación en registros que se hayan hablado específicamente para este dispositivo. No tiene sentido tomar un modelo de red neuronal de la estación "grande", porque su eficiencia en la mini estación no será tan alta.
Este problema puede resolverse de varias maneras. Por ejemplo, contrate personas para leer una columna de frase en una hoja de papel. Pero recibiremos pocos registros que no sean similares a las solicitudes reales de los usuarios, porque en realidad los registros contienen ruido impredecible, voces superpuestas y mucho más.
Por lo tanto, no ahorramos en calidad e inmediatamente pedimos varios cientos de altavoces listos para usar en la fábrica, que distribuimos a los participantes en una prueba beta cerrada en Yandex a cambio de ayuda para entrenar la red neuronal. Y funcionó.
Por cierto, no se negaron al botón de hardware Mute, que desactiva los micrófonos y silencia la "audición" de Alice. No agrega ninguna complejidad particular al dispositivo y ahora está ubicado en el lateral.

Pero los botones restantes fueron abandonados. Y aquí comienza la diversión.
Agrega magia y láser
Echa un vistazo a la foto de abajo. Esta es una vista superior de nuestras dos estaciones. Hoy no hablaremos sobre diseño, trate de encontrar otra diferencia importante.

Tenga en cuenta: no hay botones. Y no hay anillo giratorio para ajustar el sonido. Si fabricamos un dispositivo pequeño y liviano, casi todos cuyos componentes electrónicos encajan en una placa, entonces los elementos mecánicos solo complican el diseño y aumentan el tamaño.
La voz es la forma más natural de controlar altavoces inteligentes. Pero sucede que una persona habla por teléfono o cena, por lo que todavía se necesita un suplente. Y encontramos una opción. Y no menos natural.
Imagínese: está haciendo un gesto con la mano, y su canción favorita se está volviendo más fuerte. O simplemente ponga la palma de su mano en la columna y la alarma sonará.
Entonces, ¿cómo funciona la magia con gestos? El sensor de profundidad, que está oculto debajo de la cubierta del dispositivo, es responsable de ello. Así es como se ve en el tablero con un aumento significativo (la longitud en realidad es de solo 4 mm, el grosor es de 1 mm):

Este es un láser infrarrojo de emisión vertical con una longitud de onda de 940 nm junto con un fotodiodo receptor. El rayo rebota en un obstáculo sobre la columna y regresa. Y como se conoce la velocidad de la luz, es posible determinar en cualquier momento la distancia al objeto.

Parece ser suficiente comprar un sensor y conectarlo a la placa para que todo funcione bien. Pero no
El sensor está oculto en el interior, encima hay agujeros en la carcasa (de lo contrario, ¿cómo funcionaría?). Esto significa que el polvo y otros desechos pueden distorsionar las mediciones.
Necesitamos una placa protectora que cubra el láser y el fotodiodo, pero cabe en el estuche. Su material está estrictamente regulado, ya que no todos los tipos de plástico funcionan bien en el rango infrarrojo cercano. Con un fuerte deseo, el vidrio también se puede cortar, pero es bastante difícil, lo que significa que es muy costoso.

Además, cada placa protectora está fundida y es única en sentido literal. Es imposible hacer dos platos idénticos. Entonces, cada uno de ellos a su manera afecta la propagación del haz. Si esto no se tiene en cuenta, obtendremos un error al medir la distancia.
Cada nueva Mini Station se somete a un paso de calibración del sensor en el transportador para tener en cuenta las características individuales de la lente. En pocas palabras, para que el dispositivo perciba un obstáculo a una altura de 15 cm a esta altura. La calibración es algo como esto. Las hojas se toman de materiales similares al papel fotográfico, pero no pasan el rango infrarrojo, y se colocan estáticamente a una altura conocida.
Como resultado, llegamos a la etapa en la que necesita probar la precisión del sensor en el dispositivo ensamblado. Pero resultó que simplemente no existe un dispositivo industrial listo para esto. No hay nada que hacer: construyeron su dispositivo. En la foto a continuación, puede ver el primer prototipo en nuestra oficina en Moscú, ensamblado literalmente a partir de láminas de madera contrachapada impresas en una impresora 3D de arbustos, dos motores y un controlador para controlarlos. Esta cosa mueve automáticamente la plataforma simulando una mano sobre la columna para evaluar con qué precisión el sensor determina la distancia.

Finas copias fueron luego enviadas a producción.
Estamos estabilizando el poder
Es hora de pensar en la fuente de alimentación, de la que prometimos hablar más arriba.
La columna consume energía. En promedio un poco, menos de 5 vatios, incluso a gran volumen. Pero, a diferencia de muchos otros pequeños electrodomésticos, su consumo es extremadamente desigual. Notamos este efecto en un prototipo temprano cuando usamos un sensor de gestos mientras escuchamos esta pista:
¿Intentas adivinar qué le pasa? Transiciones repentinas a bajas frecuencias. ¿Y cómo difieren las bajas frecuencias de las altas? La amplitud de oscilación del diafragma del hablante. Cuanto más alto es, más energía consume el dispositivo.
Agregue a este control de gestos, comandos de voz, tráfico de red, y obtendrá momentos breves pero impredecibles en los que el consumo aumenta tanto que las fuentes de alimentación simples simplemente no pueden soportar el soporte de voltaje estable. Por ejemplo, los cargos típicos para teléfonos inteligentes no están diseñados para esto, porque esta clase de dispositivos tiene una batería y el consumo es bastante uniforme. La columna, si el voltaje de suministro se hunde brevemente, simplemente puede reiniciarse.
Para evitar este problema, probamos prototipos en un sonido con una frecuencia de 100 Hz. Es en él que el altavoz crea la mayor carga. Nuestra fuente de alimentación externa, aunque parece una carga típica con un USB Tipo-C de 1.5 amperios, está lista para tales situaciones. Además, entendemos que las personas pueden conectar sus propias fuentes de alimentación, por lo que durante el desarrollo reemplazaron los convertidores de potencia internos (los llamados convertidores CC-CC) por aquellos que pueden soportar caídas de voltaje a corto plazo. Por supuesto, las fuentes de alimentación de terceros son diferentes, no las probamos y no las recomendamos, pero la solución para reemplazar los convertidores ayuda.
Por cierto, también tomamos en cuenta los deseos de los usuarios: la estación blanca Mini tiene una fuente de alimentación y un cable blancos. Un poco, pero agradable.
Hacer gestos
Un dispositivo estable y un sensor son solo la mitad de la batalla. Queda por hacer los gestos mismos. La mejor manera de llegar a algo es recolectar un máximo de ideas y luego filtrarlas y probarlas paso a paso. Lo hicimos: organizamos un hackathon interno con premios. Cualquier empleado de la empresa podría ofrecer y darse cuenta inmediatamente de sus gestos para el dispositivo. En Yandex, este enfoque funciona bien.
Había muchas opciones. Los eliminamos según varios criterios, pero el más importante: dos. En primer lugar, si una función es popular y a menudo requerida, entonces el gesto para ello debe ser simple y fácilmente reproducible. En segundo lugar, un gesto exitoso es intuitivo. Puedes escribir instrucciones, grabar un video de entrenamiento, pero todo esto es menos efectivo que la vieja intuición.
Rápidamente decidimos el gesto "Alice, para". Los usuarios ya están acostumbrados a poner sus manos en un reloj despertador, teléfono, reloj inteligente para detener el sonido.
Pero con el gesto de ajustar el sonido, no todo fue tan obvio. Teníamos dos opciones ganadoras. En ambos, se entendió que el sonido se controla usando una escala vertical imaginaria sobre el altavoz. Pero, ¿es suficiente simplemente colocar la mano sobre el altavoz: cuanto mayor es la distancia, mayor es el volumen? ¿O es mejor tomar una escala relativa y mover la palma hacia arriba / abajo para cambiar suavemente el volumen?

Las pruebas de UX son adecuadas para encontrar respuestas a tales preguntas. Para esto, se ha creado un laboratorio especial en Yandex: traemos gente de la calle y observamos cómo usan el producto. Esta práctica es bastante útil.
Esperamos que una de las dos opciones definitivamente gane en las pruebas de UX. Pero no esta vez. El comportamiento de las personas se dividió aproximadamente por igual. Por lo tanto, debe verificar ambas opciones. Así lo hicimos en la versión beta, y sus participantes señalaron con la suficiente rapidez una deficiencia significativa de la escala absoluta. Esta opción lleva al hecho de que una ola aleatoria de la mano (o el vuelo de un gato) puede activar repentinamente el volumen máximo. Y esto es desagradable.
La opción de escala relativa ganó. Aunque ha habido mejoras basadas en los comentarios de los usuarios beta. Por ejemplo, se agregaron heurísticas de objetos que caen al azar: para que el sonido cambie, la palma debería congelarse por un momento a la misma altura y solo luego moverse. Y también agregaron una indicación sonora de los niveles de volumen para que la persona pudiera escuchar exactamente cuántos pasos había cambiado.
Esto podría haber terminado la historia, pero los colegas que trabajaban en gestos resultaron ser grandes amantes de la música y formas no estándar de tocarla.
Añadir gravitsapu
En el curso del trabajo sobre los gestos, nació la siguiente idea: con la ayuda de los movimientos de las manos, no solo ajusta el volumen, sino que también crea música. Más tarde recordamos que esta idea ya se aplica en el theremin. Este instrumento electromusical fue creado en 1920 por el inventor soviético Lev Sergeyevich Termen. Theremin funciona de la siguiente manera: los movimientos de las manos cambian la capacidad de su circuito oscilatorio y, en consecuencia, la frecuencia del sonido. Solo escucha al inventor mismo:

El instrumento clásico de Leo Theremin utiliza un campo electromagnético y dos antenas: para controlar el volumen y el tono. Tenemos solo un rayo infrarrojo, por lo que puede controlar con una sola cosa. Tomamos el volumen como una constante.
Peter Termen, compositor e intérprete de theremin, bisnieto de Lev Theremin, nos ayudó a desarrollar un nuevo régimen. Y el músico experimental Anton Maskeliade y el estudio Monoleak crearon estilos instrumentales para el sintetizador: desde pianos y guitarras familiares hasta espadas y sartenes inusuales. Incluso puedes reproducir música espacial, solo di: "Alice, da el sonido de un gravitsapa". La colección ya tiene varias docenas de herramientas, y se repondrá.
En el thereminvox, el movimiento más leve de la mano cambia la frecuencia del sonido. Debes ser un profesional con una mano fuerte para golpear con precisión las notas y reproducir algo melódico. Queríamos que todos tocaran música en nuestro altavoz. Por lo tanto, para muchos estilos instrumentales, un rayo imaginario se dividió en segmentos, a cada uno de los cuales se le asignó un sonido específico.
Por cierto, inicialmente el modo sintetizador se desarrolló como un proyecto personal de uno de nuestros colegas. Pero los niños, a quienes también invitamos al estudio UX, estaban muy entusiasmados con el nuevo régimen. Entonces nos dimos cuenta de que no debemos ser tímidos y debemos aportar iniciativa personal al producto.
***
Hoy demostramos que incluso un dispositivo pequeño y aparentemente simple esconde toda una historia y numerosas soluciones tecnológicas. ¿Qué historias individuales le gustaría escuchar con más detalle?
Creemos que el futuro está en el control por voz, porque en muchos casos es fácil de decir: es mucho más conveniente y más natural que presionar botones. Y el nuevo dispositivo es otro paso en esta dirección.