Découvrez Yandex.Station Mini. Grande histoire d'un petit appareil

Nous venons de présenter notre nouvel appareil - Yandex.Station Mini. Il s'agit d'un haut-parleur intelligent compact qui peut jouer de la musique, gérer une maison intelligente, définir des rappels - et bien plus encore. C'est également la première colonne avec Alice, qui peut être contrôlée par des gestes.

Aujourd'hui, nous raconterons aux lecteurs de Habr plusieurs histoires sur les étapes de la création de la Mini Station. De l'étalonnage optique et des tests UX aux fonctionnalités non évidentes de l'utilisation des alimentations. Vous apprendrez également ce qu'est le theremin et comment il est associé à l'appareil Yandex.



Mais pour commencer, un petit flashback.

L'année dernière, nous avons discuté sur Habré du développement de la "grande" Yandex.Station (ainsi que de la plateforme Yandex.IO, que nous et nos partenaires utilisons). Il s'agit de notre appareil phare avec Alice, conçu pour être au centre d'une grande pièce à côté du téléviseur. Elle a un son puissant de 50 watts. Trois haut-parleurs actifs avec une large gamme de fréquences. Sept microphones fonctionnant comme un seul radar. Sortie HDMI, après tout.

Toute cette année, nous ne sommes pas restés immobiles. La voix d'Alice est devenue de plus en plus naturelle. Elle a appris à résoudre le problème de prononciation pour de nombreux homographes, c'est-à-dire qu'en fonction du contexte, il est correct de mettre l'accent sur des mots qui sont écrits de la même manière mais qui ont des significations différentes. L'audition s'est également développée: récemment, nous avons déjà parlé de la façon dont nous avons appris à Alice à ne pas répondre aux noms des autres. Récemment, nous avons commencé à tester la capacité de reconnaître le propriétaire d'une colonne par la voix.

Et nous avons également lancé la plateforme de la maison intelligente. Maintenant, avec l'aide de la voix, vous pouvez contrôler des appareils tiers et même les combiner en scripts. Le rejet des télécommandes et des boutons au profit de la voix est une caractéristique clé de notre plateforme. Et pour cela, Alice devrait être à proximité.

De plus, un haut-parleur intelligent n'est pas seulement de la musique, de la radio et de la vidéo, mais aussi des rappels, un réveil, la météo, des réponses factuelles, des contes de fées et des jeux pour enfants, etc. L'appareil peut être utile près du lit, au bureau, dans la cuisine, dans tout autre coin de l'appartement.

Par conséquent, nous avons décidé de créer une autre station - pour ceux qui ont besoin d'un appareil plus simple et plus compact avec Alice.

Réduisez l'appareil


La mini-version n'a pas besoin d'un son fort, donc les haut-parleurs lourds et grands ont été remplacés par un trehvatnym. C'est plus que suffisant pour des tâches simples. Même si cela peut causer des problèmes d'alimentation, si vous ne prenez pas en compte une nuance, mais plus à ce sujet plus tard.

Refusé d'accéder au téléviseur. Cela réduit la charge, la chaleur et, par conséquent, les exigences en matière d'électronique. Le cadre métallique massif de la station avec un radiateur passif pour le refroidissement est également devenu inutile.

Au lieu de sept microphones, il en restait quatre, car le son fort n'interfère plus avec l'acquisition de la parole. Mais en même temps, les microphones, comme dans la Station, fonctionnent sur le principe des antennes multiéléments, ou un microphone directionnel. L'appareil recherche par algorithme dans le bruit environnant une commande vocale avec le mot "Alice". Il détermine ensuite la direction et supprime le signal du bruit, y compris la soustraction de musique. Et seulement après cela, le signal va dans le cloud et est reconnu.

Pour que la reconnaissance vocale fonctionne le plus précisément possible, le réseau neuronal doit être formé sur les enregistrements qui ont été prononcés spécifiquement pour cet appareil. Cela n'a aucun sens de prendre un modèle de réseau neuronal de la "grande" Station, car son efficacité dans la Mini Station ne sera pas si élevée.

Ce problème peut être résolu de différentes manières. Par exemple, embauchez des gens pour lire une colonne de phrases sur un morceau de papier. Mais nous recevrons peu d'enregistrements qui ne sont pas similaires aux demandes réelles des utilisateurs, car en réalité, les enregistrements contiennent du bruit imprévisible, des voix qui se chevauchent et bien plus encore.

Par conséquent, nous n'avons pas économisé sur la qualité et avons immédiatement commandé plusieurs centaines de haut-parleurs prêts à l'emploi à l'usine, que nous avons distribués aux participants dans un test bêta fermé à Yandex en échange d'une aide à la formation du réseau neuronal. Et ça a marché.

Soit dit en passant, ils n'ont pas refusé du bouton matériel Mute, qui désexcite les microphones et coupe l '«audition» d'Alice. Il n'ajoute aucune complexité particulière à l'appareil et se trouve désormais sur le côté.



Mais les boutons restants ont été abandonnés. Et ici, le plaisir commence.

Ajoutez de la magie et du laser


Jetez un œil à la photo ci-dessous. Ceci est une vue de dessus de nos deux stations. Aujourd'hui, nous ne parlerons pas de design - essayez de trouver une autre différence importante.



Attention: il n'y a pas de boutons. Et il n'y a pas de bague rotative pour régler le son. Si nous fabriquons un petit appareil léger, dont la quasi-totalité de l'électronique tient sur une seule carte, les éléments mécaniques ne font que compliquer la conception et augmenter la taille.

La voix est le moyen le plus naturel de contrôler des haut-parleurs intelligents. Mais il arrive qu'une personne parle au téléphone ou dîne, donc une sous-étude est toujours nécessaire. Et nous avons trouvé une option. Et pas moins naturel.

Imaginez: vous faites un geste de la main - et votre chanson préférée devient plus forte. Ou mettez simplement votre paume sur la colonne et l'alarme se déclenche.

Alors, comment fonctionne la magie avec les gestes? Le capteur de profondeur, caché sous le couvercle de l'appareil, en est responsable. Voici à quoi cela ressemble sur la planche avec une augmentation significative (la longueur en réalité n'est que de 4 mm, l'épaisseur est de 1 mm):



Il s'agit d'un laser infrarouge à émission verticale d'une longueur d'onde de 940 nm associé à une photodiode réceptrice. Le faisceau rebondit sur un obstacle au-dessus de la colonne et revient. Et comme la vitesse de la lumière est connue, il est possible à tout moment de déterminer la distance à l'objet.



Il semble suffisant d'acheter un capteur et de le connecter à la carte pour que tout fonctionne bien. Mais non.

Le capteur est caché à l'intérieur, au-dessus, il y a des trous dans le boîtier (sinon, comment cela fonctionnerait-il). Cela signifie que la poussière et autres débris peuvent fausser les mesures.

Nous avons besoin d'une plaque de protection qui couvrira le laser et la photodiode, mais elle s'adaptera au boîtier. Son matériau est strictement réglementé, car tous les types de plastique ne fonctionnent pas bien dans le proche infrarouge. Avec un fort désir, le verre peut également être découpé, mais c'est assez difficile, ce qui signifie qu'il est très cher.



De plus, chaque plaque de protection est coulée et unique au sens littéral. Il est impossible de faire deux plaques identiques. Ainsi, chacun d'eux à sa manière affecte la propagation du faisceau. Si cela n'est pas pris en compte, nous obtiendrons une erreur dans la mesure de la distance.

Chaque nouvelle Mini Station subit une étape de calibration du capteur sur le convoyeur pour prendre en compte les caractéristiques individuelles de la lentille. Autrement dit, pour que l'appareil perçoive un obstacle à une hauteur de 15 cm à cette hauteur. L'étalonnage est quelque chose comme ça. Les feuilles sont tirées de matériaux similaires au papier photographique, mais ne dépassent pas la plage infrarouge et sont statiquement placées à une hauteur connue.

En conséquence, nous avons atteint le stade où vous devez tester la précision du capteur dans l'appareil assemblé. Mais il s'est avéré qu'un dispositif industriel prêt à l'emploi n'existe tout simplement pas. Il n'y a rien à faire - ils ont construit leur appareil. Sur la photo ci-dessous, vous pouvez voir le premier prototype dans notre bureau à Moscou, assemblé littéralement à partir de feuilles de contreplaqué imprimées sur une imprimante 3D de buissons, deux moteurs et un contrôleur pour les contrôler. Cette chose déplace automatiquement la plate-forme simulant une main au-dessus de la colonne pour évaluer la précision avec laquelle le capteur détermine la distance.



De beaux exemplaires ont ensuite été envoyés à la production.

Nous stabilisons la puissance


Il est temps de penser à l'alimentation dont nous avons promis de parler plus haut.

La colonne consomme de l'énergie. En moyenne un peu, moins de 5 watts même à fort volume. Mais, contrairement à de nombreux autres petits appareils électroménagers, sa consommation est extrêmement inégale. Nous avons remarqué cet effet sur un premier prototype lorsque nous avons utilisé un capteur gestuel lors de l'écoute de cette piste:


Essayez de deviner ce qui ne va pas avec lui? Transitions soudaines vers les basses fréquences. Et en quoi les basses fréquences diffèrent-elles des hautes? L'amplitude d'oscillation du diaphragme du haut-parleur. Plus il est élevé, plus l'appareil consomme d'énergie.

Ajoutez à ce contrôle gestuel, les commandes vocales, le trafic réseau - et vous obtenez des moments courts, mais imprévisibles, où la consommation saute tellement que de simples alimentations ne peuvent tout simplement pas faire face à la prise en charge d'une tension stable. Par exemple, les charges typiques pour les smartphones ne sont pas conçues pour cela, car cette classe d'appareils a une batterie et la consommation est assez uniforme. La colonne, si la tension d'alimentation s'affaisse brièvement, peut simplement redémarrer.

Pour éviter ce problème, nous avons testé des prototypes sur un son d'une fréquence de 100 Hz. C'est sur lui que l'enceinte crée la plus grande charge. Notre alimentation externe, bien qu'elle ressemble à une charge typique avec un USB Type-C de 1,5 ampère, est prête pour de telles situations. De plus, nous comprenons que les gens peuvent connecter leurs propres alimentations.Par conséquent, au cours du développement, ils ont remplacé les convertisseurs de puissance internes (les soi-disant convertisseurs DC-DC) par ceux qui peuvent résister à des chutes de tension à court terme. Bien sûr, les alimentations tierces sont différentes, nous ne les testons pas et ne les recommandons pas, mais la solution avec le remplacement des convertisseurs aide.

Soit dit en passant, nous avons également pris en compte les souhaits des utilisateurs: la Station Mini blanche a une alimentation et un fil blancs. Un peu, mais sympa.

Faire des gestes


Un appareil et un capteur stables ne représentent que la moitié de la bataille. Reste à trouver les gestes eux-mêmes. La meilleure façon de trouver quelque chose est de collecter un maximum d'idées, puis de les filtrer et de les tester étape par étape. C'est ce que nous avons fait: organisé un hackathon interne avec des prix. Tout employé de l'entreprise pouvait proposer et réaliser immédiatement ses gestes pour l'appareil. Dans Yandex, cette approche fonctionne bien.

Il y avait de nombreuses options. Nous les avons éliminés selon plusieurs critères, mais le plus important - deux. Premièrement, si une fonction est populaire et souvent requise, le geste doit être simple et facilement reproductible. Deuxièmement, un geste réussi est intuitif. Vous pouvez écrire des instructions, tourner une vidéo de formation, mais tout cela est moins efficace que la bonne vieille intuition.

Nous avons rapidement décidé du geste "Alice, arrête ça." Les utilisateurs ont déjà l'habitude de simplement mettre la main sur un réveil, un téléphone, une montre intelligente pour arrêter le son.

Mais avec le geste d'ajuster le son, tout n'était pas si évident. Nous avions deux options gagnantes. Dans les deux cas, il était entendu que le son est contrôlé à l'aide d'une échelle verticale imaginaire au-dessus du haut-parleur. Mais suffit-il de placer simplement votre main au-dessus du haut-parleur: plus la distance est grande, plus le volume est élevé? Ou est-il préférable de prendre une échelle relative et de déplacer votre paume vers le haut / bas pour changer le volume en douceur?



Les tests UX sont bien adaptés pour trouver des réponses à de telles questions. À Yandex, un laboratoire spécial a été créé pour cela: nous y amenons des gens de la rue et observons comment ils utilisent le produit. Cette pratique est assez utile.

Nous espérions que l'une des deux options gagnerait définitivement aux tests UX. Mais pas cette fois. Le comportement des gens était divisé à peu près également. Vous devez donc vérifier les deux options. Nous l'avons donc fait dans la version bêta, et ses participants ont assez rapidement signalé une lacune importante de l'échelle absolue. Cette option conduit au fait qu'une onde aléatoire de la main (ou le vol d'un chat) peut brusquement allumer le volume maximum. Et c'est désagréable.

L'option d'échelle relative a gagné. Bien qu'il y ait eu des améliorations basées sur les commentaires des utilisateurs bêta. Par exemple, des heuristiques ont été ajoutées à partir d'objets tombant au hasard: pour que le son change, la paume devrait geler un instant à la même hauteur et ensuite seulement bouger. Et ils ont également ajouté une indication sonore des niveaux de volume afin que la personne puisse entendre exactement combien de pas elle avait changé.

Cela aurait pu mettre fin à l'histoire, mais les collègues travaillant sur les gestes se sont avérés être de grands amateurs de musique et de manières non standard de la jouer.

Ajouter gravitsapu


Au cours du travail sur les gestes, l'idée suivante est née: à l'aide des mouvements de la main, non seulement régler le volume, mais aussi créer de la musique. Plus tard, nous nous sommes souvenus que cette idée était déjà appliquée au theremin. Cet instrument électromusical a été créé en 1920 par l'inventeur soviétique Lev Sergeyevich Termen. Theremin fonctionne comme suit: les mouvements de la main modifient la capacité de son circuit oscillatoire et, par conséquent, la fréquence du son. Écoutez l'inventeur lui-même:



L'instrument classique de Leo Theremin utilise un champ électromagnétique et deux antennes: pour contrôler le volume et la hauteur. Nous n'avons qu'un seul rayon infrarouge, vous pouvez donc contrôler avec une seule chose. Nous avons pris le volume comme constante.

Peter Termen, compositeur et interprète du theremin, arrière-petit-fils de Lev Theremin, nous a aidés à développer un nouveau régime. Et le musicien expérimental Anton Maskeliade et le studio Monoleak ont ​​créé des styles instrumentaux pour le synthétiseur: des pianos et guitares familiers aux épées et poêles inhabituelles. Vous pouvez même jouer de la musique spatiale - dites simplement: "Alice, donne le son d'une gravitsapa." La collection compte déjà plusieurs dizaines d'outils, et elle sera réapprovisionnée.

Dans le thereminvox, le moindre mouvement de la main modifie la fréquence du son. Vous devez être un professionnel avec une main forte pour frapper avec précision les notes et reproduire quelque chose de mélodique. Nous voulions que tout le monde joue de la musique sur notre haut-parleur. Par conséquent, pour de nombreux styles instrumentaux, un rayon imaginaire a été divisé en segments, chacun ayant reçu un son spécifique.

Soit dit en passant, le mode synthétiseur s'est d'abord développé comme un projet personnel de l'un de nos collègues. Mais les enfants, que nous avons également invités à l'étude UX, étaient très enthousiastes à propos du nouveau régime. Nous avons donc réalisé que nous ne devrions pas être timides et apporter une initiative personnelle au produit.

***


Aujourd'hui, nous avons montré que même un petit appareil apparemment simple cache toute une histoire et de nombreuses solutions technologiques. Quelles histoires individuelles aimeriez-vous entendre plus en détail?

Nous pensons que l'avenir repose sur la commande vocale, car dans de nombreux cas, c'est facile à dire - c'est beaucoup plus pratique et plus naturel que d'appuyer sur des boutons. Et le nouvel appareil est un autre pas dans cette direction.

Source: https://habr.com/ru/post/fr470642/


All Articles