Treffen Sie Yandex.Station Mini. Große Geschichte eines kleinen Geräts

Wir haben gerade unser neues Gerät vorgestellt - Yandex.Station Mini. Dies ist ein kompakter Smart-Lautsprecher, mit dem Sie Musik abspielen, ein Smart Home verwalten, Erinnerungen festlegen und vieles mehr können. Dies ist auch die erste Spalte mit Alice, die mit Gesten gesteuert werden kann.

Heute werden wir den Lesern von Habr einige Geschichten über die Phasen der Erstellung der Mini Station erzählen. Von der optischen Kalibrierung über UX-Tests bis hin zu nicht offensichtlichen Funktionen beim Arbeiten mit Netzteilen. Sie erfahren auch, was das Theremin ist und wie es mit dem Yandex-Gerät verbunden ist.



Aber für den Anfang ein kleiner Rückblick.

Letztes Jahr haben wir auf Habré über die Entwicklung der „großen“ Yandex.Station (und auch der Yandex.IO-Plattform, die wir und unsere Partner verwenden) gesprochen. Dies ist unser Flaggschiff mit Alice, das sich in der Mitte eines großen Raums neben dem Fernseher befindet. Sie hat einen kraftvollen 50-Watt-Sound. Drei aktive Lautsprecher mit einem breiten Frequenzbereich. Sieben Mikrofone arbeiten als ein einziges Radar. Immerhin HDMI-Ausgang.

Das ganze Jahr standen wir nicht still. Alices Stimme wurde immer natürlicher. Sie lernte, das Ausspracheproblem für viele Homographen zu lösen, dh je nach Kontext ist es richtig, Wörter hervorzuheben, die gleich geschrieben sind, aber unterschiedliche Bedeutungen haben. Das Hören entwickelte sich auch: Vor kurzem haben wir bereits darüber gesprochen, wie wir Alice beigebracht haben, nicht auf die Namen anderer zu reagieren. Vor kurzem haben wir begonnen , die Fähigkeit zu testen , den Besitzer einer Spalte anhand der Stimme zu erkennen.

Außerdem haben wir die Smart-Home-Plattform eingeführt. Mithilfe von Sprache können Sie jetzt Geräte von Drittanbietern steuern und sogar zu Skripten kombinieren. Die Ablehnung von Fernbedienungen und Tasten zugunsten der Sprache ist ein wesentliches Merkmal unserer Plattform. Und dafür sollte Alice in der Nähe sein.

Darüber hinaus ist ein intelligenter Lautsprecher nicht nur Musik, Radio und Video, sondern auch Erinnerungen, ein Wecker, Wetter, sachliche Antworten, Märchen und Spiele für Kinder usw. Das Gerät kann am Bett, im Büro, in der Küche, in nützlich sein jede andere Ecke der Wohnung.

Aus diesem Grund haben wir uns für eine weitere Station entschieden - für diejenigen, die mit Alice ein einfacheres und kompakteres Gerät benötigen.

Reduzieren Sie das Gerät


Die Mini-Version benötigt keinen lauten Sound, daher wurden die schweren und großen Lautsprecher durch einen Trehvatnym ersetzt. Dies ist mehr als genug für einfache Aufgaben. Auch wenn es Probleme mit der Stromversorgung geben kann, wenn Sie nicht eine Nuance berücksichtigen, sondern später mehr dazu.

Weigerte sich, auf den Fernseher zuzugreifen. Dies reduziert die Last, Wärme und damit die Anforderungen an die Elektronik. Der massive Metallrahmen der Station mit einem passiven Kühler zur Kühlung wurde ebenfalls unnötig.

Anstelle von sieben Mikrofonen blieben vier übrig, da lauter Ton die Sprachaufnahme nicht mehr stört. Gleichzeitig arbeiten Mikrofone wie in der Station nach dem Prinzip von Phased-Array-Antennen oder einem Richtmikrofon. Das Gerät sucht im Umgebungsgeräusch algorithmisch nach einem Sprachbefehl mit dem Wort "Alice". Dann bestimmt es die Richtung und löscht das Signal vom Rauschen, einschließlich des Subtrahierens von Musik. Und erst danach geht das Signal in die Cloud und wird erkannt.

Damit die Spracherkennung am genauesten funktioniert, muss das neuronale Netzwerk auf Aufzeichnungen trainiert werden, die speziell für dieses Gerät gesprochen wurden. Es macht keinen Sinn, ein neuronales Netzwerkmodell von der "großen" Station zu nehmen, da seine Effizienz in der Mini-Station nicht so hoch sein wird.

Dieses Problem kann auf verschiedene Arten gelöst werden. Stellen Sie beispielsweise Mitarbeiter ein, die eine Phrasenspalte auf einem Blatt Papier vorlesen. Wir werden jedoch nur wenige Datensätze erhalten, die den tatsächlichen Benutzeranforderungen nicht ähnlich sind, da die Datensätze in Wirklichkeit unvorhersehbares Rauschen, überlappende Stimmen und vieles mehr enthalten.

Aus diesem Grund haben wir nicht an Qualität gespart und sofort mehrere hundert vorgefertigte Lautsprecher im Werk bestellt, die wir an die Teilnehmer eines Closed Beta-Tests in Yandex verteilten, um Hilfe beim Training des neuronalen Netzwerks zu erhalten. Und es hat funktioniert.

Übrigens haben sie sich nicht von der Hardware-Taste Mute geweigert, die die Mikrofone abschaltet und Alices „Gehör“ stummschaltet. Es fügt dem Gerät keine besondere Komplexität hinzu und befindet sich jetzt an der Seite.



Aber die restlichen Knöpfe wurden aufgegeben. Und hier beginnt der Spaß.

Fügen Sie Magie und Laser hinzu


Schauen Sie sich das Foto unten an. Dies ist eine Draufsicht auf unsere beiden Stationen. Heute werden wir nicht über Design sprechen - versuchen Sie einen weiteren wichtigen Unterschied zu finden.



Bitte beachten Sie: Es gibt keine Schaltflächen. Und es gibt keinen Drehring, um den Klang einzustellen. Wenn wir ein kleines, leichtes Gerät herstellen, dessen Elektronik fast vollständig auf eine Platine passt, erschweren die mechanischen Elemente nur das Design und erhöhen die Größe.

Sprache ist die natürlichste Art, intelligente Lautsprecher zu steuern. Es kommt jedoch vor, dass eine Person telefoniert oder speist, sodass noch eine Zweitbesetzung erforderlich ist. Und wir haben eine Option gefunden. Und nicht weniger natürlich.

Stellen Sie sich vor: Sie machen eine Handbewegung - und Ihr Lieblingslied wird lauter. Oder legen Sie einfach Ihre Handfläche auf die Säule und der Alarm geht aus.

Wie funktioniert Magie mit Gesten? Verantwortlich dafür ist der Tiefensensor, der unter der Abdeckung des Gerätes versteckt ist. So sieht es auf der Platte mit einer deutlichen Zunahme aus (die Länge beträgt in Wirklichkeit nur 4 mm, die Dicke beträgt überhaupt 1 mm):



Dies ist ein vertikal emittierender Infrarotlaser mit einer Wellenlänge von 940 nm in Verbindung mit einer empfangenden Fotodiode. Der Strahl prallt von einem Hindernis über der Säule ab und kehrt zurück. Und da die Lichtgeschwindigkeit bekannt ist, ist es jederzeit möglich, die Entfernung zum Objekt zu bestimmen.



Es scheint genug zu sein, einen Sensor zu kaufen und ihn an die Platine anzuschließen, damit alles gut funktioniert. Aber nein.

Der Sensor ist im Inneren versteckt, darüber befinden sich Löcher im Gehäuse (ansonsten, wie würde es funktionieren). Dies bedeutet, dass Staub und andere Fremdkörper die Messungen verzerren können.

Wir brauchen eine Schutzplatte, die den Laser und die Fotodiode abdeckt, aber sie passt in das Gehäuse. Das Material ist streng reguliert, da nicht alle Arten von Kunststoffen im nahen Infrarotbereich gut funktionieren. Mit einem starken Wunsch kann Glas auch ausgeschnitten werden, aber es ist ziemlich schwierig, was bedeutet, dass es sehr teuer ist.



Darüber hinaus ist jede Schutzplatte gegossen und im wahrsten Sinne des Wortes einzigartig. Es ist unmöglich, zwei identische Platten herzustellen. Jeder von ihnen beeinflusst auf seine Weise die Ausbreitung des Strahls. Wenn dies nicht berücksichtigt wird, erhalten wir einen Fehler beim Messen der Entfernung.

Jede neue Mini Station wird auf dem Förderband einem Sensorkalibrierungsschritt unterzogen, um die individuellen Eigenschaften der Linse zu berücksichtigen. Einfach ausgedrückt, damit das Gerät in dieser Höhe ein Hindernis in einer Höhe von 15 cm wahrnimmt. Kalibrierung ist so etwas. Blätter werden aus Materialien entnommen, die Fotopapier ähneln, jedoch den Infrarotbereich nicht überschreiten, und statisch in einer bekannten Höhe platziert.

Als Ergebnis haben wir das Stadium erreicht, in dem Sie die Genauigkeit des Sensors im zusammengebauten Gerät testen müssen. Es stellte sich jedoch heraus, dass es dafür einfach kein fertiges Industriegerät gibt. Es gibt nichts zu tun - sie haben ihr Gerät gebaut. Auf dem Foto unten sehen Sie den ersten Prototyp in unserem Büro in Moskau, der buchstäblich aus Sperrholzplatten zusammengesetzt ist, die auf einem 3D-Drucker aus Büschen, zwei Motoren und einer Steuerung gedruckt sind, um sie zu steuern. Dieses Ding bewegt die Plattform automatisch und simuliert eine Hand über der Säule, um zu bewerten, wie genau der Sensor die Entfernung bestimmt.



Feine Kopien wurden später zur Produktion geschickt.

Wir stabilisieren die Macht


Es ist Zeit, über das Netzteil nachzudenken, über das wir oben gesprochen haben.

Die Säule verbraucht Energie. Im Durchschnitt etwas weniger als 5 Watt auch bei hoher Lautstärke. Im Gegensatz zu vielen anderen kleinen Haushaltsgeräten ist der Verbrauch jedoch äußerst ungleichmäßig. Wir haben diesen Effekt bei einem frühen Prototyp festgestellt, als wir beim Anhören dieses Tracks einen Gestensensor verwendeten:


Versuchen Sie zu erraten, was mit ihm los ist? Plötzliche Übergänge zu niedrigen Frequenzen. Und wie unterscheiden sich niedrige Frequenzen von hohen? Die Schwingungsamplitude der Membran des Lautsprechers. Je höher es ist, desto mehr Energie verbraucht das Gerät.

Fügen Sie dieser Gestensteuerung Sprachbefehle und Netzwerkverkehr hinzu - und Sie erhalten kurze, aber unvorhersehbare Momente, in denen der Verbrauch so stark steigt, dass einfache Netzteile die Unterstützung einer stabilen Spannung einfach nicht bewältigen können. Beispielsweise sind typische Gebühren für Smartphones nicht dafür ausgelegt, da diese Geräteklasse über einen Akku verfügt und der Verbrauch ziemlich gleichmäßig ist. Wenn die Versorgungsspannung kurzzeitig nachlässt, kann die Säule einfach neu gestartet werden.

Um dieses Problem zu vermeiden, haben wir Prototypen an einem Sound mit einer Frequenz von 100 Hz getestet. Darauf erzeugt der Lautsprecher die größte Last. Unser externes Netzteil ist für solche Situationen bereit, obwohl es wie eine typische Ladung mit einem USB-Typ C von 1,5 Ampere aussieht. Darüber hinaus wissen wir, dass Menschen ihre eigenen Stromversorgungen anschließen können. Während der Entwicklung haben sie interne Stromrichter (die sogenannten DC-DC-Wandler) durch solche ersetzt, die kurzfristigen Spannungsabfällen standhalten können. Natürlich sind Netzteile von Drittanbietern unterschiedlich, wir testen sie nicht und empfehlen sie nicht, aber die Lösung beim Ersetzen der Konverter hilft.

Übrigens haben wir auch die Wünsche der Nutzer berücksichtigt: Die weiße Station Mini hat ein weißes Netzteil und Kabel. Eine Kleinigkeit, aber nett.

Gesten machen


Ein stabiles Gerät und Sensor ist nur die halbe Miete. Es bleibt, sich die Gesten selbst auszudenken. Der beste Weg, um etwas zu finden, besteht darin, ein Maximum an Ideen zu sammeln, sie dann herauszufiltern und Schritt für Schritt zu testen. Wir haben genau das getan: einen internen Hackathon mit Preisen organisiert. Jeder Mitarbeiter des Unternehmens kann seine Gesten für das Gerät anbieten und sofort umsetzen. In Yandex funktioniert dieser Ansatz gut.

Es gab viele Möglichkeiten. Wir haben sie nach mehreren Kriterien beseitigt, aber nach den wichtigsten - zwei. Erstens, wenn eine Funktion beliebt ist und häufig benötigt wird, sollte die Geste dafür einfach und leicht reproduzierbar sein. Zweitens ist eine erfolgreiche Geste intuitiv. Sie können Anweisungen schreiben, ein Trainingsvideo aufnehmen, aber all dies ist weniger effektiv als die gute alte Intuition.

Wir entschieden uns schnell für die Geste "Alice, hör auf." Benutzer sind bereits daran gewöhnt, nur einen Wecker, ein Telefon oder eine Smartwatch in die Hand zu nehmen, um den Ton zu stoppen.

Aber mit der Geste, den Klang anzupassen, war nicht alles so offensichtlich. Wir hatten zwei Gewinneroptionen. In beiden Fällen wurde verstanden, dass der Ton unter Verwendung einer imaginären vertikalen Skala über dem Lautsprecher gesteuert wird. Aber reicht es aus, einfach die Hand über den Lautsprecher zu legen: Je größer der Abstand, desto höher die Lautstärke? Oder ist es besser, eine relative Skala zu nehmen und die Handfläche nach oben / unten zu bewegen, um die Lautstärke reibungslos zu ändern?



UX-Tests eignen sich gut, um Antworten auf solche Fragen zu finden. In Yandex wurde dafür ein spezielles Labor eingerichtet: Wir bringen Menschen von der Straße dorthin und beobachten, wie sie das Produkt verwenden. Diese Praxis ist ziemlich nützlich.

Wir hofften, dass eine von zwei Optionen beim UX-Testen definitiv gewinnen würde. Aber diesmal nicht. Das Verhalten der Menschen war ungefähr gleich verteilt. Sie müssen also beide Optionen überprüfen. So haben wir es in der Beta gemacht, und die Teilnehmer haben schnell genug auf einen signifikanten Mangel der absoluten Skala hingewiesen. Diese Option führt dazu, dass eine zufällige Handbewegung (oder der Flug einer Katze) plötzlich die maximale Lautstärke aktivieren kann. Und das ist unangenehm.

Die relative Skalierungsoption hat gewonnen. Obwohl es Verbesserungen gab, die auf dem Feedback von Beta-Benutzern basierten. Zum Beispiel wurden Heuristiken von zufällig fallenden Objekten hinzugefügt: Damit sich der Klang ändert, sollte die Handfläche für einen Moment auf derselben Höhe einfrieren und sich erst dann bewegen. Außerdem wurde eine akustische Anzeige der Lautstärke hinzugefügt, damit die Person genau hören konnte, wie viele Schritte sie geändert hatte.

Dies hätte die Geschichte beenden können, aber die Kollegen, die an Gesten arbeiteten, erwiesen sich als große Liebhaber von Musik und nicht standardmäßigen Spielweisen.

Gravitsapu hinzufügen


Bei der Arbeit an Gesten entstand folgende Idee: Mit Hilfe von Handbewegungen nicht nur die Lautstärke einstellen, sondern auch Musik erzeugen. Später erinnerten wir uns daran, dass diese Idee bereits im Theremin angewendet wird. Dieses elektromusikalische Instrument wurde 1920 vom sowjetischen Erfinder Lev Sergejewitsch Termen geschaffen. Theremin funktioniert wie folgt: Handbewegungen verändern die Kapazität seines Schwingkreises und dementsprechend die Schallfrequenz. Hören Sie einfach dem Erfinder selbst zu:



Das klassische Instrument von Leo Theremin verwendet ein elektromagnetisches Feld und zwei Antennen: zur Steuerung von Lautstärke und Tonhöhe. Wir haben nur einen Infrarotstrahl, so dass Sie mit einer Sache steuern können. Wir haben die Lautstärke als Konstante genommen.

Peter Termen, Komponist und Performer des Theremins, Urenkel von Lev Theremin, half uns bei der Entwicklung eines neuen Regimes. Die experimentellen Musiker Anton Maskeliade und Monoleak Studio entwickelten Instrumentalstile für den Synthesizer: von bekannten Klavieren und Gitarren bis zu ungewöhnlichen Schwertern und Pfannen. Sie können sogar Weltraummusik spielen - sagen Sie einfach: "Alice, geben Sie den Klang eines Gravitsapa." Die Sammlung enthält bereits mehrere Dutzend Werkzeuge und wird wieder aufgefüllt.

Bei der Thereminvox ändert die geringste Handbewegung die Frequenz des Tons. Sie müssen ein Profi mit einer starken Hand sein, um die Noten genau zu treffen und etwas Melodisches zu reproduzieren. Wir wollten, dass jeder Musik auf unserem Lautsprecher spielt. Daher wurde für viele Instrumentalstile ein imaginärer Strahl in Segmente unterteilt, denen jeweils ein bestimmter Klang zugewiesen wurde.

Übrigens entwickelte sich der Synthesizer-Modus zunächst als persönliches Projekt eines unserer Kollegen. Aber die Kinder, die wir auch zur UX-Studie eingeladen haben, waren sehr begeistert von dem neuen Regime. Deshalb haben wir erkannt, dass wir nicht schüchtern sein und persönliche Initiative in das Produkt einbringen sollten.

***.


Heute haben wir gezeigt, dass selbst ein kleines und scheinbar einfaches Gerät eine ganze Geschichte und zahlreiche technologische Lösungen verbirgt. Welche einzelnen Geschichten möchten Sie genauer hören?

Wir glauben, dass die Zukunft in der Sprachsteuerung liegt, da dies in vielen Fällen leicht zu sagen ist - es ist viel bequemer und natürlicher als das Drücken von Tasten. Und das neue Gerät ist ein weiterer Schritt in diese Richtung.

Source: https://habr.com/ru/post/de470642/


All Articles