Temui Yandex.Station Mini. Kisah besar perangkat kecil

Kami baru saja memperkenalkan perangkat baru kami - Yandex.Station Mini. Ini adalah speaker cerdas yang dapat memutar musik, mengelola rumah pintar, mengatur pengingat - dan banyak lagi. Ini juga merupakan kolom pertama dengan Alice, yang dapat dikontrol dengan gerakan.

Hari ini kami akan menceritakan kepada para pembaca Habr beberapa cerita tentang tahapan pembuatan Stasiun Mini. Dari kalibrasi optik dan pengujian UX hingga fitur yang tidak terlihat saat bekerja dengan catu daya. Anda juga akan belajar apa theremin itu dan bagaimana kaitannya dengan perangkat Yandex.



Tapi sebagai permulaan, kilas balik kecil.

Tahun lalu, kami berbicara di Habré tentang pengembangan Yandex.Station "besar" (dan juga platform Yandex.IO, yang kami dan mitra gunakan). Ini adalah perangkat andalan kami dengan Alice, yang dirancang untuk berada di tengah ruangan besar di sebelah TV. Dia memiliki suara 50 watt yang kuat. Tiga speaker aktif dengan berbagai frekuensi. Tujuh mikrofon berfungsi sebagai satu radar. Output HDMI, setelah semua.

Sepanjang tahun ini kami tidak berdiri diam. Suara Alice menjadi semakin alami. Dia belajar untuk memecahkan masalah pengucapan untuk banyak homograf, yaitu, tergantung pada konteksnya, adalah benar untuk menekankan kata-kata yang ditulis sama tetapi memiliki arti yang berbeda. Pendengaran juga berkembang: baru-baru ini kami telah berbicara tentang bagaimana kami mengajar Alice untuk tidak menanggapi nama orang lain. Baru-baru ini, kami mulai menguji kemampuan untuk mengenali pemilik kolom dengan suara.

Dan kami juga meluncurkan platform rumah pintar. Sekarang, dengan bantuan suara, Anda dapat mengontrol perangkat pihak ketiga dan bahkan menggabungkannya ke dalam skrip. Penolakan remote dan tombol yang mendukung suara adalah fitur utama dari platform kami. Dan untuk ini, Alice harus berada di dekatnya.

Selain itu, speaker pintar tidak hanya musik, radio, dan video, tetapi juga pengingat, jam alarm, cuaca, jawaban faktual, dongeng dan permainan untuk anak-anak, dll. Perangkat ini dapat berguna di tempat tidur, di kantor, di dapur, di sudut lain dari apartemen.

Oleh karena itu, kami memutuskan untuk membuat Stasiun lain - bagi mereka yang membutuhkan perangkat yang lebih sederhana dan lebih kompak dengan Alice.

Kurangi perangkat


Versi mini tidak membutuhkan suara keras, sehingga speaker besar dan berat digantikan oleh satu trehvatny. Ini lebih dari cukup untuk tugas-tugas sederhana. Meski pun bisa menimbulkan masalah dengan kekuatan, jika Anda tidak memperhitungkan satu nuansa, tetapi lebih pada nanti.

Menolak mengakses TV. Ini mengurangi beban, panas, dan, karenanya, persyaratan untuk elektronik. Rangka logam besar Stasiun dengan radiator pasif untuk pendinginan juga menjadi tidak perlu.

Alih-alih tujuh mikrofon, empat yang tersisa, karena suara keras tidak lagi mengganggu perolehan suara. Tetapi pada saat yang sama, mikrofon, seperti pada Station, bekerja berdasarkan prinsip antena array bertahap, atau mikrofon directional. Perangkat secara algoritmik mencari di sekitar suara untuk perintah suara dengan kata "Alice". Kemudian menentukan arah dan membersihkan sinyal dari kebisingan, termasuk mengurangi musik. Dan hanya setelah itu sinyal masuk ke cloud dan dikenali.

Agar pengenalan ucapan berfungsi paling akurat, jaringan saraf perlu dilatih tentang catatan yang telah diucapkan khusus untuk perangkat ini. Tidak masuk akal untuk mengambil model jaringan saraf dari Stasiun "besar", karena efisiensinya di Stasiun Mini tidak akan begitu tinggi.

Masalah ini dapat diselesaikan dengan berbagai cara. Misalnya, pekerjakan orang untuk membacakan kolom frasa di selembar kertas. Tetapi kami akan menerima beberapa catatan yang tidak mirip dengan permintaan pengguna yang sebenarnya, karena dalam kenyataannya catatan berisi suara yang tidak dapat diprediksi, suara yang tumpang tindih, dan banyak lagi.

Oleh karena itu, kami tidak menghemat kualitas dan segera memesan beberapa ratus speaker siap pakai di pabrik, yang kami bagikan kepada peserta dalam uji beta tertutup di Yandex sebagai imbalan atas bantuan dalam pelatihan jaringan saraf. Dan itu berhasil.

Ngomong-ngomong, mereka tidak menolak dari tombol hardware Mute, yang menghilangkan energi mikrofon dan membisukan "pendengaran" Alice. Itu tidak menambah kompleksitas tertentu ke perangkat dan sekarang terletak di samping.



Tetapi tombol yang tersisa ditinggalkan. Dan di sini kesenangan dimulai.

Tambahkan sihir dan laser


Lihatlah foto di bawah ini. Ini adalah tampilan teratas dari kedua Stasiun kami. Hari ini kita tidak akan berbicara tentang desain - cobalah untuk menemukan perbedaan penting lainnya.



Harap dicatat: tidak ada tombol. Dan tidak ada cincin putar untuk mengatur suara. Jika kita membuat perangkat kecil, ringan, hampir semua barang elektroniknya muat di satu papan, maka elemen mekanis hanya memperumit desain dan memperbesar ukuran.

Suara adalah cara paling alami untuk mengendalikan speaker cerdas. Tetapi kebetulan seseorang berbicara di telepon atau makan malam, sehingga pengganti masih diperlukan. Dan kami menemukan opsi. Dan tidak kalah alami.

Bayangkan: Anda membuat gerakan tangan - dan lagu favorit Anda semakin keras. Atau cukup letakkan telapak tangan Anda di kolom dan alarm berbunyi.

Jadi bagaimana cara kerja sihir dengan gerak tubuh? Sensor kedalaman, yang disembunyikan di bawah penutup perangkat, bertanggung jawab untuk itu. Ini adalah tampilannya di papan tulis dengan peningkatan yang signifikan (panjang sebenarnya hanya 4 mm, ketebalannya 1 mm):



Ini adalah laser inframerah yang memancarkan vertikal dengan panjang gelombang 940 nm bersamaan dengan fotodioda penerima. Balok memantul dari hambatan di atas kolom dan kembali. Dan karena kecepatan cahaya diketahui, dimungkinkan kapan saja untuk menentukan jarak ke objek.



Tampaknya cukup untuk membeli sensor dan menghubungkannya ke papan sehingga semuanya berfungsi dengan baik. Tapi tidak.

Sensor tersembunyi di dalam, di atasnya ada lubang di kasing (jika tidak, bagaimana cara kerjanya). Ini berarti bahwa debu dan kotoran lainnya dapat merusak pengukuran.

Kita membutuhkan pelat pelindung yang akan menutupi laser dan fotodioda, tetapi itu akan sesuai dengan kasingnya. Bahannya diatur secara ketat, karena tidak semua jenis plastik bekerja dengan baik dalam jangkauan inframerah dekat. Dengan keinginan yang kuat, kaca juga bisa dipotong, tetapi itu cukup sulit, yang artinya sangat mahal.



Selain itu, setiap lempeng pelindung dilemparkan dan unik dalam arti literal. Tidak mungkin membuat dua lempeng yang identik. Jadi, masing-masing dari mereka dengan caranya sendiri mempengaruhi perambatan balok. Jika ini tidak diperhitungkan, maka kami akan mendapatkan kesalahan dalam mengukur jarak.

Setiap Stasiun Mini baru menjalani langkah kalibrasi sensor pada konveyor untuk memperhitungkan karakteristik masing-masing lensa. Sederhananya, sehingga perangkat merasakan hambatan pada ketinggian 15 cm pada ketinggian ini. Kalibrasi adalah sesuatu seperti ini. Lembar diambil dari bahan yang mirip dengan kertas foto, tetapi tidak melewati kisaran inframerah, dan ditempatkan secara statis pada ketinggian yang diketahui.

Akibatnya, kami mencapai tahap ketika Anda perlu menguji keakuratan sensor di perangkat yang dirakit. Tetapi ternyata perangkat industri yang sudah jadi untuk ini tidak ada. Tidak ada yang bisa dilakukan - mereka membangun perangkat mereka. Dalam foto di bawah ini, Anda dapat melihat prototipe pertama di kantor kami di Moskow, dirakit secara harfiah dari lembaran kayu lapis yang dicetak pada printer 3D semak-semak, dua motor dan pengontrol untuk mengendalikannya. Hal ini secara otomatis memindahkan platform mensimulasikan tangan di atas kolom untuk mengevaluasi seberapa akurat sensor menentukan jarak.



Salinan halus kemudian dikirim ke produksi.

Kami menstabilkan kekuatan


Sudah waktunya untuk memikirkan catu daya, yang kami janjikan untuk dibicarakan di atas.

Kolom mengkonsumsi energi. Rata-rata sedikit, kurang dari 5 watt bahkan pada volume tinggi. Tetapi, tidak seperti banyak peralatan rumah tangga kecil lainnya, konsumsinya sangat tidak merata. Kami memperhatikan efek ini pada prototipe awal ketika kami menggunakan sensor gerakan saat mendengarkan lagu ini:


Coba tebak apa yang salah dengannya? Transisi mendadak ke frekuensi rendah. Dan bagaimana perbedaan frekuensi rendah dari frekuensi tinggi? Amplitudo osilasi diafragma speaker. Semakin tinggi, semakin banyak energi yang dikonsumsi perangkat.

Tambahkan ke kontrol gerakan ini, perintah suara, lalu lintas jaringan - dan Anda mendapatkan momen pendek, tetapi tak terduga ketika konsumsi melonjak begitu banyak sehingga pasokan daya sederhana tidak bisa mengatasi dukungan dari tegangan stabil. Misalnya, biaya tipikal untuk ponsel cerdas tidak dirancang untuk ini, karena perangkat kelas ini memiliki baterai dan konsumsi yang cukup seragam. Kolom, jika voltase pasokan turun secara singkat, cukup reboot.

Untuk menghindari masalah ini, kami menguji prototipe pada suara dengan frekuensi 100 Hz. Di sinilah pembicara menciptakan beban terbesar. Catu daya eksternal kami, meskipun terlihat seperti muatan biasa dengan USB Type-C 1,5 ampere, siap untuk situasi seperti itu. Selain itu, kami memahami bahwa orang-orang dapat menghubungkan catu daya mereka sendiri, sehingga selama pengembangan mereka mengganti konverter daya internal (yang disebut konverter DC-DC) dengan yang dapat tahan terhadap penurunan tegangan jangka pendek. Tentu saja, catu daya pihak ketiga berbeda, kami tidak mengujinya dan tidak merekomendasikan mereka, tetapi solusi dengan mengganti konverter membantu.

Omong-omong, kami juga memperhitungkan keinginan pengguna: Mini Station putih memiliki catu daya dan kabel putih. Agak, tapi bagus.

Lakukan gerakan


Perangkat dan sensor yang stabil hanya setengah pertempuran. Masih muncul dengan gerakan sendiri. Cara terbaik untuk menghasilkan sesuatu adalah dengan mengumpulkan ide maksimal, dan kemudian menyaringnya dan mengujinya langkah demi langkah. Kami melakukan hal itu: mengorganisir hackathon internal dengan hadiah. Setiap karyawan perusahaan dapat menawarkan dan segera menyadari gerakan mereka untuk perangkat tersebut. Di Yandex, pendekatan ini bekerja dengan baik.

Ada banyak pilihan. Kami menghilangkannya berdasarkan beberapa kriteria, tetapi yang paling penting - dua. Pertama, jika suatu fungsi populer dan sering diperlukan, maka isyarat untuknya harus sederhana dan mudah direproduksi. Kedua, gerakan yang sukses adalah intuitif. Anda dapat menulis instruksi, merekam video pelatihan, tetapi semua ini kurang efektif daripada intuisi lama yang baik.

Kami dengan cepat memutuskan gerakan itu, "Alice, hentikan." Pengguna sudah terbiasa hanya meletakkan tangan mereka di atas jam alarm, telepon, jam tangan pintar untuk menghentikan suara.

Tetapi dengan gerakan menyesuaikan suara, semuanya tidak begitu jelas. Kami memiliki dua opsi pemenang. Dalam keduanya, dipahami bahwa suara dikendalikan menggunakan skala vertikal imajiner di atas speaker. Tetapi apakah itu cukup dengan menempatkan tangan Anda di atas pengeras suara: semakin besar jarak, semakin tinggi volumenya? Atau lebih baik mengambil skala relatif dan menggerakkan telapak tangan Anda naik / turun untuk dengan lancar mengubah volume?



Pengujian UX sangat cocok untuk menemukan jawaban atas pertanyaan seperti itu. Di Yandex, sebuah laboratorium khusus telah dibuat untuk ini: kami membawa orang-orang dari jalan di sana dan mengamati bagaimana mereka menggunakan produk. Latihan ini cukup bermanfaat.

Kami berharap salah satu dari dua opsi pasti akan menang dalam pengujian UX. Tapi tidak kali ini. Perilaku orang dibagi kira-kira sama. Jadi, Anda perlu memeriksa kedua opsi. Jadi kami melakukannya dalam versi beta, dan para pesertanya dengan cepat menunjukkan kelemahan signifikan dari skala absolut. Pilihan ini mengarah pada fakta bahwa gelombang acak tangan (atau pelarian kucing) tiba-tiba dapat mengaktifkan volume maksimum. Dan ini tidak menyenangkan.

Opsi skala relatif dimenangkan. Meskipun telah ada perbaikan berdasarkan umpan balik dari pengguna beta. Sebagai contoh, heuristik ditambahkan dari benda jatuh acak: agar suara berubah, telapak tangan harus membeku sesaat pada ketinggian yang sama dan baru kemudian bergerak. Dan mereka juga menambahkan indikasi tingkat volume suara sehingga orang tersebut dapat mendengar dengan tepat berapa banyak langkah yang telah dia ubah.

Ini bisa mengakhiri ceritanya, tetapi para kolega yang mengerjakan gerakan ternyata adalah pecinta musik yang besar dan cara bermain yang tidak standar.

Tambahkan gravitsapu


Dalam perjalanan bekerja pada gerakan, ide berikut lahir: dengan bantuan gerakan tangan, tidak hanya menyesuaikan volume, tetapi juga menciptakan musik. Kemudian kami ingat bahwa ide ini sudah diterapkan di theremin. Instrumen elektromusikal ini diciptakan pada 1920 oleh penemu Soviet Lev Sergeyevich Termen. Mereka bekerja sebagai berikut: gerakan tangan mengubah kapasitas sirkuit osilasi dan, karenanya, frekuensi suara. Dengarkan saja sang penemu:



Instrumen klasik Leo Theremin menggunakan medan elektromagnetik dan dua antena: untuk mengontrol volume dan nada. Kami hanya memiliki satu sinar inframerah, sehingga Anda dapat mengontrol dengan satu hal. Kami mengambil volume sebagai konstanta.

Peter Termen, seorang komposer dan pemain di theremin, cicit Lev Theremin, membantu kami mengembangkan rezim baru. Dan musisi eksperimental Anton Maskeliade dan studio Monoleak menciptakan gaya instrumental untuk synthesizer: dari piano dan gitar yang sudah dikenal hingga pedang dan wajan yang tidak biasa. Anda bahkan dapat memainkan musik luar angkasa - katakan saja: "Alice, berikan suara gravitsapa." Koleksinya sudah memiliki beberapa lusin alat, dan itu akan diisi ulang.

Dalam thereminvox, gerakan tangan sekecil apa pun mengubah frekuensi suara. Anda harus menjadi seorang profesional dengan tangan yang kuat untuk secara akurat menekan catatan dan mereproduksi sesuatu yang melodi. Kami ingin semua orang memainkan musik di speaker kami. Oleh karena itu, untuk banyak gaya instrumental, sinar imajiner dibagi menjadi beberapa segmen, yang masing-masing diberi suara tertentu.

Omong-omong, awalnya mode synthesizer dikembangkan sebagai proyek pribadi salah satu kolega kami. Tetapi anak-anak, yang kami juga undang ke studi UX, sangat antusias dengan rezim baru. Jadi kami menyadari bahwa kami tidak boleh malu dan harus membawa inisiatif pribadi ke produk.

***


Hari ini kami menunjukkan bahwa bahkan perangkat kecil dan tampaknya sederhana menyembunyikan seluruh sejarah dan berbagai solusi teknologi. Apa cerita individu yang ingin Anda dengar secara lebih rinci?

Kami percaya bahwa masa depan terletak pada kontrol suara, karena dalam banyak kasus mudah untuk mengatakannya - jauh lebih nyaman dan lebih alami daripada menekan tombol. Dan perangkat baru adalah langkah lain ke arah ini.

Source: https://habr.com/ru/post/id470642/


All Articles