تعرف على Yandex.Station Mini. قصة كبيرة من جهاز صغير

لقد قدمنا ​​للتو جهازنا الجديد - Yandex.Station Mini. هذا مكبر صوت ذكي صغير يمكنه تشغيل الموسيقى وإدارة المنزل الذكي وتعيين التذكيرات وغير ذلك الكثير. هذا هو أيضًا العمود الأول مع Alice ، والذي يمكن التحكم فيه بالإيماءات.

اليوم سوف نروي لقراء هبر عدة قصص عن مراحل إنشاء المحطة الصغيرة. من المعايرة البصرية واختبار UX إلى ميزات غير واضحة للعمل مع مزودات الطاقة. سوف تتعلم أيضًا ماهية theremin وكيف يرتبط بجهاز Yandex.



ولكن بالنسبة للمبتدئين ، الفلاش باك صغير.

في العام الماضي ، تحدثنا عن Habré حول تطوير Yandex.Station "الكبيرة" (وأيضًا منصة Yandex.IO ، التي نستخدمها نحن وشركاؤنا). هذا هو الجهاز الرئيسي لدينا مع Alice ، المصمم ليكون في وسط غرفة كبيرة بجوار التلفزيون. لديها صوت قوي بقوة 50 واط. ثلاثة مكبرات صوت نشطة مع مجموعة واسعة من الترددات. سبعة ميكروفونات تعمل كرادار واحد. خرج HDMI ، بعد كل شيء.

كل هذا العام لم نقف مكتوفي الأيدي. أصبح صوت أليس أكثر وأكثر طبيعية. لقد تعلمت حل مشكلة النطق للعديد من التواقيع ، وهذا يعني ، حسب السياق ، أنه من الصحيح التأكيد على الكلمات المكتوبة بالطريقة نفسها ولكن لها معاني مختلفة. تم تطوير السمع أيضًا: لقد تحدثنا مؤخرًا عن الطريقة التي علمنا بها أليس عدم الرد على أسماء الآخرين. في الآونة الأخيرة ، بدأنا اختبار القدرة على التعرف على صاحب العمود عن طريق الصوت.

وأطلقنا أيضًا منصة المنزل الذكي. الآن ، بمساعدة الصوت ، يمكنك التحكم في أجهزة الجهات الخارجية وحتى دمجها في البرامج النصية. يعد رفض أجهزة التحكم عن بعد والأزرار لصالح الصوت ميزة أساسية في نظامنا الأساسي. ولهذا ، يجب أن تكون أليس في مكان قريب.

بالإضافة إلى ذلك ، لا تكون السماعة الذكية هي الموسيقى والراديو والفيديو فقط ، ولكنها أيضًا تذكير وساعة منبه وطقس وإجابات واقعية وقصص وألعاب خرافية للأطفال ، إلخ. يمكن أن يكون الجهاز مفيدًا بالسرير أو في المكتب أو في المطبخ أو في أي زاوية أخرى من الشقة.

لذلك ، قررنا إنشاء محطة أخرى - لأولئك الذين يحتاجون إلى جهاز أبسط وأكثر إحكاما مع أليس.

خفض الجهاز


لا تحتاج النسخة المصغرة إلى صوت عالٍ ، لذا تم استبدال السماعات الثقيلة والكبيرة بصيغة trehvatnym واحدة. هذا أكثر من كاف للمهام البسيطة. على الرغم من أنه يمكن أن يسبب مشكلة في الطاقة ، إلا أنك إذا لم تأخذ بعين الاعتبار فارقًا بسيطًا ، ولكن أكثر من ذلك في وقت لاحق.

رفض الوصول إلى التلفزيون. هذا يقلل من الحمل والحرارة ، وبالتالي ، متطلبات الالكترونيات. أصبح الإطار المعدني الضخم للمحطة مع المبرد السلبي للتبريد غير ضروري.

بدلاً من سبعة ميكروفونات ، تم ترك أربعة ، لأن الصوت العالي لم يعد يتداخل مع اكتساب الكلام. ولكن في الوقت نفسه ، تعمل الميكروفونات ، كما هو الحال في المحطة ، على مبدأ هوائيات الصفيف التدريجي ، أو الميكروفون الاتجاهي. يبحث الجهاز حسابيًا في الضوضاء المحيطة عن أمر صوتي مع كلمة "Alice". ثم يحدد الاتجاه ويمسح الإشارة من الضوضاء ، بما في ذلك طرح الموسيقى. وفقط بعد ذلك تذهب الإشارة إلى السحابة ومعترف بها.

من أجل أن يعمل التعرف على الكلام بشكل أكثر دقة ، يجب تدريب الشبكة العصبية على السجلات التي تم التحدث بها خصيصًا لهذا الجهاز. ليس من المنطقي أخذ نموذج الشبكة العصبية من المحطة "الكبيرة" ، لأن كفاءتها في المحطة الصغيرة لن تكون عالية جدًا.

هذه المشكلة يمكن حلها بطرق مختلفة. على سبيل المثال ، استأجر أشخاصًا لقراءة عمود عبارة على قطعة من الورق. لكننا سنتلقى بعض السجلات التي لا تتشابه مع طلبات المستخدم الفعلية ، لأن السجلات تحتوي في الواقع على ضوضاء غير متوقعة ، أصوات متداخلة وغير ذلك الكثير.

لذلك ، لم نحفظ الجودة ، وطلبنا على الفور مئات السماعات الجاهزة في المصنع ، والتي وزعناها على المشاركين في اختبار تجريبي مغلق في ياندكس في مقابل الحصول على مساعدة في تدريب الشبكة العصبية. وانها عملت.

بالمناسبة ، لم يرفضوا من زر الأجهزة كتم الصوت ، الذي يلغي تنشيط الميكروفونات ويكتم "سماع" أليس. لا يضيف أي تعقيد معين على الجهاز ويقع الآن على الجانب.



ولكن تم التخلي عن الأزرار المتبقية. وهنا تبدأ المتعة.

أضف السحر والليزر


ألقِ نظرة على الصورة أدناه. هذا هو رأي أعلى من كل من المحطات لدينا. اليوم لن نتحدث عن التصميم - حاول أن تجد فرقًا مهمًا آخر.



يرجى ملاحظة: لا توجد أزرار. وليس هناك حلقة دوارة لضبط الصوت. إذا صنعنا جهازًا صغيرًا وخفيف الوزن ، تقريبًا كافة الأجهزة الإلكترونية تناسبه على لوحة واحدة ، فإن العناصر الميكانيكية فقط تعقد التصميم وتزيد من الحجم.

الصوت هو الطريقة الأكثر طبيعية للتحكم في السماعات الذكية. ولكن يحدث أن يتحدث شخص ما على الهاتف أو يتناول الطعام ، لذلك لا تزال هناك حاجة إلى حنان. ووجدنا خيارًا. وليس أقل طبيعية.

تخيل: أنت تقوم بإيماءة يد - وأغنيتك المفضلة أصبحت أعلى. أو ضع كفك على العمود وينطلق المنبه.

فكيف يعمل السحر مع الإيماءات؟ مستشعر العمق ، المخفي تحت غطاء الجهاز ، مسؤول عن ذلك. هذه هي الطريقة التي تبدو بها على اللوحة مع زيادة كبيرة (الطول في الواقع هو 4 مم فقط ، سمك 1 مم على الإطلاق):



هذا هو ليزر الأشعة تحت الحمراء ينبعث رأسيا بطول موجة من 940 نانومتر بالتزامن مع الثنائي الضوئي المستلم. شعاع ترتد قبالة عقبة فوق العمود والعودة. ونظرًا لأن سرعة الضوء معروفة ، فمن الممكن في أي وقت تحديد المسافة إلى الكائن.



يبدو كافيًا لشراء جهاز استشعار وتوصيله باللوحة بحيث يعمل كل شيء بشكل جيد. لكن لا.

يتم إخفاء المستشعر من الداخل ، وفوقه توجد ثقوب في العلبة (وإلا ، كيف ستعمل). وهذا يعني أن الغبار والحطام الأخرى يمكن أن تشوه القياسات.

نحتاج إلى صفيحة واقية تغطي الليزر والديود الضوئي ، لكنها ستكون مناسبة في العلبة. يتم تنظيم موادها بشكل صارم ، حيث لا تعمل جميع أنواع البلاستيك جيدًا في نطاق الأشعة تحت الحمراء القريب. برغبة قوية ، يمكن أيضًا قطع الزجاج ، لكنه صعب جدًا ، مما يعني أنه غالي جدًا.



علاوة على ذلك ، كل لوحة واقية مصبوبة وفريدة من نوعها بالمعنى الحرفي. من المستحيل عمل لوحين متطابقين. لذلك ، كل منهم بطريقته الخاصة يؤثر على انتشار الشعاع. إذا لم يؤخذ ذلك في الاعتبار ، فسنحصل على خطأ في قياس المسافة.

تخضع كل محطة Mini جديدة لخطوة معايرة أجهزة الاستشعار على الناقل لمراعاة الخصائص الفردية للعدسة. ببساطة ، بحيث يرى الجهاز عقبة على ارتفاع 15 سم في هذا الارتفاع. المعايرة شيء من هذا القبيل. تؤخذ الأوراق من مواد تشبه الورق الفوتوغرافي ، ولكن لا تتجاوز نطاق الأشعة تحت الحمراء ، ويتم وضعها بشكل ثابت على ارتفاع معروف.

ونتيجة لذلك ، وصلنا إلى المرحلة عندما تحتاج إلى اختبار دقة المستشعر في الجهاز المجمع. لكن اتضح أن الجهاز الصناعي الجاهزة لهذا ببساطة غير موجود. لا يوجد شيء يجب القيام به - لقد بنوا أجهزتهم. في الصورة أدناه ، يمكنك رؤية النموذج الأولي الأول في مكتبنا في موسكو ، والذي تم تجميعه حرفيًا من ألواح الخشب الرقائقي المطبوعة على طابعة ثلاثية الأبعاد من الشجيرات ، ومحركين ووحدة تحكم للتحكم فيها. يقوم هذا الشيء تلقائيًا بتحريك المنصة التي تحاكي يدًا أعلى العمود لتقييم مدى الدقة التي يحددها المستشعر في المسافة.



تم إرسال نسخ دقيقة لاحقًا إلى الإنتاج.

نحن تحقيق الاستقرار في السلطة


حان الوقت للتفكير في مزود الطاقة ، الذي وعدنا أن نتحدث عنه أعلاه.

العمود يستهلك الطاقة. في المتوسط ​​قليلا ، أقل من 5 واط حتى في حجم كبير. ولكن ، على عكس العديد من الأجهزة المنزلية الصغيرة الأخرى ، فإن استهلاكها غير متساوٍ للغاية. لاحظنا هذا التأثير على النموذج الأولي المبكر عندما استخدمنا جهاز استشعار الإيماءات أثناء الاستماع إلى هذا المسار:


حاول تخمين ما هو الخطأ معه؟ التحولات المفاجئة إلى الترددات المنخفضة. وكيف تختلف الترددات المنخفضة عن الترددات العالية؟ سعة تذبذب الحجاب الحاجز للمتكلم. كلما زاد الأمر ، زادت الطاقة التي يستهلكها الجهاز.

أضف إلى هذا التحكم بالإيماءات ، والأوامر الصوتية ، وحركة مرور الشبكة - وتحصل على لحظات قصيرة ، ولكن لا يمكن التنبؤ بها عندما يقفز الاستهلاك كثيرًا بحيث لا تستطيع إمدادات الطاقة البسيطة التعامل بسهولة مع دعم الجهد المستقر. على سبيل المثال ، لا يتم تصميم الرسوم النموذجية للهواتف الذكية لهذا الغرض ، لأن هذه الفئة من الأجهزة تحتوي على بطارية والاستهلاك موحد إلى حد ما. العمود ، إذا تباطأ التيار الكهربائي لفترة وجيزة ، يمكن إعادة تشغيل ببساطة.

لتجنب هذه المشكلة ، قمنا باختبار النماذج الأولية على صوت بتردد 100 هرتز. على ذلك أن المتكلم يخلق أكبر عبء. مزود الطاقة الخارجي الخاص بنا ، على الرغم من أنه يبدو كأنه شحنة نموذجية مع USB Type-C من 1.5 أمبير ، جاهز لمثل هذه الحالات. علاوة على ذلك ، نحن ندرك أنه يمكن للأشخاص توصيل إمدادات الطاقة الخاصة بهم ، لذا أثناء التطوير قاموا باستبدال محولات الطاقة الداخلية (ما يسمى محولات DC-DC) بأخرى يمكنها تحمل انخفاض الجهد على المدى القصير. بالطبع ، إمدادات الطاقة التابعة لأطراف أخرى مختلفة ، فنحن لا نختبرها ولا نوصي بها ، ولكن الحل مع استبدال المحولات يساعد.

بالمناسبة ، أخذنا في الاعتبار أيضًا رغبات المستخدمين: تحتوي محطة Station Mini البيضاء على مصدر طاقة وسلك أبيض. تافه ، ولكن لطيفة.

جعل الإيماءات


جهاز مستقر وأجهزة الاستشعار ليست سوى نصف المعركة. يبقى أن نخرج بالإيماءات بأنفسهم. أفضل طريقة للتوصل إلى شيء ما هي جمع أقصى عدد من الأفكار ، ثم تصفيتها واختبارها خطوة بخطوة. فعلنا ذلك بالضبط: نظمت hackathon داخلي مع الجوائز. يمكن لأي موظف في الشركة تقديم وإيماءاتهم على الفور للجهاز. في ياندكس ، هذا النهج يعمل بشكل جيد.

كان هناك العديد من الخيارات. لقد تخلصنا منها وفقًا لعدة معايير ، ولكن الأهم هو - اثنان. أولاً ، إذا كانت الوظيفة شائعة وغالبًا ما تكون مطلوبة ، فينبغي أن تكون الإيماءة الخاصة بها بسيطة ويمكن استنساخها بسهولة. ثانياً ، لفتة ناجحة بديهية. يمكنك كتابة التعليمات وتصوير فيديو تدريبي ، لكن كل هذا أقل فعالية من الحدس القديم الجيد.

قررنا بسرعة على لفتة "أليس ، توقف عن ذلك". اعتاد المستخدمون بالفعل على وضع أيديهم على المنبه والهاتف والساعة الذكية لإيقاف الصوت.

ولكن مع لفتة ضبط الصوت ، لم يكن كل شيء واضحًا. كان لدينا خياران الفائز. في كلاهما ، كان من المفهوم أن الصوت يتم التحكم به باستخدام مقياس عمودي وهمي أعلى السماعة. ولكن هل يكفي أن تضع يدك ببساطة فوق السماعة: كلما زادت المسافة ، زاد مستوى الصوت؟ أم أنه من الأفضل أن تأخذ مقياسًا نسبيًا وتحريك راحة يدك لأعلى / لأسفل لتغيير مستوى الصوت بسلاسة؟



اختبار UX مناسب تمامًا لإيجاد إجابات لهذه الأسئلة. في Yandex ، تم إنشاء مختبر خاص لهذا: نأتي بأشخاص من الشارع إلى هناك ونلاحظ كيف يستخدمون المنتج. هذه الممارسة مفيدة جدا.

كنا نأمل أن يفوز أحد الخيارين بالتأكيد في اختبار UX. لكن ليس هذه المرة. تم تقسيم سلوك الناس على قدم المساواة تقريبا. لذلك ، تحتاج إلى التحقق من كلا الخيارين. لقد فعلنا ذلك في الإصدار التجريبي ، وأشار المشاركون فيه بسرعة كافية إلى عيب كبير في الحجم المطلق. يؤدي هذا الخيار إلى حقيقة أن موجة عشوائية من اليد (أو هروب قطة) يمكنها تشغيل الحد الأقصى للحجم فجأة. وهذا غير سارة.

فاز خيار النطاق النسبي. على الرغم من وجود تحسينات بناءً على تعليقات المستخدمين التجريبية. على سبيل المثال ، تمت إضافة الاستدلال من الأجسام الساقطة العشوائية: لكي يتغير الصوت ، يجب أن يجمد النخيل للحظة في نفس الارتفاع ثم يتحرك فقط. وأضفوا أيضًا إشارة صوتية لمستويات الصوت حتى يتمكن الشخص من سماع عدد الخطوات التي قام بتغييرها بالضبط.

قد يكون هذا قد أنهى القصة ، لكن تبين أن الزملاء الذين يعملون على الإيماءات كانوا من عشاق الموسيقى وطرق اللعب غير القياسية.

أضف gravitsapu


أثناء العمل على الإيماءات ، ولدت الفكرة التالية: بمساعدة حركات اليد ، ليس فقط ضبط مستوى الصوت ، ولكن أيضًا إنشاء الموسيقى. في وقت لاحق تذكرنا أن هذه الفكرة يتم تطبيقها بالفعل في theremin. تم إنشاء هذه الأداة الكهروميكانيكية في عام 1920 من قبل المخترع السوفياتي ليف سيرجيفيتش تيرمين. تعمل Theremin على النحو التالي: تعمل حركات اليد على تغيير قدرة دائرتها التذبذبية ، وبالتالي تواتر الصوت. فقط استمع للمخترع نفسه:



تستخدم الأداة الكلاسيكية لـ Leo Theremin مجال كهرومغناطيسي واثنين من الهوائيات: للتحكم في مستوى الصوت والملعب. لدينا أشعة تحت الحمراء واحدة فقط ، لذلك يمكنك التحكم بشيء واحد. أخذنا حجم ثابت.

ساعدنا بيتر تيرمن ، الملحن والمؤدي في الثرين ، حفيد ليف ثيرمين ، على تطوير نظام جديد. كما ابتكر الموسيقي التجريبي أنطون ماسكيليدي واستوديو مونوليك أساليب مفيدة للمزج: من البيانو والغيتارات المألوفة إلى السيوف والمقالي غير العادية. يمكنك حتى تشغيل الموسيقى الفضائية - فقط قل: "أليس ، أعط صوت gravitsapa." تحتوي المجموعة بالفعل على عدة عشرات من الأدوات ، وسيتم تجديدها.

في الثيمينفوكس ، تغير أدنى حركة في اليد وتيرة الصوت. أنت بحاجة إلى أن تكون محترفًا بيد قوية لضرب الملاحظات بدقة وإعادة إنتاج شيء لحني. أردنا الجميع لتشغيل الموسيقى على المتكلم لدينا. لذلك ، بالنسبة للعديد من الأساليب الآلية ، تم تقسيم شعاع وهمي إلى مقاطع ، تم تخصيص صوت معين لكل منها.

بالمناسبة ، في البداية تم تطوير وضع المزج كمشروع شخصي لأحد زملائنا. لكن الأطفال ، الذين دعناهم أيضًا إلى دراسة UX ، كانوا متحمسين جدًا للنظام الجديد. لذلك أدركنا أننا يجب ألا نخجل وأن نجلب مبادرة شخصية للمنتج.

***


لقد أظهرنا اليوم أنه حتى جهاز صغير وبسيط على ما يبدو يخفي تاريخًا كاملاً والعديد من الحلول التكنولوجية. ما هي القصص الفردية التي تود سماعها بمزيد من التفاصيل؟

نعتقد أن المستقبل يكمن في التحكم الصوتي ، لأنه في العديد من الحالات يكون من السهل القول - إنه أكثر ملاءمة وأكثر طبيعية من الضغط على الأزرار. والجهاز الجديد هو خطوة أخرى في هذا الاتجاه.

Source: https://habr.com/ru/post/ar470642/


All Articles