التعرف على الكلام مع تسريع الأجهزة. تستهلك ASIC المتخصصة أقل من 8 ميجاوات


تعد مواصفات

أوامر ASIC الصوتية للتعرّف على الكلام هي الواجهة الأكثر طبيعية وسهلة الاستخدام للتحكم في الإلكترونيات. يمكن للمرء أن يتصور أنه في المستقبل ، ستفهم جميع الأجهزة الإلكترونية تقريبًا أوامر المالك: من المصابيح الكهربائية في الشقة إلى الثلاجة والميكروويف والغلاية في المطبخ. متصلة بشبكة مشتركة من إنترنت الأشياء ، لن تفهم هذه الأجهزة المالك فحسب ، بل ستنسق أيضًا إجراءاتها مع بعضها البعض.

في السنوات الأخيرة ، وصلت تقنيات التعرف على الكلام إلى مستوى عال ونضجت لتطبيقات تجارية مختلفة: قيادة كمبيوتر سيارات ، والرعاية الصحية (الحفاظ على الوثائق الرقمية للتعرف على الكلام للأطباء) والتطبيقات العسكرية. على سبيل المثال ، في طائرة التدريب الإيطالية M-346 وفي المقاتلة الأمريكية F-35 ، تصل دقة أنظمة التعرف على الكلام إلى 98 ٪ . ولكن من أجل إجراء التعرف على الكلام على الأجهزة المنزلية والإلكترونيات القابلة للارتداء ، تحتاج إلى تقليل استهلاك الطاقة لهذه الواجهة بشكل كبير.

بدأ المهندسون في مختبر معهد ماساتشوستس للتكنولوجيا (MIT) للمعلوماتية والذكاء الاصطناعي (CSAIL) الاستعدادات لهذه الصورة المستقبلية عندما تبدأ جميع الإلكترونيات المحيطة بفهم الصوت البشري. كجزء من مشروع Qmulus المشترك مع Quanta Computer ، طور الباحثون في معهد ماساتشوستس للتكنولوجيا نموذجًا أوليًا لرقاقة متخصصة (ASIC) للتعرف على الكلام. السمة الفريدة لهذه الشريحة هي استهلاكها المنخفض للغاية للطاقة: من 0.2 ميجاوات فقط إلى 10 ميجاوات ، اعتمادًا على عدد الكلمات التي يجب التعرف عليها. هذا يجعل من الممكن استخدام هذه الإلكترونيات في أي جهاز ، حتى لو كان يعمل بواسطة جسم الإنسان.

ينتج التمثيل الغذائي الطبيعي في جسم الذكر البالغ حوالي 80 واط من الحرارة ، وينتج راكب دراجة مدرب ما يصل إلى 400 واط من الطاقة الميكانيكية. بالطبع ، لا يمكن استخدام هذه الطاقة لتشغيل الإلكترونيات بالكامل ، ولكن لا حاجة إلى الكثير. يمكن إزالة بضع واط بسهولة من جسم الإنسان في الوضع السلبي. على سبيل المثال ، يولد سوار صغير بطول 10 سم على المعصم باستمرار حوالي 40 ميغاواط بسبب الاختلاف في درجة حرارة الجسم البشري (حوالي 37 درجة مئوية) والهواء المحيط (20 درجة مئوية).



إذا كنت لا ترتدي سوارًا ، ولكن سترة حرارية كاملة أو بعرض 50-100 سم ، فستزيل حوالي 2 واط من الجسم. ولكن لا يزال بإمكانك تحويل الطاقة الحركية للحركة وكسر السكر من الدم. هذا يكفي لتشغيل إلكترونيات الجسم والملابس وأبسط الأدوات.

بالإضافة إلى جسم الإنسان ، يمكن للأجهزة الإلكترونية ذات الطاقة المنخفضة إنتاج الطاقة ، على سبيل المثال ، من موجات الراديو الخلفية (الميكروويف ، الراديو ، WiFi ، إلخ) ، من اهتزازات النوافذ والأرضيات ، إلخ.

من غير المرجح أن يعمل الهاتف الذكي العادي العادي على الطاقة التي يتم جمعها من جسم الإنسان أو من الأثير. وفقًا للمطورين ، سوف يسحب برنامج التعرف على الكلام على هاتف ذكي على جهاز محمول عادي حوالي 1 وات. هذا كثير. استخدام شريحة MIT المتخصصة و Quanta Computer في الظروف الحقيقية يعني توفير الطاقة بنسبة 90-99٪. الأهم من ذلك ، أن مثل هذا الجهاز منخفض الطاقة يوسع نطاق التعرف على الكلام بشكل كبير. الآن يمكن تنفيذه ليس فقط في الهواتف الذكية أو الأجهزة الإلكترونية باهظة الثمن ، ولكن في الأشياء المحيطة الأكثر شيوعًا ، حتى في مرآة الحمام.

إذا جمعت الطاقة من البيئة ، فلن يحتاج هذا الجهاز أبدًا إلى استبدال البطاريات على الإطلاق. إذا كنت لا تزال تزودها ببطارية لضمان الموثوقية ، فإن شحنة واحدة تكفي لشهور أو سنوات.

بدأ مشروع Qmulus المشترك في MIT و Quanta Computer في عام 2005 ، عندما كان يطلق عليه T-Party. يقترح المطورون أنه مع انتشار إنترنت الأشياء ، سيتم تضمين رقائق الكمبيوتر في العديد من الأشياء ، حتى في الحيوانات الأليفة والأبقار ، لحساب الماشية ومراقبة حالتها. تقوم الرقائق الدقيقة بجمع المعلومات باستمرار وإرسالها إلى الخادم المركزي في الوقت الحقيقي.

ربما يمكن دمج رقائق التعرف على الكلام في أطواق الحيوانات الأليفة - على سبيل المثال ، يمكن للأمر الصوتي إرسال نبضة كهربائية ضعيفة إلى ذوي الياقات البيضاء ، مما يحفز الحيوانات الأليفة على أداء إجراء أو آخر. ومع ذلك ، فإن الحيوانات الأليفة وبدون رقاقة دقيقة تفهم جيدًا الأوامر الصوتية للمالك ، لذلك فإن هذا الاختراع أكثر فائدة في مجالات أخرى.

"الأوامر الصوتية هي واجهة طبيعية للأجهزة المحمولة والذكية، - يقولأنانتا تشاندراكاسان ، أستاذ الهندسة الكهربائية في معهد ماساتشوستس للتكنولوجيا ، الذي طور فريقه رقاقة جديدة. - يتطلب تصغير هذه الأجهزة واجهة أخرى غير لوحة المفاتيح. من الضروري دمج وظيفة التعرف على الصوت محليًا ، مما يقلل من استهلاك طاقة النظام مقارنةً بإجراء هذه العملية في السحابة ".

يُظهر تصميم ASIC المصمم دقة التعرف تقريبًا تمامًا مثل برنامج Kaldi التجاري مع قاموس 145 ألف كلمة ، وعلى تردد ساعة 80 ميجاهرتز ، فإن أداء الدائرة المصغرة (سرعة البحث عن الكلمات في شبكة المفردات) يتوافق تقريبًا مع أداء جهاز كمبيوتر مع معالج Xeon وتردد ساعة 3 ، 7 جيجاهرتز.



يتم عرض جودة التعرف على الكلام المستمر (WER) واستهلاك الطاقة ASIC في الجدول.
التحديالمفرداتالترددتبادل الذاكرةWerاستهلاك الطاقة
أرقام113 ميجا هرتز0.11 ميجابايت / ثانية1.65٪172 ميجاوات
الطقس2 ك23 ميجاهرتز10.1 ميجابايت / ثانية4.38٪4.70 ميغاواط
مذكرات الغذاء7 كيلو46 ميجا هرتز9.02 ميجابايت / ثانية8.57٪4.67 ميغاواط
أخبار (1)5 ك15 ميجا هرتز4.84 ميجا بايت / ثانية3.12٪1.78 ميغاواط
أخبار (2)145 ألفًا40 ميجا هرتز15.0 ميجابايت / ثانية8.78٪7.78 ميغاواط
تم تقديم المقال العلمي "أداة التعرف على الكلام القابلة للتوسيع مع نماذج الصوت في الشبكة العصبية العميقة وبوابة الطاقة المنشّطة بالصوت" مع وصف الشريحة الدقيقة الأسبوع الماضي في المؤتمر الدولي لدوائر الحالة الصلبة ( عرض ، pdf ).

Source: https://habr.com/ru/post/ar401503/


All Articles