يسمع جوجل بشكل أفضل ، البحث أسهل

أعلنت Google أنها قد انتهت من نظام البحث الصوتي الخاص بها من أجل تحقيق التعرف المحسن على كلام المستخدم في الأماكن الصاخبة.



لطالما كان أحد أفضل أنظمة التعرف على الكلام ، وهو مناسب بشكل خاص عند البحث باستخدام الهواتف الذكية. الآن أصبحت وظيفة البحث الصوتي أكثر تطورًا من أي وقت مضى. توضح مدونة أبحاث Google التحسينات التي تم إجراؤها على النظام المحدث.

منذ عام 2012 ، ابتعد عملاق البحث عن استخدام طريقة الخلطات الغوسية (MGS) قبل ثلاثين عامًا في التعرف على الكلام. بدأت الأنظمة الجديدة في استخدام الشبكات العصبية العميقة (الشبكات العصبية العميقة ). يمكن لـ STS التعرف بشكل أفضل على الأصوات التي يصدرها المستخدم في وقت معين ، مما أدى إلى زيادة كبيرة في دقة التعرف.



أعلن خبراء Google الآن أنهم تمكنوا من إنشاء شبكة عصبية أكثر تقدمًا من النماذج الصوتية التي تستخدم التصنيف الزمني للربط وخوارزميات التعلم التمييزية . تمثل هذه النماذج امتدادًا خاصًا للشبكات العصبية الدورية الأكثر دقة ، خاصة في البيئات الصاخبة وسريعة بشكل لا يصدق!

في التعرف على الكلام التقليدي ، تم تقسيم النموذج الصوتي الذي ملأه المستخدم إلى إطارات متتالية (مقاطع) من 10 مللي ثانية. خضع كل إطار لتحليل التردد وتم تمرير المتجه الناتج مع الخصائص من خلال النماذج الصوتية ، مثل GNS ، والتي تعطي احتمالات لجميع المطابقات الصوتية. يساعد نموذج ماركوف المخفي (SMM) على كشف التفاصيل غير المعروفة على أساس تلك التي تم الحصول عليها بالفعل ؛ وهذا يجعل من الممكن إدخال نوع من هيكلة هذا التسلسل من التوزيعات الاحتمالية. يتم دمج هذا النموذج أيضًا مع مصادر المعرفة الأخرى ، مثل نموذج النطق ، الذي يربط تسلسل الأصوات بكلمات معينة من اللغة المحددة ونموذج اللغة ، والذي يعبر بدوره عن مدى الإشارة إلى الكلمة المحددة في اللغة المحددة.

ثم يقوم المعرف بالتوفيق بين جميع هذه المعلومات من أجل تحديد الجملة التي يصدرها المستخدم. إذا قال المستخدم ، على سبيل المثال ، كلمة "متحف" (mju: 'zɪəm هو شكل صوتي) ، فقد يكون من الصعب تحديد متى ينتهي الصوت "j" ويبدأ الصوت "u". ومع ذلك ، في الحقيقة ، لا يهتم المحدد عند حدوث هذا الانتقال. الشيء الوحيد الذي يزعجه هو بالضبط الأصوات التي تم نطقها.

يعتمد النموذج الصوتي المحسن الجديد على الشبكات العصبية الدورية (PNS). في طوبولوجيا PNS ، هناك حلقات ردود فعل تسمح لك بمحاكاة الاعتماد على الوقت. عندما يلفظ المستخدم / U / في المثال السابق ، يتحرك جهاز النطق الخاص بالشخص بسلاسة من الصوت / J / إلى الصوت / M / أولاً. حاول نطق كلمة "متحف" ، بالنسبة للأشخاص الذين يجيدون اللغة الإنجليزية ، لن يكون الأمر صعبًا وستنطق الكلمة بسهولة في نفس واحد ، PNS قادر على التقاط هذه اللحظة.



نوع من الشبكات العصبية الدورية في هذا النظام هو ذاكرة طويلة المدى ، والتي بمساعدة خلايا الذاكرة وآلية البوابات المعقدة تتذكر المعلومات بشكل أفضل من PNS الأخرى. البوابات هي طريقة لتخصيص فاصل زمني معين لزيادة احتمالية اكتشاف إشارات مفيدة على خلفية التداخل. وقد أدى اعتماد هذه النماذج بالفعل إلى تحسين جودة التعرف على الصوت بشكل ملحوظ.

كانت الخطوة التالية هي تعليم النموذج الصوتي التعرف على الصوتيات (الأصوات) في الكلام الذي تم تسليمه دون عمل تنبؤ لكل إطار. تعمل النماذج المصنفة مع تصنيف الوقت الترافقي على إعداد رسم بياني يحتوي على سلسلة من المسامير التي تعرض تسلسل الأصوات في الإشارة المستقبلة ، ويمكنها القيام بذلك حتى يتم كسر التسلسل.
في الواقع ، يمكن لنظام التعرف على الصوت من Google الآن فحص السياق الذي تم نطق الكلمة فيه ، والابتعاد عن أصوات الخلفية.



سؤال مختلف تمامًا: كيف تجعله سهل المنال ومناسبًا في الوقت الفعلي؟ بعد عدد كبير من التكرارات ، تمكن مبرمجو Google من إنشاء نماذج دفق أحادية التدفق تعالج الإشارات الواردة مع كتل أكبر من الكتل في النماذج الصوتية القياسية ، لكنهم يقومون بحسابات فعلية أقل. يؤدي تقليل عدد العمليات الحسابية إلى تسريع عملية التعرف بشكل كبير. أيضا ، أضيفت الضوضاء الاصطناعية والصدى (تخفيض اصطناعي للأصوات) إلى برنامج تدريب النظام لجعل نظام التعرف أكثر مقاومة للضوضاء الدخيلة. في الفيديو أدناه ، يمكنك مشاهدة النظام يتعلم الجملة.



ومع ذلك ، لا تزال هناك مشكلة أخرى يتعين حلها: ينتج النظام توقعات أقل ، ولكن في نفس الوقت يتم تأجيلها بنحو 300 مللي ثانية. من خلال إخراج النتيجة بعد الانتهاء الكامل من الجملة ، زاد مستوى الاعتراف ، ولكن في نفس الوقت تم إنشاء تأخيرات إضافية للمستخدمين ، وهو أمر غير مقبول تمامًا لمتخصصي Goolge. لحل المشكلة ، تم تدريب النظام على تحليل وإنتاج النتيجة لكل عبارة قبل اكتمالها. هذا جعل عملية التعرف أكثر تزامنًا مع معدل النطق العادي للشخص. لم يعد المستخدم مطالبًا بالانتظار حتى يعرض البرنامج نسخته الخاصة من العبارة المنطوقة.

تُستخدم بالفعل نماذج صوتية جديدة للبحث الصوتي والأوامر في تطبيق Google(على Android و iOS) وللإملاء على أجهزة Android. بدأت النماذج الجديدة تتطلب موارد أقل ، وأصبحت أكثر مقاومة للضوضاء المحيطة وكانت قادرة على تحقيق نتائج أسرع بكثير من سابقاتها. وهذا يجعل البحث الصوتي أكثر متعة للمستخدم.

Source: https://habr.com/ru/post/ar384747/


All Articles