هال 9000 قراءة الشفاه تماما ، وإن كان باللغة الإنجليزيةالشبكات العصبية قادرة على فعل الكثير الآن ، وبالتدريج يتم تعليمهم المزيد والمزيد من المهارات. في اليوم الآخر ، أصبح معروفًا أن فريقًا مشتركًا من الباحثين من الولايات المتحدة الأمريكية والصين كان قادرًا على تدريب الشبكة العصبية على التعرف على خطاب الشفاه بدرجة عالية من الدقة.
تم تحقيق ذلك بفضل عنصر إضافي -
خوارزمية التعرف على الكلام للتسجيلات الصوتية . علاوة على ذلك ، تم استخدام الخوارزمية كنظام تدريب للخوارزمية الثانية ، والتي تعرفت على الكلام عن طريق تسجيلات الفيديو.
وفقًا للعلماء ، فإن هذه الطريقة تجعل من الممكن إتقان تقنيات قراءة الشفاه الإضافية التي لا يمكن أن "تتعلم" شبكة عصبية تدربها الطرق التقليدية. يتيح تسلسل بسيط للصور إتقان تقنيات قراءة الشفاه الأساسية فقط.
بالإضافة إلى ذلك ، استخدم المطورون طريقة لتدريب الشبكات العصبية ، والتي تسمى "تقطير المعرفة". يتيح لك حفظ الحجم الصغير للنموذج الذي يؤدي مهمة معقدة. في الحالة العادية ، ستكون الشبكة العصبية التي يمكنها قراءة الشفاه كبيرة الحجم ، مما يجعل من الصعب استخدامها على الهواتف الذكية أو الأجهزة المحمولة الأخرى.
لكن نموذج يسمى تقطير المعرفة يجعل من الممكن إزالة هذه القيود. أثناء العمل مع هذا النموذج ، يحتاج المطور إلى استخدام شبكة عصبية أساسية تم تدريبها بالفعل ، ويقوم على أساسها بإنشاء نموذج أصغر بكثير "يتم تدريبه" على أساس الأول. تتلقى كلتا الشبكتين نفس بيانات المصدر تقريبًا. لكن الشبكة الأصغر تحاول تكرار نتائج الشبكة الأكبر ، على كل من طبقة المخرجات وعلى كل النتائج الوسيطة. تم تقديم الفكرة لأول مرة بواسطة Caruana في عام 2006.
استخدم العلماء بقيادة مينغلي سونغ من جامعة تشجيانغ "التقطير" لتعليم الشبكة العصبية لقراءة الشفاه. كما ذكر أعلاه ، المعلم هنا هو خوارزمية التعرف على الكلام للتسجيلات الصوتية. يوفر فرصة كبيرة لدراسة عدد من حركات الشفاه الدقيقة وأنماط الكلام.

تكون الدائرة الناتجة متناظرة ، مع وجود شبكتين عصبيتين متوازيتين متوازيتين مع بعضهما البعض. تقوم إحدى الشبكات العصبية التلافيفية بمعالجة إطارات الفيديو وتوفر بيانات لآخر. يمكن للباحث فقط تخيل تقطير المعرفة في شكل كتل متعددة ، كل منها كانت مسؤولة عن مهمة محددة. واحد منهم لكل إطار ، والثاني هو لسلسلة من البيانات ، والثالث هو لأكبر تسلسل شامل.
بالطبع ، للتشغيل الطبيعي ، تتطلب هذه الشبكة العصبية تدريبًا دقيقًا على عشرات الآلاف من العناصر. استخدم العلماء مجموعة بيانات LRS2 ، التي تحتوي على حوالي 50.000 جمل فردية يتحدث بها مذيعو بي بي سي ، وكذلك مجموعة بيانات CMLR ، وهي المجموعة الأكثر شمولية لتدريس الشبكات العصبية لقراءة الشفاه في لغة الماندرين. تحتوي قاعدة بيانات الأخير على حوالي 100 ألف عرض من CNTV.

دقة التعرف على النظام الناتج
أعلى بنسبة 8٪ تقريبًا من دقة الشبكات العصبية الأخرى التي تدربت على CMLR ، و 3٪ أفضل من دقة الشبكات العصبية التي تدربت على LRS2.