الشبكة العصبية LipNet تقرأ الشفاه بدقة 93.4٪


قرر القائد ديف بومان ومساعد الطيار فرانك بول ، عدم الثقة في الكمبيوتر ، فصله عن سيطرة السفينة. للقيام بذلك ، يجتمعون في غرفة عازلة للصوت ، لكن HAL 9000 يقرأ محادثتهم على الشفاه. لقطة من فيلم "Space Odyssey of 2001"

تلعب قراءة الشفاه دورًا مهمًا في التواصل. أظهرت المزيد من التجارب في عام 1976 أن الناس "يسمعون" صوتيات مختلفة تمامًا إذا وضعت صوتًا خاطئًا على حركة الشفاه (انظر "سماع الشفاه ورؤية الأصوات" ، Nature 264 ، 746-748 ، 23 ديسمبر 1976 ، دوى: 10.1038 / 264746a0) .

من وجهة نظر عملية ، تعد قراءة الشفاه مهارة مهمة ومفيدة. يمكنك فهم المحاور دون إيقاف تشغيل الموسيقى في سماعات الرأس ، وقراءة محادثات جميع الأشخاص في مجال الرؤية (على سبيل المثال ، جميع الركاب في غرفة الانتظار) ، والاستماع إلى الناس من خلال المناظير أو التلسكوب. نطاق المهارة واسع جدا. المحترف الذي أتقنها سيجد بسهولة وظيفة بأجر جيد. على سبيل المثال ، في مجال الأمن أو الاستخبارات التنافسية.

تمتلك أنظمة قراءة الشفاه التلقائية أيضًا ثروة من الإمكانات العملية. هذا جيل جديد من المعينات السمعية الطبية مع التعرف على الكلام ، وأنظمة المحاضرات الصامتة في الأماكن العامة ، والتعرف على المقاييس الحيوية ، وأنظمة النقل السري للمعلومات الخاصة بالتجسس ، والتعرف على الكلام عن طريق الفيديو من كاميرات المراقبة ، وما إلى ذلك. في النهاية ، ستقرأ أجهزة الكمبيوتر في المستقبل أيضًا الشفاه ، مثل HAL 9000 .

لذلك ، يحاول العلماء منذ سنوات عديدة تطوير أنظمة قراءة الشفاه تلقائيًا ، ولكن دون نجاح كبير. حتى بالنسبة للغة الإنجليزية البسيطة نسبيًا ، حيث يكون عدد الأصوات أقل بكثير من اللغة الروسية ، فإن دقة التعرف منخفضة.

يعد فهم الكلام بناءً على تعابير الوجه البشرية مهمة شاقة. يحاول الأشخاص الذين أتقنوا هذه المهارة التعرف على العشرات من الأصوات الصوتية ، والعديد منها متشابه جدًا في المظهر. من الصعب بشكل خاص على شخص غير مدرب أن يميز بين خمس فئات من الأصوات الصوتية (أي التأشيرات) للغة الإنجليزية. وبعبارة أخرى ، فإن التمييز بين نطق بعض الحروف الساكنة بالشفاه يكاد يكون مستحيلاً. ليس من المستغرب أن يكون أداء الناس ضعيفًا جدًا مع قراءة دقيقة للشفاه. حتى أفضل الأشخاص ضعاف السمع يظهرون دقة 17 ± 12٪ فقط من 30 مقطعًا صوتيًا مفردًا أو 21 ± 11٪ من الكلمات متعددة المقاطع (فيما يلي نتائج اللغة الإنجليزية).

قراءة الشفاه التلقائية هي إحدى مهام رؤية الماكينة ، والتي تتلخص في معالجة تسلسل الفيديو بإطار تلو الآخر. إن المهمة معقدة للغاية بسبب الجودة المنخفضة لمعظم مواد الفيديو العملية ، والتي لا تسمح بقراءة دقيقة للموضع الزماني المكاني ، أي الخصائص المكانية والزمنية للشخص أثناء المحادثة. وجوه تتحرك وتتحول في اتجاهات مختلفة. تحاول التطورات الأخيرة في مجال رؤية الماكينة تتبع حركة الوجه في الإطار لحل هذه المشكلة. على الرغم من النجاحات ، حتى وقت قريب ، كانوا قادرين على التعرف على الكلمات الفردية فقط ، وليس الجمل.

تم تحقيق اختراق كبير في هذا المجال من قبل المطورين من جامعة أكسفورد. ليبنت تدربواأصبح أول شخص في العالم يتعرف على الشفاه بنجاح على مستوى الجمل الكاملة ، ويعالج لقطات الفيديو. خرائط بروز


بإطار لكلمة إنجليزية لكلمة "من فضلك" (أعلاه) و "وضع" (أدناه) عند معالجتها بواسطة شبكة عصبية تقرأ الشفاه ، وتسلط الضوء على أكثر السمات

اللافتة للانتباه (البارزة) في شبكة LipNet - وهي شبكة عصبية متكررة من نوع LSTM (ذاكرة طويلة المدى). تظهر الهندسة المعمارية في الرسم التوضيحي. تم تدريب الشبكة العصبية باستخدام طريقة التصنيف المؤقت (CTC) ، والتي تستخدم على نطاق واسع في أنظمة التعرف على الكلام الحديثة ، لأنها تلغي الحاجة إلى التدريب على مجموعة من بيانات الإدخال المتزامنة مع النتيجة الصحيحة.


بنية الشبكة العصبية LipNet. عند الإدخال ، يتم توفير سلسلة من الإطارات T ، والتي تتم معالجتها بعد ذلك بواسطة ثلاث طبقات من الشبكة العصبية التلافيفية الزمانية (الزمانية المكانية) (STCNN) ، وكل منها مصحوب بطبقة أخذ عينات مكانية. بالنسبة للميزات المستخرجة ، يتم زيادة معدل أخذ العينات على الخط الزمني (اختزال) ، ثم تتم معالجتها بواسطة LTSM مزدوج. تتم معالجة كل خطوة زمنية في خرج LTSM بواسطة شبكة توزيع مباشرة من طبقتين وطبقة SoftMax الأخيرة ،

وفي حزمة عرض GRID الخاصة ، تُظهر الشبكة العصبية دقة التعرف بنسبة 93.4٪. هذا لا يتجاوز فقط دقة التعرف على تطورات البرمجيات الأخرى (المشار إليها في الجدول أدناه) ، ولكنه يتجاوز أيضًا كفاءة القراءة على شفاه الأشخاص المدربين بشكل خاص.

الطريقةمجموعة البياناتالحجمالعددالدقة
فو وآخرون. (2008)AVICAR85137,9%
Zhao et al. (2009)AVLetter7843,5%
Papandreou et al. (2009)CUAVE180083,0%
Chung & Zisserman (2016a)OuluVS120091,4%
Chung & Zisserman (2016b)OuluVS252094,1%
Chung & Zisserman (2016a)BBC TV>40000065,4%
Wand et al. (2016)GRID900079,6%
LipNetGRID2885393,4%

تتكون حالة GRID الخاصة وفقًا للنموذج التالي:

الأمر (4) + اللون (4) + حرف الجر (4) + الحرف (25) + الرقم (10) + الظرف (4) ،

حيث يتوافق الرقم مع عدد متغيرات الكلمات لكل من الفئات اللفظية الست .

وبعبارة أخرى ، لا تزال دقة 93.4 ٪ هي النتيجة التي تم الحصول عليها في ظروف المختبر المسببة للاحتباس الحراري. بالطبع ، مع التعرف على الكلام البشري التعسفي ، ستكون النتيجة أسوأ بكثير. ناهيك عن تحليل البيانات من الفيديو الحقيقي ، حيث لا يتم تصوير وجه الشخص عن قرب في إضاءة ممتازة ودقة عالية.

يظهر تشغيل الشبكة العصبية LipNet في الفيديو التجريبي.


تم تحضير المقالة العلمية لمؤتمر ICLR 2017 ونشرت في 4 نوفمبر 2016 في المجال العام.

Source: https://habr.com/ru/post/ar398901/


All Articles