إشاعة آلة. تم تدريب شبكة SoundNet العصبية على التعرف على الأشياء عن طريق الصوت


اليسار: محاولة للتعرف على المشهد والأشياء بالصوت فقط. على اليمين: مصدر صوت حقيقي

، وقد حققت الشبكات العصبية مؤخرًا تقدمًا كبيرًا في التعرف على الأشياء والمشاهد في الفيديو. هذه الإنجازات أصبحت ممكنة من خلال التدريب على مجموعات البيانات الضخمة مع الكائنات المميزة (على سبيل المثال ، راجع "التعرف على الميزات العميقة للتعرف على المشهد باستخدام قاعدة بيانات الأماكن" . NIPS ، 2014). من خلال النظر إلى الصور أو مقاطع الفيديو ، يمكن للكمبيوتر تحديد المشهد بدقة تقريبًا من خلال تحديد وصف واحد مناسب من 401 مشهدعلى سبيل المثال ، مطبخ مزدحم ، مطبخ أنيق ، غرفة نوم مراهق ، إلخ. ولكن في مجال فهم أصوات الشبكة العصبية لم تظهر بعد مثل هذا التقدم. قام متخصصون من مختبر المعلوماتية والذكاء الاصطناعي بمعهد ماساتشوستس للتكنولوجيا بتصحيح هذا النقص من خلال تطوير نظام SoundNet للتعلم الآلي .

في الواقع ، إن القدرة على تحديد موقع المشهد بالصوت لا يقل أهمية عن تحديد موقع المشهد بالفيديو. في النهاية ، غالبًا ما تكون الصورة من الكاميرا ضبابية أو لا تقدم معلومات كافية. ولكن إذا كان الميكروفون يعمل ، فسيكون الروبوت قادرًا بالفعل على معرفة مكانه.

من وجهة نظر العلم ، فإن تدريب الشبكات العصبية SoundNet هو مهمة عادية. استخدم موظفو CSAIL طريقة المزامنة الطبيعية بين رؤية الماكينة وسمع الآلة ، وتعليم الشبكة العصبية لاستخراج التمثيل الصوتي لكائن تلقائيًا من مادة فيديو غير مخصصة. للتدريب ، استخدمنا حوالي 2 مليون مقطع فيديو Flickr (26 تيرابايت من البيانات) ، بالإضافة إلى قاعدة بيانات للأصوات المشروحة - 50 فئة وحوالي 2000 عينة.


هندسة الشبكة العصبية ساوند نت

على الرغم من أن تدريب الشبكة العصبية تم تحت مراقبة بصرية ، إلا أن النظام يعطي نتيجة ممتازة في الوضع المستقل وفقًا لتصنيف ثلاثة مشاهد صوتية قياسية على الأقل ، والتي قام المطورين بفحصها. علاوة على ذلك ، أظهر اختبار للشبكة العصبية أنها تعلمت بشكل مستقل التعرف على الأصوات المميزة لبعض المشاهد ، ولم يقدم المطورون عينات لها للتعرف على هذه الأشياء على وجه التحديد. استنادًا إلى قاعدة مواد الفيديو غير المخصصة ، تعلمت الشبكة العصبية نفسها أي مشهد يتوافق مع صوت حشد مبتهج (هذا ملعب) وتويتر الطيور (هذا هو حديقة أو حديقة). بالتزامن مع المشهد ، تتعرف الشبكة العصبية على كائن معين ، وهو مصدر الصوت.

يعرض الفيديو بعض الأمثلة على التعرف على الأشياء بالصوت. في البداية ، يتم عرض الأصوات الصوتية ونتائج التعرف ، والصورة نفسها غير واضحة - لذا يمكنك محاولة التحقق من نفسك. هل ستكون قادرًا على فهم مكان العمل ووجود أشياء معينة فقط بالصوت بدقة كما تفعل الشبكة العصبية. على سبيل المثال ، ما هو على الأرجح معنى أغنية "عيد ميلاد سعيد لك!" ، والتي يغنيها العديد من الأشخاص في انسجام تام؟ الجواب الصحيح: الكائن يحرق الشموع ، المشهد هو مطعم ، مقهى ، بار .


قال كارل فوندريك ، وهو طالب في معهد ماساتشوستس للتكنولوجيا في الهندسة الكهربائية وعلوم الكمبيوتر ، أحد مؤلفي العمل العلمي: "بدأت رؤية الآلة تعمل بشكل جيد للغاية بحيث يمكننا نقل هذه التكنولوجيا إلى مجالات أخرى" . - استخدمنا العلاقة الطبيعية بين رؤية الكمبيوتر والصوت. كان من الممكن تحقيق نطاق واسع بسبب كثرة مواد الفيديو غير المصنفة ، بحيث تعلمت الشبكة العصبية فهم الصوت ".

تم إجراء اختبار SoundNet على قاعدتي بيانات قياسيتين للتسجيلات الصوتية ، وأظهرت دقة أعلى بنسبة 13-15٪ في التعرف على الأشياء من أفضل هذه البرامج. في مجموعة بيانات تحتوي على 10 فئات مختلفة من الأصوات ، يقوم SoundNet بتصنيف الأصوات بدقة 92٪ ، وعلى مجموعة بيانات تحتوي على 50 فئة ، تظهر دقة 74٪. للمقارنة ، على نفس مجموعات البيانات ، يُظهر الأشخاص دقة التعرف على 96٪ و 81٪ في المتوسط.



حتى الناس أحيانًا لا يمكنهم تحديد ما يسمعونه بالضبط. حاول إجراء هذه التجربة بنفسك. دع زميلًا يبدأ مقطع فيديو تعسفيًا من YouTube - وتحاول ألا تنظر إلى الشاشة لتقول ما يحدث ، ومن أين تأتي الأصوات وما يظهر على الشاشة. بعيدا عن دائما يمكنك تخمين. لذا ، فإن مهمة الذكاء الاصطناعي ليست سهلة حقًا ، لكن SoundNet تمكن من التعامل معها بشكل جيد.

في المستقبل ، قد تجد برامج الكمبيوتر هذه تطبيقات عملية. على سبيل المثال ، سيتعرف هاتفك المحمول تلقائيًا على دخولك إلى مكان عام - سينما أو مسرح ، وكتم صوت نغمة الرنين تلقائيًا. إذا بدأ الفيلم وهدأ الجمهور ، فسيقوم الهاتف تلقائيًا بإيقاف تشغيل الصوت وتشغيل التنبيه بالاهتزاز.

سيساعد التوجيه بواسطة التضاريس بواسطة الصوت في برامج التحكم في الروبوتات المستقلة والآلات الأخرى.

في أنظمة الأمن والمنازل الذكية ، يمكن للنظام الاستجابة تلقائيًا لأصوات معينة بطريقة محددة. على سبيل المثال ، صوت نافذة مكسورة. في "المدن الذكية" في المستقبل ، سيساعد التعرف على ضوضاء الشوارع على فهم أسبابه والتعامل مع التلوث الصوتي.

تم نشر المقالة العلمية في 27 أكتوبر 2016 في المجال العام على arXiv.org (arXiv: 1610.09001 ، pdf ).

Source: https://habr.com/ru/post/ar399659/


All Articles