تم تعليم البرنامج لاختيار أصوات واقعية للصور.



بالنظر إلى الصورة ، يمكن للشخص أن يخمن بسهولة أي صوت يجب أن يتوافق مع هذا الإطار.

تأتي المعرفة السليمة مع تجارب الحياة. نلاحظ الأحداث المختلفة في الحياة والاستماع إلى الأصوات. مع الخبرة في الدماغ يتم تجميع مجموعة كبيرة. يجري الشخص بحثًا ارتباطيًا سريعًا في الذاكرة ، ويحدد أنسب صوت - ويعيد إنتاجه من خلال ملاحظة صورة فوتوغرافية.

يعمل نفس المبدأ تقريبًا والبرنامج الجديد الذي طوره متخصصون في ديزني للأبحاث والمدرسة التقنية العليا السويسرية في زيورخ لتحديد الأصوات للصور الفوتوغرافية. من حيث المبدأ ، حاول مؤلفو البرنامج على وجه التحديد نسخ العملية الإنسانية في تأسيس العلاقة بين الصوت والصورة.

يمكن الحصول على معلومات حول الأصوات ليس فقط من الواقع. في رياض الأطفال ، يتم تعليم جميع الأطفال بالضرورة أن البقرة تقول "مو".

تعمل الأفلام وألعاب الكمبيوتر على تجديد مجموعة أصوات الدماغ إلى حد كبير جدًا. بعد كل شيء ، غالبًا ما يعرضون الأحداث التي لا يملك الأشخاص خبرة حياتية فيها. لذلك ، يعرف الجميع تقريبًا كيف تبدو طلقة من مسدس ، على الرغم من قلة من الناس قد سمعوا ذلك في الواقع. يمكن افتراض أن الأصوات من الأفلام / الألعاب تشكل أكثر من نصف جميع الأصوات المتراكمة في الذاكرة لحياة الشخص.

تم تدريب برنامج ديزني للأبحاث أيضًا على تأليف مجموعة من الأصوات عن طريق اللقطات. هذه ليست مهمة سهلة ، لأن النظام يجب أن يصفي عددًا كبيرًا من الأصوات الدخيلة ويحدد بالضبط أي كائن يتوافق مع أي صوت.

إن تفسير المحتوى البصري هو مهمة رئيسية لرؤية الجهاز. في السنوات الأخيرة ، تم الحصول على العديد من النتائج الرائعة في هذا المجال في تصنيف والتعرف على الأشياء ، والتجزئة ، والتتبع وإعادة البناء ثلاثية الأبعاد. لكن تعلم الشبكة العصبية للعلاقة بين المحتوى المرئي والبيانات الصوتية لا يزال منطقة غير مستكشفة إلى حد كبير.

في هذا الصدد ، تجدر الإشارة إلى أن الدماغ البشري قادر على أشياء مذهلة. على سبيل المثال ، يمكنه التقاط صوت "مناسب" ، والذي من حيث المبدأ لا يمكن أن يوجد. على سبيل المثال ، صوت زهرة تنمو ، على الرغم من أن الزهور ، من حيث المبدأ ، لا تصدر أي أصوات. لم يشرع مؤلفو البرنامج الجديد في نسخ وظائف الدماغ البشري في مجال مثل هذه الأوهام. على الرغم من أن هذا ممكن ، أعتقد.

كيفية توليد الصوت


أحد خيارات تحديد الصوت لكائن ما هو توليف الصوت وفقًا للخصائص الفيزيائية للكائن في الفيديو. ولكن بهذه الطريقة ، يمكن التعبير عن عدد محدود جدًا من الأشياء.

في المقابل ، جمع نظام ديزني للأبحاث والمدرسة التقنية العليا السويسرية في زيورخ عينات من الأصوات الجاهزة من مقاطع الفيديو الحقيقية. يعرض الفيديو أمثلة لمقاطع الفيديو هذه التي تم استخدامها للتدريب.


ثم تم تعليم النظام لفصل الصوت المطلوب عن الغرباء. المبدأ الأساسي في هذا الإجراء هو العثور على صوت مماثل في جميع مقاطع الفيديو الخاصة بجسم واحد. سيكون هذا الصوت هو صوت الكائن ، وكل شيء آخر هو ضجيج في الخلفية.

بعد أن يتعلم النظام اختيار الصوت المناسب لكائن معين ، تبقى المهمة التافهة ، لأن التعرف على الأشياء في الفيديو لنظام رؤية الجهاز يتم بالفعل بشكل جيد.

أجرى الباحثون تجارب على 9 أنواع من الأجسام مع 10-20 عينة فيديو استمرت من 15 إلى 90 ثانية لكل منها. لتحديد الأصوات اللازمة ، تم استخدام مصنف kNN .



أظهر مسح للأشخاص أنهم يتعرفون على الأصوات التي تمت تصفيتها بواسطة البرنامج بشكل أفضل من الأصوات التي لم تتم تصفيتها.



ما هو؟


بالإضافة إلى المهمة الأكثر منطقية للتعلم الذاتي للروبوتات وأنظمة الذكاء الاصطناعي الأخرى التي تنسخ وظائف الدماغ البشري ، فإن رسم الخرائط الصوتية للكائنات الرسومية سيكون مفيدًا في العديد من تطبيقات الرؤية الآلية المفيدة والوسائط المتعددة. على سبيل المثال ، لأتمتة عمل شاحنة الضوضاء - متخصص في تسجيل المؤثرات الصوتية في الأفلام وألعاب الكمبيوتر.

من المعروف أنه عند تصوير الأفلام ، لا تصدر الأصوات معبرة جدًا. لتحسين تعبير الفيلم ، يتم تطبيق المؤثرات الصوتية بشكل منفصل على تسلسل الفيديو. لذلك اتضح فيلمًا أكثر إثارة ورائعة. بالإضافة إلى ذلك ، يساعد مانع الضوضاء على إزالة العيوب عندما لا يتطابق الصوت الحقيقي مع تسلسل الفيديو. على سبيل المثال ، عندما يضرب البطل الخصم في الفيلم بشدة - ولكن في الواقع يتظاهر الممثلون فقط بأنه ضرب. في هذه الحالة ، يقوم مزيل الضجيج بتصحيح العيب ، أي يفرض أصواتًا واقعية لكسور العظام ، وتقطيع اللحم ، وتدفق الدماغ والتأثيرات الجذابة الأخرى.

تطبيق آخر محتمل للبرنامج هو التمثيل الصوتي للأشخاص الذين يعانون من ضعف السمع. الآن لا يمكنهم فقط سماع الأصوات المحيطة ، ولكن سماعها بأفضل جودة ، وعصير ، بدون ضوضاء غير ضرورية - كما هو الحال في فيلم. حتى الأشخاص العاديون الذين لا يعانون من ضعف السمع سيحسدون المعاقين ، حيث يحسد الرياضيون الذين لديهم ساق واحدة من الذين لا يملكون الساقين تمامًا ، والذين يتمتعون بميزة تنافسية - الأطراف الاصطناعية الأكثر تقدمًا ، بحيث يركضون أسرع بكثير ويهزمون بسهولة الرياضيين ذوي القدم الواحدة (وحتى الساقين).

من المرجح أن تكون تقنيات الواقع المعزز هذه مطلوبة في صناعة الترفيه ، حيث يدرك الشخص الواقع المحيط من خلال واجهة الكمبيوتر. أخيرًا ، سنكون قادرين على حظر الأشخاص غير الضروريين من العالم من حولنا (كما هو الحال في سلسلة Black Mirror). سيقوم النظام ببساطة بتصفية صوت صوتهم. استبدلها بصوت آخر مسموح به. سيتم استبدال صورة الشخص المحظور بجسم آخر مع توليد الأصوات المقابلة. بدلاً من ذلك ، يمكنك ببساطة تغيير أصوات الزملاء في المكتب والأقارب للحصول على أصوات أكثر متعة. على سبيل المثال ، يمكن تغيير صوت صديق إلى ضمائر جنسية أثناء المداعبات المسائية ، وإضافة أصوات مفقودة ، وما إلى ذلك.

Source: https://habr.com/ru/post/ar399317/


All Articles