ينتج الذكاء الاصطناعي أصواتًا واقعية في اللقطات



صمم الموظفون في معهد ماساتشوستس لعلوم الكمبيوتر ومختبر الذكاء الاصطناعي (CSAIL) و Google Research شبكة عصبية تعلمت نطق تسلسلات الفيديو التعسفية ، وتولد أصواتًا واقعية وتتنبأ بخصائص الأشياء. يقوم البرنامج بتحليل الفيديو والتعرف على الأشياء وحركتها ونوع الاتصال - الصدمة والانزلاق والاحتكاك وما إلى ذلك. استنادًا إلى هذه المعلومات ، فإنها تولد صوتًا يعتبره الشخص في 40 ٪ من الحالات أكثر واقعية من الواقع.

يقترح العلماء أنه سيتم استخدام هذا التطور على نطاق واسع في السينما والتلفزيون لتوليد مؤثرات صوتية من تسلسل فيديو بدون صوت. بالإضافة إلى ذلك ، يمكن أن يكون مفيدًا لتدريب الروبوتات على فهم خصائص العالم بشكل أفضل.



تقول الأصوات المحيطة الكثير عن خصائص الأشياء المحيطة ، لذلك في عملية التعلم الذاتي ، يمكن للروبوتات المستقبلية أن تتصرف مثل الأطفال - المس الأشياء ، جربها عن طريق اللمس ، كزة العصا فيها ، حاول التحرك ، رفع. في هذه الحالة ، يتلقى الروبوت ردود الفعل ، مع التعرف على خصائص الكائن - وزنه ومرونته وما إلى ذلك.

الصوت الذي يصدر عن كائن على اتصال يحمل أيضًا معلومات مهمة حول خصائص الكائن. يشرح الطالب الخريج أندرو أوينز ، المؤلف الرئيسي لورقة علمية منشورة ، والتي ليست جاهزة بعد لمجلة علمية ، ولكن عندما تنشر إصبعك عبر كوب من النبيذ ، فإن الصوت الذي تصنعه يتوافق مع كمية السائل المنسكب في الزجاج .متاحة للجمهور على arXiv.org. سيتم تقديم العمل العلمي في المؤتمر السنوي حول رؤية الآلة والتعرف على الأنماط (CVPR) في لاس فيغاس هذا الشهر.

اختار العلماء 977 مقطع فيديو يقوم فيها الأشخاص بأفعال بأشياء محيطة تتكون من مواد مختلفة: الخدش والضرب بالعصا وما إلى ذلك. في المجموع ، تضمنت مقاطع الفيديو 46،577 إجراء. قام طلاب CSAIL بتمييز جميع الإجراءات يدويًا ، مشيرين إلى نوع المادة ومكان الاتصال ونوع الإجراء (صدمة / خدش / أخرى) ونوع رد فعل المادة أو الكائن (التشوه والشكل الثابت والحركة الصعبة وما إلى ذلك). تم استخدام مقاطع الفيديو مع الصوت لتدريب الشبكة العصبية ، واستخدمت العلامات الموضوعة يدويًا فقط لتحليل نتيجة تدريب الشبكة العصبية ، ولكن ليس لتدريبها.



حللت الشبكة العصبية خصائص الصوت التي تتوافق مع كل نوع من التفاعل مع الأشياء - الحجم والطبقة والخصائص الأخرى. أثناء التدريب ، درس النظام إطار الفيديو تلو الإطار ، وحلل الصوت في هذا الإطار ووجد تطابقًا مع الصوت الأكثر تشابهًا في قاعدة البيانات المتراكمة بالفعل. كان أهم شيء هو تعليم الشبكة العصبية لمد الصوت إلى إطارات.



مع كل فيديو جديد ، زادت دقة التنبؤ بالأصوات.

الصوت الذي تولده الشبكة العصبية لمشاهد مختلفة ، مقارنة بالمشهد الحقيقي ،


ونتيجة لذلك ، تعلمت الشبكة العصبية التنبؤ بدقة بأصوات أكثر تنوعًا بكل الفروق الدقيقة: من طرق الصخور إلى اللبلاب.

يقول أبهيناف جوبتا ، الأستاذ المساعد في علم الروبوتات في جامعة كارنيجي: " تركز المناهج الحالية للباحثين في مجال الذكاء الاصطناعي على حواس واحدة فقط: متخصصو الرؤية الآلية يدرسون الصور المرئية ، والمتخصصين في التعرف على الكلام يدرسون الصوت ، وما إلى ذلك" . ميلون. "هذه الدراسة هي خطوة في الاتجاه الصحيح تحاكي عملية التعلم بنفس الطريقة التي يقوم بها الناس ، أي دمج الصوت والرؤية."

لاختبار فعالية الذكاء الاصطناعي ، أجرى العلماء دراسة عبر الإنترنت على Amazon Mechanical Turk ، طُلب من المشاركين مقارنة خيارين لصوت فيديو معين وتحديد أي صوت حقيقي وأيهما غير صحيح.

نتيجة للتجربة ، تمكنت منظمة العفو الدولية من خداع الناس في 40 ٪ من الحالات . ومع ذلك ، وفقًا لبعض المعلقين في المنتديات ، ليس من الصعب خداع شخص ، لأن جزءًا كبيرًا من المعرفة حول الصورة الصوتية للعالم يحصل عليها الأشخاص المعاصرون من الأفلام الروائية وألعاب الكمبيوتر. يتألف نطاق الصوت للأفلام والألعاب من متخصصين يستخدمون مجموعات من العينات القياسية. أي أننا نسمع باستمرار عن نفس الشيء.

في تجربة عبر الإنترنت ، في حالتين من أصل خمس حالات ، اعتقد الناس أن الصوت الناتج عن البرنامج كان أكثر واقعية من الصوت الحقيقي من الفيديو. هذه نتيجة أفضل من الطرق الأخرى لتجميع الأصوات الواقعية.



في معظم الأحيان ، خدعت منظمة العفو الدولية المشاركين في التجربة بأصوات مواد مثل الأوراق والأوساخ ، لأن هذه الأصوات أكثر تعقيدًا وليست "نظيفة" مثل تلك التي تصدر ، على سبيل المثال ، من الخشب أو المعدن.

بالعودة إلى تدريب الشبكة العصبية ، كمنتج ثانوي للدراسة ، وجد أن الخوارزمية يمكن أن تميز بين المواد اللينة والصلبة بدقة 67 ٪ ، ببساطة عن طريق التنبؤ بصوتها. وبعبارة أخرى ، يمكن للروبوت أن ينظر إلى مسار الأسفلت والعشب أمامه - ويستنتج أن الأسفلت صلب والعشب ناعم. سوف يعرف الروبوت هذا من خلال الصوت المتوقع ، دون أن يخطو على الأسفلت والعشب. ثم يمكنه أن يخطو حيث يريد - ويختبر مشاعره من خلال التحقق من قاعدة البيانات ، وإذا لزم الأمر ، إجراء تصحيحات في مكتبة عينات الصوت. بهذه الطريقة ، في المستقبل ، ستدرس الروبوتات وتتقن العالم من حولها.

ومع ذلك ، لا يزال أمام الباحثين الكثير من العمل لتحسين التكنولوجيا. غالبًا ما تُخطئ الشبكة العصبية في الحركة السريعة للأشياء ، دون الوقوع في لحظة التلامس الدقيقة. بالإضافة إلى ذلك ، يمكن للذكاء الاصطناعي توليد صوت بناءً على الاتصال المباشر ، والذي يتم تسجيله على الفيديو ، وهناك العديد من الأصوات حولنا التي لا تعتمد على الاتصال المرئي: ضجيج الأشجار ، همهمة المروحة في جهاز الكمبيوتر. يقول أندرو أوينز: "ما سيكون رائعًا حقًا هو محاكاة صوت لا يرتبط ارتباطًا وثيقًا بالقطات" .

Source: https://habr.com/ru/post/ar395243/


All Articles