طور متخصصون من جامعة تكساس في أوستن (UT Austin) شبكة عصبية تقوم بمعالجة الصوت أحادي القناة على الفيديو وإعادة إنشاء صوتها "المحيطي".
نقول كيف يعمل.
الصورة بواسطة marneejill / CC BY-SAطريقة جديدة لإنشاء الصوت 3D
غالبًا ما يوجد الصوت المحيط في الألعاب أو الأفلام ، ولكن الصوت ثلاثي الأبعاد نادر في مقاطع الفيديو الشرطية على الويب. يتطلب التسجيل وجود أجهزة باهظة الثمن لا تكون متاحة دائمًا لمنشئي الفيديو - غالبًا ما تستخدم الهواتف الذكية فقط للتصوير.
يحد المسار الصوتي المسجل بهذه الطريقة من إدراكنا للفيديو: فهو غير قادر على نقل كيف توجد مصادر الصوت في الفضاء وكيف تتحرك. لهذا السبب ، قد يبدو صوت الفيديو "مسطحًا".
تمت معالجة UT Austin بواسطة أستاذ جامعي ، كريستين غرومان ، وطالب يدعى روهان جاو. أنشأوا نظامًا يستند إلى خوارزميات تعلم الآلة التي تجعل من الممكن تحويل التسجيل الصوتي أحادي القناة إلى تسجيل فيديو "محيط". تسمى هذه التقنية "2.5D Visual Visual."
هذا ليس صوت مكاني كامل ، ولكن "على غرار". ومع ذلك ، وفقًا للمطورين ، سيكون الفرق مستحيلًا بالنسبة للمستمع العادي.
كيف تعمل التكنولوجيا
يستخدم النظام الذي تم تطويره في UT Austin شبكتين عصبيتين.
تم إنشاء أول شبكة عصبية على أساس بنية
ResNet ، والتي قدمها باحثون من Microsoft في عام 2015. يتعرف على الكائنات في الفيديو ويجمع معلومات حول حركتهم في الإطار. عند الإخراج ، تقوم الشبكة بإنشاء مصفوفة تسمى خريطة المعالم ، مع إحداثيات الكائنات على كل إطار من الفيديو.
تنتقل هذه المعلومات إلى الشبكة العصبية الثانية - Mono2Binaural. تم تطويره في جامعة تكساس. تتلقى الشبكة أيضًا
أطوالًا من التسجيلات الصوتية التي تم الحصول عليها باستخدام
نافذة تحويل فورييه باستخدام
وظيفة Hann .
يتكون Mono2Binaural من عشر طبقات تلافيفية. بعد كل طبقة من هذه الطبقات في الشبكة ، هناك كتلة لتسوية الدُفعات ، مما
يزيد من دقة الخوارزمية المتوقعة ، وكتلة تصحيح خطية مع
وظيفة تنشيط ReLU.
تقوم الطبقات التلافيفية للشبكة العصبية بتحليل التغيرات في التردد في الطيفية وتكوين مصفوفة تحتوي على معلومات حول أي جزء من البرنامج الطيفي يجب أن ينتمي إلى القناة الصوتية اليسرى وأيها إلى اليمين. ثم ، باستخدام تحويل فوريير نافذة معكوس ، يتم إنشاء تسجيل صوتي جديد.
في الوقت نفسه ، يمكن Mono2Binaural إنتاج الصوت المكاني لكل من الكائنات في الفيديو بشكل منفصل. على سبيل المثال ، يمكن أن تتعرف الشبكة العصبية على صكين في مقطع فيديو - أسطوانة وأنبوب - وإنشاء مسار صوت منفصل لكل منهما.
آراء حول "2.5D الصوت المرئي"
وفقًا للمطورين أنفسهم ، تمكنوا من إنشاء تقنية تعيد إنشاء "إحساس مكاني واقعي". أظهرت Mono2Binaural نتيجة جيدة أثناء الاختبار ، وبالتالي فإن المؤلفين على يقين من أن مشروعهم لديه إمكانات كبيرة.
لإثبات فعالية التكنولوجيا الخاصة بهم ، أجرى الخبراء سلسلة من التجارب. لقد دعوا مجموعة من الأشخاص الذين قارنوا صوت المسارين: تم إنشاء واحد باستخدام Mono2Binaural ، والثاني باستخدام طريقة Ambisonics.
تم تطوير هذا الأخير في جامعة كاليفورنيا في سان دييغو. تعمل هذه الطريقة أيضًا على إنشاء صوت "محيط" من أحادية الصوت ، ولكن على عكس التكنولوجيا الجديدة ، تعمل فقط مع مقاطع الفيديو ذات 360 درجة.
اختار معظم المستمعين الصوت Mono2Binaural على أنه الأقرب إلى الصوت الحقيقي. أظهر الاختبار أيضًا أنه في 60٪ من الحالات ، حدد المستخدمون بدقة موقع مصدر الصوت عن طريق الأذن.
الخوارزمية لا تزال لديها بعض العيوب. على سبيل المثال ، لا تميز الشبكة العصبية بين أصوات عدد كبير من الكائنات. بالإضافة إلى ذلك ، من الواضح أنها لن تكون قادرة على تحديد موقع مصدر الصوت ، وهو ليس على الفيديو. ومع ذلك ، فإن المطورين خطة لحل هذه المشاكل.
النظير التكنولوجيا
في مجال التعرف على الصوت والفيديو ، وهناك العديد من المشاريع المماثلة. كتبنا عن واحد منهم في وقت سابق. هذا "
ميكروفون مرئي " من خبراء من معهد ماساتشوستس للتكنولوجيا. تتعرف الخوارزمية على الاهتزازات المجهرية للكائنات تحت تأثير الموجات الصوتية في فيديو صامت وتستعيد الصوت الذي تم سماعه في الغرفة بناءً على هذه البيانات. تمكن العلماء من "قراءة" لحن الأغنية
Mary Had a Little Lamb من مجموعة من الرقائق والنباتات المنزلية وحتى الطوب.
صورة كوين دومبروفسكي / CC BY-SAتقوم مشاريع أخرى بتطوير تقنيات لتسجيل الصوت في مقاطع فيديو بزاوية 360 درجة. واحد منهم هو Ambisonics ، والتي ذكرناها سابقا. يشبه مبدأ الخوارزمية Mono2Binaural: فهو
يحلل حركة الكائنات في الإطار ويربطها بالتغيرات في الصوت. ومع ذلك ، تحتوي تقنية Ambisonics على العديد من القيود: تعمل الشبكة العصبية فقط مع مقاطع الفيديو بزاوية 360 درجة ولا تصدر صوتًا جيدًا إذا كان هناك صدى في التسجيل.
مشروع آخر في هذا المجال هو Sol VR360 من G-Audio. على عكس التطورات الأخرى ،
تم بالفعل تطبيق التكنولوجيا في خدمة المستخدم لمعالجة الصوت Sol. يخلق الصوت المكاني لمقاطع الفيديو 360 درجة من الحفلات الموسيقية أو الرياضية. عيب الخدمة هو أن المقاطع التي تم إنشاؤها تلعب فقط في تطبيقات Sol.
الاستنتاجات
يرى مطورو أنظمة إنشاء صوت مكاني المجال الرئيسي لتطبيق التكنولوجيا في تطبيقات VR و AR لتحقيق أقصى قدر من الانغماس للشخص في جو اللعبة أو الفيلم. إذا كان من الممكن التغلب على عدد من الصعوبات التي تواجهها ، فيمكن أيضًا استخدام التكنولوجيا لمساعدة الأشخاص ضعاف البصر. بمساعدة هذه الأنظمة ، سيكونون قادرين على فهم ما يحدث في الإطار على مقاطع الفيديو بمزيد من التفصيل.
المزيد عن تقنية الصوت في قناة Telegram:
أ.
سجلت InSight لأول مرة أصوات الرياح المريخية
ثمانية تقنيات صوتية ستدخل قاعة مشاهير TECnology في عام 2019
ضجيج نشط إلغاء النوافذ يغرق أصوات المدينة