في حياتنا يمكن أن يكون هناك العديد من اللحظات التي يجب تسجيلها على الكاميرا بحركة بطيئة - الخطوات الأولى للطفل ، أول رحلة إلى البحر ، خدعة كلب محبوب. يتيح لك الهاتف الذكي الحديث التصوير بمعدل 240 إطارًا في الثانية أو أعلى ، ولكن لن تتمكن من التسجيل باستمرار في هذا الوضع - لن تكون هناك ذاكرة كافية ، وسوف تستنزف البطارية بسرعة. تعمل الشبكة العصبية التي أنشأتها Nvidia مع مقاطع الفيديو الملتقطة بالفعل ، مما يحولها إلى حركة بطيئة.
أنشأ الباحثون في Nvidia نظامًا تعليميًا متعمقًا لمعالجة مقاطع الفيديو بسرعة 30 إطارًا في الثانية إلى مقاطع فيديو بطيئة الحركة. استخدموا مكتبة التعلم العميق PyTorch ووحدات معالجة الرسومات Nvidia Tesla V100. تم تدريب النظام باستخدام 11000 مقطع فيديو للأنشطة اليومية والرياضية ، تم تصويره بتردد 240 إطارًا في الثانية. بفضل هذا ، بدأت في توقع اللقطات المتوسطة. لاختبار دقة التكنولوجيا ، استخدم الباحثون قاعدة بيانات فيديو منفصلة.
تتيح لك التكنولوجيا جعل مقاطع الفيديو أكثر سلاسة وأقل ضبابية مما كانت عليه في حالة التباطؤ الطبيعي. يرتفع معدل الإطارات إلى 480 في الثانية. لإثبات النتائج ، قارن الفريق مقاطع الفيديو البطيئة التي تم تصويرها بواسطة مدوني الفيديو
Slo Mo Guys مع نفس مقاطع الفيديو التي تباطأت بطريقة جديدة.
تقوم الشبكة العصبية الأولى بتقييم دفق الفيديو - هيكل الحركة والأشياء والأسطح والحواف في المشهد. تقوم بذلك إلى الأمام على طول الخط الزمني ، وفي الترتيب العكسي لإطارين للإدخال. يتنبأ النظام بعد ذلك بكيفية انتقال وحدات البكسل من إطار إلى آخر ، مما يؤدي إلى إنشاء ناقلات ثنائية الأبعاد لهذه الحركات.
ثم تعمل الشبكة العصبية الثانية ، التي تتنبأ بخريطة الرؤية - باستثناء وحدات البكسل التي يجب حظرها بواسطة الكائنات لإزالة القطع الأثرية. والنظام بمساعدة جميع البيانات المستلمة يشوه الإطارات الجديدة بين المخرجين لضمان انتقال سلس.
في الفيديو ، يمكنك مقارنة النتائج. بالطبع ، هناك اختلافات بين مقاطع الفيديو البطيئة التي تم إنشاؤها بشكل مصطنع وبين مقاطع الفيديو الأصلية التي تم تصويرها في الأصل بمعدل إطارات مرتفع. هذا ملحوظ بشكل خاص عند مقارنته بقفزة Slo Mo Guys في بركة في 54 ثانية. ولكن إذا لم يكن هناك ما تقارن به ، فسيكون من الصعب التمييز بين مقطع فيديو حقيقي ومقطع فيديو "مزيف".
لا يعرف الفريق بعد كيفية تسويق تطويرها. في رأيهم ، أنها لا تزال بعيدة عن المثالية وتتطلب الكثير من الموارد ، بما في ذلك المؤقتة. من المحتمل أنه حتى لو تم تنفيذ هذه التكنولوجيا كمنتج ، فلن يتم تشغيلها على جهاز المستخدم - ستحدث الحسابات في السحابة.

في أبريل ،
أظهر خبراء من نفيديا تقنية أخرى تضيف أجزاء جديدة للصورة - إعادة بناء الصور. تتيح لك الطريقة إزالة كائن من الصورة ، وبعد ذلك سيستبدل النظام الجزء الفارغ بخلفية واقعية ، بالإضافة إلى إضافة عيون وأجزاء أخرى من الوجه بعد إزالتها من الصورة.
استعدادًا لتدريب الشبكة العصبية ، ابتكر الباحثون أكثر من 55 ألف قناع من خطوط وثقوب عشوائية بأحجام مختلفة. تم استخدام 25 ألف قناع جديد للتحقق من دقة النتائج بعد التدريب.
أثناء التدريب ، تم فرض أقنعة على الصور لمساعدة الشبكة العصبية على تعلم كيفية إعادة بناء وحدات البكسل المفقودة.
تم نشر العمل العلمي لـ Super SloMo: تقدير عالي الجودة للإطارات الوسيطة المتعددة لإقحام الفيديو على موقع الطباعة المسبقة arXiv.org:
arXiv: 1712.00080 .