بعض نتائج تطبيق طريقة VRN - الموجهة على الصور من مجموعة AFLW2000-3Dهناك عدد من الشركات الناشئة على الإنترنت ، بما في ذلك الشركات الروسية ، التي تعمل على استعادة البنية ثلاثية الأبعاد للوجه من الصور الفوتوغرافية. على سبيل المثال ، يمكن لـ
VisionLabs باستخدام تطبيق Face.DJ إجراء إعادة بناء ثلاثية الأبعاد من صورة واحدة. مثل هذا التحول (النمذجة ثلاثية الأبعاد بالصور) له معنى عملي. بعد إنشاء النموذج ، يصبح من الممكن ، على سبيل المثال ، تغيير تصفيفة الشعر ، وتجربة النظارات ، وزرع اللحية ، وما إلى ذلك. يمكن استخدام التكنولوجيا في أنظمة التحقق من الوجه والتعرف عليها.
ولكن الآن أصبحت أعمال هذه الشركات الناشئة في خطر: يتم تنفيذ عملهم بسهولة من خلال الشبكة العصبية الجديدة VRN (شبكة الانحدار الحجمي) ، التي يتم
نشرها علنًا على GitHub . يمكنك تحميل صورتك الخاصة أو أي صورة أخرى مباشرة إلى الموقع - وستتحول الشبكة العصبية عبر الإنترنت في غضون بضع ثوان (
عرض ).
تعتبر إعادة الإعمار ثلاثية الأبعاد من التصوير الفوتوغرافي ثنائي الأبعاد إحدى المشكلات الأساسية لرؤية الماكينة نظرًا لتعقيدها الشديد. تتطلب معظم الأنظمة الحالية صورًا متعددة لنفس الشخص من زوايا مختلفة للعمل. وفقًا لمؤلفي ورقة علمية جديدة ، تستخدم النماذج الحالية ككل خط أنابيب معالجة بيانات معقد وغير فعال لبناء نموذج وملاءمة النتيجة. كما اتضح ، فإن الشبكة العصبية التلافيفية تؤدي المهمة بشكل أسهل وأكثر كفاءة من النماذج والخوارزميات التي طورها الإنسان.
توضح الرسوم التوضيحية أن الشبكة العصبية VRN تتعامل مع معالجة تعابير الوجه المختلفة بزاوية عشوائية فيما يتعلق بعدسة الكاميرا - وتعمل على صورة واحدة. لا تزعجها أشياء غريبة على خلفية الوجه (نظارات ، مصاصة).
وقد اتخذ مؤلفو هذا التطور ، بقيادة آرون جاكسون (آرون جاكسون) من جامعة نوتنغهام (المملكة المتحدة) ، نهجًا بسيطًا للغاية لتكسير الصور. إنه خالي من العديد من أوجه القصور المتأصلة في طرق أخرى لإعادة الإعمار ثلاثية الأبعاد (بما في ذلك
3D Morphable Model - 3DMM ). بشكل عام ، يتم توضيح جوهر طريقة VRN الجديدة في الرسم التوضيحي أدناه.
(أ) تقبل شبكة الانحدار الحجمي المقترحة (VRN) صورة RGB كمدخلات وتعرض مباشرة الإخراج الحجمي ثلاثي الأبعاد ، متخطية تمامًا تناسب 3DMM. كل مستطيل هو معامل متبقي من 256 سمة. (ب) تحدد البنية المقترحة المقترحة VRN أولاً إسقاط ثنائي الأبعاد من معالم ثلاثية الأبعاد ومطابقتها مع الصورة الأصلية. يتم إرسال هذا المكدس إلى شبكة إعادة الإعمار ، والتي ترجع الحجم مباشرة. (ج) بنية VRN المقترحة - تقوم المهام المتعددة بإرجاع صورة ضخمة ثلاثية الأبعاد لوجه ومجموعة من المعالم ثلاثية الأبعاد المتفرقة.أثبت مؤلفو الدراسة أن الشبكة العصبية التلافيفية (CNN) قادرة على إنشاء نماذج ثلاثية الأبعاد بنجاح من الصور بعد التدريب على مجموعة بيانات تحتوي على الصور ونماذجها ثلاثية الأبعاد المقابلة لها. في هذه الحالة ، تم إجراء التدريب على 60.000 صورة ثنائية الأبعاد لأفراد من قاعدة 300 واط والشبكات ثلاثية الأبعاد المقابلة التي تم الحصول عليها باستخدام 3DMM.
كما اتضح ، للحصول على نتيجة مرضية ، لا تحتاج الشبكة العصبية إلى استخدام نموذج 3DMM وتقوم بإجراء تحويل مباشر بنجاح من ثنائي الأبعاد إلى ثلاثي الأبعاد.
أثبتت كفاءة النموذج على عدد كبير من الصور التعسفية التي يقوم المستخدمون بتحميلها عبر الإنترنت (
تجريبي ). على ما يبدو ، فإن طريقة VRN متفوقة على أي نظام إعادة بناء ثلاثي الأبعاد آخر في صورة واحدة. حتى الآن ، قام العرض التوضيحي بالفعل بمعالجة أكثر من 400000 صورة عشوائية من الإنترنت.
يمكن أيضًا تشغيل الشبكة العصبية محليًا على جهاز الكمبيوتر الخاص بك. يتم
نشر رمز البرنامج
على GitHub . للعمل ، تحتاج إلى
إطار عمل الحوسبة العلمية
Torch7 المثبت ، ومعالج الرسوميات Nvidia الأكثر إنتاجية مع دعم CUDA. تم اختبار البرنامج في نظام التشغيل Linux ولم يكن لدى المؤلف أي فكرة عن كيفية عمله في Windows. ستحتاج أيضًا إلى MATLAB و bash و ImageMagick و GNU awk و Python 2.7 (+ visvis و imageio و numpy).
تم نشر مقال علمي يصف الشبكة العصبية في 22 مارس 2017 (arXiv: 1703.07834 ،
pdf ).