علم GAN كيفية إنشاء وجوه ذات نسيج وهندسة واقعية

مرحبا يا هبر! أقدم لكم ترجمة مقالة "تركيب الوجه السطحي والنسيج عبر GAN" .

عندما يفتقر الباحثون إلى بيانات حقيقية ، غالبًا ما يلجأون إلى زيادة البيانات ، كوسيلة لتوسيع مجموعة البيانات الحالية. والفكرة هي تعديل مجموعة بيانات التدريب الموجودة بطريقة تترك الخصائص الدلالية سليمة. هذه ليست مهمة تافهة عندما يتعلق الأمر بالوجوه البشرية.

يجب أن تأخذ طريقة تكوين الوجه في الحسبان تحويلات البيانات المعقدة مثل

  • تشكل
  • إضاءة
  • تشوهات غير جامدة

أثناء إنشاء صور واقعية تتوافق مع إحصائيات البيانات الحقيقية.

ضع في اعتبارك كيف تحاول الأساليب الحديثة حل هذه المشكلة.

الأساليب الحديثة لمواجهة التوليد


لقد أثبتت الشبكات العصبية الخصومة التوليدية (GANs) أنها أكثر فعالية في إعطاء البيانات الاصطناعية مزيدًا من الواقعية. من خلال قبول البيانات المركبة كمدخلات ، ينتج GAN عينات تشبه البيانات الحقيقية . ومع ذلك ، يمكن تغيير الخصائص الدلالية ، وحتى وظيفة الخسارة ، التي تعاقب على تغيير المعلمات ، لا تحل المشكلة حتى النهاية.

إن النموذج الموربوري 3D (3DMM) هو الطريقة الأكثر شيوعًا لتمثيل وتجميع الهندسة والقوام ، وقد تم تقديمه في الأصل في سياق تكوين الوجوه البشرية ثلاثية الأبعاد. وفقًا لهذا النموذج ، يمكن تقريبًا تقريبًا التركيب الهندسي والنسق للوجه البشري كمجموعة من ناقلات الجذر.

في الآونة الأخيرة ، تم دمج نموذج 3DMM مع الشبكات العصبية التلافيفية لزيادة البيانات. ومع ذلك ، فإن العينات الناتجة سلسة للغاية وغير واقعية ، كما يمكن رؤيته في الصورة أدناه:

تم الحصول على الأشخاص باستخدام 3DMM
تم الحصول على الأشخاص باستخدام 3DMM


علاوة على ذلك ، تولد 3DMMs بيانات بناءً على توزيع غوسي ، نادرًا ما يعكس التوزيع الفعلي للبيانات. على سبيل المثال ، فيما يلي معاملا PCA (تحليل المكونات الرئيسية) مبنيان على الوجوه الحقيقية ويتم توليفهما باستخدام 3DMM. يمكن أن يؤدي الاختلاف بين التوزيع الاصطناعي والحقيقي بسهولة إلى توليد بيانات غير صحيحة.
تم إنشاء أول معاملين PCA لأفراد حقيقيين (يسار) و 3DMM (يمين)
تم إنشاء أول معاملين PCA لأفراد حقيقيين (يسار) و 3DMM (يمين)



فكرة حديثة


يقدم كل من Slossberg و Shamai و Kimmel من معهد التخنيون الإسرائيلي للتكنولوجيا نهجًا جديدًا لتوليف الوجوه البشرية الواقعية باستخدام مزيج من 3DMM و GAN.

على وجه الخصوص ، يستخدم الباحثون GAN لمحاكاة مساحة الأنسجة البشرية ذات المعلمات وإنشاء هندسة الوجه المقابلة ، وحساب أفضل معاملات 3DMM لكل نسيج. يتم تعيين القوام الناتج إلى الهندسة المناسبة لإنتاج وجوه ثلاثية الأبعاد جديدة عالية الدقة.

تولد هذه العمارة صورًا واقعية ، بينما:

  • لا يعاني من التحكم في سمات مثل الوضع والإضاءة
  • كميا لا يقتصر على تكوين وجوه جديدة.

دعونا نلقي نظرة فاحصة على عملية توليد البيانات.

عملية توليد البيانات


خط أنابيب إعداد البيانات
إعداد البيانات


يتكون خط إنتاج البيانات من أربع خطوات رئيسية:

  • جمع البيانات : جمع الباحثون أكثر من 5000 مسح ضوئي (مسح الوجه) من مختلف الأعراق والجنس والفئات العمرية. كان على كل مشارك تصوير 5 تعابير وجه مختلفة بما في ذلك محايد.
  • الترميز : تمت إضافة 43 نقطة رئيسية إلى الماشي شبه التلقائي ، عن طريق جعل الوجه واستخدام كاشف تعليم الوجه المدرب مسبقًا
  • محاذاة الشبكات : يتم تنفيذها بسبب تشوه شبكة القالب للوجه وفقًا لهندسة كل مسح ضوئي ، مع التركيز على الترميز.
  • نقل الملمس : يتم نقل الملمس من المسح إلى القالب باستخدام تقنية صب الأشعة المضمنة في مربع أدوات Blender. بعد ذلك ، يتم تحويل النسيج من القالب إلى شريط ثنائي الأبعاد باستخدام تحويل عالمي محدد مسبقًا


قوام الوجه مسطح مبطن
قوام الوجه مسطح مبطن


الخطوة التالية هي تعليم GAN كيفية إنشاء عمليات محاكاة للأنسجة المحاذاة. لهذه المهمة ، استخدم الباحثون GAN التدريجي مع مولد ومميز منظم كشبكة عصبية متماثلة. في مثل هذا التنفيذ ، يزيد المولد تدريجياً من حجم خريطة المعالم حتى يصل إلى حجم صورة الإخراج ، في حين أن المميز يقلل تدريجياً من الحجم إلى إخراج واحد.

توليف GAN قوام الوجه
GAN Face Textures


الخطوة الأخيرة هي إنشاء هندسة الوجه. جرب الباحثون طرقًا مختلفة للعثور على معاملات الهندسة الصحيحة للنسيج. مقارنة نوعية وكمية للطرق المختلفة أدناه (خطأ هندسي L2):

تم رسم نسيجين مركبين على أشكال هندسية مختلفة
تركيبان مركبان متراكبان على أشكال هندسية مختلفة.


بشكل غير متوقع ، تظهر طريقة المربعات الأقل أفضل النتائج. وبالنظر إلى بساطة الطريقة ، تم اختيارها لجميع التجارب.

النتائج


يمكن للطريقة المقترحة أن تولد العديد من الوجوه الجديدة ، ويمكن تمثيل كل منها في أوضاع مختلفة ، مع تعبيرات وإضاءة مختلفة. تتم إضافة تعابير الوجه المختلفة إلى الهندسة المحايدة باستخدام نموذج Blend Shape. يتم عرض الصور الناتجة أدناه:

الصورة

الصورة

الهويات المتولدة عن الطريقة المقترحة بأوضاع وإضاءة مختلفة

بالنسبة للتقييمات الكمية ، استخدم الباحثون Wasserstein Truncated Metric (SWD) لقياس المسافة بين توزيعات التدريب والصور المولدة.



يوضح الجدول أن الأنسجة الناتجة أقرب إحصائيًا إلى البيانات الحقيقية من تلك التي تم الحصول عليها باستخدام 3DMM.

تقيم التجربة التالية القدرة على تجميع الصور ، والتي تختلف اختلافًا كبيرًا عن مجموعة بيانات التدريب ، والحصول على صور لم تكن مرئية من قبل. وبالتالي ، لم يتم تضمين 5٪ من الأفراد في التقييم. قام الباحثون بقياس L2 المسافة بين كل شخص حقيقي من بيانات التدريب والأكثر تشابهًا من البيانات التي تم إنشاؤها ، وبالمثل - بالنسبة إلى الحقيقية من مجموعة بيانات التدريب.

المسافة بين الهويات المولدة والحقيقية
المسافة بين الوجوه المركبة والحقيقية


كما يتبين من الرسوم البيانية ، فإن بيانات الاختبار أقرب إلى الصور المولدة منها إلى الصور التدريبية. علاوة على ذلك ، لا تختلف مسافة "اختبار المزيف" كثيرًا عن "اختبار المزيف إلى الحقيقي". ويترتب على ذلك أن العينات التي تم الحصول عليها ليست مجرد وجوه مركبة مماثلة لمجموعة التدريب ، ولكنها وجوه جديدة تمامًا.

أخيرًا ، للتحقق من إمكانية إنشاء مجموعة البيانات الأولية ، تم إجراء تقييم نوعي: تمت مقارنة نسيج الوجه الذي تم الحصول عليه بواسطة هذا النموذج مع أقرب جار لها في مقياس L2.

نسيج الوجه المركب (العلوي) مقابل أقرب الجيران الحقيقيين المقابلة (القاع)
القوام المركب (أعلاه) مقابل أقرب "الجيران" الحقيقيين (أدناه)


كما ترون ، فإن أقرب مواد حقيقية تختلف تمامًا عن تلك الأصلية ، مما يسمح لنا بالاستنتاج حول القدرة على إنشاء وجوه جديدة .

الملخص


من المحتمل أن يكون النموذج المقترح هو الأول القادر على التوليف الواقعي لكل من نسيج وهندسة الوجوه البشرية. يمكن أن يكون هذا مفيدًا لاكتشاف والتعرف على الوجوه أو نماذج إعادة بناء الوجه. بالإضافة إلى ذلك ، يمكن استخدامه في الحالات التي تتطلب العديد من الوجوه الواقعية المختلفة ، على سبيل المثال ، في صناعة الأفلام أو ألعاب الكمبيوتر. علاوة على ذلك ، لا يقتصر هذا الهيكل على تركيب الوجوه البشرية ، ولكن يمكن استخدامه في الواقع لفئات أخرى من الكائنات حيث يمكن زيادة البيانات.

الأصل

ترجم - ستانيسلاف ليتفينوف.

Source: https://habr.com/ru/post/ar422723/


All Articles