ماذا يخترق الذكاء الاصطناعي عند توليد الوجوه البشرية

في عام 2014 ، طرح باحث التعلم الآلي Jan Goodfellow فكرة شبكات التنافس التوليدي أو شبكات GAN. يتكون "Generativeness" في حقيقة أن نتيجة عملهم هي الصور ، وليس تقييم المدخلات (مثل "hot dog or not") ، و "القدرة التنافسية" - أن شبكتين عصبيتين تلعبان القطط والماوس كأنهما تتغذيان على المزورين : إحدى الشبكات العصبية تحاول خداع الأخرى عن طريق إنشاء صور واقعية ، والثانية تحاول التمييز بين المزيفة.

كانت صور GAN الأولى سهلة التحديد. انظر إلى وجوه 2014


"التعلم بدون معلم للتمثيل مع شبكات التنافسية التوليفية العميقة" (2014) ، رادفورد وآخرون ، المعروفون أيضًا باسم DCGAN

لكن الوجوه الأخيرة التي تم إنشاؤها من أكتوبر 2017 أصبحت أصعب بالفعل.


"النمو التدريجي لشبكة GAN لتحسين الجودة والاستقرار والتنوع" (2017) ، Karras et al. المعروف أيضًا باسم PGAN أو ProGAN

فيما يلي بعض ميزات الصور التي أنشأتها GAN. نحن نركز على الوجوه لأنها تمثل أرضية اختبار شائعة للباحثين ، وتظهر العديد من القطع الأثرية الأكثر وضوحًا في أنواع أخرى من الصور.

شعر مستقيم يشبه الطلاء




غالبًا ما يبدو الشعر الطويل متضخمًا بأطراف مستقيمة ، كما لو أن شخصًا لطخ حفنة من الأكريليك باستخدام سكين لوح أو فرشاة ضخمة.

النص غير قابل للتشفير




إذا تم تدريب GAN على الوجوه ، فسيكون من الصعب عليها العثور على كائنات مهيكلة نادرة في الخلفية. بالإضافة إلى ذلك ، يتم تدريب شبكات GAN على كل من الإصدارات القياسية والنسخ المتطابقة من الصور ، الأمر الذي يؤدي إلى حدوث مشاكل عند نمذجة النص ، والذي يتم عرضه عادةً في اتجاه واحد فقط.

خلفية سريالية




أحد الأسباب التي تجعل الوجوه المولدة تبدو قابلة للتصديق هي أن كل صور التدريب كانت تتمحور حولها. هذا يقلل من التباين في توليد ، على سبيل المثال ، عيون وآذان. من ناحية أخرى ، يمكن أن تحتوي الخلفية على أي شيء. من الصعب جداً نمذجة النماذج ، وبالتالي فإن الشبكة العصبية تنسخ في النهاية نسج الخلفية العامة ، بدلاً من مشاهد الخلفية "الحقيقية".

عدم التماثل




قد تواجه GAN صعوبة في إدارة التبعيات البعيدة. على سبيل المثال ، عادةً ما تتطابق الملحقات المقترنة ، مثل الأقراط ، في مجموعة البيانات ، ولكن ليس في الصور التي تم إنشاؤها. عادة ما تبدو العيون في هذه الصور في نفس الاتجاه وعادةً ما تكون بنفس اللون ، وغالبًا ما تعاني الوجوه الناتجة من الحول غير المتجانسة. غالبًا ما يظهر عدم التماثل على آذان مختلفة الارتفاع أو الأحجام.

أسنان غريبة




يمكن لشبكات GAN أن تجمع مشهدًا مشتركًا ، ولكنها تواجه حاليًا صعوبات في الحصول على تفاصيل متكررة شبه منتظمة مثل الأسنان. في بعض الأحيان تقوم GAN بإعطاء أسنان ملتوية أو تمدد أو تشد أسنانها بطرق غريبة. تاريخياً ، ظهرت هذه المشكلة في مناطق أخرى ، مثل توليف القوام بصور مثل الطوب.

الشعر الفوضوي




هذه هي واحدة من أسرع الطرق للتعرف على صورة مزيفة. وكقاعدة عامة ، يجمع GAN الشعر في كتل ، ويخلق حزم عشوائية حول الكتفين ويلقي أشعث كثيف على الجبهة. تسريحات الشعر الحقيقية متنوعة للغاية ومفصلة ، مما يجعلها واحدة من أصعب الأشياء لتوليد GAN واقعية. الأجسام الغريبة يمكن أن تتحول في بعض الأحيان إلى قوام مشعر.

الكلمة غير مفهومة




تم تدريب GAN على جناح CelebA من خلال 200000 صورة لـ 10،000 من المشاهير. في هذه المجموعة لم أقابل أي شخص بشعر الوجه والأقراط والمكياج في نفس الوقت ؛ لكن GAN تمزج بانتظام السمات النموذجية للجنس المختلفة. بشكل عام ، أعتقد أن هذا يرجع إلى حقيقة أن GAN لا تحصل دائمًا على فكرة عن الفئات الثنائية المعاكسة التي يتم قبولها في المجتمع البشري (في هذه الحالة ، "الرجل مقابل المرأة").

الضوضاء شبه العادية




بدلاً من الخلفية أحادية اللون ، قد تتلقى بعض المناطق ضوضاء شبه منتظمة بخطوط أفقية أو رأسية. في الحالات المذكورة أعلاه ، ربما تحاول الشبكة محاكاة نسيج القماش. تولد شبكات GAN الأقدم ضوضاء أكثر وضوحا ، والتي توصف عادة بأنها قطع أثرية للشطرنج .

قوس قزح مضيئة




بعض المناطق ذات الحشوة الصلبة الخفيفة تتلقى إشعاعات متعددة الألوان: وهي أطواق ، رقاب وعيون بيضاء (لا تظهر هنا).

أمثلة على الصور الحقيقية




انتبه إلى خلفية واضحة ونص وأقراط مقترنة وأسنان من نفس الحجم وتسريحات شعر مفصلة. معرفة جميع حيل GAN ، حاول أن تلعب اللعبة وتحقق من كيف تميز الوجوه الحقيقية عن الوجوه المزيفة. ملاحظة: يواجه البعض مشاكل في الزر "ابدأ" .

Source: https://habr.com/ru/post/ar432580/


All Articles