تعمل الشبكة العصبية Pix2pix على تلوين رسومات قلم الرصاص بشكل واقعي وصور بالأبيض والأسود


أربعة أمثلة للبرنامج ، الذي تم نشر رمزه في المجال العام. تظهر صور المصدر على اليسار ، وتظهر نتيجة المعالجة التلقائية للترجمة التلقائية للصور من طريقة عرض إلى أخرى على اليمين . على سبيل المثال ، من رسم أبيض وأسود إلى صورة بالألوان الكاملة.

يمكن اختزال العديد من المهام في معالجة الصور ورسومات الكمبيوتر ورؤية الكمبيوتر إلى مهمة "ترجمة" صورة (عند الإدخال) إلى أخرى (عند الإخراج). تمامًا كما يمكن تمثيل نفس النص باللغة الإنجليزية أو الروسية ، لذلك يمكن تمثيل الصورة بألوان RGB ، في التدرجات ، كخريطة لحدود الكائنات ، وخريطة للتسميات الدلالية ، وما إلى ذلك. استنادًا إلى نموذج أنظمة الترجمة التلقائية ، أنشأ مطورو مختبر أبحاث Berkeley AI (BAIR) التابع لجامعة كاليفورنيا في بيركلي تطبيقًا

بالنسبة لشخص غير مطّلع ، فإن عمل مثل هذا البرنامج سيبدو سحريًا ، ولكنه يعتمد على نموذج برنامج شبكات الخصومة التوليدية الشرطية (cGAN) - أنواع من النوع المعروف من شبكات الخصومة التوليدية (GAN).

يكتب مؤلفو العمل العلمي أن معظم المشاكل التي تنشأ عند ترجمة الصور تتعلق إما بترجمة "من شخص لآخر" (رؤية الكمبيوتر - ترجمة الصور إلى خرائط دلالية ، ومقاطع ، وحدود كائن ، وما إلى ذلك) ، أو "واحد إلى كثير" "(رسومات الحاسوب - ترجمة الملصقات أو إدخال البيانات من المستخدم في صور واقعية). تقليديا ، يتم تنفيذ كل من هذه المهام من خلال تطبيق متخصص منفصل. في عملهم ، حاول المؤلفون إنشاء إطار عالمي واحد لجميع هذه المشاكل. وقد فعلوا ذلك.

تعتبر الشبكات العصبية التلافيفية المدربة لتقليل وظيفة الخسارة رائعة لبث الصور.، أي قياس التباين بين القيمة الحقيقية للمعلمة المقدرة وتقدير المعلمة. على الرغم من أن التدريب نفسه يتم تلقائيًا ، إلا أنه يلزم عمل يدوي كبير لتقليل وظيفة الخسارة بشكل فعال. وبعبارة أخرى ، ما زلنا بحاجة إلى شرح وإظهار الشبكات العصبية ما يجب تقليله على وجه التحديد. وهنا هناك العديد من المزالق التي تؤثر سلبًا على النتيجة ، إذا عملنا مع وظيفة فقدان منخفضة المستوى مثل "تقليل المسافة الإقليدية بين البكسل المتوقعة والحقيقية" - سيؤدي ذلك إلى توليد صور ضبابية.


تأثير وظائف الخسارة المختلفة على النتيجة

سيكون من الأسهل بكثير تعيين الشبكات العصبية على مهام عالية المستوى مثل "إنشاء صورة لا يمكن تمييزها عن الواقع" ، ثم تدريب الشبكة العصبية تلقائيًا لتقليل وظيفة الخسارة التي تؤدي المهمة على أفضل وجه. هذه هي الطريقة التي تعمل بها شبكات الخصومة التوليدية (GANs) - واحدة من أكثر المجالات الواعدة في تطوير الشبكات العصبية اليوم. تدرب شبكة GAN وظيفة الخسارة ، التي تتمثل مهمتها في تصنيف الصورة على أنها "حقيقية" أو "مزيفة" ، أثناء تدريب النموذج التوليدي لتقليل هذه الوظيفة. هنا ، لا يمكن إنتاج صور ضبابية بأي شكل من الأشكال ، لأنها لن تجتاز فحص التصنيف على أنه "حقيقي".

استخدم المطورون شبكات الخصومة التوليدية التوليدية (cGAN) للمهمة ، أي GAN بمعلمة شرطية. تمامًا كما يستوعب GAN نموذج البيانات التوليدية ، فإن cGAN تستوعب النموذج التوليدي وفقًا لظروف معينة ، مما يجعله مناسبًا لبث الصور "واحد لواحد".


بث مخططات مناظر المدينة إلى صور واقعية. يوجد على اليسار الترميز ، في المنتصف هو الأصل ، وعلى اليمين الصورة التي تم إنشاؤها.

على مدار العامين الماضيين ، تم وصف العديد من تطبيقات GAN ودرس الأساس النظري لعملهم جيدًا. ولكن في كل هذه الأعمال ، يتم استخدام GAN للمهام المتخصصة فقط (على سبيل المثال ، إنشاء صور مخيفة أو توليد صور إباحية) لم يكن من الواضح تمامًا كيف أن GAN مناسبة للترجمة الفعالة للصور الفردية. الهدف الرئيسي من هذا العمل هو إثبات أن مثل هذه الشبكة العصبية قادرة على أداء قائمة كبيرة من المهام المختلفة ، مما يظهر نتيجة مقبولة تمامًا.

على سبيل المثال ، يبدو تلوين رسومات القلم الرصاص بالأسود والأبيض (العمود الأيسر) جيدًا جدًا ، والتي تقوم على أساسها الشبكة العصبية بإنشاء صور واقعية (العمود الأيمن). في بعض الحالات ، تبدو نتيجة تشغيل الشبكة العصبية أكثر واقعية من الصورة الحقيقية (العمود المركزي ، للمقارنة).


إرسال رسومات بالقلم الرصاص إلى صور واقعية. على اليسار رسم بالقلم الرصاص ، في المنتصف هو الأصلي ، وعلى اليمين صورة تم إنشاؤها.




ترجمة رسومات بالقلم الرصاص إلى صور واقعية.

كما هو الحال في الشبكات التوليدية الأخرى ، في هذا GAN ، الشبكات العصبية في حالة حرب فيما بينها . يحاول أحدهم (المولد) إنشاء صورة مزيفة لخداع الآخر (المميّز). بمرور الوقت ، يتعلم المولد كيفية خداع المتميز بشكل أفضل ، أي إنشاء صور أكثر واقعية. على عكس GANs التقليدية ، في Pix2Pix ، يمكن لكل من التمييز والمولد الوصول إلى الصورة الأصلية.


تدريب cGAN على التنبؤ بالصور الجوية من خرائط التضاريس


أمثلة على عمل cGAN في ترجمة الصور الجوية إلى خرائط التضاريس والعكس بالعكس.

تم نشر مقال علمي في المجال العام ، كود المصدر لـ Pix2pix موجود على GitHub . يقدم المؤلفون الجميع لتجربة البرنامج.

Source: https://habr.com/ru/post/ar399469/


All Articles