تحسين الصورة الاحتمالية متعددة البكسل: Google Brain


مثال على الشبكة العصبية بعد التدريب القائم على وجوه المشاهير. على اليسار توجد مجموعة أولية من الصور 8 × 8 بيكسل عند مدخل الشبكة العصبية ، في الوسط نتيجة الاستيفاء حتى 32 × 32 بكسل وفقًا لتنبؤ النموذج. على اليمين توجد صور حقيقية لوجوه المشاهير ، تم تصغيرها إلى 32 × 32 ، والتي تم الحصول منها على عينات للعمود الأيسر.

هل من الممكن زيادة دقة الصور إلى ما لا نهاية؟ هل من الممكن إنشاء صور يمكن تصديقها على أساس 64 بكسل؟ يقترح المنطق أن هذا مستحيل. تفكر الشبكة العصبية الجديدة من Google Brain بشكل مختلف. إنه يرفع درجة دقة الصور إلى مستوى لا يصدق.

إن هذا "الإفراط في الدقة" ليس استعادة للصورة الأصلية من نسخة منخفضة الدقة. هذا هو مزيج من التصوير الفوتوغرافي الذي يمكن تصديقهربما يمكن أن تكون الصورة الأصلية. هذه عملية احتمالية.

عندما تكون المهمة هي "زيادة دقة" الصورة ، ولكن لا توجد تفاصيل لتحسينها ، فإن مهمة النموذج هي إنشاء الصورة الأكثر معقولية من وجهة نظر بشرية. في المقابل ، من المستحيل إنشاء صورة واقعية حتى ينشئ النموذج الخطوط العريضة ويتخذ قرارًا "قوي الإرادة" حول المواد والأشكال والأنماط التي ستكون موجودة في أجزاء مختلفة من الصورة.

على سبيل المثال ، ما عليك سوى إلقاء نظرة على KDPV ، حيث يوجد في العمود الأيسر صور اختبار حقيقية للشبكة العصبية. أنها تفتقر إلى تفاصيل الجلد والشعر. ولا يمكن استعادتها بأي شكل من الأشكال بأساليب الاستيفاء التقليدية مثل الخطية أو ثنائية التكعيب. ومع ذلك ، إذا كان لديك أولاً معرفة متعمقة حول التنوع الكامل للوجوه ومخططاتها النموذجية (ومعرفة أن من الضروري زيادة دقة الوجه هنا) ، فإن الشبكة العصبية قادرة على تحقيق شيء رائع - و "رسم" التفاصيل المفقودة التي من المرجح أن تكون هناك.

ينشر اختصاصيو دماغ Google دقة بكسل متكررة فائقة"، الذي يصف نموذج احتمالي كامل تم تدريبه على مجموعة من الصور عالية الدقة ونسخها المخففة من 8 × 8 لتوليد 32 × 32 صورة من عينات صغيرة 8 × 8.

يتكون النموذج من مكونين يتم تدريبهما في وقت واحد: شبكة عصبية تكييفية وشبكة سابقة. الأول يثبت بشكل فعال صورة منخفضة الدقة على توزيع الصور عالية الدقة المقابلة ، والنماذج الثانية تفاصيل عالية الدقة لجعل النسخة النهائية أكثر واقعية. تتكون الشبكة العصبية المكيفة من وحدات ResNet ، والأول هو بنية PixelCNN .

تخطيطيًا ، تم تصوير النموذج في الرسم التوضيحي.



تتلقى الشبكة العصبية التلافيفية المشروطة صورًا منخفضة الدقة عند الإدخال وتنتج سجلات - قيمًا تتنبأ باحتمال تسجيل الدخول الشرطي لكل بكسل في صورة عالية الدقة. في المقابل ، تقوم الشبكة العصبية التلافيفية مسبقًا بعمل تنبؤات استنادًا إلى تنبؤات عشوائية سابقة (يشار إليها بخط متقطع في الرسم البياني). يتم احتساب التوزيع الاحتمالي للنموذج بأكمله كمشغل softmax فوق مجموع مجموعتين من السجلات من شبكة عصبية مشروطة وقبلها.

ولكن كيف يمكن تقييم جودة هذه الشبكة؟ توصل مؤلفو العمل العلمي إلى استنتاج مفاده أن المقاييس القياسية مثل نسبة الذروة للإشارة إلى الضوضاء (pSNR) والتشابه الهيكلي (SSIM) غير قادرة على تقييم جودة التنبؤ لمثل هذه المشكلات ذات الزيادة الفائقة في الدقة. وفقًا لهذه المقاييس ، اتضح أن أفضل نتيجة هي الصور الباهتة ، وليست الصور الواقعية التي لا تتطابق فيها التفاصيل الواضحة والقابلة للتصديق في مكان التنسيب مع التفاصيل الواضحة للصورة الحقيقية. أي أن مقاييس pSNR و SSIM متحفظة للغاية. أظهرت الدراسات أنه يمكن للأشخاص بسهولة تمييز الصور الحقيقية عن خيارات التعتيم التي تم إنشاؤها بواسطة طرق الانحدار ، ولكن ليس من السهل عليهم التمييز بين العينات التي تم إنشاؤها بواسطة الشبكة العصبية من الصور الحقيقية.

دعونا نرى النتائج التي طورها نموذج Google Brain وتم تدريبها على مجموعة من 200000 وجه مشهور (مجموعة صور CelebA) و 2000000 غرفة نوم (مجموعة صور غرف نوم LSUN). في جميع الحالات ، تم تخفيض الصور قبل تدريب النظام إلى حجم 32 × 32 بكسل ، ثم مرة أخرى إلى 8 × 8 باستخدام طريقة الاستيفاء المكعبة. تم تدريب شبكات TensorFlow العصبية على 8 وحدات معالجة رسومات.

قورنت النتائج على قاعدتين رئيسيتين: 1) انحدار مستقل لكل بكسل على حدة (انحدار) مع بنية مشابهة للشبكة العصبية SRResNet، الذي يُظهر نتائج رائعة على المقاييس القياسية لتقييم جودة الاستيفاء ؛ 2) البحث عن أقرب عنصر مجاور (NN) ، والذي يبحث في قاعدة بيانات العينات التعليمية ذات الدقة المنخفضة للصورة الأكثر تشابهًا بقرب وحدات البكسل في الفضاء الإقليدي ، ثم يعيد الصورة المقابلة عالية الدقة التي تم إنشاء هذه العينة التعليمية منها.

وتجدر الإشارة إلى أن النموذج الاحتمالي ينتج نتائج ذات جودة مختلفة ، اعتمادًا على درجة حرارة softmax. وقد ثبت يدويًا أن القيم المثلىττ=1,2


τ=1,2



مقارنة نتائج غرفة النوم









مقارنة نتائج وجوه المشاهير









للتحقق من واقعية النتائج ، أجرى العلماء دراسة استعانة بمصادر خارجية. تم عرض صورتين للمشاركين: واحدة حقيقية ، والثانية تم إنشاؤها بطرق مختلفة من نسخة مخفضة 8 × 8 وطلب منهم تحديد الصورة التي التقطتها الكاميرا.



في الجزء العلوي من الجدول توجد نتائج لقاعدة المشاهير ، وأدناه لغرف النوم. كما ترون ، في درجة الحرارةτ=1,2





Source: https://habr.com/ru/post/ar401395/


All Articles