يتعلم البكسل 3 كيفية تحديد العمق في الصور

يسمح لك الوضع الرأسي على الهواتف الذكية Pixel بالتقاط صور ذات مظهر احترافي تجذب الانتباه إلى الموضوع مع تشويش الخلفية. في العام الماضي ، وصفنا كيف نحسب العمق باستخدام كاميرا واحدة والتركيز التلقائي للكشف عن الطور (ضبط تلقائي للكشف عن الطور ، PDAF) ، والمعروف أيضًا باسم ضبط تلقائي للصورة مزدوج بكسل . استخدمت هذه العملية خوارزمية ستيريو تقليدية دون تدريب. هذا العام في Pixel 3 ، اعتمدنا التعلم الآلي من أجل تحسين تقييم العمق وتحقيق نتائج أفضل في وضع عمودي.


اليسار: الصورة الأصلية التي تم التقاطها في HDR + . على اليمين توجد مقارنة بين نتائج التصوير في الوضع الرأسي باستخدام العمق من الاستريو التقليدي والتعلم الآلي. نتائج التعلم تنتج أخطاء أقل. في النتيجة التقليدية للستريو ، يتم تقدير عمق العديد من الخطوط الأفقية خلف الرجل بشكل غير صحيح مساوياً لعمق الرجل نفسه ، ونتيجة لذلك تظل حادة.

رحلة قصيرة في المادة السابقة


في العام الماضي ، وصفنا أن الوضع الرأسي يستخدم شبكة عصبية لفصل البيكسلات التي تنتمي إلى صور الأشخاص وصورة الخلفية ، ويكمل هذا القناع ثنائي المستوى بمعلومات متعمقة مستمدة من وحدات بكسل PDAF. تم كل ذلك للحصول على طمس ، وهذا يتوقف على العمق ، على مقربة مما يمكن أن تقدمه كاميرا احترافية.

للعمل ، تأخذ PDAF طلقات مختلفة قليلاً عن المشهد. التبديل بين الصور ، يمكنك أن ترى أن الشخص لا يتحرك ، وأن الخلفية تتحرك أفقياً - وهذا التأثير يسمى المنظر . نظرًا لأن المنظر هو وظيفة لمسافة نقطة ما من الكاميرا والمسافة بين وجهتي نظر ، يمكننا تحديد العمق من خلال مقارنة كل نقطة في صورة ما بنقطةها المقابلة في أخرى.


تبدو صور PDAF على اليسار وفي المنتصف متشابهة ، لكن يمكن رؤية المنظر في الجزء الموسع على اليمين. من الأسهل ملاحظة الهيكل الدائري في مركز التكبير.

ومع ذلك ، فإن العثور على مثل هذه المراسلات في صور PDAF (وتسمى هذه الطريقة عمق الاستريو) هو مهمة صعبة للغاية ، لأن النقاط بين الصور تتحرك بشكل ضعيف للغاية. علاوة على ذلك ، تعاني جميع تقنيات الاستريو من مشاكل الفتحة. إذا نظرت إلى المشهد من خلال فتحة صغيرة ، فلن يكون من الممكن العثور على مراسلات النقاط للخطوط الموازية لخط الأساس المجسم ، أي الخط الذي يربط الكاميرتين. بمعنى آخر ، عند دراسة الخطوط الأفقية في الصورة المعروضة (أو الخطوط الرأسية في الصور ذات الاتجاه العمودي) ، فإن كل التحولات في صورة واحدة بالنسبة إلى صورة أخرى تبدو متشابهة تقريبًا. في الوضع العام الماضي ، قد تؤدي كل هذه العوامل إلى أخطاء في تحديد عمق وظهور القطع الأثرية غير السارة.

تحسين تقييم العمق


مع وضع صورة Pixel 3 ، نصلح هذه الأخطاء باستخدام حقيقة أن المنظر من الصور المجسمة هو مجرد واحدة من العديد من المفاتيح في الصور. على سبيل المثال ، تبدو النقاط البعيدة عن مستوى التركيز أقل حدة ، وسيكون ذلك بمثابة تلميح من عمق التركيز. بالإضافة إلى ذلك ، حتى عند عرض صورة على شاشة مسطحة ، يمكننا بسهولة تقدير المسافة إلى الكائنات ، نظرًا لأننا نعرف الحجم التقريبي للكائنات اليومية (أي ، يمكنك استخدام عدد البكسلات التي تصور وجه شخص ما لتقدير مدى موقعه). هذا سيكون دليل الدلالي.

من الصعب للغاية تطوير خوارزمية تجمع بين هذه النصائح ، ولكن باستخدام MO ، يمكننا القيام بذلك مع تحسين أداء نصائح المنظر PDAF. على وجه التحديد ، نقوم بتدريب شبكة عصبية تلافيفية مكتوبة في TensorFlow ، والتي تتلقى بكسلات من PDAF كمدخلات ، وتتعلم التنبؤ بالعمق. يتم استخدام هذه الطريقة الجديدة والمحسّنة لتقدير العمق على أساس MO في وضع صورة Pixel 3.


تستقبل شبكتنا العصبية التلافيفية صور PDAF وتوفر خريطة عميقة. تستخدم الشبكة بنية نمط فك تشفير مع اتصالات تخطي إضافية وكتل المتبقية.

تدريب الشبكة العصبية


لتدريب الشبكة ، نحتاج إلى الكثير من صور PDAF وخرائط العمق عالية الجودة المقابلة. ونظرًا لأننا نحتاج إلى تنبؤات العمق لتكون مفيدة في الوضع الرأسي ، فإننا نحتاج إلى بيانات التدريب لتكون مشابهة للصور التي يلتقطها المستخدمون مع الهواتف الذكية.

للقيام بذلك ، قمنا بتصميم جهاز Frankenfon خاص ، حيث قمنا بدمج خمسة هواتف Pixel 3 وقمنا بإنشاء اتصال WiFi بينهما ، مما سمح لنا بالتقاط الصور في وقت واحد من جميع الهواتف (بفارق لا يزيد عن 2 مللي ثانية). باستخدام هذا الجهاز ، قمنا بحساب خرائط عمق عالية الجودة استنادًا إلى الصور الفوتوغرافية ، وذلك باستخدام كل من الحركة والاستريو من زوايا متعددة.


اليسار: جهاز لجمع بيانات التدريب. في الوسط: مثال على التبديل بين خمس صور فوتوغرافية. يضمن تزامن الكاميرا القدرة على حساب العمق في المشاهد الحيوية. اليمين: العمق الكلي. النقاط ذات الثقة المنخفضة ، حيث كانت مقارنة البيكسلات في الصور المختلفة غير مؤكدة بسبب ضعف القوام ، مطلية باللون الأسود ولا تستخدم في التدريب.

كانت البيانات التي تم الحصول عليها باستخدام هذا الجهاز مثالية لتدريب الشبكة للأسباب التالية:

  • خمس وجهات نظر تضمن وجود المنظر في عدة اتجاهات ، مما يوفر لنا من مشكلة الفتحة.
  • يضمن موقع الكاميرات تكرار أي نقطة في الصورة في صورتين على الأقل ، مما يقلل من عدد النقاط التي لا يمكن مطابقتها.
  • خط الأساس ، أي المسافة بين الكاميرات ، أكبر من خط PDAF ، الذي يضمن تقديرًا أكثر دقة للعمق.
  • يضمن تزامن الكاميرا القدرة على حساب العمق في المشاهد الحيوية.
  • تضمن إمكانية نقل الجهاز إمكانية التقاط صور في الطبيعة ، ومحاكاة الصور التي يلتقطها المستخدمون باستخدام الهواتف الذكية.

ومع ذلك ، على الرغم من مثالية البيانات التي تم الحصول عليها باستخدام هذا الجهاز ، لا يزال من الصعب للغاية التنبؤ بالعمق المطلق للكائنات المشهد - يمكن لأي زوج PDAF معين يتوافق مع خرائط عمق مختلفة (كل هذا يتوقف على خصائص العدسات ، البعد البؤري ، وما إلى ذلك). لأخذ كل هذا في الاعتبار ، نحن نقدر العمق النسبي للكائنات المشهد ، وهو ما يكفي للحصول على نتائج مرضية في وضع عمودي.

نحن الجمع بين كل هذا


يجب أن يعمل تقدير العمق باستخدام MOs على Pixel 3 بسرعة حتى لا يضطر المستخدمون إلى الانتظار لفترة طويلة للحصول على نتائج صورة. ومع ذلك ، للحصول على تقديرات عمق جيدة باستخدام defocus الصغيرة و المنظر ، يجب عليك تغذية الشبكات العصبية للصورة بدقة كاملة. لضمان تحقيق نتائج سريعة ، نستخدم TensorFlow Lite ، وهو حل متعدد المنصات لإطلاق طرز MO على الأجهزة المحمولة والأجهزة المدمجة ، بالإضافة إلى وحدة Pixel 3 GPU القوية ، والتي تتيح لك حساب العمق بسرعة على بيانات الإدخال الكبيرة بشكل غير عادي. ثم نجمع بين تقديرات العمق التي تم الحصول عليها والأقنعة من شبكتنا العصبية ، والتي تميز الناس ، للحصول على أجمل نتائج التصوير في الوضع الرأسي.

جربه بنفسك


في الإصدار 6.1 من Google Camera App والإصدارات الأحدث ، يتم تضمين خرائط العمق الخاصة بنا في الصور ذات الوضع الرأسي. هذا يعني أنه يمكننا استخدام محرر صور Google لتغيير درجة الضبابية ونقطة التركيز بعد التقاط صورة. يمكنك أيضًا استخدام برامج الجهات الخارجية لاستخراج خرائط العمق من jpeg ، ودراستها بنفسك. يمكنك أيضًا التقاط ألبوم من الرابط ، يعرض خرائط العمق النسبي والصور ذات الصلة في الوضع الرأسي ، لمقارنة أسلوب الاستيريو التقليدي و MO.

Source: https://habr.com/ru/post/ar433600/


All Articles