لقد توقفت بالفعل عن الارتجاف وأتساءل عندما يرن الهاتف وصوتًا قويًا وواثقًا في جهاز الاستقبال: "هل هذا القائد يزعجك (كبيرًا وكذا) ، هل يمكنك الإجابة على سؤالين؟" لماذا لا تتحدث إلى الشرطة الخاصة بك ...
الأسئلة هي نفسها دائما. "لدينا فيديو مع المشتبه به ، الرجاء المساعدة في استعادة الوجه" ... "ساعد في زيادة الرقم من DVR" ... "لا توجد أيدي بشرية هنا ، الرجاء المساعدة في الزيادة" ... وهكذا في نفس السياق.
لتوضيح ما يدور حوله هذا ، إليك مثال حقيقي لمقطع فيديو مضغوط للغاية تم إرساله حيث يطلبون استعادة وجه ضبابي (حجمه يعادل حوالي 8 بكسل):
حسناً ، أعمام ستيبا الروسية هم وحدهم الذين يزعجون ، كما كتب ويسترن بينكرتونز.
هنا ، على سبيل المثال ، رسالة من شرطة إنجلترا <***** @ *****. Fsnet.co.uk>:
لقد استخدمت عوامل التصفية الخاصة بك بشكل خاص لبعض الوقت لإنقاذ مقاطع الفيديو الفقيرة الخاصة بي من العطلات العائلية ، لكنني أرغب في استخدام المرشحات التجارية لعملي. أنا حاليًا ضابط شرطة في قوة شرطة صغيرة ، ونحصل على الكثير من فيديو CCTV ، وهو في وقت ما ذو جودة رديئة للغاية ويمكنني أن أرى كيف ستحدث مرشحاتك فرقًا حقيقيًا. هل يمكن أن تخبرني عن التكلفة وإذا كان بإمكاني استخدامها.
شكرا لك
ترجمةلقد استخدمت بالفعل الفلاتر الخاصة بك لأغراض شخصية لحفظ مقاطع الفيديو السيئة من العطلات العائلية. ولكن أود استخدام المرشحات التجارية في عملي. أنا حاليا ضابط شرطة في وحدة صغيرة. نحصل على عدد كبير من مقاطع الفيديو من كاميرات الدوائر التلفزيونية المغلقة ، وأحيانًا تكون ذات جودة رديئة للغاية ، وسوف تساعد المرشحات الخاصة بك حقًا. هل يمكن أن تخبرني بتكلفتها ، وهل يمكنني استخدامها؟
شكرا لك
أو هنا يكتب شرطي من أستراليا:
مرحبا
أنا أعمل لدى شرطة فيكتوريا في أستراليا ، في وحدة الطب الشرعي للفيديو والصوت. نتلقى في بعض الأحيان فيديو من الكاميرات المحمولة باليد أو المركبة. في كثير من الأحيان هذه التقاط لقطات المتداخلة من الأحداث سريعة الحركة. على وجه الخصوص ، اللقطات التي عادةً ما تكون لها "الوعد" ، هي لقطات لوحات أرقام المركبات. غالبًا ما نجد أن المركبة الموضوعية ستكون قد تحركت بشكل كبير بين الحقل الأول والأخير الذي تم التقاطه. نتيجة لذلك ، نحاول إعادة بناء الإطار بالكامل من الحقلين ، مع ترجمة الحقل الثاني وتناوبه في بعض الأحيان ، وأحيانًا يكون الحجم مختلفًا أيضًا (حيث أن السيارة تسير بعيدًا أو باتجاه الكاميرا.) الزواج من هذين الحقلين ، ويفضل أن تكون دقة البكسل الفرعي وإعادة بناء الإطار الذي يحتوي على لوحة الأرقام ، أمرًا صعبًا.
من خلال ما أراه عنك وهو يقطع لقطات ، قد يكون عامل التصفية الخاص بك يقوم ببعض ما نحتاج إليه ، إن لم يكن كل ذلك. بصراحة ، نظرًا لأن ميزانيتنا صغيرة إلى حد ما ، فمن غير المحتمل أن نتمكن من تحمل ترخيص تجاري. نحن لا نبيع المنتج ، بالطبع ، نحن نستخدمه كدليل في قضايا الشرطة. في أي حال ، اعتقدت أنني سأكتب رسالة بريد إلكتروني وأطلبها على أي حال. كم سيكلف الترخيص؟ هل من الممكن اختبار المنتج على لقطات ، لمعرفة ما إذا كان ذلك مناسبًا؟ هل يفعل بعض ما نحتاجه؟ أخيرًا ، هل تم نشر الخوارزمية؟ يعد العمل باستخدام خوارزميات مجهولة ممارسة خطيرة لمحكمة قانونية. إذا أسفرت الأدلة عن ذهاب رجل إلى 20 عامًا ، فمن الجيد معرفة السبب!
سيكون موضع تقدير أي معلومات يمكنك تقديم.
التحيات ،
أخصائي الحالات
وحدة الصوت البصري
دائرة شرطة فيكتوريا للطب الشرعي
ترجمةمرحبا
أنا أعمل لدى شرطة فيكتوريا في أستراليا في قسم الطب الشرعي والصوت. من وقت لآخر ، نتلقى الفيديو من الكاميرات المحمولة باليد وأجهزة تسجيل الفيديو الرقمية. غالبًا ما تكون مقاطع الفيديو هذه عبارة عن تصوير متشابك للكائنات سريعة الحركة. على وجه الخصوص ، أهم المواد هي لوحات ترخيص المركبات. كثيرا ما نجد أن السيارة المعنية تتحرك بقوة بين الحقل الأول والأخير. نتيجةً لذلك ، نحاول استعادة إطار كامل من حقلين ، يتم تغيير الحقل الثاني ، وأحيانًا يتم تدويره وأحيانًا يكون مختلفًا في الحجم (عندما تكون السيارة تسير من أو إلى الكاميرا). قد يكون من الصعب الجمع بين هذين الحقلين ، ويفضل أن يكون ذلك بدقة نصف بكسل ، واستعادة إطار كامل يحتوي على لوحة ترخيص.
أرى كيف يمكنك تطبيق deinterlacing على الإطارات ، وربما يمكن للمرشحات أن تفعل شيئًا ، إن لم يكن كل ما نحتاج إليه. بصراحة ، قد لا نتمكن من تحمل ترخيص تجاري ، لأن ميزانيتنا صغيرة جدًا. نحن لا نبيع المنتج ، بالطبع ، نحن نستخدمه كدليل في قضايا الشرطة. على أي حال ، اعتقدت أنني سأكتب خطابًا وما زلت أسأل. كم سيكلف الترخيص؟ هل من الممكن اختبار المنتج على المادة لمعرفة ما إذا كان مناسبًا؟ هل يفعل جزء مما نحتاجه؟ أخيرًا ، هل تم نشر الخوارزمية؟ .. يعد العمل باستخدام خوارزميات مجهولة ممارسة خطيرة في المحكمة. إذا كانت الأدلة تقود الشخص إلى الذهاب إلى السجن لمدة 20 عامًا ، فمن المفيد معرفة السبب.
سنكون ممتنين لأية معلومات يمكنك تقديمها إلينا.
التحيات
محقق
قسم الصوت والفيديو
قسم الطب الشرعي لشرطة فيكتوريا
لاحظ أن الرسالة مدروسة للغاية ، والشخص قلق بشأن الخوارزمية التي يتم نشرها وحول مسؤولية الاسترداد غير الصحيح.
في بعض الأحيان هم فقط في عملية المراسلات يعترفون بأنهم من الشرطة. على سبيل المثال ، يرغب فريق carabinieri في إيطاليا في المساعدة:
دكتور فاتولين
شكرا على الاجابة
الجواب يستحق أيضا لقوات الشرطة (التحقيق Carabinieri
علمية لـ PARMA إيطاليا)؟
إلى أي برنامج تم ربط الخوارزميات بك.
سنكون كثيرا.
ترجمةدكتور الباتولين
شكرا على الرد
هل هذا مناسب للشرطة (Carabinieri Investigation Unit for PARMA ITALY)؟
هل هم مهتمون بالبرنامج الذي تستخدمه الخوارزميات؟
سنكون ممتنين.
وبطبيعة الحال ، العديد من النداءات من الناس العاديين ...
زيادة ذلك! ما ، تشعر بالأسف للزر الأيمن للضغط؟
من الواضح أن تدفق المكالمات بأكمله لا يظهر من نقطة الصفر.
"اللوم" في المقام الأول الأفلام والبرامج التلفزيونية.
على سبيل المثال ، هنا في 3 ثوان يتم زيادة إطار الفيديو المضغوط بنسبة 50 مرة ومن الانعكاس في النظارات التي يرون الدليل:
وهناك الكثير من هذه اللحظات في الأفلام والمسلسلات الحديثة. على سبيل المثال ، في هذا الفيديو ، لقد جمعنا ملحمة تمامًا مثل هذه الحلقات من حزمة من البرامج التلفزيونية ، لا تستغرق دقيقتين لمشاهدتها:
وعندما ترى هذا في كل فيلم ، يصبح القنفذ الأخير واضحًا أن كل ما تحتاجه هو أن يكون لديك عبقري كمبيوتر كفء ، ومجموعة من الخوارزميات الحديثة ، ويظل فقط
"إيقاف!" و "تعزيزه!" . وفويلا! معجزة سيحدث!
ومع ذلك ، فإن كتاب السيناريو لا يتوقف عند هذا الاستقبال الذي تم اختراقه بالفعل ، ويذهب خيالهم الجامح إلى أبعد من ذلك. هنا مثال شنيع للغاية. تلقى المحققون الشهم للتفكير في تلميذ الضحية صورة الجاني. في الواقع ، كان الانعكاس في النظارات موجودًا بالفعل. هذا شائع. دعنا ننتقل! لقد تبين أن دقة كاميرا CCTV في الدرج كانت عشوائية تمامًا مثل تلسكوب هابل:
في "النبي" (00:38:07):
في "Avatar" (1: 41: 04–1: 41: 05) ، خوارزمية التوضيح ، إلى حد ما ، غير عادية إلى حد ما مقارنة بالأفلام الأخرى: تزداد حدتها أولاً في أماكن معينة ، وبعد أن تنقسم الثانية المقسمة إلى بقية الصورة ، .e. أولاً النصف الأيسر من الفم ، ثم اليمين:
بشكل عام ، في الأفلام المشهورة جدًا التي يشاهدها مئات الملايين ، يتم توضيح الصورة بنقرة واحدة.
كل الناس (في الأفلام) يفعلون ذلك! إذن لماذا أنت ، مثل هؤلاء الخبراء الأذكياء ، لا تستطيع أن تفعل هذا ؟؟؟
"أعرف أن هذا سهل!" وقيل لي بالتأكيد أنك تفعل هذا! هل أنت كسول جدا للضغط على هذا الزر؟
// يا عزيزي ... كتاب السيناريو الملعونين بخيالهم الوحشي ...- أنا أفهم أنك مشغول ، ولكن الأمر يتعلق بمساعدتكم للدولة في حل جريمة مهمة!
/ / نحن نفهم.- ربما حان المال؟ كم تحتاج أن تدفع؟
// حسنًا ، كيف أشرح بإيجاز أننا لا نحتاج إلى المال ... ثم مرة أخرى ، ثم مرة أخرى ...
أي مصادفة بين علامات الاقتباس أعلاه ومربعات حوار حقيقية عشوائية تمامًا ، ولكن على وجه الخصوص ، يتم كتابة هذا النص من أجل إرسال شخص إلى قراءته بعناية أولاً ، وعندئذٍ فقط اتصل مرة أخرى.
خاتمة: نظرًا لأن المشهد بتكبير الصور من كاميرات CCTV بنقرة واحدة أصبح طابعًا للسينما الحديثة ، فإن عددًا كبيرًا من الناس مقتنعون بإخلاص أنه من السهل جدًا تكبير جزء من إطار كاميرا رخيصة أو مسجل فيديو رخيص. الشيء الرئيسي هو كيف تسأل (حسناً ، أو الأمر ، هذا هو كيف الحظ).
من أين تنمو الساقين؟
من الواضح أن هذا الدفق الكامل للمكالمات لا يؤخذ من الصفر. لقد شاركنا حقًا في تحسين الفيديو منذ حوالي 20 عامًا ، بما في ذلك أنواع مختلفة من استعادة الفيديو (وهناك عدة أنواع منها ، بالمناسبة) ، وستكون أمثلةنا أقل في هذا القسم.
تسمى الزيادة "الذكية" في المقالات العلمية عادةً الدقة الفائقة (SR لفترة قصيرة). يجد الباحث العلمي من Google عند الطلب
Super Resolution 2.9 مليون مقالة ، أي كان الموضوع ، كما كان ، جيدًا ، وقد تعامل معه عدد كبير من الناس. إذا اتبعت
الرابط ، فهناك بحر من النتائج ، واحد أكثر جمالا من الآخر. ومع ذلك ، فإن الأمر يستحق الحفر بشكل أعمق ، فالصورة ، كالعادة ، لا تصبح رعوية. موضوع SR له اتجاهان:
- دقة الفيديو الفائقة (0.4 مليون مقال) - الاستعادة الفعلية باستخدام الإطارات السابقة (وأحيانًا اللاحقة) ،
- دقة الصورة الفائقة (2.2 مليون مقال) - زيادة الدقة "الذكية" باستخدام إطار واحد فقط. نظرًا لأنه في حالة التقاط صورة ما حول ما لم يكن موجودًا بالفعل في هذا المكان ، فإن الخوارزميات تستكمل (أو ، على سبيل المثال ، "تكمل" الصورة) بطريقة أو بأخرى - ما الذي يمكن أن يكون هناك. المعيار الرئيسي لذلك هو أن النتيجة يجب أن تبدو طبيعية قدر الإمكان ، أو تكون أقرب ما تكون إلى الأصل. ومن الواضح أن هذه الأساليب ليست مناسبة لاستعادة ما كان "حقًا" ، على الرغم من تكبير الصورة بحيث تبدو أفضل ، على سبيل المثال ، عند الطباعة (عندما يكون لديك صورة فريدة ، لكن لا توجد نسخة بدقة أعلى ) هذه الأساليب ممكنة للغاية.
كما ترون ، فإن 0.4 مليون شخص مقابل 2.2 - أي أقل من 5 مرات يشاركون في التعافي الفعلي. لحسن الحظ ، فإن موضوع "افعلها بشكل أكبر ، جميل فقط" هو طلب كبير ، بما في ذلك في الصناعة (التكبير الرقمي السيئ السمعة للهواتف الذكية وأطباق الصابون الرقمية). علاوة على ذلك ، إذا كنت الغوص أكثر عمقًا ، فسيصبح من الواضح بسرعة أن هناك عددًا كبيرًا من المقالات حول
Video Super Resolution هي أيضًا زيادة في دقة الفيديو دون الاسترداد ، لأن الاسترداد أمر صعب. نتيجة لذلك ، يمكننا أن نقول أن أولئك الذين "يفعلون بشكل جميل" هم حوالي 10 مرات أكثر من أولئك الذين يحاولون حقًا استعادة. تماما وضع شائع في الحياة ، بالمناسبة.
نذهب أعمق. في كثير من الأحيان ، تكون نتائج الخوارزمية جيدة جدًا ، ولكنها تحتاج ، على سبيل المثال ، 20 إطارًا للأمام و 20 إطارًا للخلف ، وسرعة المعالجة لإطار واحد حوالي
15 دقيقة عند استخدام GPU الأكثر تقدمًا. أي لمدة دقيقة واحدة ، يحتاج الفيديو إلى 450 ساعة (19 يومًا تقريبًا). عفوًا ... لا أوافق ، هذا ليس مثل لحظة "Zoom it!" من الافلام بانتظام هناك خوارزميات تعمل لعدة أيام لكل إطار. بالنسبة للمقالات ، تكون النتيجة الأفضل عادة أكثر أهمية من وقت العمل ، لأن التسريع مهمة صعبة منفصلة ، ومن الأسهل تناول فيل كبير في أجزاء. هذا هو الفرق بين الحياة والسينما ...
أدى طلب الخوارزميات التي تعمل على الفيديو بسرعة معقولة إلى اتجاه منفصل لـ
Fast Video Super Resolution - 0.18 مليون مقالة ، بما في ذلك المقالات "البطيئة" التي تتم مقارنتها بالمقالات "السريعة" ، أي العدد الفعلي للمقالات حول هذه الأساليب مبالغ فيها. لاحظ أنه من بين الأساليب "السريعة" ، فإن نسبة المضاربة ، أي دون الانتعاش الحقيقي ، أعلى. وفقا لذلك ، فإن النسبة المئوية للتعافي بصراحة أقل.
الصورة ، كما ترى ، أصبحت واضحة. لكن هذا ، بالطبع ، بعيد كل البعد.
ما هي النقاط الأخرى التي تؤثر بشكل كبير على الحصول على نتيجة جيدة؟
أولاً ، الضوضاء مؤثرة جداً. في ما يلي مثال لاستعادة الدقة لمرتين على فيديو صاخب للغاية:
المصدر: مواد المؤلفالمشكلة الرئيسية في هذه القطعة ليست حتى مع الضوضاء المعتادة ، ولكن مع
تموج في
النسيج الملون على القميص ، الذي يصعب معالجته. قد يقول البعض أن الضوضاء الكبيرة ليست مشكلة اليوم. هذا ليس كذلك. انظر إلى بيانات مسجلات الفيديو الرقمية وكاميرات الدوائر التلفزيونية المغلقة في الظلام (فقط عندما تكون أكثر طلبًا).
ومع ذلك ، يمكن أن يحدث تموج في النسيج أيضًا "نظيفًا" نسبيًا من حيث فيديو الضوضاء ، مثل المدينة أدناه (
تستند الأمثلة أدناه
إلى عملنا ):
المصدر: مواد المؤلفثانياً ، لتحقيق الانتعاش الأمثل ، هناك حاجة إلى تنبؤ قريب من الحركة بين الإطارات. سبب صعوبة هذا موضوع كبير منفصل ، ولكن هذا يفسر سبب استرجاع المشاهد بحركة الكاميرا البانورامية بشكل جيد للغاية ، ومن الصعب للغاية استعادة المشاهد ذات الحركة الفوضوية نسبيًا ، ولكن يمكنك الحصول على نتيجة جيدة في بعض الحالات:
المصدر: مواد المؤلفوأخيرًا ، إليك مثال على استرداد النص:
المصدر: مواد المؤلفهنا ، تتحرك الخلفية بسلاسة تامة ، والخوارزمية لديها القدرة على "التجوال":
على وجه الخصوص ، إذا قارنا نقشًا صغيرًا جدًا على يمين اليد ، بما في ذلك التكبير باستخدام
الاستيفاء الثنائي الكلاسيكي ، عندئذٍ يكون الفرق واضحًا للغاية:
يمكن ملاحظة أنه بالنسبة
للاستيفاء ذي التعقيد المزدوج يكاد يكون من المستحيل قراءة العام ، بالنسبة إلى
Lanczos4 ، المحبوب من قبل أولئك الذين يغيرون دقة الفيديو بشكل شبه احترافي من أجل الحدة ، فإن الحواف أكثر وضوحًا ، ولكن لا يزال من المستحيل قراءتها. لا نعلق على التوباز التجاري ، لكننا نقرأ بوضوح النقش ويمكنك أن ترى أنه على الأرجح 1809.
الاستنتاجات:
- يشارك الآلاف من الباحثين في العالم في زيادة الدقة ، وتم نشر ملايين المقالات حول هذا الموضوع. لهذا السبب ، يحتوي كل هاتف ذكي على "تقريب رقمي" ، والذي عادة ما يكون أفضل موضوعيًا من الخوارزميات لزيادة البرامج التقليدية ، ويمكن لكل TV FullHD عرض فيديو SD ، حتى في كثير من الأحيان حتى بدون القطع الأثرية المميزة لتغيير الدقة.
- يعد استرداد صورة حقيقية من مقطع فيديو أقل بكثير من 10٪ من المشاركين في الدقة الفائقة ، علاوة على ذلك ، فإن معظم خوارزميات الاسترداد تكون بطيئة للغاية (تصل إلى عدة أيام من العمليات الحسابية لكل إطار).
- في معظم الحالات ، تم تصميم الاسترداد لضمان الحفاظ على الترددات العالية في الفيديو إلى حد ما ، وبالتالي لا تعمل على الفيديو مع التحف الفنية ضغط كبير. ونظرًا لأنه يتم ضبط نسبة الضغط في إعدادات كاميرات CCTV استنادًا إلى الرغبة في توفير المزيد من الساعات (أي يتم ضغط الفيديو بقوة أكبر وتقتل "الترددات العالية") ، يصبح من المستحيل تقريبًا استعادة هذا الفيديو.
ما يبدو ريال في هذه الصناعة
في الإنصاف ، نلاحظ أن جميع خوارزميات زيادة الدقة (أو التي تم شراؤها على الأقل) متاحة اليوم لجميع شركات تصنيع أجهزة التلفزيون (تحتاج إلى عمل صور عالية الدقة من صور SD أثناء التنقل) ، ولجميع الشركات المصنعة للهواتف الذكية (ما يسمى "التكبير الرقمي" في الإعلانات) ، إلخ. .د. سنتحدث عن نتائج Google (وليس فقط). أولاً ، لأن Google لطيفة للغاية وبدون الكثير من العيوب والتسويق يصف النتائج على مدونتها - وهذا أمر جيد للغاية. ثانياً ، لأن شركات تصنيع الهواتف الذكية (على سبيل المثال ، شركة كورية مشهورة جداً) لا تحجم عن استخدام ، على سبيل المثال ، فوتوشوب في الإعلان عن تقنياتها (ما هو الفرق - لا يزال الناس يبتلعون) - وهذا أمر غير سار. بشكل عام ، دعنا نتحدث عن أولئك الذين يصفون تقنيتهم بصدق.
في عام 2016 ، نشرت Google نتائج مثيرة للاهتمام للغاية لخوارزمية
RAISR (دقة الصورة السريعة والدقيقة) المستخدمة في الهاتف الذكي Pixel 2. على أنجح الصور ، بدت النتيجة رائعة:
المصدر: مدونة جوجلكانت الخوارزمية عبارة عن مجموعة من المرشحات المستخدمة بعد تصنيف ML ، ومقارنةً مع الاستيفاء الثنائي التكافؤ (صبي الضرب التقليدي) ، كانت النتيجة سعيدة:
بالترتيب: الأصلي ، استيفاء bicubic ، RAISRولكنها كانت عبارة عن إطار أحادي الإطار ، وعلى الأمثلة "غير الناجحة" ، مثل أوراق الشجر أدناه ، أصبحت الصورة مشوهة بشكل غير مستقر للغاية - بعد توسيع الصورة أصبحت الصورة "اصطناعية" بشكل ملحوظ. أظهر تمامًا التأثير الذي لا يُفضل فيه التكبير الرقمي للهواتف الذكية الحديثة:
في الواقع ، لم تحدث المعجزة ، ونشرت Google بصراحة وعلى الفور مثالًا مضادًا ، على سبيل المثال حددت على الفور حدود قابلية تطبيق نهجهم وحفظت الناس من التوقعات المفرطة (نموذجي للتسويق التقليدي).
ومع ذلك ، بعد أقل من عامين ، تم نشر
استمرار العمل المستخدم في Google Pixel 3 وتحسين جودة تصويره بشكل كبير ، والذي يعد بالفعل دقة فائقة متعددة الأطر صادقة ، أي خوارزمية الاسترداد القرار متعدد الإطار:
المصدر: مدونة جوجلتُظهر الصورة أعلاه مقارنة بين نتائج Pixel 2 و Pixel 3 ، والنتائج تبدو جيدة جدًا - لقد أصبحت الصورة أكثر وضوحًا بالفعل ، ومن الواضح أن هذه ليست "تفكيرًا" ، ولكنها تستعيد التفاصيل بالفعل. علاوة على ذلك ، سيكون لدى القارئ المحترف اليقظ أسئلة حول اثنين من الأنابيب المزدوجة الرأسية على اليسار. لقد زاد القرار بوضوح ، في حين أن الخطوة
التعرج (علامة على القرار الحقيقي) تبدو قريبة بشكل غريب. ماذا كان ذلك؟
باختصار ، سوف نقوم بتحليل الخوارزمية. ذهب الزملاء من تغيير الاستيفاء من
نمط باير :
الحقيقة هي أن 2/3 من المعلومات في صورة حقيقية هي في الواقع معلومات محرف. أي صورتك غير واضحة و "غير واضحة" ، لكن بمستوى ضوضاء حقيقي ، هذا ليس مهمًا جدًا. بالمناسبة ، جعلت القدرة على استخدام خوارزميات الاستيفاء الأكثر تعقيدًا برامج شائعة من تحويل RAW عالي الجودة للصور الفوتوغرافية (الفرق بين الخوارزمية البسيطة المدمجة في كل كاميرا والخوارزمية المعقدة لبرنامج متخصص عادة ما تكون ملحوظة بالعين عند تكبير الصورة).
يستخدم الزملاء من Google حقيقة أن الغالبية العظمى من صور الهواتف الذكية يتم التقاطها بأيدي ، أي الكاميرا تهتز قليلا:
المصدر: مدونة Google AI (تتم محاذاة الصورة متعددة الإطارات بمستوى البكسل لإظهار تحول البكسل الفرعي)نتيجةً لذلك ، إذا أخذت بعض الإطارات وقمت بتقييم التحول (والحديد ، الذي يمكنه إنشاء خريطة لتقدير الحركة بدقة ربع بكسل ، في أي هاتف ذكي يدعم H.264) ، سنحصل على خريطة تحويل. طبقًا للرسوم المتحركة أعلاه ، من الواضح أنه مع مستوى ضوضاء حقيقي ، فإن إنشاء خريطة للإزاحة بدقة البكسل الفرعي يعد مهمة غير تافهة للغاية ، ولكن ظهرت خوارزميات جيدة جدًا في هذا المجال على مدار العشرين عامًا الماضية. بالطبع ، في بعض الأحيان ، ولديهم صعوبة. على سبيل المثال ، في المثال أعلاه ، يومض شيء على إطار واحد أعلى درابزين الدرج. ولا يزال هذا مشهدًا ثابتًا ، لا توجد كائنات متحركة لا تتحرك في بعض الأحيان فحسب ، بل تدور وتغير الشكل وتتحرك بسرعة ، وتترك مساحات كبيرة من الفتح (يجب ألا تكون الحلقة مرئية بعد المعالجة). المثال أدناه يظهر بوضوحماذا يحدث للكائنات سريعة الحركة ، إذا قمت بإيقاف تشغيل المعالجة الخاصة لمثل هذه الحالات (تم تعطيلها على اليسار ، وتمكينها على اليمين ، وإذا قمت بالنقر فوق "نعم" ، فإن كتل المعالجة تكون مرئية بوضوح):
المصدر: مدونة Google AI (يُنصح بالضغط عليها ومشاهدتها بدقة عالية)الأمثلة الصعبة هي لهيب ، تموجات ، وهج الشمس على الماء ، إلخ. بشكل عام ، حتى في المشكلة "البسيطة" المتمثلة في تحديد التحول ، هناك العديد من اللحظات غير التافهة التي تعقد حياة الخوارزمية بشكل كبير. ومع ذلك ، الآن هذا ليس عن ذلك.ومن المثير للاهتمام ، حتى لو كانت الكاميرا ثابتة تمامًا (على سبيل المثال ، مثبتة على حامل ثلاثي الأرجل) ، يمكنك جعل المستشعر يتحرك من خلال التحكم في وحدة التثبيت البصري (OIS - تثبيت الصورة البصري). نتيجة لذلك ، حصلنا على التحولات الفرعية المطلوبة. في Pixel 3 ، يتم تنفيذ دعم OIS ، ويمكنك الضغط على الهاتف ضد الزجاج ومشاهدة باهتمام كيف يبدأ OIS في تحريك الصورة على شكل القطع الناقص (تقريبًا ، مثل هذا الرابط)، حتى في هذه الحالة من التثبيت على حامل ثلاثي الأرجل ، يصعب عليه ، فإن الدقة الفائقة ستكون قادرة على العمل وتحسين الجودة. ومع ذلك ، فإن حصة الأسد من إطلاق النار من الهواتف الذكية هي إطلاق النار باليد.نتيجة لذلك ، لدينا معلومات إضافية لإنشاء صورة أكبر دقة:كما ذكر أعلاه ، فإن النتيجة المباشرة SR هي انخفاض كبير في مستوى الضوضاء ، في بعض الحالات - ملحوظ جدا:المصدر: مدونة Google AIلاحظ أن الاسترداد يعني أيضًا الاستعادة بعدد البتات لكل مكون. أي
حل مشكلة زيادة الدقة بشكل رسمي ، لا يمكن للمحرك نفسه في ظل ظروف معينة فقط قمع الضوضاء ، ولكن أيضًا تحويل الإطار إلى HDR. من الواضح أن اليوم HDR نادراً ما يستخدم ، ولكن هذا ، كما ترى ، هو مكافأة جيدة.يوضح المثال التالي مقارنة بين الصور التي تم الحصول عليها عند التصوير على Pixel 2 وعلى Pixel 3 بعد SR بجودة استشعار قابلة للمقارنة. الفرق في الضوضاء والفرق في الوضوح واضحان بوضوح:بالنسبة لأولئك الذين يحبون إلقاء نظرة على التفاصيل ، يوجد ألبوم يمكن فيه تقدير الدقة الفائقة من Google (اسم التسويق Super Res Zoom) بكل مجدها في طيف مقياس تكبير الصورة على الهاتف الذكي (تغيير FoV ): لقد اقتربوا من جودة تصوير الهواتف الذكية لجودة الكاميرات المهنية. في الإنصاف ، نلاحظ أن الكاميرات المهنية أيضا لا يقف ساكنا. شيء آخر هو أنه مع مبيعات أصغر ، فإن نفس التقنيات سيكلف المستخدم أكثر. ومع ذلك ، تظهر SR بالفعل في الكاميرات الاحترافية. محدث: كمثال (الرابط الأخير هو مقارنة):
- Testing Sony's New Pixel Shift Feature in the a7R III , 2 ( , ),
- Olympus E-M5 Mark II 16 40 ,
- Super Resolution Pentax K-1 ,
- : Pixel-Shift Shootout: Olympus vs. Pentax vs. Sony vs. Panasonic — Pentax K-1, Sony a7R III, Olympus OM-D E-M1 Mark II Panasonic Lumix DC-G9. , , , Pentax K-1.
:
- Super Resolution , , .
- SR: Image Super Resolution — ( ), .
- تتمثل المكافآت الرئيسية لخوارزميات الاسترداد في تقليل الضوضاء وصقل التفاصيل و HDR "أكثر صدقًا" وجودة صورة واضحة أعلى على أجهزة التلفزيون ذات الشاشة الكبيرة.
- لقد أصبح كل هذا الرهبة ممكناً بفضل زيادة الكاردينال (حوالي 3 أوامر من حيث الحجم في عدد العمليات) في تعقيد خوارزميات معالجة الصور ، أو بدقة أكثر - إطار فيديو واحد.
نتائج ياندكس
نظرًا لأنهم سيظلون يسألون في التعليقات ، سأقول بضع كلمات حول ياندكس ، التي نشرت نسختها من القرار السوبر العام الماضي:المصدر: https://yandex.ru/blog/company/oldfilmsوإليك بعض الأمثلة على الرسوم الكاريكاتورية:المصدر: https://yandex.ru/blog/company/soyuzmultfilmماذا كان ذلك؟ كرر ياندكس
تكنولوجيا جوجل في عام 2016 ؟
في
صفحة وصف التكنولوجيا من Yandex (اسم التسويق DeepHD) ترتبط فقط بـ Image Super Resolution. هذا يعني أن هناك أمثلة عكسية تفسد فيها الخوارزمية الصورة وهي أكثر شيوعًا من خوارزميات الاسترداد الصادقة. لكن حوالي 80٪ من المقالات مخصصة للموضوع والخوارزمية أسهل في التنفيذ.
تم
وصف هذه التقنية
أيضًا على محور (من المثير للاهتمام أن يكون كاتب المقال متخرجًا من مختبرنا) ، ولكن كما ترون من التعليقات ، لم يجيب المؤلفون على أي من أسئلتي أثناء إجابتهم على الأسئلة الأخرى. وهؤلاء ليسوا مؤلفي الأشرار ، بل سياسة الشركة (في الوظائف الأخرى ، إذا نظرت عن كثب ، فغالبًا ما لا توجد إجابات على أسئلة الخبراء). بالنسبة لمدونات شركة التكنولوجيا ، فإنها مترددة في التعمق في مناقشة تفاصيل التنفيذ أو التكنولوجيا. خاصة إذا كان هذا يخلق انطباعًا أفضل عن التكنولوجيا / المنتج. أو يمكن للمنافسين قطع نفس الشيء بشكل أسرع. مرة أخرى ، التسويق مسؤول عن المشاركات ، وهذا هو عملهم المباشر - مما يخلق انطباعًا إيجابيًا عن منتجات الشركة ، بغض النظر عن جودة المنتجات نفسها. وبالتالي عدم الثقة المتكرر للمعلومات الواردة من التسويق.
بشكل عام ، يجدر بنا أن نكون متشككين للغاية في صور الشركات من سلسلة "كيف فعلنا كل شيء بشكل جيد" للأسباب التالية:
- يدرك مؤلفو خوارزميات المعالجة جيدًا أنه لا توجد خوارزميات تقريبًا لا تؤدي في بعض الحالات إلى إنتاج قطع أثرية. وفي الواقع ، تتمثل إحدى المهام الرئيسية للمطور في تقليل النسبة المئوية لمثل هذه الحالات (أو ظهور القطع الأثرية في مثل هذه الحالات) مع الحفاظ على الجودة في الحالات الأخرى. وفي كثير من الأحيان لا ينجح هذا:
- أو أن القطع الأثرية قوية للغاية ويصعب إصلاحها بحيث يتم رفض النهج بأكمله. في الواقع هذا هو الحال ، ربما (مفاجأة مفاجأة!) ، من غالبية المقالات. الصور الإلهية في بعض الحالات (التي كانت على الأرض) و "أنها لا تعمل على الإطلاق" في البقية.
- أو (وهذا وضع شائع لشركات التكنولوجيا العملية) عليك التضحية ببعض الجودة في المتوسط حتى يمكن التسامح مع القطع الأثرية في أسوأ الحالات.
وفقًا لذلك ، عندما لا يتم نشر أمثلة سيئة (كلاسيكيات للشركات) أو يتم نشرها بشكل محدود ومع افتراضات افتراضية (كلاسيكيات للمقالات) - فهذه هي الحالة الأكثر شيوعًا لتضليل الأشخاص حول خصائص تقنية / خوارزمية.
- هناك اعتقاد خاطئ شائع بشأن معالجة الخوارزميات وهو استخدام المعلمات (بما في ذلك المعلمات الداخلية) للخوارزمية. الخوارزميات ، حدث ذلك ، لها معلمات ، والمستخدمون - وهذه هي القاعدة أيضًا - ترغب في الحصول على زر "تمكين" واحد على الأكثر. وحتى إذا كانت هناك إعدادات ، فإن المستخدم الشامل لا يستخدمها. لهذا السبب ، عند شراء التكنولوجيا ، "توقف مئات المرات" ، يسألون مرة أخرى: "هل هذا بالتأكيد آلة كاملة؟" واطلب الكثير من الأمثلة.
- وفقًا لذلك ، فإن القصة الشائعة هي نشر النتيجة التي تم الحصول عليها مع بعض المعلمات. لحسن الحظ ، فإن المطور يعرفهم جيدًا ، وحتى عندما يكون هناك خمسون منهم (الوضع الحقيقي!) ، فإنه يلتقطهم بسرعة كبيرة بحيث تكون الصورة سحرية. بالضبط هذه الصور غالبا ما تذهب إلى الإعلان.
- علاوة على ذلك ، قد يكون المطور ضدها. يرى التسويق أن الأمثلة الجديدة قد تم إرسالها ويقول "لا يوجد شيء واضح عليها ، في العرض التقديمي الأخير كان لديك أمثلة طبيعية!" وبعد ذلك يمكنهم محاولة توضيح أن الأمثلة الجديدة هي ما يراه الناس حقًا ، وفي العرض التقديمي الأخير ، تم عرض النتائج المحتملة التي يمكن تحقيقها من خلال الدراسات الأولية لبداية المشروع. هذا لا يزعج أحدا. سيحصل الناس على الصورة "حيث يمكنك رؤية". في بعض الحالات ، تستخدم الشركات الكبيرة فوتوشوب. يخدم العبث ، أيها السادة! )
- بالإضافة إلى ذلك ، عندما يتعلق الأمر بالفيديو - فإنه يفتح ببساطة مساحات مفتوحة ضخمة
للآلة ... تسويق جيد! كقاعدة عامة ، يتم وضع الإطارات ، وتتذبذب جودة الفيديو المضغوط دائمًا وتعتمد على كتلة المعلمات. مرة أخرى - يمكن تطبيق العديد من التقنيات بشكل صحيح ، وقد يكون وقت المعالجة ، مرة أخرى ، مختلفًا. وهذا ليس كل شيء ، فالنطاق كبير.
- تنص إعلانات Yandex على أن تقنية DeepHD تعمل في الوقت الفعلي ، لذا يمكنك اليوم مشاهدة القنوات التلفزيونية التي تستخدمها . تم شرحه أعلاه أن سرعة التشغيل هي كعب أخيل Super Resolution. إن ميزة الشبكات العصبية ، بالطبع ، هي أنه في الدراسة لفترة طويلة ، يمكن أن تعمل بسرعة كبيرة في بعض الحالات ، ولكن ما زلت أتطلع (باهتمام مهني كبير) إلى الدقة والجودة التي تعمل بها الخوارزمية في الوقت الفعلي. عادة ، يتم إنشاء العديد من التعديلات على الخوارزمية وبدقة عالية في الوقت الحقيقي ، يجب تعطيل العديد من "الرقائق" (حاسمة بالنسبة للجودة). كثير جدا.
- في الأمثلة بالأبيض والأسود ، تكشف نظرة فاحصة أن السطوع المحلي يتغير. نظرًا لأن SR الصحيح لا يغير السطوع ، يبدو أن بعض الخوارزميات الأخرى قد نجحت ، ربما لا تعمل (تظهر النتائج أن هذا ليس معالجة إطار مفرد ، أو بالأحرى ، يبدو أنه ليس فقط). إذا نظرت إلى قطعة أكبر (100 إطار على الأقل) ، ستكون الصورة واضحة. ومع ذلك ، فإن قياس جودة الفيديو هو موضوع منفصل كبير جدًا.
الاستنتاجات:
- يجب أن تفهم أن المسوقين يستخدمون غالبًا حيلهم على وجه التحديد لأنها تعمل (وكيف!). الغالبية العظمى من الناس
لا يقرؤون هابر ، ولا يريدون أن يفهموا الموضوع بعمق ولا يبحثون عن آراء الخبراء ، بل لديهم إعلانات كافية (أحيانًا إعلانات golimoy). مما يؤدي بانتظام إلى جميع أنواع التشوهات. أتمنى أن يتم الإعلان عن الجميع ، خاصة عندما تكون رواية القصص في أفضل حالاتها وأرغب حقًا في الإيمان بمعجزة!
- وبالطبع ، من الجيد جدًا أن Yandex تعمل أيضًا في هذا الموضوع وتقوم بصنع SR الخاص به (بشكل أكثر دقة ، عائلة SR الخاصة به).
آفاق
دعنا نعود إلى حيث بدأنا. ماذا تفعل لأولئك الذين يريدون زيادة الفيديو المضغوط؟ هل هذا كله سيء؟
كما هو موضح أعلاه ، حتى التغيير الطفيف في الصورة في المنطقة ، حرفيًا عند مستوى الضوضاء ، يعد أمرًا ضروريًا لخوارزميات الاسترداد "الصادق". وهذا هو ، الترددات العالية في الصورة وتغييرها بين الإطارات أمر بالغ الأهمية.
في هذه الحالة ، فإن الشيء الرئيسي بسبب تنفيذ ضغط الفيديو هو إزالة الضوضاء بين الإطارات. في المثال أدناه ، فإن الفرق بين الإطارات لفيديو صاخب قبل تعويض الحركة ، وبعد التعويض (مع الضغط الضعيف) وبعد الضغط الملموس - يشعر بالفرق (يظهر التباين حوالي 6 مرات بحيث يمكن رؤية التفاصيل):
المصدر: محاضرات المؤلف على خوارزميات الضغطيمكن أن نرى بوضوح أنه من وجهة نظر برنامج الترميز ، المنطقة المثالية هي المنطقة التي تم فيها تعويض الحركة بالكامل والتي لا تحتاج إلى إنفاق المزيد منها. حسنا ، يمكن أن تنفق قليلا ، وهو شيء تصحيح الحد الأدنى. وقد يكون هناك عدد غير قليل من هذه المناطق. لذلك ، يفقد Super Resolution "الخبز الرئيسي" - معلومات حول ما هو موجود في هذا المكان في إطارات أخرى ، مع مراعاة تحول البكسل الفرعي.
إذا نظرت إلى المقالات ، فحتى بالنسبة لملف JPEG البسيط نسبياً ، فإن
استعادة jpeg تحتوي على 26 ألف نتيجة ، وكذلك
لاستعادة jpeg - 52 ألف ، وهذا بالإضافة إلى استعادة الملفات المعطلة ، إلخ. بالنسبة للفيديو ، فإن الموقف أسوأ من
استعادة mpeg - 22 ألفًا ، أي العمل ، بالطبع ، قيد التنفيذ ، ولكن حجم مقياس العمل على الدقة الفائقة غير قابل للمقارنة. هناك حوالي أقل من حجم العمل أقل من استعادة دقة الفيديو واثنين من أوامر من حجم أقل من صورة سوبر القرار. أمرين كثير. لقد اتبعنا أيضًا مقاربة للقذيفة (نظرًا لأننا نقوم بالضغط والمعالجة لفترة طويلة) ، هناك شيء يمكن التعامل معه ، خاصة إذا كانت الجودة تتأرجح أو تستخدم شيئًا مثل M-JPEG (في الآونة الأخيرة ، صورة شائعة في المراقبة بالفيديو). ولكن هذه ستكون جميع الحالات الخاصة.
تُظهر نتائج المقالات من الروابط أعلاه أيضًا أن النتائج جميلة جدًا في بعض الأحيان ، ولكن تم الحصول عليها في حالات خاصة جدًا. أي غدا ، في كل هاتف ذكي ، لن تظهر هذه الوظيفة ، للأسف. هذه أخبار سيئة. جيد - بعد يوم غد وعلى جهاز كمبيوتر مع GPU جيد - سوف تظهر بالتأكيد.
الأسباب:
- تزداد تكلفة أجهزة التخزين (بطاقات SD للمسجلين والأقراص الخاصة بكاميرات CCTV وغيرها) تدريجياً ويزداد متوسط معدل البت لحفظ الفيديو.
- أيضًا ، أثناء الضغط ، يتحولون تدريجياً إلى معايير الأجيال القادمة (على سبيل المثال ، على HEVC) ، مما يعني حدوث تحسن ملحوظ في الجودة بنفس معدل البت. تشير النقطتان الأخيرتان إلى أن جودة الفيديو ستصبح أعلى تدريجياً ، ومن مرحلة ما ، ستبدأ خوارزميات دقة الفيديو الفائقة المطورة في العمل.
- وأخيرا ، يجري تحسين الخوارزميات. إن إنجازات خوارزميات التعلم الآلي على مدى السنوات الأربع الماضية جيدة بشكل خاص. في هذا الصدد ، مع احتمال كبير يمكننا أن نتوقع شيئا مثل هذا:

أي ستستخدم الخوارزمية بشكل صريح معلومات الحركة المستلمة من برنامج الترميز ، ومن ثم سيتم تغذية هذه البيانات إلى شبكة عصبية مدربة لاستعادة القطع الأثرية الخاصة ببرامج الترميز المحددة. مثل هذا المخطط يبدو حاليًا قابلاً للتحقيق.
ولكن على أي حال ، عليك أن تفهم بوضوح أن الانتعاش الحالي هو ، كقاعدة عامة ، زيادة في القرار تبلغ ضعفين. أقل شيوعًا ، في بعض الحالات ، عندما لا تكون المادة المصدر مضغوطة أو غير مضغوطة تقريبًا ، يمكننا التحدث عن 3-4 مرات. كما ترون ، لا يقترب هذا من تكبير الأفلام بمعدل يتراوح بين 100 إلى 1000 مرة ، عندما يتحول 1.5 بكسل من التسجيل المسقط ليلاً إلى الضوضاء إلى رقم سيارة ممتاز الجودة. في الواقع ، يجب تحديد نوع "الخيال العلمي" بنسبة أكبر من الأفلام والبرامج التلفزيونية.
وبالطبع ، ستكون هناك محاولات لفعل شيء عالمي ، في إطار اتجاه الموضة "الشيء الرئيسي هو قطع المزيد من الطبقات". وهنا يجدر الحذر من ردود الفعل "هتاف" على المواد الإعلانية حول هذا الموضوع. للشبكات العصبية هي الإطار الأكثر ملاءمة لإظهار المعجزات وجميع أنواع المضاربة. الشيء الرئيسي هو اختيار عينة التدريب بشكل صحيح والأمثلة النهائية. وفويلا! انظر المعجزة! مريحة للغاية من حيث المستثمرين hilling ، بالمناسبة. وهذا هو ، من المهم للغاية أن يتم تأكيد كفاءة التقنيات من قبل شخص مستقل على عدد كبير من الأمثلة غير المتجانسة ، والتي نادراً ما يتم إظهارها. بالنسبة للشركات ، حتى مع إعطاء مثال أو مثالين عندما لا تعمل التكنولوجيا ، يتم اليوم مساواة العمل الفذ.
حسنًا ، حتى لا تبدو الحياة مثل العسل ، سوف أذكرك بأن ما يسمى الترميز أصبح شائعًا اليوم ، بينما في الواقع يجب عليك العمل مع مقطع فيديو تم تقليصه في الأصل بواسطة خوارزمية ثم تقلصت بواسطة أخرى ، بينما يتم استخدام ناقلات الحركة الأخرى ، يتم تدمير ناقلات عالية مرة أخرى ترددات الخ وحقيقة أن أي شخص يرى كل شيء هناك بشكل جيد لا يعني أن الخوارزمية التي تعالج مثل هذا الفيديو ستؤدي في الواقع إلى معجزات. لن يكون من الممكن استعادة مقاطع الفيديو شديدة الدقة ، على الرغم من أن Super Resolution بشكل عام ستتطور بسرعة خلال السنوات العشر القادمة.
الاستنتاجات:
- تذكر أن ما تراه في الأفلام وكيف هو في الحياة الحقيقية مختلف تمامًا. وليس فقط من حيث استعادة الفيديو المضغوط للغاية!
- عادةً ما تزيد الخوارزميات الحديثة من الدقة مرتين ، وفي كثير من الأحيان أقل - أي أكثر بقليل ، أي لا 50 مرة ، مألوفة من الأفلام ، تضطر إلى الانتظار قريبا.
- منطقة Super Resolution مزدهرة ويمكنك توقع تطور نشط لاستعادة الفيديو في السنوات القادمة ، بما في ذلك الانتعاش بعد الضغط.
- لكن أول شيء سنراه هو كل أنواع المضاربات حول هذا الموضوع ، عندما تبالغ النتائج الموضحة إلى حد كبير في القدرات الحقيقية للخوارزميات. كن حذرا!
في نهاية العام الماضي ، ألقينا محاضرة بعنوان "الشبكات العصبية في معالجة الفيديو - الأساطير والواقع". ربما سنضعها هنا.
ترقبوا!
شكر وتقدير
أود أن أشكر بحرارة:
- مختبر رسومات الحاسوب جامعة موسكو الحكومية MV Lomonosov لقوة الحوسبة وليس فقط
- زملائنا من مجموعة الفيديو ، وذلك بفضل الذين تم إنشاء الخوارزميات المذكورة أعلاه ، وخاصة كارين سيمونيان ، مؤلفة المقال الذي تم عرض نتائجه أعلاه ويعمل الآن في Google DeepMind ،
- شخصيا كونستانتين كوزميياكوف ، الذي فعل الكثير لجعل هذا المقال أفضل وأكثر بصرية ،
- إن Google مدونتها الممتازة والأوصاف الصحيحة نسبيًا للتكنولوجيات التي تم إنشاؤها ، و Yandex للمنافسة بشكل جيد جدًا على جبهة واسعة - تعتبر Google من الناحية العملية المثال الوحيد الناجح في بلد لا تُحظر فيه خدمات Google ،
- هابروفشان denisshabr ، JamboJet و iMADik للحصول على معلومات سرية وروابط لكاميرات SR متعددة المهنية
- وأخيراً ، شكراً جزيلاً لكل من فياتشيسلاف نابادوفسكي وإفغيني كوبتسوف وستانيسلاف جروكهولسكي وإيفان مولوديتسكي وأليكسي سولوفييف وإيفغيني ليابوستين ويغور سكلياروف ودنيس كوندرانين وألكسندرا أنزينا ورومان كازانتسيف وجليب إيسيليف على هذه الملاحظات الرائعة افضل