🌏 👨‍🎨 ⛳️ أجهزة تتبع بصرية: ASEF و MOSSE 🏐 👩‍👦 🎚️

إحدى المهام الفرعية المهمة لتحليلات الفيديو هي تتبع الكائنات الموجودة على الفيديو. إنه ليس بدائيًا لدرجة أنني اضطررت إلى النزول إلى مستوى بكسل تلو الآخر ، ولكنه ليس معقدًا لدرجة تتطلب بشكل لا لبس فيه شبكة عصبية متعددة الطبقات للحل. يمكن استخدام التتبع كغاية في حد ذاته وكجزء من خوارزميات أخرى:

عد الأشخاص الفريدين الذين دخلوا منطقة معينة أو عبروا الحدود في إطار
تحديد الطرق النموذجية للسيارات في موقف السيارات والأشخاص في المتجر
التدوير التلقائي لكاميرا المراقبة عند تحريك الجسم

حتى دون النظر إلى الأدبيات ، يمكنني القول بثقة أن أفضل طريقة لحل المشكلة هي استخدام الشبكات العصبية. بشكل عام ، لا يمكنك كتابة أي شيء آخر ، ولكن ليس من الممكن دائمًا الاندفاع إلى مهمة مع زوج من GTX 1080Ti. من يهتم بكيفية تتبع الأشياء على الفيديو في مثل هذه الحالات ، من فضلك ، تحت القط. لن أحاول فقط شرح كيفية عمل أجهزة تتبع ASEF و MOSSE ، ولكن سأقدم لك الحل حتى تبدو الصيغ واضحة.

بادئ ذي بدء ، سوف نجيب على سؤال أولي: لماذا اخترع شيئًا عندما يمكنك إطعام رزمة tensorflow من مقاطع الفيديو وترك الكمبيوتر لبضعة أسابيع؟ نهج الشبكة العصبية لها عيب واحد خطير: حتى على بطاقات الفيديو الحديثة ، من الصعب تحقيق معدل جيد من إطلاق النار من الشبكات. هذه ليست مشكلة إذا قمنا بتحليل الفيديو المسجل ، لكنه يدرج عصا في العجلات إذا كنت ترغب في العمل في الوقت الحقيقي. لنفترض أننا نريد معالجة الفيديو من خمس كاميرات بمعدل 10 إطارات في الثانية. حتى مع هذه الظروف المعتدلة نسبيًا ، يجب أن يكون للشبكة العصبية وقت استنتاج أقل من

د و ل ا ر ً

$\ frac {1000} {5 \ times 10} = 20 دولارً$ مللي ثانية (في حالة عدم التوازي الكامل). للمقارنة ، يمكن لـ YoloV3 ، وهي شبكة مصنفة ذات بنية بسيطة نسبيًا ، أن تبث صورة

$inline$ مللي ثانية. بالإضافة إلى ذلك ، يمكن أن تكون الحلول المستندة إلى بطاقات الرسومات القوية باهظة الثمن.

تفترض هذه المقالة أنك قد تعاملت بالفعل مع معالجة الصور الآلية ، وأنك على دراية بالعمليات الأساسية للجبر الخطي (الالتفاف ، القاعدة ، انعكاس المصفوفة) وبشكل عام فهم تحويل فورييه.

فيما يلي:

$A \ odot B$ لتقف على ضرب المصفوفة عنصري $A$ و $B$
$A \ otimes B$ يدل على انحراف المصفوفات $A$ و $B$
$\ hat {A} (\ omega، \ nu) = \ mathcal {F} (A (x، y))$ يعني ذلك $\ hat {A} (\ omega، \ nu)$ - مصفوفة تردد تحويل فورييه السريع المطبق على الصورة $A$ .
$\ التوازي A \allel_2$ - يشير إلى مجموع مربعات عناصر المصفوفة $A$

قرار تافه

للوهلة الأولى ، لا تبدو مهمة تتبع موضوع معين معقدة للغاية.

نرجو أن يكون لدينا

$T$ إطارات الفيديو المتتالية

$I_t$ الحجم

$w$ على

$h$ بكسل. في الإطار الأولي للفيديو

$I_0$ مستطيل دائري حول شيء ما

$F_0$

م

$م$ على

$n$ . مطلوب للعثور على موقع هذا الجسم على جميع الإطارات الأخرى

$I_t$ .

نزيل الضجيج في الصور ، ثم نقوم بتطبيع كل منها في النطاق من -1 إلى 1 بحيث لا تؤثر التغييرات العامة في السطوع على الكشف. التقط الإطار الأول للفيديو بدون ترميز

$I_1$ . إذا

$I_0$ و

$I_1$ - إطارات الفيديو المجاورة مع FPS جيدة ، فمن غير المرجح أن يكون الكائن المطلوب بعيدًا عن موضعه الأصلي. استفد من هذا. اقطع

$I_1$ مستطيل

$F_1$ من المكان الذي كان يوجد فيه الجسد المطلوب سابقًا. "اسحب"

$F_0$ من خلال

$F_1$ وعند كل نقطة نحسب مربع مجموع الفروق

، ، ، ، ، ،

$G_ {L_2} (i، j) = \allel F_ {1} (i، j) - F_0 \allel_ {2}، i \ in [0، m]، j \ in [0، n]$

أين تحسب الفرق

،

$G_ {L_2} (i، j)$ بحاجة إلى الجمع بين المركز

$F_0$ مع العنصر

،

$(i، j)$ في

$F_1$ ، والقيم المفقودة إلى الصفر. بعد ذلك في المصفوفة

$G_ {L2}$ مطلوب الحد الأدنى ؛ موقعه ناقص إحداثيات المركز

$F_1$ وسيتم إزاحة الكائن المطلوب بمقدار

$I_1$ .

حتى لا "يرن" الانتقال الحاد إلى الصفر أثناء الكشف ، فمن الأفضل أن تأخذ المستطيل في البداية أكثر من اللازم بقليل وأن تقلل إلى الصفر القيم القريبة من الحدود بسلاسة

$F_0$ و

$F_1$ . لهذا ، كل من

$F$ تحتاج إلى ضرب القناع. بالنسبة للأشياء المربعة ، سيقوم العارض القديم الجيد بذلك.

$A = \ exp {\ frac {(x - i) ^ 2 + (y - j) ^ 2} {\ sigma ^ 2}}$ (أين

،

$(x، y)$ هو مركز النافذة) ، ولكن في الحالة العامة ، من الأفضل أن تأخذ نافذة هانينج ثنائية الأبعاد.

ل

$I_2$ النافذة

$F_2$ مأخوذة من الموضع المتوقع على الإطار

$I_1$ وهكذا.

مثال

بدلاً من ذلك

$L_2$ يمكن استخدام المعايير

$L_1$ (

، ،

$G_ {L_ {1}} (i، j) = | F_1 (i، j) - F_0 |$ ) وناقص الارتباط المتبادل للمصفوفات (

، ، ، ، ، ، ، ، ن

$G_ {nCC} (i، j) = - \ sum_ {kl} {F_ {1، kl} (i، j) F_ {0، kl}}، k \ in [0، m]، l \ in [ 0 ، ن]$ ) كلاهما يعتبران أسرع قليلاً من

$L_2$ ولكن لديهم خصائصهم الخاصة.

$L_1$ غير قابل للتمييز وأقل حساسية للاختلافات الكبيرة في قيم البكسل. يمكن أن يؤدي الارتباط المتبادل إلى نتائج إيجابية خاطئة إذا كانت العينة منخفضة التباين وكانت الصورة بها مناطق فاتحة جدًا أو مظلمة جدًا.

$L_2$ -إصدار المقياس ليس له مثل هذا العيب:

، ، ،

$G_ {L_2} = \ sum {(F_ {1، kl} (i، j) - F_ {0، kl}) ^ 2}$

، ، ، ، ، ،

$= \ sum {(F_ {1، kl} (i، j)) ^ 2 - 2 F_ {1، kl} (i، j) F_ {0، kl} + (F_ {0، kl}) ^ 2 }$

، ، ، ، ، ،

$= \ sum {(F_ {1، kl} (i، j)) ^ 2} - \ sum {2 F_ {1، kl} (i، j) F_ {0، kl}} + \ sum {(F_ {0، kl}) ^ 2}$

، ،

$= E_ {F_1 (i، j)} + 2 G_ {nCC} (i، j) + E_ {F_0}$

،

$E_ {F_1 (i، j)}$ ، "طاقة" الموقع المختار في

$I_t$ يعمل كعامل موازنة (

$E_ {F_0}$ ، مجموع مربعات قيم البكسل للعينة هو نفسه لجميع مواضع النوافذ وليس له أهمية عملية هنا).

حتى هذه الخوارزمية البدائية تتكيف بشكل جيد جدًا في حالة الحركة الخطية للأشياء (على سبيل المثال ، كاميرا تطل على الناقل). ومع ذلك ، نظرًا لبساطة النموذج والتنفيذ ، فإن طريقة التتبع هذه لها عيوب عديدة:

من النادر حدوث حركة خطية بسيطة لجسم ما بدون تغيرات في الطبيعة. كقاعدة ، يمكن أن تخضع الهيئات في مجال رؤية الكاميرا لبعض فئات التغييرات. من أجل زيادة التعقيد: الزيادة / النقصان في الحجم ، المنعطفات ، التحولات الألفة ، التحولات الإسقاطية ، التحولات غير الخطية ، التغيرات في الكائن. حتى إذا قمنا بحذف تغييرات الكائن والتحويلات غير الخطية ، فإننا نود أن تكون الخوارزمية قادرة على التعافي من التدوير البسيط نسبيًا وتغييرات الحجم. من الواضح أن الإجراء أعلاه ليس لديه هذه الخاصية. ربما $F_0$ سيظل يعطي استجابة ملحوظة على الكائن ، ولكن سيكون من الصعب تحديد الموقع الدقيق للعينة ، وسوف يكون المسار غير متقطع.

مثال
أظهرنا الخوارزمية عينة إيجابية واحدة فقط ، فمن الصعب تحديد الاستجابة التي ستعطيها $F_0$ إذا دخل شيء آخر مشابه إلى النافذة. حسنًا ، إذا كان الكائن المطلوب متباينًا وله بنية نادرة ، ولكن ماذا لو أردنا مراقبة جهاز في دفق من الأجهزة الأخرى؟ يمكن للمتتبع أن يقفز بشكل غير متوقع من سيارة إلى أخرى.
في كل إطار ، نتخلص من القصة الخلفية بأكملها. ربما يجب استخدامه بطريقة أو بأخرى.
علاوة على ذلك ، نتعلم فقط عند نقطة واحدة في الصورة. سيكون من الأفضل أن يعطي المتتبع استجابة جيدة بالقرب من الموقع الصحيح للكائن. معاكسة إلى حد ما ، ولكن فكر: إذا كان المرشح في المكان المحدد للكائن في الصورة $(x، y)$ يعطي أفضل قيمة ، وفي $(x + 1، y + 1)$ - شيء عشوائي ، مما يعني أنه حساس للغاية للتفاصيل الصغيرة التي يمكن أن تتغير بسهولة. على العكس ، إذا كان $(x، y)$ وفي $(x + 1، y + 1)$ تقريبًا نفس القيم الجيدة ، المرشح "مدمن مخدرات" على علامات أكبر ، ونأمل ، أكثر ديمومة.
مع التطبيق الساذج لإجراء التتبع ، لكل بكسل من الإطار نقوم بضرب النافذة بأكملها مع العنصر المحدد في الجزء المقابل من هذا الإطار. تعقيد هذه العملية $O (م ^ 2n ^ 2)$ . في مثل هذه الحالات ، ليس من اللطيف تتبع حتى 50 إلى 50 بيكسل. يتم حل هذه المشكلة جزئيًا عن طريق تقليل حجم الفيديو ، ولكن عند تقليل الصورة إلى أقل من 240 بكسل في العرض ، يتم فقدان حتى التفاصيل الكبيرة المهمة ، مما يجعل الخوارزمية بلا معنى.

ASEF ، موس

نهج تافه ++؟

نشمر عن سواعدنا ومحاولة حل المشاكل المذكورة أعلاه.

زيادة الصورة الأصلية. نطبق عليها العديد من التحولات الأفيونية الخفيفة. يمكنك أيضًا إضافة ضوضاء أو تغيير جاما. وهكذا ، بدلا من صورة واحدة ، مجموعة البيانات الجزئية

$P$ صور. كان هناك الكثير من الصور ، ولكن بقيت نافذة واحدة. لن نقوم الآن بقص مستطيل من الصورة فحسب ، بل نبحث عن بعض المرشحات

$W$ والذي سيعطي استجابة جيدة للجميع

$I ^ p$ . نقوم بتحويل المشكلة إلى مشكلة التقليل:

، ،

$W: \ min_W {\allel F ^ p - W \allel_2}، p \ in [1، P]$

أين

ا ل م و ا ز ي

$\ الموازي F ^ p - W \allel_2$ - مجموع مربعات اختلافات البكسل بين

$W$ والقسم المقابل من الموقع الدقيق للجسم

$p$ تلك الصورة الاصطناعية التي تم إنشاؤها من إطار يحتوي على ترميز حقيقي.

بالإضافة إلى ذلك ، يمكنك أخذ عينات من المستطيلات بعيدًا عن موقع الكائن المتتبع وتعظيم الفرق الموضح أعلاه.

من الصعب اقتراح أن المرشح يعطي استجابة جيدة عند نقاط بالقرب من الموقع الدقيق للكائن. نحن نعرف ذلك في

،

$(x، y)$ تطبيق مرشح مع

$L_2$ يجب أن يعطي القياس 0 ، التالي - أكثر ، أبعد - أكثر. علاوة على ذلك ، ليس لدينا أي اتجاه مفضل ، يجب أن تكون الاستجابة متماثلة مركزيًا فيما يتعلق

$(x، y)$ . يبدو أنه يمكننا حسابًا رياضيًا للتعبير عن استجابة المرشح المطبقة على الصور المرجعية! قد يختلف المظهر الدقيق اعتمادًا على وظيفة توهين الاستجابة المحددة ، ولكن هل يحب الجميع Gaussians؟ لذلك ، نفترض ذلك

$W$ تنطبق على

$F_p$ من الناحية المثالية يجب أن تعطي نتيجة

$G_p = 1 - \ exp {\ frac {(x - i) ^ 2 + (y - j) ^ 2} {\ sigma ^ 2}}$ . لذلك ، تتحول مشكلة التصغير إلى:

$D_p (i، j) = \allel F ^ p (i، j) - W \allel_2$

$W: \ min_W {\ موازية D_p (i، j) - G_p (i، j) \allel_2}، p \ in [1، P]$

الآن نحن لا نقلل الاستجابة عند نقطة واحدة ، ولكننا نقلل من انحراف الاستجابة عن المطلوب.

انتظر لحظة ... لقد فعلناها

$P \ مرات m \ مرات n$ معادلات مع

$m \ مرات n$ المتغيرات لتقليل. يبدو أننا تجاوزناها. دعنا نعود قليلا.

الخدعة الرئيسية

من بين جميع المشاكل ، فإن الصعوبة الأكبر هي التعقيد.

$O (م ^ 2n ^ 2)$ . هل من الممكن التوصل إلى شيء ما إلى جانب الانقسام الصعب لمربع بحث واحد إلى عدة مربعات صغيرة أو البحث في الصورة بدقة صغيرة وضبطها بدقة عالية؟

اتضح أنه يمكنك! يخبرنا Matanalysis أن طي الوظائف في الفضاء العادي هو مضاعفة لصورها فورييه. نحن قادرون على تطبيق تحويل فورييه السريع للصور ، ومضاعفة عنصر الترددات الخاصة بهم حسب العنصر ، ثم تحويل النتيجة مرة أخرى إلى مصفوفة

$O (mn \ log {mn})$ ، وهو أسرع بكثير من تصغير المصفوفة بصدق. فورييه! من كان يظن! في عصر tensorflow ، لا يزال بإمكانه مساعدتنا في رؤية الكمبيوتر.

(هذا ، بالمناسبة ، يوضح المبدأ الرياضي العام: إذا كنت لا تريد حل المشكلة في الفضاء

$X$ نقله إلى الفضاء

$Y$ ، تقرر هناك ، ونقل القرار مرة أخرى. غالبًا ما يكون الحل البديل أقصر من الحل المباشر.)

كما هو موضح أعلاه ، يمكننا استخدام الارتباط المتبادل لتوطين العينة في الصورة. لكن الارتباط المتبادل هو الالتفاف الذي ينعكس أفقياً ورأسياً

$W$ . يقترح Matanalysis أنه في هذه الحالة سيكون من الضروري مضاعفة الترددات

$F$ على مصفوفة مترافقة معقدة لمصفوفة تردد

$W$ :

$\ hat {W} (\ omega، \ nu) = \ mathcal {F} (W (x، y))$

$\ hat {F} (\ omega، \ nu) = \ mathcal {F} (F (x، y))$

$\ hat {G} _ {conv} (\ omega، \ nu) = \ mathcal {F} (G_ {conv} (x، y))$

$G_ {conv} = F \ otimes W \ rightarrow \ hat {G} _ {conv} = \ hat {F} \ odot \ hat {W} ^ *$

أين

$G_ {conv} = \ exp {\ frac {(x - i) ^ 2 + (y - j) ^ 2} {\ sigma ^ 2}}$ - وظيفة استجابة مثالية على الصورة المرجعية. يرجى ملاحظة ذلك

$L_2$ لقد قللنا من المقياس وقمنا بتكبير مقياس الالتفاف ، لذا الآن ، كلما زادت الاستجابة ، كان ذلك أفضل.

إذا كانت لدينا صورة واحدة ، فسوف نجد مصفوفة تردد المرشح الدقيقة:

$\ hat {W} ^ * = \ frac {\ hat {G} _ {conv}} {\ hat {F}}$

حيث يشير الجانب الأيمن إلى تقسيم العنصر. ولكن قبل ذلك بقليل ولدنا

$P$ صور من المصدر. يمكننا تطبيقها مع نهج فورييه. لا يوجد فلتر بمثل هذه الترددات التي من شأنها أن ترضي جميع الصور بشكل مثالي ، ولكن يمكنك الحصول على شيء جيد بما فيه الكفاية. هناك طريقتان لحل المشكلة:

يمكنك العثور على مجموعة من الفلاتر المثالية ، ثم وضعها في المتوسط. هذه هي الطريقة التي يذهب بها مؤلفو متوسط المرشحات الدقيقة التركيبية (ASEF):
$\ hat {W} ^ * = \ frac {1} {P} \ sum_ {p = 1} ^ {P} \ hat {W} ^ * _ p = \ frac {1} {P} \ sum_ {p = 1} ^ {P} {\ frac {\ hat {G} _p} {\ hat {F} ^ p}}$
هنا نستخدم خاصية الخطية لصور فورييه. بإضافة الترددات ، كما هو موضح أعلاه ، يبدو أن متوسط أوزان المرشح عديدة.
يمكنك العثور على ترددات المرشح التي ترضي جميع الصور في المتوسط تقريبًا $L_2$ :
$\ hat {W} ^ *: \ min _ {\ hat {W} ^ *} {\ sum_ {p = 1} ^ {P} {\allel \ hat {F} ^ p \ odot \ hat {W} ^ * - \ hat {G} _p \allel_2}}$
للعثور على الحد الأدنى ، تحتاج إلى أخذ مشتق عناصر التصفية:
$\ frac {\ delta} {\ delta \ hat {W} ^ *} \ sum_ {p = 1} ^ {P} {\allel \ hat {F} ^ p \ odot \ hat {W} ^ * - \ قبعة {G} _p \allel_2} = 0$
يمكن العثور على التقاط صادق لهذا المشتق في تتبع الكائنات المرئية باستخدام مرشحات الارتباط التكيفي ، والتي توفر الحد الأدنى من مجموع الناتج من مرشحات الخطأ التربيعي (مرشحات MOSSE). والنتيجة هي:
$\ hat {W} ^ * = \ frac {\ sum_ {p = 1} ^ {P} {\ hat {G} _p \ odot \ hat {F} ^ {p *}}} {\ sum_ {p = 1} ^ {P} {\ hat {F} ^ p \ odot \ hat {F} ^ {p *}}}$

هم ، كما لو كانت عناصر مماثلة متورطة في الصيغ. في

$P = 1$ صيغ ASEF و MOSSE هي نفسها تمامًا.

$\ hat {W} ^ *$ لصورة واحدة يمكن أن تمثل

$\ hat {W} ^ * = \ frac {\ hat {G_p}} {\ hat {F ^ p}} = \ frac {\ hat {G_p} \ odot \ hat {F} ^ {p *}} { \ hat {F ^ p} \ odot \ hat {F} ^ {p *}}$

استبدل في صيغة ASEF واحصل على

$\ hat {W} ^ * = \ sum_ {p = 1} ^ {P} {\ frac {\ hat {G} _p \ odot \ hat {F} ^ {p *}} {\ hat {F} ^ p \ odot \ hat {F} ^ {p *}}}$

أجل! الآن من الأفضل أن نرى أن ASEF و MOSSE تختلف فقط في طريقة متوسط التصفية! يقال أن MOSSE تنتج مرشحات أفضل من ASEF. يبدو منطقيًا: التكيف مع حزمة الصور بأكملها ككل أفضل من متوسط المرشحات.

بعد أن وصلنا

$\ hat {W} ^ *$ ، نحسب الاستجابة في مجال التردد

$\ hat {G} _ {conv} = \ hat {F} \ odot \ hat {W} ^ *$ ثم نترجمها إلى المجال المكاني ونبحث عن الحد الأقصى في المصفوفة الناتجة

$G$ . حيث يوجد الحد الأقصى ، يوجد الموضع الجديد للكائن.

نقاط إضافية

المصطلحات الموجودة في مقام الصيغ لها معنى مادي مثير للاهتمام. $\ hat {F} ^ p \ odot \ hat {F} ^ {p *}$ هو طيف الطاقة مع مستطيل $p$ تلك الصورة.
انتبه إلى التناظر المثير للاهتمام. كان من الضروري مضاعفة ترددات المرشح في ترددات الصورة للحصول على استجابة. تحتاج الآن إلى مضاعفة ترددات الاستجابة في ترددات الصورة (والتطبيع) للحصول على ترددات المرشح.
في الحياة الواقعية ، يمكن أن يسبب القسمة عنصريًا القسمة على صفر ، لذلك يضاف ثابت تسوية عادة إلى المقام $\ epsilon$ . يقال أن هذا التنظيم يجعل المرشح يولي اهتمامًا أكبر للترددات المنخفضة ، مما يحسن القدرة العامة.
عند معالجة فيديو حقيقي ، تحتاج عادةً إلى حفظ معلومات حول الكائن المتتبع الذي تم الحصول عليه من الإطارات السابقة. عند الانتقال إلى الإطار التالي ، لا يمكنك الحساب $\ hat {W}$ من الصفر ، وتحديث سابقتها. صيغة التحديث ل ASEF:
$\ hat {W} ^ * _ i = \ frac {\ eta} {P} \ sum_ {p = 1} ^ {P} {\ frac {\ hat {G_p}} {\ hat {F ^ p}}} + (1 - \ eta) \ hat {W} ^ * _ {i-1}$
بالنسبة لـ MOSSE ، تحتاج إلى تجميع البسط والمقام بشكل منفصل:
$A_i = \ eta \ sum_ {p = 1} ^ {P} \ hat {G} _p \ odot \ hat {F} ^ {p *} + (1 - \ eta) A_ {i-1}$
$B_i = \ eta \ sum_ {p = 1} ^ {P} \ hat {F} ^ p \ odot \ hat {F} ^ {p *} + (1 - \ eta) B_ {i-1}$
$\ hat {W} ^ * _ i = \ frac {A_i} {B_i}$
أين $\ eta$ - سرعة التعلم.
من المهم أن نتذكر أن تحويل فورييه ليس تمامًا مثل الحساب $G$ بصراحة ، كما هو موضح في بداية المقال. عند حساب FFT ، لا تختفي العناصر المفقودة ، ولكن يتم استبدالها على الجانب العكسي ، كما لو كانت الصورة تدور من اليمين إلى اليسار ومن الأسفل إلى الأعلى. ولكن في بداية المقال ، قررنا بالفعل تعتيم الحواف $F$ ، لذلك لن يكون لهذه المشكلة تأثير ملحوظ.
كما ذكر أعلاه ، فإن الارتباط المتبادل له ميزة غير سارة: بشكل عام ، يمكن لمرشح الضوء أن يعطي استجابة قوية في المناطق البيضاء من الصورة ، حتى إذا لم تتطابق في المناطق المتناقضة. لا تقتصر المشاكل على هذا. حتى البكسل المطابق ذي القيمة الإيجابية أو السلبية للغاية يمكن أن يتداخل مع المرشح إذا كانت العينة ككل منخفضة التباين. لتلطيف هذا التأثير ، يجب تضمين تحويل غير خطي لوحدات بكسل الصورة في المعالجة المسبقة ، والتي سوف "تضغط" على مناطق فاتحة جدًا ومظلمة جدًا في المنتصف. ونتيجة لذلك ، فإن تزامن هذه المناطق المتناقضة يقدم مساهمة أقوى للمقياس. تستخدم مقالات ASEF و MOSSE اللوغاريتم:
$I = \ log {I + 1}$
أين بكسل $I$ من 0 إلى 255. في رأيي ، هذا قاسي للغاية ، ويتجاهل مشكلة الاستجابة القوية للمرشح الداكن في المناطق السوداء . يعمل هذا المخطط بشكل أفضل:
$I = علامة (I - 127) \ sqrt {| I - 127 |}$
ثم يأتي التطبيع ، وتبين أن معظم العناصر تتمركز حول الصفر.
كيف يمكن لهذه الخوارزمية تحديد اختفاء الكائن المتتبع من الإطار؟ سيساعدك هنا تحليل أكثر تفصيلاً للاستجابة الواردة من الإطار التالي. يقدم مبدعو MOSSE مؤشر PSR - نسبة الذروة إلى Sidelobe. دع $g_ {max}$ - العنصر الأقصى $G$ المقابلة للموضع الجديد للكائن $(x، y)$ . نستبعد المربع من النظر $11 \ ضرب 11$ حول هذا الحد الأقصى. نحسب المتوسط والانحراف المعياري للبكسلات المتبقية ( $\ mu_ {sl} ، \ sigma_ {sl}$ ) ثم
$PSR = \ frac {g_ {max} - \ mu_ {sl}} {\ sigma_ {sl}}$
إذا كانت هذه القيمة أعلى من عتبة معينة ، فإن الكشف يعتبر ناجحًا. عادة ما يتم أخذ العتبة في المنطقة بين 3 و 10. للكشف عن ثقة ، عادة ما يتم الاحتفاظ PSR أعلى من 20.

(لاحظ أن PSR هنا لا يعني على الإطلاق ما يعنيه عادة في نظرية معالجة الإشارات ؛ لذا لا تستخدمه على Google ، فلن يخرج شيء جيد)
الخوارزمية بسيطة للغاية. تستغرق عملية التعقب على Core-i7 في الصور ذات 320 × 400 باستخدام تطبيق OpenCV من 0.5 إلى 2 مللي ثانية ، اعتمادًا على حجم الكائن المتتبع.

خوارزمية موس

ضع كل ذلك معًا.

الحالة العامة:

مصفوفة تردد التصفية:

$\ hat {W}$
المصفوفات المساعدة لحساب ترددات المرشح:

$A، B$
مصفوفة التردد للاستجابة المثالية المطلوبة:

$\ hat {G}$
سرعة التدريب أثناء التتبع:

$\ eta$
مستطيل الموضع الحالي للكائن:

$R$
عدد التحولات:

$P$
حد الاستجابة:

$PSR_ {thr}$

الوظيفة المساعدة: التدريب . الإدخال: صورة

$I$ سرعة التعلم الحالية

$\ eta_ {current}$

$A_ {new}: = 0، B_ {new}: = 0$
حتى حصلت عليها P التحولات:
1. تطبيق تحويل أفيني عشوائي صغير يتمركز في وسط الصورة. $R$
2. قطع من صورة مستطيلة مع كائن $F$
3. ضع قناعًا عليه لإبطال الحواف بسلاسة
4. ترجم $F$ في مجال التردد: $\ hat {F}$
5. $A_ {new} = A_ {new} + \ hat {G} \ odot \ hat {F} ^ *$
6. $B_ {new} = B_ {new} + \ hat {F} \ odot \ hat {F} ^ *$
إذا $\ eta_ {current} \ geq 1.0$ ثم استبدلها $A$ و $B$ على $A_ {new}$ و $B_ {new}$ . خلاف ذلك:
$B: = \ eta B_ {new} + (1 - \ eta) B$
$A: = \ eta A_ {new} + (1 - \ eta) A$
احسب ترددات المرشح:
$\ hat {W} ^ * = \ frac {A} {B}$

التهيئة . الإدخال: صورة

$I$ مستطيل حول موضع الكائن

$R_ {init}$

$R: = R_ {init}$
جهز الاستجابة المطلوبة $G$ . عادة ما تكون هذه مصفوفة صفرية تمامًا مع غوسي صغير في المركز.
تدريب : $I$ ، 1.0
ترجم $G$ في مجال التردد: $\ hat {G}$

التعقب : الإدخال: صورة

$I$

قطع المستطيل $F$ من $I$ للموضع السابق للكائن $R$
ضع قناعًا عليه لإبطال الحواف بسلاسة
ترجم $F$ في مجال التردد: $\ hat {F}$
$\ hat {G} _ {response} = \ hat {W} \ odot \ hat {F} ^ *$
ترجم $\ hat {G} _ {response}$ إلى المجال المكاني: $G_ {response}$
ابحث عن الحد الأقصى للداخل $G_ {response}$ : $g_ {max}، (x، y)$
احسب قوة الاستجابة $PSR: = \ frac {g_ {max} - \ mu_ {sl}} {\ sigma_ {sl}}$
إذا $PSR <PSR_ {thr}$ فشل الخروج
تحديث الموقف $R$ . اضبط R إذا تجاوزت الصورة ، أو تقرر أن الكائن زاد / انخفض.
تدريب : $I$ ، $\ eta$
العودة $R$

قد تختلف تفاصيل التنفيذ. على سبيل المثال

يمكن فقط معالجة $F$ وليس الصورة كاملة.
$G$ يمكن إعادة إنشائه لكل تحويل للصورة مع وظيفة مختلفة وعرض الاستجابة.
يمكنك تدريب العديد من المرشحات المختلفة في نفس الوقت على عدة مقاييس للكائن من أجل الكشف عن الحركات في المسافة وفي المنطقة المجاورة.

كيف تبدو

بالنسبة للمبتدئين ، بعض الأمثلة على تحويل فورييه ثنائي الأبعاد.

بعض الأمثلة البسيطة

دعني أذكرك بأن نتيجة التحول ذات قيمة معقدة. توضح الصور أدناه المجموعات "صورة - القيم المطلقة لمجال التردد على مقياس طبيعي - القيم المطلقة لمجال التردد على مقياس لوغاريتمي".

خطوط عمودية:

تتغير الصورة من اليسار إلى اليمين نفسه لأي موضع رأسي. علاوة على ذلك ، فإن التغيير دوري ، مع فترة واضحة ونمط واضح. لذلك ، في صور الترددات ترى الترددات فقط على طول المحور

$x = 0$ .

القفص:

يرجى ملاحظة أن هناك سلسلة متوقعة من الترددات على طول المحاور

$x = 0$ و

$y = 0$ وترددات زائفة غريبة. ظهروا بسبب حقيقة أن الصورة ، أولاً ، محدودة ، في حين أن صورة فورييه تتحلل إلى كمية جميلة فقط لإشارة دورية لانهائية. ثانيًا ، يمكنك أن ترى أن الصورة لا تشكل فترة محددة عند الحواف.

الخطوط المائلة:

مرة أخرى ، كل من الترددات المقابلة للاتجاه الرئيسي والترددات الزائفة مرئية.

الخطوط المائلة بالإضافة إلى التشويه:

تظهر صورة الترددات عدة اتجاهات مميزة ، ولكن أصبح من الصعب بالفعل تقديم صورة عليها بشكل حدسي.

لصور العالم الحقيقي ، من الأصعب تقديم صورة في الرأس بتردداتها:

(الترددات في المركز مغلقة بحيث لا "تضيء" باقي الطيف)

لننتقل الآن إلى مثال عملي حقيقي:

مجموعة صور

صورة بكائن محدد:

قطع وقطع ومعالجة مسبقة ، طيفها في المقياس المعتاد واللوغاريتمي (

$F، | \ hat {F} |، \ log {| \ hat {F} |}$ ):

الاستجابة المطلوبة (

$G$ ):

ترددات المرشح على مقياس منتظم ولوغاريتمي (

$W ، | \ hat {W} |$ ):

أوزان المرشح الصريحة (بدون تحويلات)

$F$ ):

يرجى ملاحظة أنهم لا يشاركون في الخوارزمية في أي مكان - يمكن حسابهم فقط من أجل الفائدة. لاحظ أيضًا أن الفلتر يشبه الجحيم . قد يتوقع المرء أن يكون المرشح شيئًا مشابهًا للصورة الأصلية ، ولكن هذا ليس دائمًا صحيحًا. إن المرشح المماثل للصورة نفسها بالكاد يعطي الاستجابة الغوسية المطلوبة.

الرد من الإطار التالي:

على الرغم من أنها ليست نظيفة مثل الاستجابة المطلوبة ، فمن السهل تحديد الحد الأقصى عليها.

نفس المثال مع استجابة مرغوبة أضيق:

مجموعة صور

بالفعل:

$W$ :

المزيد بالفعل:

$W$ :

مع الحد الأقصى الضيق جدًا على الفلتر ، بدلاً من بقعة سوداء ، تصبح العين مرئية بوضوح.

$W$ للحالات الثلاث السابقة

$G$ عند استخدامها لتدريب 16 تحويل لصورة الإدخال:

حفنة أخرى من الصور

الحد الأقصى الواسع:

متوسط الحد الأقصى:

الحد الأقصى الضيق:

كلما زاد عدد التحولات ، قلما يتمسك المرشح بالعناصر العشوائية. من الواضح بشكل خاص أن البقع السوداء والبيضاء العشوائية من الوسط اختفت

$W$ . من ناحية أخرى ، بالنسبة للغوسي الضيق ، يمكن أن يؤدي التدريب في عدة صور إلى طرح ناقص: انظر إلى "الرنين" المتشكل في الفلتر حول العين.

إذا كنت تريد أن ترى كيف يبدو مباشرًا ، فقم بتنزيل مستودع الاختبار الخاص بي من خلال تنفيذ MOSSE مع إخراج صور التصحيح. يمكنك العثور على المزيد من خيارات موس على جيثب. بالإضافة إلى ذلك ، فإنه موجود في OpenCV .

الخلاصة

شكرا لاهتمامكم ، هابروفسك. لا يعد تعقب MOSSE و ASEF أكثر الخوارزميات تعقيدًا في العالم. الأسهل ليس فقط تطبيقها بشكل فعال ، ولكن أيضًا لفهم كيفية توجيه منشئي المحتوى. آمل أن يكون تفسيري قد ساعدك في الوصول إلى رأس الباحثين ، لمتابعة مسار أفكارهم. يمكن أن يكون هذا مفيدًا: التعلم الآلي ليس مجالًا ثابتًا للمعرفة ؛ هناك مكان للإبداع والبحث. حاول التعمق أكثر في بعض الخوارزميات القائمة: قطع الأطراف غير الضرورية للتسارع أو إضافة زوجين لجعلها تعمل بشكل أفضل في حالتك الخاصة. سوف تعجبك!

تمت كتابة هذه المقالة بدعم من DSSL.

أجهزة تتبع بصرية: ASEF و MOSSE

قرار تافه

ASEF ، موس

نهج تافه ++؟

الخدعة الرئيسية

نقاط إضافية

خوارزمية موس

كيف تبدو

الخلاصة

More articles: