🤹🏿 🍺 🅰️ Trackers optiques: ASEF et MOSSE 👨🏿‍🤝‍👨🏽 🍈 🔨

L'une des sous-tâches importantes de l'analyse vidéo est le suivi des objets sur une vidéo. Ce n'est pas si primitif que j'ai dû descendre au niveau pixel par pixel, mais ce n'est pas si complexe qu'il faut sans ambiguïté un réseau neuronal multicouche pour la solution. Le suivi peut être utilisé à la fois comme une fin en soi et comme partie d'autres algorithmes:

Compter les personnes uniques qui sont entrées dans une certaine zone ou ont franchi la frontière dans un cadre
Identification des itinéraires typiques des voitures dans un parking et des personnes dans un magasin
Rotation automatique de la caméra de surveillance lorsque l'objet est déplacé

Sans même regarder la littérature, je peux dire avec confiance que la meilleure façon de résoudre le problème est d'utiliser des réseaux de neurones. En général, vous ne pouviez rien écrire de plus, mais il n'est pas toujours possible de se précipiter dans une tâche avec une paire de GTX 1080Ti. Qui se soucie de suivre des objets sur la vidéo dans de tels cas, s'il vous plaît, sous cat. Je vais essayer non seulement d'expliquer comment fonctionnent les trackers ASEF et MOSSE, mais aussi de vous apporter la solution pour que les formules semblent évidentes.

Pour commencer, nous répondrons à une question préliminaire: pourquoi inventer quelque chose alors que vous pouvez alimenter une pile tensorflow de vidéos et laisser l'ordinateur pendant quelques semaines? Les approches de réseau neuronal ont un sérieux inconvénient: même sur les cartes vidéo modernes, il est difficile d'obtenir une bonne cadence de tir à partir des réseaux. Ce n'est pas un problème si nous analysons la vidéo enregistrée, mais cela insère un bâton dans les roues si vous voulez travailler en temps réel. Supposons que nous voulons traiter la vidéo de cinq caméras à 10 FPS. Même avec des conditions relativement douces, un réseau neuronal devrait avoir un temps d'inférence inférieur à

$\ frac {1000} {5 \ fois 10} = 20$ millisecondes (dans des conditions de non-parallélisme complet). A titre de comparaison, YoloV3, un réseau de classificateurs avec une architecture relativement simple, peut cracher une image dans

$inline$ millisecondes. De plus, les solutions basées sur des cartes graphiques puissantes peuvent coûter très cher.

Cet article suppose que vous avez déjà traité du traitement d'image machine, que vous connaissez les opérations de base de l'algèbre linéaire (convolution, norme, inversion matricielle) et que vous comprenez en général la transformée de Fourier.

Ci-après:

$A \ odot B$ signifie multiplication matricielle par élément $A$ et $B$
$A \ otimes B$ dénote la convolution des matrices $A$ et $B$
$\ hat {A} (\ omega, \ nu) = \ mathcal {F} (A (x, y))$ signifie que $\ hat {A} (\ omega, \ nu)$ - matrice de fréquence de la transformée de Fourier rapide appliquée à l'image $A$ .
$\ parallel A \ parallel_2$ - indique la somme des carrés des éléments de la matrice $A$

Décision triviale

À première vue, la tâche de suivre un sujet spécifique ne semble pas si compliquée.

Puissions-nous avoir

$T$ images vidéo consécutives

$I_t$ la taille

$w$ sur

$h$ pixels. Dans l'image initiale de la vidéo

$I_0$ un rectangle est encerclé autour d'un objet

$F_0$

$m$ sur

$n$ . Il est nécessaire de trouver l'emplacement de ce corps sur tous les autres cadres

$I_t$ .

Nous supprimons le bruit dans les images, puis nous normalisons chacune d'entre elles dans la plage de -1 à 1 afin que les changements généraux de luminosité n'affectent pas la détection. Prenez la première image de la vidéo sans balisage

$I_1$ . Si

$I_0$ et

$I_1$ - images vidéo voisines avec un bon FPS, il est peu probable que l'objet souhaité soit éloigné de sa position d'origine. Profitez-en. Découper

$I_1$ rectangle

$F_1$ de l'endroit où se trouvait auparavant le corps désiré. "Glisser"

$F_0$ à travers

$F_1$ et à chaque point, nous calculons le carré de la somme des différences

$G_ {L_2} (i, j) = \ parallel F_ {1} (i, j) - F_0 \ parallel_ {2}, i \ in [0, m], j \ in [0, n]$

où calculer la différence

$G_ {L_2} (i, j)$ besoin de combiner le centre

$F_0$ avec élément

$(i, j)$ dans

$F_1$ et les valeurs manquantes à zéro. Après cela dans la matrice

$G_ {L2}$ le minimum est recherché; son emplacement moins les coordonnées du centre

$F_1$ et sera le décalage de l'objet souhaité par

$I_1$ .

Pour qu'une transition nette vers zéro ne «sonne» pas pendant la détection, il est préférable de prendre initialement le rectangle un peu plus que nécessaire et de réduire progressivement à zéro les valeurs les plus proches des bordures

$F_0$ et

$F_1$ . Pour cela, chacun des

$F$ doivent être multipliés par le masque. Pour les objets carrés, le bon vieux exposant fera l'affaire.

$A = \ exp {\ frac {(x - i) ^ 2 + (y - j) ^ 2} {\ sigma ^ 2}}$ (où

$(x, y)$ Est le centre de la fenêtre), mais dans le cas général, il est préférable de prendre une fenêtre de Hanning en deux dimensions.

Pour

$I_2$ la fenêtre

$F_2$ prise de la position prédite sur le cadre

$I_1$ , et ainsi de suite.

Exemple

Au lieu de cela

$L_2$ les normes peuvent être utilisées

$L_1$ (

$G_ {L_ {1}} (i, j) = | F_1 (i, j) - F_0 |$ ) et moins la corrélation croisée des matrices (

$G_ {nCC} (i, j) = - \ sum_ {kl} {F_ {1, kl} (i, j) F_ {0, kl}}, k \ in [0, m], l \ in [ 0, n]$ ) Les deux sont considérés un peu plus vite que

$L_2$ mais ils ont leurs propres caractéristiques.

$L_1$ non différenciable et moins sensible aux grandes différences de valeurs de pixels. La corrélation croisée peut produire des faux positifs si l'échantillon est à faible contraste et que l'image présente des zones très claires ou très sombres.

$L_2$ -version de la métrique n'a pas un tel inconvénient:

$G_ {L_2} = \ sum {(F_ {1, kl} (i, j) - F_ {0, kl}) ^ 2}$

$= \ sum {(F_ {1, kl} (i, j)) ^ 2 - 2 F_ {1, kl} (i, j) F_ {0, kl} + (F_ {0, kl}) ^ 2 }$

$= \ sum {(F_ {1, kl} (i, j)) ^ 2} - \ sum {2 F_ {1, kl} (i, j) F_ {0, kl}} + \ sum {(F_ {0, kl}) ^ 2}$

$= E_ {F_1 (i, j)} + 2 G_ {nCC} (i, j) + E_ {F_0}$

$E_ {F_1 (i, j)}$ , "L'énergie" du site sélectionné sur

$I_t$ agit comme un facteur d'équilibrage (

$E_ {F_0}$ , la somme des carrés des valeurs de pixels de l'échantillon est la même pour toutes les positions de fenêtre et n'a aucune signification pratique ici).

Même un tel algorithme primitif s'adapte assez bien dans le cas d'un mouvement linéaire d'objets (par exemple, une caméra regardant le convoyeur). Cependant, en raison de la simplicité du modèle et de son exécution, cette méthode de suivi présente plusieurs inconvénients:

Un simple mouvement linéaire d'un objet sans changement de nature est rare. En règle générale, les corps dans le champ de vision de la caméra peuvent subir certaines classes de modifications. Par ordre croissant de complexité: augmentation / diminution de la taille, virages, transformations affines, transformations projectives, transformations non linéaires, modifications d'un objet. Même si nous omettons les changements d'objet et les transformations non linéaires, nous aimerions que l'algorithme puisse récupérer à partir de rotations et de changements de taille relativement simples. De toute évidence, la procédure ci-dessus n'a pas cette propriété. Probablement $F_0$ il donnera toujours une réponse perceptible sur l'objet, mais il sera difficile de déterminer l'emplacement exact de l'échantillon, et la piste sera discontinue.

Exemple
Nous avons montré à l'algorithme un seul échantillon positif, il est difficile de dire quelle réponse donnera $F_0$ si un autre objet similaire pénètre dans la fenêtre. Eh bien, si l'objet souhaité est contrasté et a une structure rare, mais que faire si nous voulons surveiller une machine dans un flux d'autres machines? Un tracker peut sauter de façon imprévisible d'une voiture à l'autre.
À chaque image, nous jetons la trame de fond entière. Probablement, il devrait également être utilisé d'une manière ou d'une autre.
De plus, nous n'apprenons qu'à un moment de l'image. Il sera préférable que, près de l' emplacement correct de l'objet, le tracker donne également une bonne réponse. Un peu contre-intuitif, mais pensez: si le filtre est à l'emplacement exact de l'objet dans l'image $(x, y)$ donne la meilleure valeur, et $(x + 1, y + 1)$ - Quelque chose d'aléatoire, ce qui signifie qu'il est trop sensible aux petits détails qui peuvent facilement changer. Inversement, si $(x, y)$ et dans $(x + 1, y + 1)$ environ les mêmes bonnes valeurs, le filtre «accroché» sur des panneaux plus grands et, nous l'espérons, plus permanents.
Avec la mise en œuvre naïve de la procédure de suivi, pour chaque pixel de l'image, nous multiplions la fenêtre entière avec l'élément sélectionné par la partie correspondante de cette image. La complexité de cette opération est $O (m ^ 2n ^ 2)$ . Dans de tels cas, il n'est pas très agréable de suivre même des objets de 50 à 50 pixels. Ce problème est partiellement résolu en réduisant la taille de la vidéo, mais lors de la réduction de l'image à moins de 240 pixels de largeur, même de gros détails importants commencent à être perdus, ce qui rend l'algorithme vide de sens.

ASEF, MOSSE

Approche triviale ++?

Retroussez nos manches et essayez de résoudre les problèmes ci-dessus.

Augmentez l'image originale. Nous lui appliquons plusieurs transformations affines légères. Vous pouvez également ajouter du bruit ou modifier le gamma. Ainsi, au lieu d'une seule image, un ensemble de microdonnées de

$P$ des photos. Il y avait beaucoup d'images, mais une fenêtre restait. Alors maintenant, nous allons non seulement couper un rectangle de l'image, mais chercher un filtre

$W$ qui donnera une bonne réponse pour tout le monde

$I ^ p$ . Nous transformons le problème en un problème de minimisation:

$W: \ min_W {\ parallel F ^ p - W \ parallel_2}, p \ in [1, P]$

où

$\ parallèle F ^ p - W \ parallèle_2$ - la somme des carrés des différences de pixels entre

$W$ et la section correspondante de l'emplacement exact de l'objet sur

$p$ cette image synthétique créée à partir d'un cadre qui a un vrai balisage.

De plus, vous pouvez échantillonner des rectangles loin de l'emplacement de l'objet suivi et maximiser la différence indiquée ci-dessus.

Il est plus difficile de suggérer que le filtre donne une bonne réponse aux points proches de l'emplacement exact de l'objet. Nous savons que

$(x, y)$ application de filtre avec

$L_2$ -métrique devrait donner 0, ensuite - plus, loin - encore plus. De plus, nous n'avons pas de direction préférée, la réponse doit être symétrique au centre par rapport à

$(x, y)$ . Il semble que nous puissions exprimer mathématiquement à quoi devrait ressembler la réponse d'un filtre appliqué aux images de référence! L'aspect exact peut varier en fonction de la fonction d'atténuation de réponse spécifique, mais est-ce que tout le monde aime les gaussiens? Par conséquent, nous supposons que

$W$ appliqué à

$F_p$ devrait idéalement donner un résultat

$G_p = 1 - \ exp {\ frac {(x - i) ^ 2 + (y - j) ^ 2} {\ sigma ^ 2}}$ . Par conséquent, le problème de minimisation se transforme en:

$D_p (i, j) = \ parallèle F ^ p (i, j) - W \ parallel_2$

$W: \ min_W {\ parallel D_p (i, j) - G_p (i, j) \ parallel_2}, p \ in [1, P]$

Maintenant, nous ne minimisons pas la réponse à un moment donné, mais minimisons la déviation de la réponse par rapport à celle souhaitée.

Attendez une seconde ... Nous l'avons fait

$P \ fois m \ fois n$ équations avec

$m \ fois n$ variables à minimiser. Il semble que nous en ayons trop fait. Revenons un peu en arrière.

Astuce principale

De tous les problèmes, la plus grande difficulté est la complexité.

$O (m ^ 2n ^ 2)$ . Est-il possible de trouver autre chose que le fractionnement délicat d'une boîte de recherche en plusieurs petites ou de rechercher l'image dans une petite résolution et un réglage fin pour une haute précision?

Il s'avère que vous le pouvez! La matanalyse nous dit que le repliement des fonctions dans l'espace ordinaire est une multiplication de leurs images de Fourier. Nous pouvons appliquer une transformée de Fourier rapide aux images, multiplier leurs fréquences élément par élément, puis reconvertir le résultat en matrice pour

$O (mn \ log {mn})$ , ce qui est beaucoup plus rapide que de minimiser honnêtement la matrice. Fourier! Qui aurait pensé! À l'ère du tensorflow, il peut encore nous aider avec la vision par ordinateur.

(Cela montre d'ailleurs le principe mathématique général: si vous ne voulez pas résoudre le problème dans l'espace

$X$ le déplacer dans l'espace

$Y$ , décidez-y et transférez la décision. La solution de contournement est souvent plus courte que la solution directe.)

Comme indiqué ci-dessus, nous pouvons utiliser la corrélation croisée pour localiser l'échantillon dans l'image. Mais la corrélation croisée est une convolution avec une réflexion horizontale et verticale

$W$ . La matanalyse suggère que dans ce cas il faudra multiplier les fréquences

$F$ sur une matrice conjuguée complexe à une matrice de fréquence

$W$ :

$\ hat {W} (\ omega, \ nu) = \ mathcal {F} (W (x, y))$

$\ hat {F} (\ omega, \ nu) = \ mathcal {F} (F (x, y))$

$\ hat {G} _ {conv} (\ omega, \ nu) = \ mathcal {F} (G_ {conv} (x, y))$

$G_ {conv} = F \ otimes W \ rightarrow \ hat {G} _ {conv} = \ hat {F} \ odot \ hat {W} ^ *$

où

$G_ {conv} = \ exp {\ frac {(x - i) ^ 2 + (y - j) ^ 2} {\ sigma ^ 2}}$ - fonction de réponse parfaite sur l'image de référence. Veuillez noter que

$L_2$ Nous avons minimisé la métrique et maximisé la métrique de convolution, alors maintenant, plus la réponse est grande, mieux c'est.

Si nous avions une image, nous trouverions la matrice de fréquence de filtre exacte:

$\ hat {W} ^ * = \ frac {\ hat {G} _ {conv}} {\ hat {F}}$

où le côté droit fait référence à la division par élément. Mais un peu plus tôt, nous avons généré

$P$ images de la source. Nous pouvons les appliquer avec l'approche de Fourier. Il n'y a pas de filtre avec de telles fréquences qui satisferait idéalement toutes les images, mais vous pouvez obtenir quelque chose d'assez bon. Vous pouvez résoudre le problème de deux manières:

Vous pouvez trouver un ensemble de filtres idéaux, puis les faire la moyenne en un. C'est ainsi que les auteurs de la moyenne des filtres synthétiques exacts (ASEF):
$\ hat {W} ^ * = \ frac {1} {P} \ sum_ {p = 1} ^ {P} \ hat {W} ^ * _ p = \ frac {1} {P} \ sum_ {p = 1} ^ {P} {\ frac {\ hat {G} _p} {\ hat {F} ^ p}}$
Nous utilisons ici la propriété de linéarité des images de Fourier. En ajoutant des fréquences, comme indiqué ci-dessus, nous semblons faire la moyenne de plusieurs poids de filtre.
Vous pouvez trouver des fréquences de filtre qui satisfont toutes les images en moyenne, approximativement $L_2$ :
$\ hat {W} ^ *: \ min _ {\ hat {W} ^ *} {\ sum_ {p = 1} ^ {P} {\ parallel \ hat {F} ^ p \ odot \ hat {W} ^ * - \ hat {G} _p \ parallel_2}}$
Pour trouver le minimum, vous devez prendre la dérivée des éléments filtrants:
$\ frac {\ delta} {\ delta \ hat {W} ^ *} \ sum_ {p = 1} ^ {P} {\ parallel \ hat {F} ^ p \ odot \ hat {W} ^ * - \ chapeau {G} _p \ parallel_2} = 0$
Une capture honnête de ce dérivé peut être trouvée dans le suivi d'objet visuel à l'aide de filtres de corrélation adaptatifs , qui offre la somme minimale de sortie des filtres d'erreur quadratique (filtres MOSSE). Le résultat est le suivant:
$\ hat {W} ^ * = \ frac {\ sum_ {p = 1} ^ {P} {\ hat {G} _p \ odot \ hat {F} ^ {p *}}} {\ sum_ {p = 1} ^ {P} {\ hat {F} ^ p \ odot \ hat {F} ^ {p *}}}$

Hmm, comme si des éléments similaires étaient impliqués dans les formules. À

$P = 1$ les formules pour ASEF et MOSSE sont exactement les mêmes.

$\ chapeau {W} ^ *$ pour une image peut être représentée comme

$\ hat {W} ^ * = \ frac {\ hat {G_p}} {\ hat {F ^ p}} = \ frac {\ hat {G_p} \ odot \ hat {F} ^ {p *}} { \ hat {F ^ p} \ odot \ hat {F} ^ {p *}}$

Remplacez dans la formule pour ASEF et obtenez

$\ hat {W} ^ * = \ sum_ {p = 1} ^ {P} {\ frac {\ hat {G} _p \ odot \ hat {F} ^ {p *}} {\ hat {F} ^ p \ odot \ hat {F} ^ {p *}}}$

Ouais! Maintenant, il est beaucoup mieux de voir que ASEF et MOSSE ne diffèrent que par la méthode de moyenne du filtre! On fait valoir que MOSSE produit de meilleurs filtres que ASEF. Cela semble logique: il est préférable de s'ajuster à l'ensemble des images dans leur ensemble que de faire la moyenne des filtres.

Après avoir

$\ chapeau {W} ^ *$ , nous calculons la réponse dans le domaine fréquentiel

$\ hat {G} _ {conv} = \ hat {F} \ odot \ hat {W} ^ *$ , puis nous le traduisons dans le domaine spatial et recherchons le maximum dans la matrice résultante

$G$ . Là où le maximum est, il y a la nouvelle position de l'objet.

Points supplémentaires

Les termes dans les dénominateurs des formules ont une signification physique intéressante. $\ hat {F} ^ p \ odot \ hat {F} ^ {p *}$ Est le spectre d'énergie d'un rectangle avec $p$ cette image.
Faites attention à une symétrie intéressante. Il a fallu multiplier les fréquences de filtrage par les fréquences d'image pour obtenir une réponse. Vous devez maintenant multiplier les fréquences de réponse par les fréquences d'image (et normaliser) pour obtenir les fréquences de filtre.
Dans la vie réelle, la division élément par élément peut provoquer une division par zéro, donc une constante de régularisation est généralement ajoutée au dénominateur $\ epsilon$ . On fait valoir qu'une telle régularisation oblige le filtre à accorder plus d'attention aux basses fréquences, ce qui améliore la capacité de généralisation.
Lors du traitement d'une vidéo réelle, vous souhaitez généralement enregistrer des informations sur l'objet suivi obtenues à partir des images précédentes. Lorsque vous passez à l'image suivante, vous ne pouvez pas calculer $\ chapeau {W}$ à partir de zéro, et mettez à jour le précédent. Mettre à jour la formule pour ASEF:
$\ hat {W} ^ * _ i = \ frac {\ eta} {P} \ sum_ {p = 1} ^ {P} {\ frac {\ hat {G_p}} {\ hat {F ^ p}}} + (1 - \ eta) \ hat {W} ^ * _ {i-1}$
Pour MOSSE, vous devez accumuler séparément le numérateur et le dénominateur:
$A_i = \ eta \ sum_ {p = 1} ^ {P} \ hat {G} _p \ odot \ hat {F} ^ {p *} + (1 - \ eta) A_ {i-1}$
$B_i = \ eta \ sum_ {p = 1} ^ {P} \ hat {F} ^ p \ odot \ hat {F} ^ {p *} + (1 - \ eta) B_ {i-1}$
$\ hat {W} ^ * _ i = \ frac {A_i} {B_i}$
où $\ eta$ - vitesse d'apprentissage.
Il est important de se rappeler que la transformée de Fourier n'est pas tout à fait la même chose que le calcul $G$ honnêtement, comme décrit au début de l'article. Lors du calcul de la FFT, les éléments manquants ne disparaissent pas, mais sont substitués au verso, comme si l'image était bouclée de droite à gauche et de bas en haut. Mais au tout début de l'article, nous avons déjà décidé d'assombrir les bords $F$ , ce problème n'aura donc pas d'effet notable.
Comme mentionné ci-dessus, la corrélation croisée a une caractéristique désagréable: en général, un filtre de lumière peut donner une forte réponse dans les zones blanches de l'image, même si elles ne coïncident pas dans les zones contrastées. Les problèmes ne se limitent pas à cela. Même un pixel correspondant avec une valeur fortement positive ou très négative peut interférer avec le filtre si l'échantillon dans son ensemble est à faible contraste. Pour atténuer cet effet, une transformation non linéaire des pixels de l'image doit être incluse dans le prétraitement, ce qui «appuiera» les zones trop claires et trop sombres au milieu. Pour cette raison, la coïncidence de ces zones contrastées contribue davantage à la métrique. Les articles ASEF et MOSSE utilisent le logarithme:
$I = \ log {I + 1}$
où sont les pixels $I$ de 0 à 255. À mon avis, cela est trop sévère et ignore le problème de la forte réponse du filtre sombre dans les zones noires . Un tel schéma fonctionne mieux:
$I = signe (I - 127) \ sqrt {| I - 127 |}$
Vient ensuite la normalisation, et il s'avère que la plupart des éléments sont centrés autour de zéro.
Comment un tel algorithme peut-il déterminer que l'objet suivi a disparu de l'image? Une analyse plus détaillée de la réponse reçue de la trame suivante sera utile ici. Les créateurs de MOSSE proposent un indicateur PSR - Peak to Sidelobe Ratio. Soit $g_ {max}$ - élément maximum $G$ correspondant à la nouvelle position de l'objet $(x, y)$ . Nous excluons le carré de la considération $11 $ \ fois 11 $$ autour de ce maximum. Nous calculons la moyenne et l'écart type pour les pixels restants ( $\ mu_ {sl}, \ sigma_ {sl}$ ) Alors
$PSR = \ frac {g_ {max} - \ mu_ {sl}} {\ sigma_ {sl}}$
Si cette valeur est supérieure à un certain seuil, la détection est considérée comme réussie. Le seuil est généralement pris dans la région entre 3 et 10. Pour des détections sûres, le PSR est généralement maintenu au-dessus de 20.

(notez qu'ici PSR ne signifie pas du tout ce qu'il signifie habituellement dans la théorie du traitement du signal; alors ne le googlez pas, rien de bon ne sortira)
L'algorithme est extrêmement simple. La procédure de suivi sur Core-i7 dans les images de 320 x 400 utilisant l'implémentation OpenCV prend de 0,5 à 2 millisecondes, selon la taille de l'objet suivi.

Algorithme MOSSE

Mettre tout cela ensemble.

État général:

Matrice de fréquence de filtre:

$\ chapeau {W}$
Matrices auxiliaires pour le calcul des fréquences de filtrage:

$A, B$
Matrice de fréquence de la réponse idéale souhaitée:

$\ chapeau {G}$
Vitesse d'entraînement pendant le suivi:

$\ eta$
Le rectangle de la position actuelle de l'objet:

$R$
Nombre de transformations:

$P$
Seuil de réponse:

$PSR_ {thr}$

Fonction auxiliaire: formation . Entrée: Image

$I$ vitesse d'apprentissage actuelle

$\ eta_ {current}$

$A_ {nouveau}: = 0, B_ {nouveau}: = 0$
Jusqu'à ce que je l'aie P transformations:
1. Appliquez une petite transformation affine aléatoire centrée sur le centre de l'image. $R$
2. Couper à partir d'une image rectangulaire avec un objet $F$
3. Appliquez-y un masque pour annuler en douceur les bords
4. Traduire $F$ dans le domaine fréquentiel: $\ chapeau {F}$
5. $A_ {nouveau} = A_ {nouveau} + \ chapeau {G} \ odot \ chapeau {F} ^ *$
6. $B_ {nouveau} = B_ {nouveau} + \ chapeau {F} \ odot \ chapeau {F} ^ *$
Si $\ eta_ {current} \ geq 1.0$ puis remplacez $A$ et $B$ sur $A_ {nouveau}$ et $B_ {nouveau}$ . Sinon:
$B: = \ eta B_ {nouveau} + (1 - \ eta) B$
$A: = \ eta A_ {nouveau} + (1 - \ eta) A$
Calculez les fréquences de filtrage:
$\ hat {W} ^ * = \ frac {A} {B}$

Initialisation . Entrée: Image

$I$ rectangle autour de la position de l'objet

$R_ {init}$

$R: = R_ {init}$
Préparez la réponse souhaitée $G$ . Il s'agit généralement d'une matrice complètement nulle avec une petite gaussienne au centre.
Formation : $I$ , 1.0
Traduire $G$ dans le domaine fréquentiel: $\ chapeau {G}$

Suivi : entrée: image

$I$

Couper le rectangle $F$ de $I$ pour la position précédente existante de l'objet $R$
Appliquez-y un masque pour annuler en douceur les bords
Traduire $F$ dans le domaine fréquentiel: $\ chapeau {F}$
$\ hat {G} _ {response} = \ hat {W} \ odot \ hat {F} ^ *$
Traduire $\ hat {G} _ {response}$ au domaine spatial: $G_ {response}$
Trouvez le maximum dans $G_ {response}$ : $g_ {max}, (x, y)$
Calculer la puissance de réponse $PSR: = \ frac {g_ {max} - \ mu_ {sl}} {\ sigma_ {sl}}$
Si $PSR <PSR_ {thr}$ échec de sortie
Mettre à jour la position $R$ . Ajustez R s'il dépasse l'image ou s'il a été décidé que l'objet augmentait / diminuait.
Formation : $I$ , $\ eta$
Retour $R$

Les détails de mise en œuvre peuvent varier. Par exemple

Seul peut prétraiter $F$ , pas l'image entière.
$G$ peut être recréé pour chaque transformation d'image avec une fonction et une largeur de réponse variables.
Vous pouvez entraîner plusieurs filtres différents en même temps sur plusieurs échelles de l'objet afin de détecter les mouvements à distance et à proximité.

À quoi ça ressemble

Pour commencer, quelques exemples de la transformée de Fourier bidimensionnelle.

Quelques exemples simples

Permettez-moi de vous rappeler que le résultat de la transformation a une valeur complexe. Les images ci-dessous montrent les groupes «image - valeurs absolues du domaine fréquentiel à une échelle normale - valeurs absolues du domaine fréquentiel à une échelle logarithmique».

Lignes verticales:

L'image change de gauche à droite de la même manière pour toute position verticale. De plus, le changement est périodique, avec une période claire et un schéma clair. Par conséquent, dans les images de fréquences, vous ne voyez que les fréquences le long de l'axe

$x = 0$ .

Cage:

Veuillez noter qu'il existe comme prévu des séries de fréquences le long des axes

$x = 0$ et

$y = 0$ et d'étranges fréquences parasites. Ils sont apparus du fait que, premièrement, l'image est finie, tandis que l'image de Fourier n'est décomposée en une belle quantité que pour un signal périodique infini. Deuxièmement, vous pouvez voir que l'image ne forme pas une période exacte sur les bords.

Lignes inclinées:

Là encore, les fréquences correspondant à la direction principale et les fréquences parasites sont visibles.

Lignes inclinées plus distorsion:

L'image des fréquences montre plusieurs directions caractéristiques, mais il devient déjà difficile de présenter intuitivement une image sur elles.

Pour les images du monde réel, il est encore plus difficile de présenter une image dans la tête par ses fréquences:

(les fréquences au centre sont fermées pour ne pas «éclairer» le reste du spectre)

Passons maintenant à un exemple de travail réel:

Pack d'images

Image avec objet marqué:

Objet découpé et prétraité, son spectre à l'échelle habituelle et logarithmique (

$F, | \ hat {F} |, \ log {| \ hat {F} |}$ ):

Réponse souhaitée (

$G$ ):

Filtrer les fréquences sur une échelle régulière et logarithmique (

$W, | \ chapeau {W} |$ ):

Poids de filtre explicites (sans transformations)

$F$ ):

Veuillez noter qu'ils ne participent à l'algorithme nulle part - ils ne peuvent être comptés que par intérêt. Notez également que le filtre ressemble à l'enfer de cela . On pourrait s'attendre à ce que le filtre soit quelque chose de similaire à l'image d'origine, mais ce n'est en aucun cas toujours vrai. Un filtre similaire à l'image elle-même ne donnerait guère la réponse gaussienne souhaitée.

La réponse de la trame suivante:

Bien qu'il ne soit pas aussi propre que la réponse souhaitée, il est facile de déterminer le maximum à ce sujet.

Le même exemple avec une réponse souhaitée plus étroite:

Pack d'images

Déjà:

$W$ :

Plus déjà:

$W$ :

Avec un maximum très étroit sur le filtre, au lieu d'une tache noire, l'œil devient clairement visible.

$W$ pour les trois cas précédents

$G$ lorsqu'il est utilisé pour l'apprentissage de 16 transformations de l'image d'entrée:

Un autre tas de photos

Large maximum:

Maximum moyen:

Maximum étroit:

Plus il y a de transformations, moins le filtre s'accroche aux éléments aléatoires. Il est particulièrement clair que des taches noires et blanches aléatoires du milieu ont disparu

$W$ . D'un autre côté, pour un gaussien étroit, un entraînement sur plusieurs images peut jouer un inconvénient: regardez la «sonnerie» formée dans le filtre autour de l'œil.

Si vous voulez voir à quoi cela ressemble en direct, téléchargez ici mon référentiel de test avec l'implémentation de MOSSE avec la sortie des images de débogage. Vous pouvez trouver plus d' options MOSSE sur le github. De plus, il est en OpenCV .

Conclusion

Merci de votre attention, Habrovsk. Le suivi MOSSE et ASEF ne sont pas les algorithmes les plus complexes au monde. Plus il est facile non seulement de les appliquer efficacement, mais aussi de comprendre comment leurs créateurs ont été guidés. J'espère que mon explication vous a aidé à entrer dans la tête des chercheurs, à suivre le cours de leurs réflexions. Cela peut être utile: l'apprentissage automatique n'est pas un domaine statique de la connaissance, il y a une place pour la créativité et la recherche. Essayez de creuser plus profondément dans un algorithme établi: sciez les membres inutiles pour l'accélération ou ajoutez-en un couple pour le faire fonctionner mieux dans votre cas particulier. Vous l'aimerez!

Cet article a été écrit avec le soutien de DSSL.

Trackers optiques: ASEF et MOSSE

Décision triviale

ASEF, MOSSE

Approche triviale ++?

Astuce principale

Points supplémentaires

Algorithme MOSSE

À quoi ça ressemble

Conclusion

More articles: