Amélioration de la qualité des panoramas de collage en faisant correspondre le graphique des transformations projectives


Bonjour, Habr! Aujourd'hui, nous allons parler de l'une des façons d'améliorer la qualité des panoramas de collage. Il existe une approche largement utilisée pour coller des panoramas d'objets plats, mais comme cette approche n'est pas sans inconvénients, nous proposons notre amélioration.


La tâche de panoramique consiste à créer une image composite basée sur un ensemble d'images sources (voir Fig. 1). Il trouve une application dans la résolution de problèmes pratiques tels que:


  • sondage de la surface de la Terre à partir d'un satellite ou d'un drone;
  • coller des images obtenues à l'aide d'un microscope;
  • collage vidéo;
  • Capture d'image en super résolution.


Figure 1 - Images originales et panorama


En général, l'algorithme de collage de panorama peut être formulé comme suit [1] (voir Fig. 2). Au tout début, il est nécessaire d'extraire un nombre suffisant d'images du flux vidéo. Cela peut être fait en ligne, en lisant séquentiellement toutes les images et en sélectionnant des images individuelles avec la fréquence nécessaire.



Figure 2 - Organigramme de l'algorithme de collage de panorama utilisant des points spéciaux


Après cela, en triant séquentiellement des paires d'images de l'ensemble, il est nécessaire de détecter des points singuliers et de calculer leurs descripteurs sur ces images [2–4]. Ce sont ces points singuliers qui permettent de construire une correspondance géométrique entre deux cadres. Ce qui suit est une comparaison de points singuliers en fonction de leurs descripteurs. Il ne faut pas oublier que cela n'exclut pas la possibilité d'obtenir de fausses correspondances.


De plus, ayant deux ensembles de points singuliers, l'un devrait trouver une transformation projective qui traduirait les points d'une trame aux points correspondants de l'autre de la meilleure façon. Pour résoudre ce problème, l'approche RANSAC peut être utilisée [5]. Cette approche est décrite plus en détail dans [6, 7]


Pour rechercher une transformation projective entre les images, un flux optique peut également être utilisé, qui est souvent utilisé dans la tâche de collage de panoramas [8].
Après avoir obtenu l'ensemble souhaité de transformations projectives, une procédure technique de collage des images a lieu, à savoir: pour chaque pixel du panorama final (x, y) pour chaque canal (RVB), la moyenne arithmétique des intensités de pixels est calculée avec les coordonnées (x, y) de toutes les images, y compris un pixel avec de telles coordonnées.


En utilisant les méthodes de recherche de transformations projectives, on peut déterminer le déplacement de la position de la caméra par rapport à la position précédente dans l'espace. Dans des conditions de laboratoire, la précision du calcul de ces données est suffisante pour construire un panorama d'un objet stationnaire plat. En conditions réelles, lors du calcul du déplacement de la position de la caméra par rapport à la position précédente, une erreur de calcul se produit (erreur de mesure / interférence / limitations imposées par les algorithmes, etc.). Au fil du temps, l'erreur cumulée continue d'augmenter de telle sorte que, malgré la précision acceptable de détermination du déplacement entre des positions adjacentes, le panorama général de l'objet contiendra déjà de graves écarts (voir Fig. 3).



Figure 3 - Erreur cumulée


Nous nous sommes fixé pour objectif de développer une méthode d'appariement du graphe des transformations projectives pour la tâche de panoramique d'objets fixes plats qui résiste au problème des accumulations d'erreurs. Un autre objectif est de développer la méthode de telle manière qu'elle ne dépende pas de la méthode de calcul des paramètres de la transformation projective.


L'une des conditions doit être remplie:


  • tirer sur un objet pseudo-rigide fixe;
  • prise de vue d'un objet proche du plat à une distance suffisamment grande;
  • pour toutes les positions de la caméra pendant la prise de vue, l'exigence est remplie: pour tous les points d'image, les rayons reliant ces points à la mise au point de la caméra ne coïncident pas entre eux.

Description de l'algorithme de correspondance du graphe de transformation de projection


Nous introduisons le concept d'un système de coordonnées unique. Par un seul système de coordonnées, nous entendons un système de coordonnées où les mêmes points d'un objet provenant d'images différentes auront les mêmes coordonnées. Cette exigence peut être exprimée par la formule suivante:


f(x)=y,


f Est un mappage défini sur la partie commune des cadres et traduisant les points du premier cadre aux points du deuxième cadre, x - coordonnées du point dans le système de coordonnées de la première trame, y - coordonnées d'un point dans le système de coordonnées du deuxième cadre.


Dans le cas où le mappage f peut être correctement poursuivi au-delà de l'intersection des trames, nous pouvons compléter la deuxième trame avec des informations de la première. Ainsi, une carte collée ensemble comme une mosaïque de deux ou plusieurs cadres sera obtenue.


Après avoir trouvé les transformations projectives entre les cadres adjacents, il y a un collage initial qui définit l'emplacement unique des cadres dans un seul système de coordonnées (voir Fig. 4).



Figure 4 - L'emplacement sans ambiguïté du cadre sur la carte


Après avoir construit le collage primaire des images, un graphe des transformations projectives est construit G :


G=(V,E),


V - beaucoup de quatre points, qui sont les sommets d'images corrigées projectivement;  vertV vert=n , E - beaucoup de transformations projectives entre les images;  vertE vert=m .


Une arête entre les sommets n'est construite que si les cadres se coupent au moins à T% sur le collage primaire (IoU - Intersection over Union) (voir. Fig. 5, 6):


 fracsijsi+sjsij cdot100%>T%.



Figure 5 - Zone d'intersection de trames


Seuil T il est sélectionné en fonction de la méthode utilisée pour rechercher la transformation projective en équilibrant entre la conditionnalité de la tâche de recherche de transformation projective entre deux images et le nombre attendu d'arêtes et de cycles dans le graphique.



Figure 6 - Un exemple de construction graphique


En conséquence, le graphique des transformations projectives G ressemble à ceci (voir Fig.7):



Figure 7 - Le graphique final des transformations projectives


Si le graphique contient des cycles (voir figure 6), des informations redondantes y apparaissent, qui peuvent également contenir des contradictions. Pour déterminer quels types de contradictions peuvent survenir, nous considérons un certain cycle du graphique (voir Fig. 8). Que ce cycle soit composé de sommets 1,2, ..., k $ . Nous avons ensuite une série de cartographies projectives tout au long de ce cycle:


H12:1 to2,H23:2 to3,...Hk1:k to1.


Considérez la composition de ces mappages:


Hk1...H23H12=H11.



Figure 8 - Boucle graphique


Affichage H11 doit être un mappage identique. Si le mappage H11 différent de l'identique, alors on dit qu'une contradiction est obtenue. Dans ce cas, le cycle sera appelé incohérent . Ainsi, il y a un problème lié à la présence de cycles incohérents dans le graphe des cartographies projectives, car avec un collage parfait les contradictions dans le graphe des transformations projectives G doit être absent.


Nous décrivons l'algorithme d'appariement pour le graphique des transformations projectives, c'est-à-dire l'appariement de tous ses cycles. Pour minimiser l'erreur cumulée qui se produit lorsque le cycle est fermé dans le graphe des transformations projectives, le concept de la méthode SLAM (localisation et cartographie simultanées) est utilisé [9].


Considérez dans chaque cadre quatre points en position générale. Laissez les images être numérotées de 1 avant n alors quatre points seront désignés par pi1 lei len . Un tel ensemble de quatre points P définit de manière unique un système de coordonnées unique, car pour deux images, vous pouvez trouver de manière unique une carte projective qui traduit quatre points en un autre.


Pour trouver l'ensemble des quatre points qui déterminera le graphique cohérent souhaité, vous pouvez utiliser la méthode des moindres carrés. Nous minimisons la fonctionnelle, qui est égale à la somme sur tous les bords de l'ensemble E compter G , et pour chaque bord - la somme de quatre points de quantités  VertHijpispjs Vert . Pour trouver une solution qui minimise le fonctionnel, il est proposé d'utiliser la méthode du gradient conjugué.


 sum(i,j) inE sum4s=1 VertHijpispjs Vert to minP.


Après une transformation projective pour chaque image qui définit de manière unique la position de l'image sur la carte, vous pouvez obtenir une image panoramique.


Résultats expérimentaux


À ce jour, il n'existe pas de méthode universelle pour évaluer la qualité des images collées. En règle générale, la qualité du collage est évaluée organoleptiquement par des experts, mais pour la recherche scientifique, il est préférable d'avoir une évaluation qualitative quantitative calculée automatiquement.


Afin d'évaluer la qualité du collage sans la participation d'un expert humain, il est nécessaire d'avoir un collage standard avec lequel le résultat sera comparé. L'approche dans laquelle le collage a été obtenu à partir d'une vidéo réelle, et la photographie de l'objet entier est considérée comme le collage standard, nécessite de bonnes conditions de laboratoire à l'aide d'un manipulateur capable de fixer physiquement (à l'aide de capteurs) la position de la caméra dans l'espace. Cependant, cette méthode d'évaluation de la qualité est coûteuse.


Dans [10], pour quantifier la qualité du collage de panorama, à l'aide d'une image haute résolution, ils proposent de créer une vidéo artificielle dont les trames sont des zones déformées projectivement de l'image originale (voir Fig. 9). Déformation projective de toutes les images, à l'exception de la première, puisqu'un seul système de coordonnées est spécifié par rapport à la première image. De plus, ces images de vidéo artificielle sont collées dans un panorama, qui est ensuite comparé à l'image de référence d'origine. Avec cette approche, il est possible d'éviter les problèmes de différence de luminosité des collages obtenus et de référence, ainsi que la distorsion de la scène.



Figure 9 - Image originale et images d'une vidéo artificielle


Pour comparer la qualité du collage avant et après s'être mis d'accord sur un graphique, un échantillon test de 50 images a été préparé, 50 vidéos artificielles ont été créées à partir des images originales, selon lesquelles le collage a été effectué (voir Fig.10). Tous les panoramas obtenus ont été réduits à la taille des images source, et pour chaque panorama la mesure d'erreur a été calculée:


RMSE= sqrt frac sumhi=1 sumwj=1((IRij hatIRij)2+(IGij hatIGij)2+(IBij hatIBij)2)h cdotw cdot3,


h - hauteur de l'image w - largeur d'image IRij - intensité des pixels (i,j) le panorama résultant sur le canal rouge ( G - canal vert B - canal bleu)  hatIRij - intensité des pixels (i,j) image source sur le canal rouge ( G - canal vert B - canal bleu).



Figure 10 - Panorama avant l'accord du graphique (RMSE = 35,3) et après (RMSE = 14,2)


Dans la représentation graphique, le RMSE sur l'ensemble de test se présente comme suit (voir Fig.11):



Figure 11 - RMSE sur l'échantillon de test. Les trames sont triées par ordre croissant de RMSE jusqu'à la correspondance du graphique.


Conformément à chaque valeur racine de l'erreur quadratique moyenne avant correspondance, les valeurs racines de l'erreur quadratique moyenne après correspondance avec le graphique sont présentées. La valeur RMSE médiane sur l'échantillon de test avant que le graphique ne soit cohérent est de 35,5 , après que le graphique est apparié - 13,9 .


Conclusion


Sur la base des résultats de la comparaison de la qualité du collage, nous pouvons conclure que l'appariement du graphique réduit considérablement l'erreur accumulée et améliore la qualité des panoramas de collage. Cependant, il faut garder à l'esprit que l'appariement de graphes ne peut aider que s'il y a des cycles dans le graphe de transformations projectives. En l'absence de cycles dans le graphe des transformations projectives, le module d'adaptation de graphe n'altère pas la qualité du collage panoramique.


Il convient de noter que cette méthode de correspondance de graphes fonctionne avec un ensemble de transformations projectives, et la façon dont ces transformations projectives ont été trouvées ne joue aucun rôle pour cette méthode.


À l'avenir, il est prévu d'optimiser la complexité de l'algorithme, car il ne s'applique qu'aux cas d'utilisateurs «hors ligne».


Littérature


[1] Gubin A.Yu., Kovin R.V. Une approche simple de la tâche de coller des images qui se chevauchent dans un panorama // X Conférence internationale scientifique et pratique des étudiants, étudiants diplômés et jeunes scientifiques "Jeunesse et technologies modernes de l'information", p. 79-81, 2012.
[2] Drummond T., Rosten E. Apprentissage automatique pour la détection des virages à grande vitesse // 9e Conférence européenne sur la vision par ordinateur (ECCV), p. 430-443, 2006.
[3] Caractéristiques distinctives de l'image Lowe DG à partir de points clés invariants à l'échelle // International Journal of Computer Vision, p. 91-110, 2004.
[4] Bay H., Ess A., Yuitelaars T., Van Gool L. SURF: Accélération des fonctionnalités robustes // Vision par ordinateur et compréhension de l'image, v. 110, p. 346-359, 2008.
[5] Martin A. Fischler, Robert C. Bolles. Consensus d'échantillons aléatoires: un paradigme pour l'ajustement de modèles avec des applications à l'analyse d'images et à la cartographie automatisée // Comm. de l'ACM, v. 24, p. 381-395, 1981.
[6] Arlazarov V.L., Bulatov K.B., Chernov T.S. La méthode de recherche d'images floues dans de grands volumes de données vidéo // High Availability Systems, Vol.12, No. 1, p. 53-58, 2016.
[7] Skoryukina N. et al. Snapscreen: recherche de trame de flux TV avec requête projectivement déformée et bruyante // 9e Conférence internationale sur la vision industrielle (ICMV) - Proc. SPIE V.10341, p. 103410Y, 2017.
[8] Bouguet JY Implémentation pyramidale du tracker affine lucas kanade: destription de l'algorithme // Intel corporation, V. 5, p. 1-10, 2001.
[9] Newman P., Ho K. SLAM fermeture de boucle avec des caractéristiques visuellement saillantes // IEEE Proc. de la Conférence internationale sur la robotique et l'automatisation, p. 635-642, 2005.
[10] Paalanen P., Kamarainen JK, Kalviainen H. Évaluation de la mosaïque quantitative basée sur l'image avec vidéo artificielle // Conférence scandinave sur l'analyse d'image, Springer (Berlin, Heidelberg), p. 470-479, 2009.

Source: https://habr.com/ru/post/fr429990/


All Articles