La méthode d'interpolation bon marché ne fonctionne pas pire que les réseaux de neurones


Comparaison de RAISR avec d'autres techniques avancées de résolution d'image. Pour plus d'exemples, voir l' article scientifique qui l' accompagne .

L'augmentation de la résolution des images, c'est-à-dire la création de photos haute résolution à partir d'une photo basse résolution, est un problème scientifique très bien étudié. Il est important pour de nombreuses applications: zoomer des photos et du texte, projeter de la vidéo sur un grand écran, etc. Même dans les films, les détectives parviennent parfois à regarder le nombre d'une voiture sur un cadre à partir d'une caméra de surveillance, «amenant» la photo à la limite. Et pas seulement le numéro de la voiture. Tout ici est limité par l'imagination et la conscience du réalisateur et scénariste. Ils peuvent amener la photographie encore plus loin - et voir le reflet du criminel dans le rétroviseur ou même dans la tête en métal poli du boulon qui fixe la plaque d'immatriculation. Les téléspectateurs aiment ça.

Dans la pratique, les capacités de ces programmes sont beaucoup plus modestes. Par exemple, le 29 octobre 2016, GuralHub a lancé le programme Neural Enhance , qui augmente la résolution des photos à l'aide d'un réseau de neurones. Le programme est immédiatement entré dans la liste des référentiels les plus populaires de la semaine.


Un exemple du travail de Neural Enhance


Un autre exemple du travail du programme Neural Enhance, qui est accessible au public sur GitHub.Les

employés de Google Research travaillent également dans ce sens - le blog officiel de l'entreprise a parlé hier d'une méthode d'augmentation de la résolution, qu'ils ont appelée RAISR (Rapid and Accurate Image Super-Resolution )

Historiquement, de simples interpolateurs ont été utilisés pour interpoler des images, qui trouvent des valeurs intermédiaires de nouveaux pixels à partir d'un ensemble connu de valeurs de pixels de l'image d'origine. Différentes méthodes y ont été utilisées pour calculer les valeurs moyennes: interpolation par la méthode du plus proche voisin, interpolation bilennienne, méthode cubique, méthode bicubique, etc. Ce sont toutes des formules mathématiques assez simples. Ils étaient largement utilisés dans diverses applications en raison de leur simplicité et de leur simplicité. Ils ne s'adaptent pas du tout au contenu de l'image, ce qui conduit souvent à l'apparition d'artefacts désagréables - fragments trop flous, distorsions caractéristiques du crénelage.

Au cours des dernières décennies, des programmes et des méthodes d'interpolation beaucoup plus avancés ont été développés qui prennent explicitement en compte les caractéristiques de l'image d'origine. Ils sont capables d'utiliser et de mettre à l'échelle des fragments de l'image d'origine, de remplir des espaces clairsemés, d' appliquer des mélanges gaussiens . De nouvelles méthodes ont considérablement amélioré la qualité de l'interpolation (restauration numérique des originaux) en augmentant la complexité des calculs.

Les employés de Google ont utilisé l'apprentissage automatique sur des échantillons externes. Cette méthode a gagné en popularité ces dernières années et est décrite dans de nombreux articles scientifiques. Le principe de base est de «prédire» le contenu de l'image en haute résolution à partir de sa copie réduite. Pour une telle formation, la méthode standard d'enseignement par échantillons est utilisée.

Au cours de la formation RAISR, une base de paires d'images générées simultanément en haute et basse qualité a été utilisée. Nous avons utilisé des paires de petits fragments de l'image pour une interpolation 2x standard, c'est-à-dire des fragments de 3 × 3 et 6 × 6 pixels. L'algorithme d'apprentissage et de fonctionnement RAISR est illustré dans le diagramme.





L'illustration suivante montre quatre filtres globaux pouvant être utilisés pendant la phase de formation. En conséquence, les programmes ont été formés pour les appliquer plus efficacement, en fonction du contenu de ce fragment particulier de plusieurs pixels.





Chaque type de filtre fonctionne pour son propre type de pixels: de P1 à P4, en fonction des types de pixels utilisés par l'algorithme d'interpolation bilinéaire.



À certains égards, la méthode d'apprentissage automatique RAISR est similaire à la formation des réseaux de neurones. Mais en fait, c'est une adaptation de divers filtres d'interpolation standard pour chaque petit fragment individuel de l'image originale. Autrement dit, c'est la même vieille "interpolation linéaire", mais comme sur des stéroïdes - sans ses artefacts inhérents et avec une adaptation au contenu de l'image.

Des tests comparatifs ont montré que dans de nombreux cas, un tel algorithme fonctionne encore mieux que les méthodes modernes d'interpolation avancée basées sur les réseaux de neurones (SRCNN dans les illustrations).



De plus, une telle méthode basée sur le hachage est beaucoup moins gourmande en ressources et plus acceptable en pratique que la formation et l'utilisation d'un réseau neuronal. La différence de performances est si importante (10 à 100 fois) que ce programme peut être exécuté en toute sécurité même sur des appareils mobiles ordinaires, et il fonctionnera en temps réel. Rien n'empêche la mise en œuvre de ce filtre dans les applications modernes d'interpolation d'images sur smartphones, y compris l'application appareil photo sur Android, qui effectue l'interpolation lors du zoom numérique. Il est possible que Google fasse exactement cela en premier lieu. C'est du moins un exemple de l'utilisation la plus répandue de l'interpolation sur des millions d'appareils.


Gauche: basse résolution d'origine. Centre: le résultat d'un interpolateur bicubique standard. À droite: le résultat de RAISR

Photos sera immédiatement meilleur pour tous les utilisateurs d'Android.

Soit dit en passant, un autre avantage intéressant et important de RAISR est que pendant le processus de formation, ce programme peut être formé pour éliminer les artefacts de compression typiques, y compris JPEG. Par exemple, sur un appareil mobile, les photos peuvent être stockées sous forme compressée avec des artefacts, et affichées à l'écran sans artefacts. Ou l'algorithme peut être utilisé sur l'hébergement de photos Google pour améliorer automatiquement les photos des utilisateurs, avec l'élimination des artefacts JPEG qui sont présents presque partout.


Gauche: original à faible résolution avec des artefacts d'alias spécifiques à JPEG. Droite - RAISR publie un

article scientifiqueLe personnel de Google Research sera publié prochainement dans la revue IEEE Transactions on Computational Imaging. (Remarque: l'auteur principal du document était un stagiaire de Google Research au moment de la rédaction de ce document, mais travaille maintenant à l'Institut de recherche israélien Technion).

Source: https://habr.com/ru/post/fr399119/


All Articles