🦔 ✒️ 👉🏿 Redimensionner rapidement les jeeps vidéo 👩🏽‍🏭 💍 💅🏾

Dans les applications pour travailler avec des images, la tâche de redimensionner les jeeps (images compressées à l'aide de l'algorithme JPEG) est assez courante. Dans ce cas, vous ne pouvez pas redimensionner immédiatement et vous devez d'abord décoder les données d'origine. Il n'y a rien de compliqué et de nouveau à cela, mais si vous devez le faire plusieurs millions de fois par jour, l'optimisation des performances d'une telle solution, qui devrait être très rapide, est particulièrement importante.

Ce problème est souvent rencontré lors de l'organisation de l'hébergement à distance pour un référentiel d'images, car la plupart des appareils photo et des téléphones prennent des photos au format JPEG. Chaque jour, les archives photo des principaux services Web (réseaux sociaux, forums, hébergement de photos et bien d'autres) sont reconstituées avec un nombre important de ces images, de sorte que la question de savoir comment stocker ces images est extrêmement importante. Pour réduire la taille du trafic sortant et améliorer le temps de réponse à la demande d'un utilisateur, de nombreux services Web stockent des dizaines de fichiers pour une seule image dans différentes résolutions. La vitesse de réponse est bonne, mais ces copies prennent beaucoup de place. Il s'agit d'un problème majeur, bien qu'il existe d'autres inconvénients à cette approche.

L'idée de résoudre ce problème n'est pas de stocker sur le serveur beaucoup d'options pour l'image originale dans différentes résolutions, mais de créer dynamiquement l'image souhaitée avec les dimensions données à partir de l'original préparé précédemment, et le plus rapidement possible. Ainsi, en temps réel, vous pouvez créer une image de la résolution souhaitée et l'envoyer immédiatement à l'utilisateur. Il est très important que la résolution de cette image puisse être effectuée immédiatement afin que l'appareil de l'utilisateur ne redimensionne pas l'écran, car cela ne sera tout simplement pas nécessaire.

L'utilisation de formats autres que JPEG comme base pour l'organisation d'un tel référentiel d'images ne semble pas justifiée. Bien sûr, il existe des formats standard largement utilisés qui offrent une meilleure compression avec la même qualité (JPEG2000, WebP), mais la vitesse d'encodage et de décodage de ces images est très faible par rapport au JPEG, il est donc logique de choisir JPEG comme format de base pour stocker les photos originales, qui, si nécessaire, sera mis à l'échelle en temps réel après réception d'une demande de l'utilisateur.

Bien sûr, en plus des jeeps, chaque site a le plus souvent des images PNG et GIF, mais généralement leur nombre relatif est petit et les photos dans ces formats sont extrêmement rares. Par conséquent, ces formats n'auront pas d'impact significatif sur la tâche en question dans la plupart des cas.

Description de l'algorithme de redimensionnement à la volée

Ainsi, les données d'entrée sont des fichiers JPEG et pour obtenir un décodage rapide (cela est vrai à la fois pour le CPU et le GPU), les images compressées doivent avoir des marqueurs de redémarrage intégrés. Ces marqueurs sont décrits dans la norme JPEG et une partie des codecs peut fonctionner avec eux, les autres savent comment ne pas les remarquer. Si les jeeps n'ont pas de tels marqueurs, ils peuvent être ajoutés à l'avance à l'aide de l'utilitaire jpegtran. Lorsque des marqueurs sont ajoutés, l'image ne change pas, mais la taille du fichier devient légèrement plus grande. En conséquence, nous obtenons le schéma de travail suivant:

Obtenez des données d'image de la mémoire du processeur
S'il y a un profil de couleur, obtenez-le dans la section EXIF et enregistrez
Copiez l'image sur la carte vidéo
Décoder JPEG
Nous faisons un redimensionnement selon l'algorithme de Lanczos (diminution)
Netteté
Nous encodons l'image en utilisant JPEG
Copier l'image sur l'hôte
Ajoutez le profil de couleur d'origine au fichier résultant.

Vous pouvez prendre une décision plus précise lorsque, avant le redimensionnement, le gamma inverse est superposé à chaque composant du pixel de sorte que le redimensionnement soit dans un espace linéaire, puis appliquez à nouveau le gamma, mais après le sharpe. La différence réelle pour l'utilisateur est faible, mais elle existe, et le coût de calcul d'une telle modification est minime. Il suffit d'insérer la superposition du gamma inverse et direct dans le schéma de traitement général.

Il existe également une solution possible lorsque le décodage des jeeps est effectué sur un processeur multicœur à l'aide de la bibliothèque libjpeg-turbo. Dans ce cas, chaque image est décodée dans un flux CPU séparé et toutes les autres actions sont effectuées sur la carte vidéo. Avec un grand nombre de cœurs de processeur, cela peut se produire encore plus rapidement, mais il y aura une sérieuse perte de latence. Si la latence lors du décodage d'une jeep sur un seul cœur de processeur est acceptable, cette option peut être très rapide, en particulier dans le cas où les jeeps d'origine ont une petite résolution. Au fur et à mesure que la résolution de l'image d'origine augmente, le temps de décodage de la jeep dans un flux de processeur augmente, de sorte que cette option ne peut convenir qu'aux petites résolutions.

Exigences de base pour la tâche de redimensionnement Web

Il est conseillé de ne pas stocker des dizaines de copies de chaque image dans différentes résolutions sur le serveur, mais de créer rapidement l'image souhaitée avec la bonne résolution dès la réception de la demande. Ceci est important pour réduire la taille du stockage, sinon vous devrez stocker de nombreuses copies différentes de chaque image.
Le problème doit être résolu le plus rapidement possible. Il s'agit d'une question sur la qualité du service fourni en termes de réduction du temps de réponse à une demande de l'utilisateur.
La qualité de l'image envoyée doit être élevée.
La taille du fichier pour l'image envoyée doit être aussi petite que possible et sa résolution doit correspondre exactement à la taille de la fenêtre dans laquelle elle apparaît. Les points suivants sont importants ici:

a) Si la taille de l'image ne correspond pas à la taille de la fenêtre, l'appareil utilisateur (téléphone, tablette, ordinateur portable) effectuera un redimensionnement matériel après décodage avant d'afficher l'image à l'écran. Dans OpenGL, ce redimensionnement matériel se fait uniquement selon l'algorithme bilinéaire, ce qui provoque souvent l'apparition de moiré (taches) et d'autres artefacts dans les images contenant de petits détails.

b) Le redimensionnement de l'écran consomme en outre l'énergie de l'appareil.

c) Si vous utilisez une série d'images pré-mises à l'échelle pour résoudre le problème, il n'est pas toujours possible d'obtenir exactement la bonne taille, ce qui signifie que vous devrez envoyer une image d'une résolution plus élevée. L'augmentation de la taille de l'image entraîne davantage de trafic, ce que j'aimerais également éviter.

Description du programme général de travail

Nous recevons des images des utilisateurs dans tous les formats et dans toutes les résolutions. Les originaux sont stockés dans une base de données distincte (si nécessaire).
Hors ligne, à l'aide d'ImageMagick ou d'un logiciel similaire, enregistrez le profil de couleurs, convertissez les images originales originales au format BMP ou PPM standard, puis redimensionnez-les en résolution 1K ou 2K et compressez en JPEG, puis ajoutez les marqueurs de redémarrage avec l'intervalle fixe spécifié à l'aide de l'utilitaire jpegtran.
Nous composons une base de données de ces images 1K ou 2K.
Dès réception d'une demande de l'utilisateur, nous obtenons des informations sur l'image et la taille de la fenêtre où cette image doit être affichée.
Nous trouvons l'image dans la base de données et l'envoyons au resizer.
Le redimensionneur reçoit le fichier image, décode, redimensionne, tranchant, encode et insère le profil de couleur d'origine dans la jeep résultante. Après cela, il donne l'image à un programme externe.
Sur chaque carte vidéo, vous pouvez exécuter plusieurs threads et installer plusieurs cartes vidéo sur votre ordinateur, ce qui permet une mise à l'échelle des performances.
Tout cela peut être fait sur la base de cartes vidéo NVIDIA Tesla (par exemple, P40 ou V100), car les cartes vidéo NVIDIA GeForce ne sont pas conçues pour un fonctionnement continu à long terme, et NVIDIA Quadro a de nombreuses sorties vidéo qui ne sont pas nécessaires dans ce cas. Pour résoudre ce problème, les exigences de taille de mémoire GPU sont minimales.
De plus, à partir de la base de données avec des images préparées, vous pouvez allouer dynamiquement un cache pour les fichiers fréquemment utilisés. Là, il est logique de stocker les images fréquemment utilisées selon les statistiques de la période précédente.

Paramètres du programme

Largeur et hauteur de la nouvelle image. Ils peuvent être quelconques et il vaut mieux les définir explicitement.
Mode d'amincissement JPEG (sous-échantillonnage). Il existe trois options: 4: 2: 0, 4: 2: 2 et 4: 4: 4, mais ils utilisent généralement 4: 4: 4 ou 4: 2: 0. La qualité maximale est de 4: 4: 4, la taille d'image minimale est de 4: 2: 0. L'amincissement est effectué pour les composants de différence de couleur, que la vision d'une personne ne perçoit pas aussi bien que la luminance. Chaque mode de décimation a son propre intervalle optimal pour que les marqueurs de redémarrage atteignent la vitesse de codage ou de décodage maximale.
Qualité de compression JPEG et mode de décimation lors de la création d'une base de données d'images.
La netteté se fait dans une fenêtre 3x3, le sigma (rayon) peut être contrôlé.
Qualité de compression JPEG et mode de décimation lors du codage de l'image finale. Typiquement, une qualité d'au moins 90% signifie que cette compression est "visuellement sans perte", c'est-à-dire les utilisateurs non formés ne devraient pas voir les artefacts de l'algorithme JPEG dans des conditions de visualisation standard. On pense que pour un utilisateur formé, 93 à 95% sont nécessaires. Plus cette valeur est élevée, plus la taille de la trame envoyée à l'utilisateur est grande et plus le temps de décodage et de codage est long.

Limitations importantes

Redémarrez les marqueurs. Nous pouvons décoder rapidement des images JPEG sur une carte vidéo uniquement s'il y a des marqueurs de redémarrage à l'intérieur. Dans la norme JPEG officielle, ces marqueurs sont décrits, il s'agit d'un paramètre standard. S'il n'y a pas de marqueurs de redémarrage, il est impossible de paralléliser le décodage de l'image sur la carte vidéo, ce qui entraînera une vitesse de décodage très faible. Par conséquent, nous avons besoin d'une base de données d'images préparées dans lesquelles se trouvent ces marqueurs.

Algorithme fixe pour le codec d'image. Le décodage et l'encodage d'images à l'aide de l'algorithme JPEG est de loin l'option la plus rapide.

La résolution des images dans la base de données préparée peut être quelconque, mais comme options, nous considérerons 1K et 2K (vous pouvez prendre 4K). Vous pouvez également faire non seulement une diminution, mais également une augmentation des images lors du redimensionnement.

Performance de redimensionnement rapide

Nous avons testé l'application pour un redimensionnement rapide à partir du SDK Fastvideo sur la carte vidéo NVIDIA Tesla V100 (OS Windows Server 2016, 64 bits, pilote 24.21.13.9826) sur des images 24 bits 1k_wild.ppm et 2k_wild.ppm avec une résolution de 1K et 2K (1280x720 et 1920x1080). Des tests ont été effectués pour un nombre différent de threads s'exécutant sur la même carte vidéo. Cela ne nécessite pas plus de 110 Mo de mémoire sur la carte vidéo par flux. 4 flux ne nécessitent pas plus de 440 Mo.

Tout d'abord, nous compressons l'image originale en JPEG avec une qualité de 90%, avec un amincissement 4: 2: 0 ou 4: 4: 4. Ensuite, nous décodons et redimensionnons 2 fois en largeur et en hauteur, faisons une netteté, puis encodons à nouveau avec une qualité de 90% à 4: 2: 0 ou 4: 4: 4. Les données source sont en RAM, l'image finale y est placée.

Le temps de fonctionnement est compté à partir du début du chargement de l'image d'origine de la RAM jusqu'à l'enregistrement de l'image traitée dans la RAM. Le temps d'initialisation du programme et l'allocation de mémoire sur la carte vidéo ne sont pas inclus dans les mesures.

Exemple de ligne de commande pour une image 1K 24 bits
PhotoHostingSample.exe -i 1k_wild.90.444.jpg -o 1k_wild.640.jpg -outputWidth 640 -q 90 -s 444 -sharp_after 0,95 -repeat 200

Benchmark pour le traitement d'une image 1K dans un thread

Décodage (y compris le transfert de données vers la carte vidéo): 0,70 ms
Redimensionner deux fois (en largeur et en hauteur): 0,27 ms
Sharp: 0,02 ms
Encodage JPEG (y compris le transfert de données depuis la carte vidéo): 0,20 ms
Temps total par trame: 1,2 ms

Performance pour 1K

	La qualité	Amincissement	Redimensionner	Streams	Fréquence d'images (Hz)
1	90%	4: 4: 4/4: 2: 0	2 fois	1	868/682
2	90%	4: 4: 4/4: 2: 0	2 fois	2	1039/790
3	90%	4: 4: 4/4: 2: 0	2 fois	3	993/831
4	90%	4: 4: 4/4: 2: 0	2 fois	4	1003/740

Performance pour 2K

	La qualité	Amincissement	Redimensionner	Streams	Fréquence d'images (Hz)
1	90%	4: 4: 4/4: 2: 0	2 fois	1	732/643
2	90%	4: 4: 4/4: 2: 0	2 fois	2	913/762
3	90%	4: 4: 4/4: 2: 0	2 fois	3	891/742
4	90%	4: 4: 4/4: 2: 0	2 fois	4	923/763

L'amincissement 4: 2: 0 pour l'image source réduit la vitesse, mais la taille des fichiers source et de destination diminue. Lors du passage à 4: 2: 0, le degré de parallélisme diminue de 4 fois, car maintenant le bloc 16x16 est considéré comme une seule unité, donc dans ce mode, la vitesse est inférieure à celle de 4: 4: 4.

Les performances sont principalement déterminées par l'étape de décodage JPEG, car à ce stade, l'image a la résolution maximale et la complexité de calcul de cette étape de traitement est plus élevée que toutes les autres.

Résumé

Les résultats des tests ont montré que pour la carte vidéo NVIDIA Tesla V100, la vitesse de traitement des images 1K et 2K est maximale lorsque 2 à 4 flux sont lancés en même temps, et varie de 800 à 1 000 images par seconde par carte vidéo. Le traitement des images 1K est plus rapide que 2K, et travailler avec des images 4: 2: 0 est toujours plus lent qu'avec 4: 4: 4. Pour obtenir le résultat final sur les performances, vous devez déterminer avec précision tous les paramètres du programme et l'optimiser pour un modèle spécifique de la carte vidéo.

Une latence de l'ordre d'une milliseconde est un bon résultat. À notre connaissance, une telle latence ne peut pas être obtenue pour une tâche de redimensionnement similaire sur le processeur (même s'il n'est pas nécessaire de coder et de décoder les jeeps), c'est donc un autre argument important en faveur de l'utilisation de cartes vidéo dans des solutions de traitement d'image hautes performances.

Jusqu'à 16 cartes graphiques NVIDIA Tesla V100 peuvent être nécessaires pour traiter un milliard de jeeps par jour avec des résolutions 1K ou 2K. Certains de nos clients utilisent déjà cette solution, tandis que d'autres la testent dans leurs tâches.

Le redimensionnement des jeeps sur une carte vidéo peut être très utile non seulement pour les services Web. Il existe un grand nombre d'applications de traitement d'image hautes performances où de telles fonctionnalités peuvent être demandées. Par exemple, un redimensionnement rapide est souvent nécessaire pour presque tous les schémas de traitement des images reçues des caméras avant d'afficher une image sur un moniteur. Cette solution peut fonctionner pour Windows / Linux sur n'importe quelle carte graphique NVIDIA: Tegra K1 / X1 / X2 / Xavier, GeForce GT / GTX / RTX, Quadro, Tesla.

Avantages d'une solution de redimensionnement rapide sur une carte graphique

Réduction significative de la taille de stockage des images sources
Réduire les coûts primaires pour les coûts d'infrastructure (matériel et logiciel)
Amélioration de la qualité de service grâce au temps de réponse court
Réduction du trafic sortant
Consommation d'énergie réduite sur les appareils des utilisateurs
Fiabilité et rapidité de la solution présentée, qui a déjà été testée sur d'énormes ensembles de données
Temps de développement réduit pour commercialiser de telles applications pour Linux et Windows
Évolutivité d'une solution qui peut fonctionner à la fois sur une seule carte vidéo et dans le cadre d'un cluster
Retour sur investissement rapide pour de tels projets

Qui peut être intéressé

La bibliothèque pour le redimensionnement rapide des jeeps peut être utilisée dans les services Web très chargés, les grandes boutiques en ligne, les réseaux sociaux, les systèmes de gestion de photos en ligne, le commerce électronique, dans presque tous les logiciels de gestion des grandes entreprises.

Les développeurs de logiciels peuvent utiliser cette bibliothèque, qui fournit une latence de l'ordre de plusieurs millisecondes pour redimensionner les jeeps avec une résolution de 1K, 2K et 4K sur une carte vidéo.

Apparemment, cette approche peut s'avérer plus rapide que la solution NVIDIA DALI pour le décodage rapide des jeeps, le redimensionnement et la préparation d'images au stade de la formation des réseaux de neurones pour le Deep Learning.

Que peut-on faire d'autre

En plus du redimensionnement et de la netteté, vous pouvez ajouter un recadrage à l'algorithme existant, faire pivoter 90/180/270, appliquer un filigrane, contrôler la luminosité et le contraste.
Optimisation de la solution pour les cartes vidéo NVIDIA Tesla P40 et V100.
Décodeur JPEG de performance d'optimisation supplémentaire.
Mode rafale pour décoder les jeeps sur une carte vidéo.

Redimensionner rapidement les jeeps vidéo