Reconstruction d'image: 1 km de fibre, réseau de neurones artificiels et apprentissage profond



De nos jours, les fibres optiques sont devenues partie intégrante des sphères les plus diverses de la vie humaine: de l'Internet domestique à l'endoscopie. L'utilisation de fibres optiques est due à un certain nombre d'avantages: vitesse de transmission, résistance physique, bande passante, sécurité de l'information, etc.

Afin d'augmenter le débit, une fibre optique multimode (MMF) a été créée lorsque les informations sont transmises sur plusieurs canaux parallèles. Malgré tous ses avantages, le MMF présente également un certain nombre d'inconvénients, dont un que les chercheurs ont décidé d'éliminer afin d'améliorer le processus de transfert d'image. La conclusion est la suivante: lorsqu'un échantillon est projeté sur le côté proximal du MMF, l'image que nous obtenons du côté distal est tachetée, car ses données entrantes sont réparties sur de nombreux modes avec différents degrés de propagation sur la longueur de la fibre. Les scientifiques proposent d'utiliser une combinaison de fibres multimodes et d'apprentissage en profondeur pour les réseaux de neurones artificiels afin d'obtenir des images précises, y compris lors de l'utilisation de l'endoscopie. Examinons le rapport des chercheurs et essayons de comprendre comment il fonctionne et ce qui donne les résultats. Allons-y.

Base d'étude

Les techniques d'utilisation des réseaux de neurones artificiels pour décrypter les images transmises via MMF sont développées depuis longtemps. Ainsi, dans les premiers travaux, un réseau à deux couches a été décrit, capable de reconnaître environ 10 images qui ont traversé 10 mètres d'une fibre cousue.

Dans cette étude, le système est beaucoup plus complexe, mais, selon les scientifiques, beaucoup plus efficace. La première étape consistait à collecter un grand nombre d'échantillons de speckle obtenus en passant une image à travers un MMF. Ils sont devenus la base de connaissances pour la formation de DNN (réseau neuronal artificiel basé sur le deep learning * ).


Exemple d'image mouchetée
Deep learning * - une combinaison de méthodes d'apprentissage automatique basées sur la présentation, plutôt qu'un algorithme spécialisé pour une tâche spécifique.
L'architecture DNN est très complexe et compte environ 14 couches cachées * .
Couche cachée * - un réseau neuronal artificiel se compose d'unités de calcul (neurones), qui sont divisées en 3 catégories: entrée, caché et sortie. Les entrées reçoivent des informations, celles masquées effectuent divers calculs et les week-ends transmettent davantage d'informations.
Pour mener des expériences sur DNN, une base de données de 20 000 numéros écrits manuellement a été créée. Ensuite, la base est divisée au hasard en groupes:

  • 16 000 chiffres - formation;
  • 2 000 chiffres - vérification;
  • 2000 chiffres - test.

Se préparer à l'expérience

L'image ci-dessous montre un schéma d'un système optique qui a été utilisé pour collecter des données.

Image n ° 1: schéma d'installation:

Source laser - une source de rayonnement laser (faisceau);
HWP - plaque demi-onde;
M1 est un miroir;
SLM - modulateur spatial de lumière;
P est un polariseur linéaire;
L est la lentille;
BS - diviseur de faisceau;
OBJ - objectif de microscope;
OF - fibre optique;
CCD - Caméra CCD.

Et maintenant en ordre. Un faisceau laser d'une longueur d'onde de 560 nm dirige la lumière à travers une fibre optique à gradient * avec un diamètre de coeur de 62,5 μm et une ouverture numérique * 0,275.
Le gradient MMF * est une fibre optique avec un profil de réfraction non uniforme, lorsque l'indice de réfraction diminue progressivement du bord à l'axe de la fibre.

Comparaison des types de fibres: multimode à pas, multimode à gradient et monomode (de haut en bas).
L'ouverture numérique * est le sinus de l'angle maximum entre le faisceau et l'axe. Dans ce cas, il y a une réflexion interne totale dans la distribution du rayonnement sur la fibre.
À une longueur d'onde spécifique, la fibre est capable de prendre en charge environ 4 500 modes spatiaux. Les échantillons d'entrée (images) sont affichés sur un modulateur spatial de lumière, après quoi ils sont redirigés à l'aide du système 4f vers la face proximale (proche du centre) du MMF. À l'extrémité de la fibre, un autre système 4f visualise le speckle émanant de la face distale (loin du centre) de la fibre vers la caméra CCD.
CCD * est un dispositif à couplage de charge qui met en œuvre la technologie du transfert de charge contrôlé dans le volume d'un semi-conducteur.
Pour vérifier les modèles de phase et d'amplitude en tant que signaux d'entrée pour le gradient MMF, une plaque demi-onde a été installée avant SLM et un polariseur linéaire après SLM.

Comme mentionné précédemment, les nombres écrits manuellement ont servi d'échantillons. Ils ont été extraits de la base de données du MNIST .

Avant d'être traitées par DNN, chacune des images enregistrées sur CCD1 ou CCD2 a été rognée à 1024 × 1024 pixels. De plus, les images de speckle obtenues ont été réduites à 32 × 32 pixels et ont été utilisées comme entrée pour DNN.


Image n ° 2

Dans les images 2a et 2b, nous voyons des modèles de nombres (0 et 4). 2c et 2d sont les mêmes nombres, mais après la modulation d'amplitude, lorsque l'amplitude du signal transmis a été sujette à des changements. 2e et 2f sont des chiffres d'échantillonnage après modulation de phase, lorsque la phase de l'oscillation de la porteuse a changé en proportion directe avec le signal. On voit également des mouchetures elles-mêmes, qui se sont fixées sur la face distale de la fibre après avoir passé une distance de 2 cm.

Il est assez difficile de distinguer les mouchetures ( 2g et 2h ). Cependant, si nous comparons les images 2d et 2h (par exemple, considérons l'échantillon «4»), nous pouvons alors isoler la différence que DNN peut déterminer ( 2i ). Ainsi, ces caractéristiques distinctives permettront au système de distinguer «0» de «4», «2» de «9», etc.

Traitement des données

Un réseau neuronal convolutif * de type Visual Geometry Group (VGG) (3a) est devenu la base du système de détermination des taches et des images d'entrée reconstruites.
Réseau de neurones à convolution * - architecture ANN, caractérisée par le fonctionnement de la convolution, lorsque chaque fragment d'image est multiplié par la matrice de convolution par éléments, après quoi le résultat est additionné et écrit à la même position dans l'image de sortie.

Un exemple d'architecture de réseau neuronal convolutionnel.
L'introduction d'un tel système a permis de décrypter les images avec une plus grande précision. Pour la reconstruction des images, le type de réseau neuronal convolutionnel «U-net» avec 14 couches cachées a été utilisé ( 3b ).


Image n ° 3

Rappelons que la base de 20 000 numéros était divisée en trois groupes (16 000 pour la formation, 2 000 pour les tests et 2 000 pour les tests).

Le groupe de formation a été traité par lots de 50 pour le réseau de reconstruction et 500 pour le réseau de détermination. Dans le même temps, les parties ont changé pour éviter de se recycler * .
Recyclage * - le cas où le système gère bien les exemples de l'ensemble de formation, mais ne correspond pas bien aux exemples du test.
Afin de minimiser l'erreur racine quadratique moyenne, un algorithme d'optimisation avec une vitesse d'apprentissage de 1 x 10 -4 a été utilisé .

Les filets sont passés par la phase de formation ne dépassant pas 50 époques (cycles de rétropropagation). Pour chaque cas, la formation a été répétée 10 fois afin de collecter des données statistiques sur la précision du système de formation.

Tous les DNN ont été implémentés sur la base d'un seul GPU NVIDIA GeForce GTX 1080Ti utilisant la bibliothèque Python TensorFlow 1.5.

Résultats de recherche

Reconstruction

Le premier paramètre que les scientifiques ont décidé d'examiner plus en détail était la capacité du système à reconstruire les données d'entrée.



L'image ci-dessus montre les résultats de la reconstruction des nombres (0 ... 9), après passage des données à travers une fibre de 0,1 m, 10 m et 1000 m de long.

Comme nous pouvons le voir, le résultat de la procédure est très précis, ce qui confirme la capacité du système U-net à isoler les caractéristiques distinctives extrêmes de l'image future.

Le degré de précision de la reconstruction a également été vérifié. Cet indicateur diminue avec l'augmentation de la longueur des fibres de 96,9% (0,1 m) à 90,0% (1000 m).

La diminution de la précision est due au fait qu'avec une longueur de fibre de 1 km, des inhomogénéités de température se produisent en elle (dilatation du matériau due à la chaleur et / ou une variation de l'indice de réfraction), qui modifient le chemin optique du signal. Ces processus conduisent au fait que le motif de mouchetures à l'extrémité distale devient instable, ce qui rend plus difficile à reconstruire dans l'image souhaitée.

Les chercheurs notent que l'exposition externe à la fibre réduit également le degré de précision de la reconstruction d'image. Par conséquent, avec une amélioration supplémentaire du système, la fibre optique devrait être pourvue d'une isolation thermique et d'un milieu isotherme pour atteindre le niveau maximum de précision de reconstruction.

La procédure de reconstruction nivelle également parfaitement les artefacts sur l'image traitée.



Par exemple, le système isole l'image ( 2a ) du speckle distal ( 2g ), tout en supprimant simultanément les défauts projetés sur le bord proximal de la fibre ( 2c et 2e ). De plus, le système essaie d'éliminer les artefacts qui se sont produits en raison de la contamination ou des défauts de l'échantillon ou des inexactitudes structurelles de la fibre elle-même.

Classification des échantillons de cirf

Le système peut recréer l'image et la précision de ce processus est très impressionnante. Nous passons maintenant à l'analyse de la précision avec laquelle le système est capable de déterminer où est l'image (numéro), c'est-à-dire de classer les données après sa reconstruction.



Le graphique et le tableau ci-dessus montrent que la précision de la classification diminue avec l'augmentation de la longueur de la fibre impliquée dans la transmission. Une tendance similaire était avec la précision de la reconstruction. Qu'il s'agisse du modèle d'amplitude ou de la phase, la précision diminue. À 2 cm de fibre - 90% de précision. C'est un bon indicateur, mais la fibre est trop courte. Mais avec une longueur de 1 km, la précision tombe à 30%. Les chercheurs attribuent cela à des pertes de diffusion accrues, au couplage de modes et à la dérive distale du speckle. Toutes ces «interférences» sont causées par l'augmentation de la longueur des fibres.


Changements de mouchetures distales

L'enregistrement a été effectué avec une fréquence d'images de 83 ips. En tant qu'expérience sur une fibre de 1 km, une image vide a été transmise.


(a) et (b) - 2 images extraites de l'enregistrement ci-dessus, (c) - leur comparaison.

Ces images ont été enregistrées avec une différence de 2 secondes. Et comme nous le voyons dans l'image (c), la différence entre eux est très importante. De tels changements brusques du speckle peuvent être associés à des fluctuations de température de l'environnement ou à des écoulements d'air sur l'appareil (image n ° 1), qui peuvent provoquer de petites perturbations de la fibre. Mais lorsque la longueur des fibres augmente, la force de ces perturbations devient perceptible.

Il s'avère que tout le fonctionnement du système sera vain en raison de ces "interférences". Cependant, les scientifiques n'arrêtent pas de telles difficultés, mais les encouragent plutôt à réfléchir.

Il a été décidé de mener une étude sur le déplacement du speckle et comment ils affectent la précision de la classification des images. Pour cela, le réseau VGG a été formé sur la base de 10 000 échantillons (la moitié des échantillons disponibles), puis des tests ont été effectués, mais avec l'autre moitié des échantillons. Le processus a été répété, changeant 2 groupes d'échantillons par endroits. Les résultats ont montré qu'il n'y a pas de changements significatifs dans la précision de la classification, car le déplacement des taches n'est pas accidentel, ce qui signifie que l'ANN peut l'étudier, s'en souvenir et le déterminer dans le processus.

La différence entre l'amplitude et la modulation de phase était négligeable. Avec une longueur de fibre de 10 m et une modulation de phase, la classification était légèrement meilleure qu'avec une modulation d'amplitude. Cela est dû à une distribution plus uniforme de la lumière sur les modes de la fibre optique. Avec la modulation d'amplitude, le nombre de modes impliqués dans la transmission est limité en raison de l'excitation spatiale sélective des fibres.

Si l'on considère l'option d'une fibre de 1 km de long, alors la modulation d'amplitude dépasse déjà la phase. Lorsque la lumière passe à travers une longue fibre, tous les modes sont impliqués dans la transmission d'informations à la fois.


Matrices d'erreur (matrices de confusion)

Afin d'améliorer la précision de la classification, l'ANN a également été formé à l'aide d'échantillons déjà reconstruits. Des matrices d'erreur ont également été appliquées, ce qui a considérablement amélioré la précision de la classification.

Par exemple, dans le cas d'une fibre de 1 km de long, il y a confusion entre les chiffres 4 et 9, ainsi qu'entre 3, 5, 6 et 8.

Pour confirmer, il suffit de regarder les résultats de la reconstruction.


Numéros 4 et 9


Numéros 3, 5, 6 et 8



Les graphiques ci-dessus montrent les changements dans la précision de la classification des images dans le temps:

a - 10 m de fibres et de mouchetures distales;
b - 10 m de fibre et images reconstruites;
s - 1 km de fibres et de mouchetures distales;
d - 1 km de fibre et images reconstruites.

Pour une connaissance détaillée des nuances de l'étude, je recommande fortement de consulter le rapport des scientifiques. Une version PDF est également disponible sur la même page (le bouton «Get PDF»).

Épilogue

Cette étude a montré d'excellents résultats, ce qui indique son développement futur et sa mise en œuvre pratique. Les méthodes ci-dessus peuvent être appliquées aux télécommunications (décodage en multiplexage) et même en médecine (endoscopie).

Après avoir calculé les coûts en temps, les scientifiques ont constaté que la plupart d'entre eux vont à la préparation du système, ou plutôt à sa formation. Et cela suggère qu'un système déjà formé peut exécuter ses fonctions incroyablement rapidement, jusqu'à quelques millisecondes. La seule limitation sera la puissance matérielle.

Bien sûr, beaucoup plus devra être étudié dans le domaine des réseaux de neurones artificiels basés sur l'apprentissage profond. Mais leur utilité est désormais visible. L'amélioration des systèmes existants, quelle que soit leur application, est une activité aussi importante que la création de nouveaux. Après tout, il n'est pas toujours nécessaire de réinventer la roue, si vous pouvez simplement l'améliorer. L'essentiel, comme la pratique l'a montré, est de sortir des sentiers battus, d'apprendre de ses propres erreurs et de celles des autres, de se fixer des tâches parfois impossibles et de croire en soi. Si une idée peut bénéficier à l'humanité, elle doit être réalisée.

Merci de rester avec nous. Aimez-vous nos articles? Vous voulez voir des matériaux plus intéressants? Soutenez-nous en passant une commande ou en le recommandant à vos amis, une réduction de 30% pour les utilisateurs Habr sur un analogue unique de serveurs d'entrée de gamme que nous avons inventés pour vous: Toute la vérité sur VPS (KVM) E5-2650 v4 (6 cœurs) 10 Go DDR4 240 Go SSD 1 Gbps à partir de 20 $ ou comment diviser le serveur? (les options sont disponibles avec RAID1 et RAID10, jusqu'à 24 cœurs et jusqu'à 40 Go de DDR4).

3 mois gratuits lors du paiement d'un nouveau Dell R630 pour une période de six mois - 2 x Intel Deca-Core Xeon E5-2630 v4 / 128GB DDR4 / 4x1TB HDD ou 2x240GB SSD / 1Gbps 10 TB - à partir de 99,33 $ par mois , uniquement jusqu'à fin août, commandez peut être ici .

Dell R730xd 2 fois moins cher? Nous avons seulement 2 x Intel Dodeca-Core Xeon E5-2650v4 128 Go DDR4 6x480 Go SSD 1 Gbps 100 TV à partir de 249 $ aux Pays-Bas et aux États-Unis! Pour en savoir plus sur la création d'un bâtiment d'infrastructure. classe utilisant des serveurs Dell R730xd E5-2650 v4 coûtant 9 000 euros pour un sou?

Source: https://habr.com/ru/post/fr420561/


All Articles