
Heutzutage sind optische Fasern ein wesentlicher Bestandteil der verschiedensten Bereiche des menschlichen Lebens geworden: vom Heim-Internet bis zur Endoskopie. Die Verwendung von optischen Fasern beruht auf einer Reihe von Vorteilen: Übertragungsgeschwindigkeit, physikalische Stärke, Bandbreite, Informationssicherheit usw.
Um den Durchsatz zu erhöhen, wurde eine Multimode-Lichtleitfaser (MMF) erzeugt, wenn Informationen über mehrere parallele Kanäle übertragen werden. Trotz aller Vorteile weist der Geldmarktfonds auch eine Reihe von Nachteilen auf, von denen die Forscher beschlossen haben, diese zu beseitigen, um den Bildübertragungsprozess zu verbessern. Die Quintessenz lautet: Wenn eine Probe auf die proximale Seite des MMF projiziert wird, ist das Bild, das wir auf der distalen Seite erhalten, gesprenkelt, da die eingehenden Daten über viele Modi mit unterschiedlichem Ausbreitungsgrad entlang der Länge der Faser verteilt sind. Wissenschaftler schlagen vor, eine Kombination aus Multimode-Faser und Deep Learning für künstliche neuronale Netze zu verwenden, um genaue Bilder zu erhalten, auch bei Verwendung der Endoskopie. Lassen Sie uns in den Bericht der Forscher eintauchen und versuchen zu verstehen, wie es funktioniert und was die Ergebnisse liefert. Lass uns gehen.
StudienbasisTechniken zur Verwendung künstlicher neuronaler Netze zum Entschlüsseln von über MMF übertragenen Bildern wurden seit langer Zeit entwickelt. In den frühen Arbeiten wurde daher ein zweischichtiges Netzwerk beschrieben, das etwa 10 Bilder erkennen kann, die durch 10 Meter einer genähten Faser verlaufen.
In dieser Studie ist das System viel komplexer, aber laut Wissenschaftlern viel effizienter. Der erste Schritt bestand darin, eine große Anzahl von Speckle-Proben zu sammeln, die durch Passieren eines Bildes durch eine MMF erhalten wurden. Sie sind zur Wissensbasis für das Training von DNN (künstliches neuronales Netzwerk basierend auf
Deep Learning * ) geworden.
Beispiel für ein Speckle-BildDeep Learning * - eine Kombination von Methoden des maschinellen Lernens basierend auf der Präsentation anstelle eines speziellen Algorithmus für eine bestimmte Aufgabe.
Die DNN-Architektur ist sehr komplex und hat ungefähr 14
versteckte Schichten * .
Versteckte Schicht * - Ein künstliches neuronales Netzwerk besteht aus Recheneinheiten (Neuronen), die in drei Kategorien unterteilt sind: Eingabe, Versteckt und Ausgabe. Eingaben empfangen Informationen, versteckte führen verschiedene Berechnungen durch und Wochenenden übertragen Informationen weiter.
Um Experimente mit DNN durchzuführen, wurde eine Datenbank mit 20.000 manuell geschriebenen Zahlen erstellt. Als nächstes wird die Basis zufällig in Gruppen unterteilt:
- 16.000 Stellen - Ausbildung;
- 2.000 Ziffern - Überprüfung;
- 2.000 Stellen - Test.
Vorbereitung für das ExperimentDas Bild unten zeigt ein Diagramm eines optischen Systems, das zum Sammeln von Daten verwendet wurde.
Bild Nr. 1: Installationsdiagramm:
Laserquelle - eine Quelle für Laserstrahlung (Strahl);
HWP - Halbwellenplatte;
M1 ist ein Spiegel;
SLM - räumlicher Lichtmodulator;
P ist ein linearer Polarisator;
L ist die Linse;
BS - Strahlteiler;
OBJ - Mikroskopobjektiv;
OF - Lichtwellenleiter;
CCD - CCD-Kamera.Und jetzt in Ordnung. Ein Laserstrahl mit einer Wellenlänge von 560 nm lenkt Licht durch eine
optische Gradientenfaser * mit einem Kerndurchmesser von 62,5 μm und einer
numerischen Apertur * 0,275.
Gradienten-MMF * ist eine optische Faser mit einem ungleichmäßigen Brechungsprofil, wenn der Brechungsindex von der Kante zur Faserachse allmählich abnimmt.
Vergleich der Fasertypen: Schritt-Multimode, Gradienten-Multimode und Einzelmodus (von oben nach unten).
Die numerische Apertur * ist der Sinus des maximalen Winkels zwischen Strahl und Achse. In diesem Fall gibt es eine Totalreflexion in der Verteilung der Strahlung über die Faser.
Bei einer bestimmten Wellenlänge kann die Faser etwa 4.500 räumliche Moden unterstützen. Eingabesamples (Bilder) werden auf einem räumlichen Lichtmodulator angezeigt und anschließend mit dem 4f-System auf die proximale (nahe der Mitte) Fläche des MMF umgeleitet. Am anderen Ende der Faser visualisiert ein anderes 4f-System die Flecken, die von der distalen (weit von der Mitte entfernten) Seite der Faser zur CCD-Kamera ausgehen.
CCD * ist ein ladungsgekoppeltes Gerät, das die Technologie der kontrollierten Ladungsübertragung im Volumen eines Halbleiters implementiert.
Um die Phasen- und Amplitudenmodelle als Eingangssignale für die Gradienten-MMF zu überprüfen, wurde vor dem SLM eine Halbwellenplatte und nach dem SLM ein linearer Polarisator installiert.
Wie bereits erwähnt, fungierten manuell geschriebene Zahlen als Stichproben. Sie wurden aus der
MNIST-Datenbank entnommen .
Vor der Verarbeitung durch DNN wurde jedes der auf CCD1 oder CCD2 aufgezeichneten Bilder auf 1024 × 1024 Pixel zugeschnitten. Ferner wurden die erhaltenen Speckle-Bilder auf 32 × 32 Pixel reduziert und als Eingabe für DNN verwendet.
Bild Nr. 2In den Bildern
2a und
2b sehen wir Zahlenmuster (0 und 4).
2c und
2d sind die gleichen Zahlen, jedoch nach der Amplitudenmodulation, wenn die Amplitude des übertragenen Signals Änderungen unterworfen war.
2e und
2f sind Abtastziffern nach der Phasenmodulation, wenn sich die Phase der Trägerschwingung direkt proportional zum Signal ändert. Wir sehen auch selbst Flecken, die nach einer Entfernung von 2 cm an der distalen Seite der Faser befestigt wurden.
Es ist ziemlich schwierig, Flecken (2
g und
2 h) zu unterscheiden. Wenn wir jedoch die Bilder
2d und
2h vergleichen (betrachten wir beispielsweise das Beispiel „4“), können wir den Unterschied isolieren, den DNN bestimmen kann (
2i ). Somit ermöglichen diese Unterscheidungsmerkmale dem System, "0" von "4", "2" von "9" usw. zu unterscheiden.
DatenverarbeitungEin
Faltungs-Neuronales Netzwerk * vom Typ Visual Geometry Group (VGG) (3a) wurde zur Grundlage des Systems zur Bestimmung von Flecken und rekonstruierten Eingabebildern.
Faltungs-Neuronales Netzwerk * - ANN-Architektur, gekennzeichnet durch die Operation der Faltung, wenn jedes Fragment des Bildes elementweise mit der Faltungsmatrix multipliziert wird, wonach das Ergebnis summiert und an dieselbe Position im Ausgabebild geschrieben wird.

Ein Beispiel für eine Faltungsarchitektur für neuronale Netze.
Die Einführung eines solchen Systems ermöglichte es, Bilder mit größerer Genauigkeit zu entschlüsseln. Für die Rekonstruktion von Bildern wurde das Faltungs-Neuronale Netz vom Typ "U-Netz" mit 14 verborgenen Schichten verwendet (
3b ).
Bild Nr. 3Denken Sie daran, dass die Basis von 20.000 Zahlen in drei Gruppen unterteilt wurde (16.000 für das Training, 2.000 für das Testen und 2.000 für das Testen).
Die Trainingsgruppe wurde in Chargen von 50 für das Rekonstruktionsnetzwerk und 500 für das Bestimmungsnetzwerk verarbeitet. Gleichzeitig wechselten die Parteien, um eine
Umschulung * zu vermeiden.
Umschulung * - Der Fall, in dem das System die Beispiele aus dem Trainingssatz gut verarbeitet, die Beispiele aus dem Testsatz jedoch nicht gut verarbeitet.
Um den quadratischen Mittelwertfehler zu minimieren, wurde ein Optimierungsalgorithmus mit einer Lerngeschwindigkeit von 1 x 10
-4 verwendet .
Die Netze durchliefen die Trainingsphase nicht länger als 50 Epochen (Backpropagation-Zyklen). Für jeden Fall wurde das Training zehnmal wiederholt, um statistische Daten zur Genauigkeit des Trainingssystems zu sammeln.
Alle DNNs wurden auf Basis einer einzelnen NVIDIA GeForce GTX 1080Ti-GPU unter Verwendung der Python TensorFlow 1.5-Bibliothek implementiert.
ForschungsergebnisseWiederaufbauDer erste Parameter, den die Wissenschaftler genauer untersuchen wollten, war die Fähigkeit des Systems, die Eingabedaten zu rekonstruieren.

Das obige Bild zeigt die Ergebnisse der Rekonstruktion der Zahlen (0 ... 9), nachdem die Daten durch eine 0,1 m, 10 m und 1000 m lange Faser geleitet wurden.
Wie wir sehen können, ist das Ergebnis des Verfahrens sehr genau, was die Fähigkeit des U-Net-Systems bestätigt, die extremen Unterscheidungsmerkmale des zukünftigen Bildes zu isolieren.
Der Genauigkeitsgrad der Rekonstruktion wurde ebenfalls überprüft. Dieser Indikator nimmt mit zunehmender Faserlänge von 96,9% (0,1 m) auf 90,0% (1000 m) ab.
Die Abnahme der Genauigkeit ist darauf zurückzuführen, dass bei einer Faserlänge von 1 km Temperaturinhomogenitäten auftreten (Ausdehnung des Materials aufgrund von Wärme und / oder Änderung des Brechungsindex), die den optischen Weg des Signals verändern. Diese Prozesse führen dazu, dass das Speckle-Muster am distalen Ende instabil wird, was es schwieriger macht, das gewünschte Bild zu rekonstruieren.
Die Forscher stellen fest, dass die externe Belichtung der Faser auch den Genauigkeitsgrad der Bildrekonstruktion verringert. Daher sollte bei einer weiteren Verbesserung des Systems die optische Faser mit einer Wärmeisolierung und einem isothermen Medium versehen werden, um das maximale Maß an Rekonstruktionsgenauigkeit zu erreichen.
Das Rekonstruktionsverfahren gleicht auch Artefakte auf dem verarbeiteten Bild perfekt aus.

Beispielsweise isoliert das System das Bild (
2a ) vom distalen Fleck (
2g ) und entfernt gleichzeitig Defekte, die auf den proximalen Rand der Faser (
2c und
2e ) projiziert werden. Darüber hinaus versucht das System, Artefakte zu beseitigen, die aufgrund von Verunreinigungen oder Defekten in der Probe oder strukturellen Ungenauigkeiten der Faser selbst entstanden sind.
Klassifizierung von KreisprobenDas System kann das Bild neu erstellen, und die Genauigkeit dieses Vorgangs ist sehr beeindruckend. Nun wenden wir uns der Analyse zu, wie genau das System bestimmen kann, wo sich welches Bild (Nummer) befindet, dh um die Daten nach ihrer Rekonstruktion zu klassifizieren.

Aus der obigen Grafik und Tabelle ist ersichtlich, dass die Klassifizierungsgenauigkeit mit zunehmender Länge der an der Übertragung beteiligten Faser abnimmt. Ein ähnlicher Trend war bei der Genauigkeit der Rekonstruktion. Unabhängig davon, ob das Amplitudenmodell oder die Phase, sinkt die Genauigkeit. Bei 2 cm Faser - 90% Genauigkeit. Dies ist ein guter Indikator, aber die Faser ist zu kurz. Bei einer Länge von 1 km sinkt die Genauigkeit jedoch auf 30%. Die Forscher führen dies auf erhöhte Streuverluste, Modenkopplung und distale Speckle-Drift zurück. Alle diese „Interferenzen“ werden durch die Zunahme der Faserlänge verursacht.
Distale Speckle-VeränderungenDie Aufnahme erfolgte mit einer Bildrate von 83 fps. Als Experiment an einer 1 km langen Faser wurde ein leeres Bild übertragen.
(a) und (b) - 2 Frames aus dem obigen Datensatz, (c) - ihr Vergleich.Diese Bilder wurden mit einer Differenz von 2 Sekunden aufgenommen. Und wie wir in Bild (c) sehen, ist der Unterschied zwischen ihnen sehr bedeutend. Solche starken Änderungen der Speckle können mit Temperaturschwankungen der Umgebung oder Luftströmen über das Gerät verbunden sein (Bild Nr. 1), die kleine Störungen der Faser verursachen können. Wenn jedoch die Faserlänge zunimmt, macht sich die Stärke solcher Störungen bemerkbar.
Es stellt sich heraus, dass der gesamte Betrieb des Systems aufgrund dieser "Interferenz" vergeblich ist. Wissenschaftler stoppen solche Schwierigkeiten jedoch nicht, sondern regen sie zum Nachdenken an.
Es wurde beschlossen, eine Untersuchung der Speckle-Verschiebung und ihrer Auswirkungen auf die Genauigkeit der Bildklassifizierung durchzuführen. Zu diesem Zweck wurde das VGG-Netzwerk auf der Basis von 10.000 Proben (die Hälfte der verfügbaren) trainiert, dann wurden Tests durchgeführt, jedoch mit der anderen Hälfte der Proben. Der Vorgang wurde wiederholt, wobei 2 Gruppen von Proben stellenweise gewechselt wurden. Die Ergebnisse zeigten, dass es keine signifikanten Änderungen in der Genauigkeit der Klassifizierung gibt, da die Verschiebung der Flecken nicht zufällig ist, was bedeutet, dass das ANN in der Lage ist, diese zu untersuchen, sich zu erinnern und zu bestimmen.
Der Unterschied zwischen Amplituden- und Phasenmodulation war vernachlässigbar. Mit einer Faserlänge von 10 m und Phasenmodulation war die Klassifizierung etwas besser als bei Amplitudenmodulation. Dies ist auf eine gleichmäßigere Lichtverteilung über die Moden der optischen Faser zurückzuführen. Bei der Amplitudenmodulation ist die Anzahl der an der Übertragung beteiligten Moden aufgrund der selektiven räumlichen Anregung der Fasern begrenzt.
Wenn wir die Option einer 1 km langen Faser in Betracht ziehen, überschreitet die Amplitudenmodulation bereits die Phase. Wenn Licht durch eine lange Faser fällt, sind alle Modi gleichzeitig an der Übertragung von Informationen beteiligt.
Fehlermatrizen (Verwirrungsmatrizen)Um die Klassifizierungsgenauigkeit zu verbessern, wurde das ANN auch mit bereits rekonstruierten Proben trainiert. Es wurden auch Fehlermatrizen angewendet, die die Klassifizierungsgenauigkeit signifikant verbesserten.
Beispielsweise besteht bei einer 1 km langen Faser eine Verwechslung zwischen den Zahlen 4 und 9 sowie zwischen 3, 5, 6 und 8.
Schauen Sie sich zur Bestätigung einfach die Ergebnisse der Rekonstruktion an.
Nummern 4 und 9
Nummern 3, 5, 6 und 8
Die obigen Grafiken zeigen Änderungen in der Genauigkeit der Klassifizierung von Bildern im Zeitverlauf:
a - 10 m Faser und distale Flecken;
b - 10 m Faser und rekonstruierte Bilder;
s - 1 km Faser und distale Flecken;
d - 1 km Faser und rekonstruierte Bilder.
Für eine detaillierte Kenntnis der Nuancen der Studie empfehle ich dringend, den Bericht von Wissenschaftlern zu lesen. Auf derselben Seite ist auch eine PDF-Version verfügbar (Schaltfläche „PDF abrufen“).
NachwortDiese Studie zeigte hervorragende Ergebnisse, was auf die zukünftige Entwicklung und praktische Umsetzung hinweist. Die oben genannten Methoden können für die Telekommunikation (Decodierung im Multiplexing) und sogar in der Medizin (Endoskopie) angewendet werden.
Nach der Berechnung der Zeitkosten stellten die Wissenschaftler fest, dass die meisten von ihnen zur Vorbereitung des Systems oder vielmehr zu dessen Schulung verwendet werden. Dies deutet darauf hin, dass ein bereits geschultes System seine Funktionen unglaublich schnell bis zu Millisekunden ausführen kann. Die einzige Einschränkung ist die Hardware-Leistung.
Natürlich muss auf dem Gebiet der künstlichen neuronalen Netze, die auf tiefem Lernen basieren, noch viel mehr studiert werden. Aber ihre Nützlichkeit ist jetzt sichtbar. Die Verbesserung bestehender Systeme, unabhängig von ihrer Anwendung, ist ebenso wichtig wie die Erstellung neuer Systeme. Schließlich muss das Rad nicht immer neu erfunden werden, wenn man es einfach verbessern kann. Die Hauptsache ist, wie die Praxis gezeigt hat, über den Tellerrand hinaus zu denken, aus unseren eigenen und den Fehlern anderer zu lernen, manchmal unmögliche Aufgaben zu stellen und an uns selbst zu glauben. Wenn eine Idee der Menschheit zugute kommen kann, muss sie verwirklicht werden.
Vielen Dank für Ihren Aufenthalt bei uns. Gefällt dir unser Artikel? Möchten Sie weitere interessante Materialien sehen? Unterstützen Sie uns, indem Sie eine Bestellung
aufgeben oder Ihren Freunden empfehlen, einen
Rabatt von 30% für Habr-Benutzer auf ein einzigartiges Analogon von Einstiegsservern, das wir für Sie erfunden haben: Die ganze Wahrheit über VPS (KVM) E5-2650 v4 (6 Kerne) 10 GB DDR4 240 GB SSD 1 Gbit / s von $ 20 oder wie teilt man den Server? (Optionen sind mit RAID1 und RAID10, bis zu 24 Kernen und bis zu 40 GB DDR4 verfügbar).
3 Monate kostenlos bei Bezahlung eines neuen Dell R630 für einen Zeitraum von sechs Monaten -
2 x Intel Deca-Core Xeon E5-2630 v4 / 128 GB DDR4 / 4 x 1 TB Festplatte oder 2 x 240 GB SSD / 1 Gbit / s 10 TB - ab 99,33 USD pro Monat , nur bis Ende August, Bestellung kann
hier sein .
Dell R730xd 2 mal günstiger? Nur wir haben
2 x Intel Dodeca-Core Xeon E5-2650v4 128 GB DDR4 6 x 480 GB SSD 1 Gbit / s 100 TV von 249 US-Dollar in den Niederlanden und den USA! Lesen Sie mehr über
den Aufbau eines Infrastrukturgebäudes. Klasse mit Dell R730xd E5-2650 v4 Servern für 9.000 Euro für einen Cent?