إعادة بناء الصورة: كيلومتر واحد من الألياف والشبكة العصبية الاصطناعية والتعلم العميق



في الوقت الحاضر ، أصبحت الألياف البصرية جزءًا لا يتجزأ من أكثر مجالات الحياة البشرية تنوعًا: من الإنترنت المنزلي إلى التنظير الداخلي. يرجع استخدام الألياف الضوئية إلى عدد من المزايا: سرعة الإرسال والقوة الجسدية والنطاق الترددي وأمن المعلومات وما إلى ذلك.

لزيادة الإنتاجية ، تم إنشاء ليف بصري متعدد الأوضاع (MMF) عند إرسال المعلومات عبر عدة قنوات متوازية. على الرغم من جميع مزاياها ، فإن MMF لديها أيضًا عدد من العوائق ، قرر أحد الباحثين التخلص منها من أجل تحسين عملية نقل الصورة. الخلاصة هي: عندما يتم إسقاط عينة على الجانب القريب من MMF ، فإن الصورة التي نحصل عليها على الجانب البعيد هي رقعة ، لأن بياناتها الواردة يتم توزيعها عبر العديد من الأوضاع بدرجات متفاوتة من الانتشار على طول الألياف. يقترح العلماء استخدام مزيج من الألياف متعددة الأوضاع والتعلم العميق للشبكات العصبية الاصطناعية للحصول على صور دقيقة ، بما في ذلك عند استخدام التنظير الداخلي. دعونا نتعمق في تقرير الباحثين ونحاول أن نفهم كيف يعمل وما يعطي النتائج. دعنا نذهب.

أساس الدراسة

تم تطوير تقنيات استخدام الشبكات العصبية الاصطناعية لفك تشفير الصور المرسلة عبر MMF لفترة طويلة. لذلك في الأعمال المبكرة تم وصف شبكة من طبقتين ، قادرة على التعرف على حوالي 10 صور تمر عبر 10 أمتار من الألياف المخيطة.

في هذه الدراسة ، النظام أكثر تعقيدًا بكثير ، ولكن ، وفقًا للعلماء ، أكثر كفاءة. كانت الخطوة الأولى هي جمع عدد كبير من عينات البقع التي تم الحصول عليها عن طريق تمرير صورة من خلال MMF. لقد أصبحوا قاعدة المعرفة لتدريب DNN (شبكة عصبية اصطناعية قائمة على التعلم العميق * ).


مثال على الصورة رقطة
التعلم العميق * - مزيج من طرق التعلم الآلي بناءً على العرض التقديمي ، بدلاً من خوارزمية متخصصة لمهمة معينة.
بنية DNN معقدة للغاية ولديها حوالي 14 طبقة مخفية * .
طبقة خفية * - تتكون الشبكة العصبية الاصطناعية من وحدات حسابية (الخلايا العصبية) ، والتي تنقسم إلى 3 فئات: المدخلات والمخفية والمخرجات. تتلقى المدخلات المعلومات ، وتقوم تلك المخفية بعمليات حسابية مختلفة ، وتقوم عطلات نهاية الأسبوع بإرسال المعلومات بشكل أكبر.
لإجراء تجارب على DNN ، تم إنشاء قاعدة بيانات تحتوي على 20000 رقم مكتوب يدويًا. بعد ذلك ، يتم تقسيم القاعدة عشوائيًا إلى مجموعات:

  • 16000 رقم - التدريب ؛
  • 2000 رقم - التحقق ؛
  • 2000 رقم - اختبار.

التحضير للتجربة

توضح الصورة أدناه رسم تخطيطي لنظام بصري تم استخدامه لجمع البيانات.

الصورة رقم 1: مخطط التثبيت:

مصدر الليزر - مصدر إشعاع الليزر (شعاع) ؛
HWP - لوحة نصف موجة ؛
M1 مرآة ؛
SLM - معدل الضوء المكاني.
P هو مستقطب خطي ؛
L هي العدسة.
BS - مقسم الشعاع
OBJ - هدف المجهر ؛
OF - الألياف الضوئية ؛
CCD - كاميرا CCD.

والآن بالترتيب. شعاع ليزر بطول موجة 560 نانومتر يوجه الضوء من خلال ألياف بصرية متدرجة * بقطر أساسي يبلغ 62.5 ميكرومتر وفتحة رقمية * 0.275.
التدرج MMF * عبارة عن ألياف بصرية ذات ملف انكسار غير منتظم ، عندما ينخفض ​​مؤشر الانكسار تدريجيًا من الحافة إلى محور الألياف.

مقارنة بين أنواع الألياف: الخطوة المتعددة ، التدرج المتعدد والوضع الفردي (من الأعلى إلى الأسفل).
الفتحة العددية هي جيب الزاوية القصوى بين الشعاع والمحور. في هذه الحالة ، هناك انعكاس داخلي كامل في توزيع الإشعاع على الألياف.
عند طول موجة محدد ، تكون الألياف قادرة على دعم حوالي 4500 وضع مكاني. يتم عرض عينات الإدخال (الصور) على معدل الضوء المكاني ، وبعد ذلك يتم إعادة توجيهها باستخدام نظام 4f إلى الوجه القريب (القريب من المركز) لـ MMF. في الطرف البعيد من الألياف ، يتصور نظام 4f آخر البقع المنبعثة من الوجه البعيد (البعيد عن المركز) للألياف إلى كاميرا CCD.
CCD * هو جهاز مقترن بالشحن يطبق تقنية نقل الشحنة المتحكم بها في حجم أشباه الموصلات.
للتحقق من نماذج الطور والسعة كإشارات إدخال لـ MMF المتدرج ، تم تركيب لوحة نصف موجة قبل SLM ، ومستقطب خطي بعد SLM.

كما ذكرنا سابقًا ، كانت الأرقام المكتوبة يدويًا بمثابة عينات. تم أخذها من قاعدة بيانات MNIST .

قبل معالجتها بواسطة DNN ، تم اقتصاص كل من الصور المسجلة على CCD1 أو CCD2 إلى 1024 × 1024 بكسل. علاوة على ذلك ، تم تقليل صور البقع التي تم الحصول عليها إلى 32 × 32 بكسل وتم استخدامها كمدخل لـ DNN.


الصورة رقم 2

في الصور 2 أ و 2 ب نرى أنماط الأرقام (0 و 4). 2c و 2 d هما نفس الأرقام ، ولكن بعد تعديل الاتساع ، عندما يكون اتساع الإشارة المرسلة عرضة للتغييرات. 2e و 2 f عبارة عن أرقام عينة بعد تعديل الطور ، عندما تتغير طور تذبذب الموجة الحاملة بالتناسب المباشر مع الإشارة. كما نرى أيضًا بقعًا ، تم تثبيتها على الوجه البعيد للألياف بعد اجتياز مسافة 2 سم.

من الصعب جدًا تمييز البقع ( 2 جرام و 2 ساعة ). ومع ذلك ، إذا قارنا الصور 2d و 2 h (على سبيل المثال ، ضع في اعتبارك العينة "4") ، فيمكننا عزل الاختلاف الذي يمكن لـ DNN تحديده ( 2i ). وبالتالي ، ستسمح هذه الميزات المميزة للنظام بتمييز "0" من "4" و "2" من "9" وما إلى ذلك.

معالجة البيانات

أصبحت الشبكة العصبية التلافيفية * من نوع مجموعة الهندسة المرئية (VGG) (3 أ) أساس النظام لتحديد البقع وصور المدخلات التي أعيد بناؤها.
الشبكة العصبية التلافيفية * - بنية ANN ، تتميز بعملية الالتواء ، عندما يتم ضرب كل جزء من الصورة في مصفوفة الالتفاف بشكل عنصري ، وبعد ذلك يتم جمع النتيجة وكتابتها في نفس الموضع في صورة الإخراج.

مثال على بنية الشبكة العصبية التلافيفية.
سمح إدخال مثل هذا النظام بفك تشفير الصور بدقة أكبر. لإعادة بناء الصور ، تم استخدام نوع "U-net" للشبكة العصبية التلافيفية مع 14 طبقة مخفية ( 3 ب ).


الصورة رقم 3

تذكر أن قاعدة 20000 رقم تم تقسيمها إلى ثلاث مجموعات (16000 للتدريب ، 2000 للاختبار و 2000 للاختبار).

تم تجهيز مجموعة التدريب على دفعات من 50 لشبكة إعادة الإعمار و 500 لشبكة تقرير. في الوقت نفسه ، تغير الطرفان لتجنب إعادة التدريب * .
إعادة التدريب * - الحالة التي يعالج فيها النظام الأمثلة من مجموعة التدريب جيدًا ، ولكن لا يتماشى جيدًا مع الأمثلة من الاختبار.
من أجل تقليل خطأ الجذر التربيعي ، تم استخدام خوارزمية تحسين مع سرعة تعلم 1 × 10 -4 .

لقد مرت الشباك بمرحلة تدريب لا تزيد عن 50 حقبة (دورات الانتشار العكسي). بالنسبة لكل حالة ، تم تكرار التدريب 10 مرات من أجل جمع البيانات الإحصائية حول دقة نظام التدريب.

تم تنفيذ جميع DNNs على أساس وحدة معالجة رسومات NVIDIA GeForce GTX 1080Ti واحدة باستخدام مكتبة Python TensorFlow 1.5.

نتائج البحث

إعادة الإعمار

كانت المعلمة الأولى التي قرر العلماء فحصها بمزيد من التفصيل هي قدرة النظام على إعادة بناء بيانات الإدخال.



توضح الصورة أعلاه نتائج إعادة بناء الأرقام (0 ... 9) ، بعد تمرير البيانات عبر الألياف 0.1 م و 10 م و 1000 م.

كما نرى ، نتيجة الإجراء دقيقة للغاية ، مما يؤكد قدرة نظام U-net على عزل الميزات المميزة المتطرفة للصورة المستقبلية.

كما تم التحقق من دقة إعادة الإعمار. ينخفض ​​هذا المؤشر بزيادة طول الألياف من 96.9٪ (0.1 م) إلى 90.0٪ (1000 م).

يرجع الانخفاض في الدقة إلى حقيقة أنه مع طول الألياف من 1 كم ، تنشأ عدم تجانس درجة الحرارة فيه (توسيع المادة بسبب الحرارة و / أو تغير في معامل الانكسار) ، مما يغير المسار البصري للإشارة. تؤدي هذه العمليات إلى حقيقة أن نمط البقع في الطرف البعيد يصبح غير مستقر ، مما يجعل إعادة البناء إلى الصورة المطلوبة أكثر صعوبة.

لاحظ الباحثون أن التعرض الخارجي للألياف يقلل أيضًا من درجة دقة إعادة بناء الصورة. لذلك ، مع زيادة تحسين النظام ، يجب تزويد الألياف الضوئية بعزل حراري ووسيط حراري لتحقيق أقصى مستوى من دقة إعادة البناء.

يقيس إجراء إعادة البناء أيضًا القطع الأثرية بشكل مثالي على الصورة المعالجة.



على سبيل المثال ، يعزل النظام الصورة ( 2 أ ) من البقع البعيدة ( 2 جم ) ، بينما يزيل في الوقت نفسه العيوب المسقطة على الحافة القريبة من الألياف ( 2 ج و 2 هـ ). بالإضافة إلى ذلك ، يحاول النظام إزالة القطع الأثرية التي نشأت بسبب التلوث أو العيوب في العينة أو عدم الدقة الهيكلية للألياف نفسها.

تصنيف عينات cirf

يمكن للنظام إعادة إنشاء الصورة ، ودقة هذه العملية مثيرة للإعجاب للغاية. ننتقل الآن إلى تحليل مدى دقة النظام في تحديد مكان الصورة (الرقم) ، أي تصنيف البيانات بعد إعادة بنائها.



من الرسم البياني والجدول أعلاه يمكن ملاحظة أن دقة التصنيف تتناقص مع زيادة طول الألياف المشاركة في الإرسال. كان هناك اتجاه مماثل مع دقة إعادة الإعمار. بغض النظر عما إذا كان نموذج السعة أو المرحلة ، تنخفض الدقة. بألياف 2 سم - دقة 90٪. هذا مؤشر جيد ، لكن الألياف قصيرة جدًا. ولكن بطول كيلومتر واحد ، تنخفض الدقة إلى 30٪. يعزو الباحثون ذلك إلى زيادة خسائر التشتت ، وإقران الوضع ، وانحراف البقع البعيدة. كل هذه "التداخلات" ناتجة عن زيادة طول الألياف.


تغييرات رقطة بعيدة

تم التسجيل بمعدل إطارات 83 إطارًا في الثانية. كتجربة على ليف 1 كم ، تم إرسال صورة فارغة.


(أ) و (ب) - إطاران مأخوذان من السجل أعلاه ، (ج) - المقارنة بينهما.

تم تسجيل هذه الإطارات بفارق ثانيتين. وكما نرى في الصورة (ج) ، فإن الفرق بينهما كبير جدًا. يمكن أن ترتبط هذه التغييرات الحادة في البقع بتقلبات درجة الحرارة في البيئة أو تدفقات الهواء فوق الجهاز (الصورة رقم 1) ، والتي يمكن أن تسبب اضطرابات صغيرة في الألياف. ولكن عندما يزيد طول الألياف ، تصبح قوة مثل هذه الاضطرابات ملحوظة.

اتضح أن كل تشغيل النظام سيكون هباءً بسبب "التداخل". ومع ذلك ، لا يتوقف العلماء عن مثل هذه الصعوبات ، بل يشجعونها على التفكير.

تقرر إجراء دراسة عن تشريد البقع وكيف تؤثر على دقة تصنيف الصورة. لهذا ، تم تدريب شبكة VGG على أساس 10000 عينة (نصف العينات المتاحة) ، ثم تم إجراء الاختبار ، ولكن مع النصف الآخر من العينات. تم تكرار العملية ، وتغيير مجموعتين من العينات في الأماكن. أظهرت النتائج أنه لا توجد تغييرات كبيرة في دقة التصنيف ، لأن تحول البقع ليس عرضيًا ، مما يعني أن ANN قادر على دراسته وتذكره وتحديده في العملية.

كان الفرق بين السعة وتعديل الطور ضئيلاً. مع طول الألياف من 10 م وتشكيل الطور ، كان التصنيف أفضل قليلاً من تعديل السعة. ويرجع ذلك إلى التوزيع الأكثر انتظامًا للضوء على أوضاع الألياف الضوئية. مع تعديل السعة ، يكون عدد الأنماط المتضمنة في الإرسال محدودًا بسبب الإثارة المكانية الانتقائية للألياف.

إذا أخذنا في الاعتبار خيار الألياف بطول 1 كم ، فإن تعديل السعة يتجاوز بالفعل المرحلة. عندما يمر الضوء عبر ألياف طويلة ، تشارك جميع الأوضاع في نقل المعلومات في وقت واحد.


مصفوفات الخطأ (مصفوفات الارتباك)

من أجل تحسين دقة التصنيف ، تم تدريب ANN أيضًا باستخدام عينات أعيد بناؤها بالفعل. كما تم تطبيق مصفوفات الخطأ ، مما أدى إلى تحسن كبير في دقة التصنيف.

على سبيل المثال ، في حالة الألياف التي يبلغ طولها 1 كم ، هناك ارتباك بين الأرقام 4 و 9 ، وكذلك بين 3 و 5 و 6 و 8.

للتأكيد ، ما عليك سوى إلقاء نظرة على نتائج إعادة الإعمار.


الرقمان 4 و 9


أرقام 3 و 5 و 6 و 8



تظهر الرسوم البيانية أعلاه تغييرات في دقة تصنيف الصور بمرور الوقت:

أ - 10 م من الألياف والبقع البعيدة ؛
ب - 10 م من الألياف والصور المعاد بناؤها ؛
ق - 1 كم من الألياف والبقع البعيدة ؛
د - كيلومتر واحد من الألياف والصور المعاد بناؤها.

للتعرف على التفاصيل الدقيقة للفروق الدقيقة في الدراسة ، أوصي بشدة بالنظر في تقرير العلماء. يتوفر إصدار PDF على نفس الصفحة (الزر "Get PDF").

الخاتمة

أظهرت هذه الدراسة نتائج ممتازة تشير إلى تطورها المستقبلي وتنفيذها العملي. يمكن تطبيق الأساليب المذكورة أعلاه للاتصالات (فك التشفير في تعدد الإرسال) وحتى في الطب (التنظير الداخلي).

بعد حساب تكاليف الوقت ، وجد العلماء أن معظمهم يذهبون إلى إعداد النظام ، أو بالأحرى إلى تدريبه. وهذا يشير إلى أن النظام المدرب بالفعل يمكنه أداء وظائفه بسرعة لا تصدق ، حتى ميلي ثانية. سيكون القيد الوحيد هو قوة الأجهزة.

بالطبع ، سيتعين دراسة المزيد في مجال الشبكات العصبية الاصطناعية القائمة على التعلم العميق. لكن فائدتها مرئية الآن. تحسين النظم الحالية ، مهما كان تطبيقها ، لا يقل أهمية عن نشاط إنشاء أنظمة جديدة. بعد كل شيء ، ليس من الضروري دائمًا إعادة اختراع العجلة ، إذا كان يمكنك ببساطة تحسينها. الشيء الرئيسي ، كما أظهرت الممارسة ، هو التفكير خارج الصندوق ، والتعلم من أخطائنا وأخطاء الآخرين ، وتحديد المهام المستحيلة أحيانًا والإيمان بأنفسنا. إذا كانت الفكرة يمكن أن تفيد البشرية ، يجب أن تتحقق.

شكرا لك على البقاء معنا. هل تحب مقالاتنا؟ هل تريد رؤية مواد أكثر إثارة للاهتمام؟ ادعمنا عن طريق تقديم طلب أو التوصية به لأصدقائك ، خصم 30 ٪ لمستخدمي Habr على نظير فريد من خوادم مستوى الدخول التي اخترعناها لك: الحقيقة الكاملة حول VPS (KVM) E5-2650 v4 (6 نوى) 10GB DDR4 240GB SSD 1Gbps من 20 $ أو كيفية تقسيم الخادم؟ (تتوفر الخيارات مع RAID1 و RAID10 ، حتى 24 مركزًا وحتى 40 جيجابايت DDR4).

3 أشهر مجانًا عند الدفع مقابل Dell R630 جديد لمدة ستة أشهر - 2 x Intel Deca-Core Xeon E5-2630 v4 / 128GB DDR4 / 4x1TB HDD أو 2x240GB SSD / 1Gbps 10 TB - من 99.33 دولارًا في الشهر ، حتى نهاية أغسطس فقط ، اطلب يمكن أن يكون هنا .

ديل R730xd أرخص مرتين؟ فقط لدينا 2 x Intel Dodeca-Core Xeon E5-2650v4 128GB DDR4 6x480GB SSD 1Gbps 100 TV من 249 دولارًا في هولندا والولايات المتحدة! اقرأ عن كيفية بناء مبنى البنية التحتية الطبقة باستخدام خوادم Dell R730xd E5-2650 v4 بتكلفة 9000 يورو مقابل سنت واحد؟

Source: https://habr.com/ru/post/ar420561/


All Articles