تقوم الشبكة العصبية AttnGAN برسم الأشياء في أجزاء ، باستخدام مساحة المتجه ليس فقط الجمل ، ولكن أيضًا الكلمات


مثال على عملية AttnGAN. توجد في الصف العلوي عدة صور لدرجات دقة مختلفة تم إنشاؤها بواسطة شبكة عصبية. يُظهر الصفان الثاني والثالث معالجة الكلمات الخمس الأكثر ملاءمة من خلال نموذجين من انتباه الشبكة العصبية لرسم الأقسام الأكثر صلة

يعد إنشاء الصور تلقائيًا من أوصاف النص بلغة طبيعية مشكلة أساسية للعديد من التطبيقات ، مثل جيل الفن وتصميم الكمبيوتر. كما تحفز هذه المشكلة التقدم في مجال تدريب الذكاء الاصطناعي متعدد الوسائط مع العلاقة بين الرؤية واللغة.

يعتمد البحث الأخير الذي أجراه الباحثون في هذا المجال على شبكات الخصومة التوليدية (GANs). النهج العام هو ترجمة وصف النص بالكامل إلى ناقل الجملة العالمي. يوضح هذا النهج عددًا من النتائج المثيرة للإعجاب ، ولكن له عيوب رئيسية: عدم وجود تفاصيل واضحة على مستوى الكلمة وعدم القدرة على إنشاء صور عالية الدقة. اقترح فريق من المطورين من جامعة Lichai وجامعة Rutgers وجامعة Duke (كلها - الولايات المتحدة الأمريكية) و Microsoft الحل الخاص بهم للمشكلة: تمثل الشبكة العصبية الجديدة Att AttGG Genersative Adversarial Network (AttnGAN) تحسنًا في النهج التقليدي وتسمح بتغيير متعدد المراحل للصورة التي تم إنشاؤها ، وتغيير الكلمات الفردية في النص الوصف.



بنية الشبكة العصبية AttnGAN. يتلقى كل نموذج انتباه تلقائيًا ظروفًا (أي ناقلات المفردات المقابلة) لتوليد مناطق مختلفة من الصورة. توفر وحدة DAMSM دقة إضافية لوظيفة فقدان المطابقة في الترجمة من صورة إلى نص في الشبكة التوليدية

كما ترى في الرسم التوضيحي الذي يصور بنية الشبكة العصبية ، فإن نموذج AttnGAN له ابتكاران مقارنة بالنهج التقليدية.

أولاً ، إنها شبكة خصومة ، تشير إلى الانتباه كعامل تعلم (شبكة الخصومة التوليدية المتعمدة). أي أنها تنفذ آلية الانتباه ، التي تحدد الكلمات الأكثر ملاءمة لتوليد الأجزاء المقابلة من الصورة. وبعبارة أخرى ، بالإضافة إلى ترميز وصف النص بالكامل في مساحة المتجهات العالمية للجمل ، يتم أيضًا ترميز كل كلمة فردية كمتجه نص. في المرحلة الأولى ، تستخدم الشبكة العصبية التوليدية مساحة المتجه العالمية للجمل لتقديم صورة منخفضة الدقة. في الخطوات التالية ، تستخدم متجه الصورة في كل منطقة للاستعلام عن متجهات القاموس ، باستخدام طبقة الانتباه لتشكيل كلمة متجه السياق. بعد ذلك ، يتم دمج ناقل الصورة الإقليمي مع متجه سياق الكلمة المقابل لتشكيل ناقل سياق متعدد الوسائط ، بناءً على ذلك يقوم النموذج بإنشاء ميزات صورة جديدة في المناطق المعنية. هذا يسمح لك بزيادة دقة الصورة بأكملها بشكل فعال ، لأنه في كل مرحلة هناك المزيد والمزيد من التفاصيل.

ثاني ابتكارات الشبكة العصبية لشركة Microsoft هي وحدة نموذج التشابه العميق متعدد الوسائط (DAMSM). باستخدام آلية الانتباه ، تحسب هذه الوحدة درجة التشابه بين الصورة المولدة والجملة النصية ، باستخدام كل من المعلومات من مستوى مساحة المتجه للجمل ومستوى مفصل جيدًا من ناقلات القاموس. وبالتالي ، توفر DAMSM دقة إضافية لفقدان وظيفة الملاءمة عند الترجمة من صورة إلى نص عند تدريب المولد.

بفضل هذين الابتكاريين ، تُظهر شبكة AttnGAN العصبية نتائج أفضل بكثير من أفضل أنظمة GAN التقليدية ، كما يكتب المطورون. على وجه الخصوص ، تم تحسين الحد الأقصى لدرجة البدء المعروفة للشبكات العصبية الموجودة بنسبة 14.14٪ (من 3.82 إلى 4.36) على مجموعة بيانات CUB وتحسنت بنسبة تصل إلى 170.25٪ (من 9.58 إلى 25.89) على مجموعة بيانات COCO الأكثر تعقيدًا.

من الصعب المبالغة في أهمية هذا التطور. أظهرت الشبكة العصبية AttnGAN لأول مرة أن شبكة التعددية التعددية متعددة الطبقات ، والتي تشير إلى الانتباه كعامل تعلم ، قادرة على تحديد الشروط على مستوى الكلمة تلقائيًا لتوليد أجزاء فردية من الصورة.

تم نشر المقالة العلمية في 28 نوفمبر 2017 على موقع ما قبل الطباعة arXiv.org (arXiv: 1711.10485v1).

Source: https://habr.com/ru/post/ar409747/


All Articles