تعمل شبكة Google العصبية بشكل عشوائي على تصميم الصور في الوقت الفعلي


تقوم شبكة Google العصبية بتركيب أي من الأساليب الـ 32 المدربة على الصورة (خمسة موضحة هنا). البرنامج غير متساهل مع الأجهزة والذاكرة. سيتم نشر الكود بعد فترة وجيزة

من تركيب القوام مع نقل النمط من صورة إلى أخرى - وهي تقنية معروفة عمرها 15 عامًا. تم وصفه لأول مرة في مقالة " المقارنات في الصورة " من قبل مجموعة من الباحثين من Microsoft Research لمؤتمر SIGGRAPH 2001 ، وكذلك في مقالة " حشو الصورة لتجميع ونقل النسيج " من Mitsubishi Electric Research وجامعة كاليفورنيا في بيركلي في نفس العام 2001. من الصعب الآن تحديد أي منها ظهر سابقًا.

في عام 2015 ، تلقت التقنية حياة ثانية ، عندما تم ربط الشبكات العصبية بتوليف الصور مع نقل النمط. حدث ذلك بعد العمل العلمي " neuroalgorithms أسلوب فني " Getisa، إيكر وBethge من جامعة ايبرهارد-كرلس توبنغن، ألمانيا ( المادة على Geektimes ). العمل مثير للإعجاب لدرجة أنه تم تنفيذ الخوارزمية الموصوفة قريبًا في العديد من برامج الكمبيوتر لسوق المستهلك ، بما في ذلك تطبيقات الهاتف المحمول مثل Prisma الروسية (يونيو 2016).

عمل Gatis و Ecker و Betge جيد لأن المؤلفين دربوا الشبكة العصبية على الأعمال الحالية للفنانين المشهورين: Vincent Van Gogh و Pablo Picasso و Edward Munch وغيرهم. في الوقت نفسه ، يمكن الاستمرار في تدريب الشبكة العصبية على مجموعات البيانات الأخرى ، لذلك فهي أداة عالمية. إنها مثل هذه الشبكة العصبية التي تعمل على خادم Prisma والشركات الأخرى التي توزع تطبيقات الهاتف المحمول لإضفاء الطابع الشخصي على صور المستخدم.

تم إنشاء الشبكة العصبية التلافيفية لـ Getis و Ecker و Betge على أساس الشبكة العصبية VGG المكونة من 19 طبقة من Simonyan و Zisserman، وتتم معالجة الصورة الأصلية على عدة مراحل. في كل مرحلة من التسلسل الهرمي ، يزداد عدد المرشحات. يحدث التصميم لنمط معين في المراحل الأولى من "الاختزال" (الضربات العريضة ، الأنماط التكعيبية ، وما إلى ذلك) ، وتعالج الطبقات الأخيرة من الشبكة العصبية الصورة الأصلية بحيث تظل الكائنات قابلة للتمييز ( d و e في الرسم التخطيطي). تبدأ الشبكة العصبية في العمل من موضع عشوائي (أو من الصورة الأصلية) حتى تفي النتيجة بالمتطلبات المحددة.



يتم فصل تمثيلات المحتوى والأسلوب عن بعضها البعض في الشبكة العصبية. وبالتالي ، يمكن التحكم فيها بشكل مستقل عن بعضها البعض. على سبيل المثال ، خذ محتوى من صورة وأسلوب من صورة أخرى.


أمثلة على صور التصميم في الشبكات العصبية لـ Gatis و Ecker و Betge

الصورة الأصلية: Old Town in Tübingen


نمط العينة: رسم "Clown's Head" (1907-1908) ، Georges Rouault ، النمط: التعبيرية


نتيجة عمل الشبكة العصبية يعتبر


هذا العمل اختراقة أساسية في تقنيات التعلم العميق ، لأن هذا هو أول دليل مفاهيمي لنقل النمط الفني من خلال شبكة عصبية. ما اعتبر رؤية فنية ، وأسلوب المؤلف ونوع الفن ، تم بنجاح إضفاء الطابع الرسمي عليه واستيعابه من قبل شبكة عصبية. يتقن الذكاء الاصطناعي أولاً الإبداع الحقيقي.

خلقت فكرة فصل نمط ومحتوى الصورة مجموعة متنوعة من الشبكات العصبية ، بما في ذلك لتوليد صور مخيفةو توليد pornokartinok .

لسوء الحظ ، فإن الشبكات العصبية Gatis و Ecker و Betge لها عيب: مثل هذه الشبكة العصبية تتطلب الكثير من موارد الحوسبة. أصبح هذا واضحًا بعد إصدار أول تطبيق تجريبي تمت معالجته على الخادم لعدة دقائق.

في الأعمال اللاحقة ، بما في ذلك من قبل المتخصصين الروس ، تم تحسين الشبكة العصبية بشكل كبير بسبب الوظائف المحدودة. ونتيجة لذلك ، وصل التحسين إلى حد أنه بدلاً من بضع دقائق ، بدأ نمط الصورة يحدث على الفور تقريبًا. لذلك كانت هناك فرصة لأسلوب حتى الفيديو في الوقت الحقيقي !

لكن مثل هذا الأسلوب له وجه آخر للعملة. لا يمكن استخدام النمط فائق السرعة إلا إذا تم التقاط صورة واحدة للعينة . هذا تحديد للخوارزمية الأصلية لأنه غير مرتبط بنمط واحد. بمعنى آخر ، إذا كنت تريد إنشاء نظام يمكنه نقل 100 نمط مختلف ، فعليك تدريب 100 شبكة عصبية مختلفة مسبقًا.

الآن ساهمت Google في هذا البحث. في 24 أكتوبر 2016 ، نشر موظفو فريق Google Brain Team مقالًا يصف خوارزمية تعمل بنفس سرعة الخوارزميات السابقة ، ولكن في نفس الوقت في شبكة عصبية عالمية واحدة يمكنها فرض أي أنماط مكتسبة.

وفقا ل كلامالمطورين ، خوارزمياتهم سهلة التنفيذ ولا تطرح متطلبات عالية على ذاكرة الوصول العشوائي. علاوة على ذلك ، بعد التدريب على العديد من الأساليب ، فهو قادر على الجمع بين عدة أنماط في نفس الوقت ويعمل في الوقت الحقيقي. على سبيل المثال ، هنا صورة لنفس المدينة القديمة في توبنغن ، حيث يتم فرض أربعة أنماط في وقت واحد .



يعتقد الباحثون أن عملهم يفتح إمكانيات جديدة للاستخدام الإبداعي للشبكات العصبية النمطية. في المستقبل القريب ، يعدون بنشر شفرة المصدر لبرنامج TensorFlow على مدونة Magenta ، بحيث يمكن للجميع تشغيل العرض التوضيحي على جهاز الكمبيوتر الخاص بهم.

مزيد من التفاصيل حول صور التصميم في الشبكة العصبية موصوفة في الفيديو العلمي الشهير .. تم تسجيله من قبل اثنين من الموظفين Nat و Lo في 20 ٪ من وقت عملهم ، والذي تخصصه Google للمشاريع التي تختارها.

Source: https://habr.com/ru/post/ar398703/


All Articles