في المقالة السابقة ، التقينا بك ، وشعر شخص ما بالانتعاش في الطريقة التي علمنا بها الآلات لفهم حديثنا. من الصعب الآن مفاجأة برنامج أو روبوت يمكنه إجراء محادثة مع شخص. ولكن ماذا لو قال شخص للروبوت "ارسم لي غروبًا على شاطئ البحر"؟ هل يمكن للروبوت أن يفهم هذا ويرسم؟ يمكنه الآن. بفضل تطوير Xiaodong He (لن نترجم الاسم ، حتى لا نشوهه) وفريقه من الباحثين في الذكاء الاصطناعي. سوف نكتشف كيف يعمل إبداعهم وما إذا كان من الممكن فتح معرض فني مع أعمال هذا البرنامج. دعنا نذهب.
باختصار حول الجوهر
إذا كنت تبالغ ، فإن البرنامج يعمل على مبدأ "أرسم ، ماذا يقولون لي." تقول "إبريق شاي أرجواني ذو أنف طويل" ، ويحاول برنامج البكسل بكسل أن يصور هذه المعلومات بدقة ، وبعبارة أخرى ، تصور كلماتك. للقيام بذلك ، تحتاج ، أولاً وقبل كل شيء ، إلى فهم ما تقوله ، ثم تحديد أهم الكلمات - المتجهات ، التي يمكنك على أساسها بناء افتراضات حول النسخة الضرورية من الصورة.
يقول Xiaodong هذا: "... إذا كنت تستخدم Bing وتبحث عن طائر ، فستحصل على صورة للطائر. ولكن في حالتنا ، يتم إنشاء صورة بواسطة جهاز كمبيوتر ، بكسل بعد بكسل ، من الصفر ... قد لا تكون هذه الطيور موجودة في العالم الحقيقي - ستكون مثالاً على تمثيل الكمبيوتر للطيور ... "
لم يكن هذا المشروع الأول لـ Xiaodong He وزملائه. في السابق ، كانوا يطورون نظام CaptionBot AI ، الذي قام تلقائيًا بإنشاء أوصاف للصور. كان هناك أيضًا SeeingAI ، وهو نظام يجيب على الأسئلة البشرية حول التصوير الفوتوغرافي. ووفقًا للباحثين ، فإن هذا الأخير سيكون مناسبًا جدًا للمكفوفين وضعاف البصر.
أساس مشروع "الفنان حسب الطلب" هو مزيج من نظامين: شبكة الخصومة التوليدية (GAN) - منشئ الصور ومميز (تمييز) - وحدة تحلل جودة الصورة المستلمة بشكل نقدي.
مكون آخر مهم لهذا النظام هو الحساب الرياضي والتعبير عن الاهتمام البشري. عندما نرى شيئًا ما ، فإننا ننتبه ، وإن كان لا شعوريًا ، إلى بعض خصائصه الخارجية. نفس الشيء عندما يخبرونا عن شيء ما. يقال لنا عن الليمون ، نرى ثمارًا صفراء صغيرة بيضاوية. نحن لا نمثل الخوخ. يحدث في دماغنا تلقائيا. أما بالنسبة للآلة ، فأنت بحاجة إلى برمجة دماغها بحيث تعمل على الأقل مثل الإنسان. لكننا نعلم أن الآلة تفهم لغة الأرقام بشكل أفضل - الرياضيات ، ولهذا السبب قام الباحثون بتحويل شيء مثل الانتباه إلى صيغ رياضية. والآن المزيد عن كل من مكونات النظام.
شبكة التوليف المتعمد GAN
وفقا للباحثين ، يختلف نظام GAN الخاص بهم عن الأنظمة المماثلة في الاهتمام بالتفاصيل. يدرك GAN العادي الجملة بأكملها (على سبيل المثال ، "إبريق شاي أرجواني ذو أنف طويل") كمتجه واحد يجب اتباعه عند التقديم. في حالة تطوير أبطالنا ، يتم الاهتمام بالكلمات الفردية التي تصبح ناقلات تصور لأجزاء فردية من الصورة. ببساطة ، لا يرسم البرنامج الصورة بأكملها دفعة واحدة ، ولكنه يقسمها إلى قطع (مثل الألغاز) ويرسم كل منها على حدة.
لشرح الكلمات البسيطة كيف يعمل النظام الرياضي ، دعنا نتخيل أن جملتنا (وصف للصورة) هي صيغة ، والكلمات متغيرات.
التمثيل التخطيطي لخوارزمية البرنامجكل كلمة عبارة عن ناقل مهم ، أي أنها تحدد الاتجاه الذي سيفكر فيه البرنامج. بادئ ذي بدء ، يجب على النظام تحديد الكلمات الأكثر أهمية. يحاول النظام مطابقة الكلمات والأقسام الفردية للصورة المستقبلية. على سبيل المثال ، طائر أزرق ذو منقار أسود - إذا أخذنا في الاعتبار كلمة "أسود" ، فإنها تشير إلى المنقار - قسم منفصل من الصورة.
بعد تحديد متجه كل كلمة ، يقوم البرنامج بجمع جميع المعلومات في شكل مصفوفة ، ثم يبدأ في إدراكها كصورة.

كمثال ، يقترح الباحثون النظر في 4 طلبات ذات طبيعة مختلفة (الصورة أعلاه).
تأمل الصور الثلاثة الأولى للطيور. كما ترون ، فهي مختلفة تمامًا في الجودة والتفاصيل. والحقيقة هي أن الإطار الأول (غير واضح وغير دقيق) هو نتيجة لتوليد الصورة عند تحليل الجملة بأكملها كمتجه واحد. في الإطار الثاني ، أصبح طائرنا أكثر وضوحًا بالفعل ، حيث تم تقسيم الجملة إلى كلمات منفصلة (نواقل) ، مما سمح بتوضيح بعض التفاصيل (على سبيل المثال ، العين السوداء - العين السوداء).
يتم عرض نفس الصور أدناه ، ولكن مع تخصيص الأقسام الفردية المقابلة لكلمات معينة ، يشارك البرنامج في توليدها لمزيد من المقارنة في كل واحد. تُظهر أحدث اللقطات الكلمات في وصف الصورة المستقبلية التي يعتبرها البرنامج الأكثر أهمية.

تقدم هذه المجموعة نتائج توليد الصور عند اختيار اثنين من أهم متجهات الكلمات (أسود + أبيض ، أحمر + أصفر ، أزرق + أحمر) من جملة.

المقدمة في الصورة أعلاه. لا يمكن تمييز "قطة سوداء منفوشة تطفو على سطح البحيرة" عمليا ، على الرغم من أن البحيرة نفسها مصورة بشكل جيد للغاية. نفس الوضع مع علامات الطريق. ومع ذلك ، تبين أن الصورة الثانية دقيقة عمليًا ("حافلة حمراء ذات طابقين تطفو على سطح البحيرة"). الشيء الوحيد ليس الحافلة ، ولكن القارب أو اليخت.
تؤكد نتائج مثل هذه الاستفسارات التجريبية فقط أن النظام لا يزال لديه الكثير ليتعلمه. على وجه الخصوص ، من الضروري تجديد قاعدة معارف النظام باستمرار. حتى تعرف كيف يبدو هذا الشيء أو ذاك. ومع ذلك ، على الرغم من كل عدم الدقة والعيوب في الصور التي تم إنشاؤها ، فإن هذا النظام مذهل. نطاق تطبيقه واسع جدًا: من المساعدة في التصميم الداخلي إلى إنشاء أفلام رسوم متحركة فقط من خلال قراءة السيناريو. أيضًا ، بالاقتران مع نظام التعرف على الوجوه ، يمكن لبرنامج توليد الصور أيضًا أن يخدم وكالات إنفاذ القانون ، على سبيل المثال ، عند تجميع فوتوبوت مشتبه به.
وصفت هذه المقالة المبادئ الأساسية وجوهر البرنامج لتوليد الصور من خلال وصفها. للتعرف على المزيد من المعلومات حول المكون الرياضي لخوارزمية البرنامج ، يمكنك
تنزيل التقرير المقابل للباحثين- هل من الصعب جدًا الرسم؟
"إما أنها سهلة أو مستحيلة."
(سلفادور دالي)
شكرا لك على البقاء معنا. هل تحب مقالاتنا؟ هل تريد رؤية مواد أكثر إثارة للاهتمام؟ ادعمنا عن طريق تقديم طلب أو التوصية به لأصدقائك ،
خصم 30 ٪ لمستخدمي Habr على نظير فريد من خوادم مستوى الدخول التي اخترعناها لك: الحقيقة الكاملة حول VPS (KVM) E5-2650 v4 (6 نوى) 10GB DDR4 240GB SSD 1Gbps من 20 $ أو كيفية تقسيم الخادم؟ (تتوفر الخيارات مع RAID1 و RAID10 ، حتى 24 مركزًا وذاكرة وصول عشوائي DDR4 تصل إلى 40 جيجابايت).
ديل R730xd أرخص مرتين؟ فقط لدينا
2 x Intel Dodeca-Core Xeon E5-2650v4 128GB DDR4 6x480GB SSD 1Gbps 100 TV من 249 دولارًا في هولندا والولايات المتحدة! اقرأ عن
كيفية بناء مبنى البنية التحتية الطبقة باستخدام خوادم Dell R730xd E5-2650 v4 بتكلفة 9000 يورو مقابل سنت واحد؟