
قامت مجموعة الأبحاث Microsoft Research بتقديم شبكة عصبية تنافسية تناسلية قادرة على إنشاء صور بأشياء متعددة استنادًا إلى وصف نصي. على عكس خوارزميات تحويل النص إلى صورة سابقة ، والقادرة على إعادة إنتاج صور الكائنات الأساسية فقط ، يمكن لهذه الشبكة العصبية التعامل مع الأوصاف المعقدة بشكل أكثر كفاءة.
كان تعقيد إنشاء مثل هذه الخوارزمية هو ، أولاً ، أن الروبوت لم يكن في السابق قادرًا على إعادة إنشاء جميع الكائنات الأساسية بجودة جيدة وفقًا لأوصافها ، وثانيًا ، لم يتمكن من تحليل كيفية ارتباط العديد من الكائنات ببعضها البعض في ضمن تكوين واحد. على سبيل المثال ، لإنشاء صورة وفقًا لوصف "امرأة ترتدي خوذًا تجلس على حصان" ، كان على الشبكة العصبية أن "تفهم" معاني معنى العلاقة بين كل كائن مع بعضهما البعض. لقد نجحنا في حل هذه المشكلات من خلال تدريب الشبكة العصبية استنادًا إلى مجموعة بيانات COCO المفتوحة التي تحتوي على بيانات الترميز والتجزئة لأكثر من 1.5 مليون كائن.

تعتمد الخوارزمية على شبكة عصبية تناسبية موجهة نحو الكائنات ، ObjGAN (نيوتوركز للعدائية المتولدة عن الكائنات). تقوم بتحليل النص ، مستخرجة منه كائنات الكلمات التي يجب وضعها على الصورة. على عكس شبكة التكاثر التناسلية التقليدية التي تتكون من مولد واحد يقوم بإنشاء صور ومميز واحد يقوم بتقييم جودة الصور التي تم إنشاؤها ، يحتوي ObjGAN على اثنين من أدوات التمييز المختلفة. يحلل المرء مدى واقعية كل كائن مستنسخ ومدى تطابقه مع الوصف الموجود. يحدد الثاني مدى واقعية التركيب بأكمله ويتعلق بالنص.
كان سابقًا لخوارزمية ObjGAN هو AttnGAN ، الذي طوره أيضًا باحثون من Microsoft. إنه قادر على إنشاء صور لكائنات من أوصاف نصية أبسط. يمكن استخدام تقنية تحويل النص إلى صور لمساعدة المصممين والفنانين على إنشاء رسومات.
خوارزمية ObjGAN متاحة للجمهور على جيثب.
مزيد من التفاصيل الفنية.