لقد كتبنا مؤخرًا عمودًا عن هبر حول كيفية إصدارنا لعبتنا الخاصة عبر الإنترنت. أحد الحيل التي كنا في حيرة من أمرنا حولها هي جيل AI من الصور الرمزية لشخصيتك "على الطاير" من صورة (أثناء العمل في النموذج الأولي وليست جزءًا من اللعبة). في الوقت نفسه ، تعتبر التكنولوجيا بحد ذاتها مثيرة للاهتمام ويمكن تطبيقها حتى الآن ليس معنا فقط. كما وعدنا ، نتحدث عن ذلك بمزيد من التفصيل ودعونا نشعر أن النموذج الأولي مباشر!
في الجزء السفلي ، يمكنك أيضًا العثور على: لماذا اتخذوا خيارًا لصالح نظام تدريب على الذكاء الاصطناعي غير العادي - دون ترميز البيانات ، ولماذا نعتبر هذا ابتكارًا علميًا ؛ fakapy لدينا عند إنشاء الآلهة الرمزية التي لا تحتاج إلى تكرار ؛ كيف وأين يتم استخدام مجال التكيف اليوم.

إذا لم يكن هناك وقت لقراءة المنشور
نحن نتبع الرابط للنظر في عمل منظمة العفو الدولية في الوقت الحالي.
يرجى ملاحظة:
1. المحول لا يعمل بسرعة ، لذلك كن صبوراً ، يتم استخدام القدرة غير الإنتاجية.
2. تم تدريب النظام فقط في مجال الذكورة ، بحيث تتركك الصور النسائية رجلاً ، ربما تكون خادعة. لا ينبغي توقع تشابه الصورة ، لأن عدد العناصر المستخدمة محدود عن قصد ، وسوف نتحدث عن هذا أدناه.
من أين أتت فكرة إنشاء الصور الرمزية الخاصة بـ AI؟
لم تظهر من اللون الأزرق. العمل على التعلم الآلي في مجموعة uKit مستمر منذ عدة سنوات. لذا ، فإن مشروع WebScore AI ، الذي يقوم في الوقت الحقيقي بتقييم الجاذبية المرئية للموقع ، قبل عام تقريبًا ، كان مفتوحًا لجميع القادمين وتم استخدامه بنجاح للأغراض الداخلية للشركة.
استخدام الشبكات العصبية في تطوير اللعبة هو الموضوع الذي يكتسب دوريا ضجة كبيرة. أذكر سماء No Man's Sky أو RimWorld ، والتي استحوذت على جزء من اهتمام اللعبة ، وليس فقط المجتمع بسبب الكون الذي تم إنشاؤه بالكامل ، والذي لديه تقلب لا نهائي تقريبًا وفقًا للمؤلفين أنفسهم. صحيح ، في الواقع ، كان جيل العوالم إجرائي ، وبالتالي لا علاقة له بالشبكات العصبية. ومع ذلك ، فإن الاتجاه هنا واضح - السوق مستعدة لهذا وينتظر ، وفرك يديها!
لقد اعتقدنا أن القدرة على تحميل صورتك على اللعبة والحصول على صورة شخصية على الفور تبدو مثلك ، والتي لا يمتلكها أي شخص آخر ، ممتعة ويمكن أن تصبح شريحة جذابة مثيرة للاهتمام. بالإضافة إلى ذلك ، يمكن للتكنولوجيا أن تجد تطبيقها بوضوح خارج اللعبة.
تجدر الإشارة إلى أن تشابه الشخصية مع شخص حقيقي في Web Tycoon سيكون نسبيًا. هذه خطوة مدروسة ، لأننا سنجمع الصور الرمزية من العناصر التي رسمها مصممونا. وهناك عدة أسباب لذلك. أولاً ، عند الخروج ، نريد الحصول على تجسيدات للعبة بأسلوب اللعبة ، مع الحفاظ على الصورة المفضلة للكثيرين. ثانياً ، من المؤكد أننا نلعبها بطريقة آمنة ، لأنها تتيح لك دائمًا الحصول على صورة شخصية ، بغض النظر عن ما قام المستخدم بتحميله.

بعد كل شيء ، ليس الجميع يريد أن يرى خيار واقعي بين المنافسين.
نموذج التدريب دون البيانات الموسومة
يمكن تسمية هذا النهج في التعلم الآلي بطريقة مبتكرة ، لأنه في الواقع ، تتعلم منظمة العفو الدولية دون أي بيانات أولية ملحوظة. بسبب ما يحدث هذا؟ مفتاح النجاح هو توافر الأدوات اللازمة لتوليد البيانات الاصطناعية. قبل الأسئلة المحتملة: لا يمكننا أن نعطي أنفسنا.
لماذا قررت تدريب منظمة العفو الدولية لدينا بهذه الطريقة؟ ترميز البيانات هو عمل رتيبة وضخمة للغاية من المقيمين. وإذا قرر المصممون فجأة إضافة ، على سبيل المثال ، نوعًا ثالثًا من النظارات (وقت كتابة النظام كان هناك اثنان منهم) ، فستحتاج إلى إعادة تمييز كل شيء ، لأن كل مثال تم وضع علامة عليه سابقًا أصبح الآن غير مثالي.
بالإضافة إلى ذلك ، في حالتنا ، كان من المفيد أيضًا التفكير في لحظة مثل الذاتية: إذا أعطيت 10 أشخاص لجمع صورة رمزية لصورة واحدة ، فسوف نحصل على 10 صور تجسيد مختلفة في الإخراج. فحصنا.
الصورة الأصلية:

والنتائج من اثنين من المصممين مختلفة لشركتنا:

رجل مقابل آلة
التدريب لم يكن سهلا. أولاً ، استسلم الذكاء الاصطناعى من جميع النواحي:

إذا كان شخص ما لم يفهم فجأة ، فإن الصورة الأصلية هي نفسها هنا. تقوم منظمة العفو الدولية بتحويل الأكياس تحت العينين إلى نظارات شمسية. هوزار هوائيات كهدية. يمكن لمدمني العمل الحقيقيين اعتبار ذلك ميزة ، وليس خطأ.
فيما يلي بعض النتائج الإرشادية القليلة.


لم يعد يضيف نقاطًا ويمكنه حتى ارتداء الملابس! هناك بعض المشاكل مع اللون الاستنساخ.
مباشرة حول عملية التطوير
كنقطة انطلاق ، اتخذنا العديد من حلول نقل الأنماط الجاهزة ، لكن سرعان ما اضطررنا إلى التخلي عنها ، لأنها لم تناسبنا بشكلها النقي. حاولنا أيضًا استخدام النماذج البديلة من تلقاء نفسها ، ولكن سرعان ما توصلنا إلى استنتاج مفاده أن معظم الحلول التي صادفناها لا تحتوي على أمثلة للتنفيذ ، أو لم تقدم نتيجة.
نتيجة لذلك ، كان أول نموذج تجريبي ناجح هو CycleGAN ، والذي اتخذناه كأساس ، واستكملناه وفقًا لاحتياجاتنا. تم استدعاء الخسارة الحسية لمساعدة CycleGAN القياسية. وأضاف هذا بشكل ملحوظ جدا الجاذبية للصور الناتجة.
أدناه يمكنك رؤية CycleGAN في العمل:

أو مثال آخر ، واضح ومألوف لكل من استخدم تطبيق Prisma مرة واحدة على الأقل:

وتتمثل الصعوبة الرئيسية في العادة في الحصول على النموذج التوليدي للتعلم بشكل طبيعي. لدى عائلة كاملة من هذه النماذج الكثير من القروح المميزة التي حاولت في السنوات الأخيرة حل كل شيء: وقت تدريب طويل ، انهيار نمط ، حساسية للتهيئة.
كانت هناك أيضًا مشكلات هندسية بحتة ، والتي من الناحية النظرية ، يجب أن يواجهها الكثيرون ، لكن لسبب ما يكتب القليل عنها. على سبيل المثال ، كنا بحاجة إلى إجراء تحميل موازٍ سريع للبيانات مع زيادة ، ولم تكن المجموعة القياسية من التعزيزات المقدمة في keras / tf / pytorch كافية بالنسبة لنا. زائد ، في البداية كنت أرغب في زيادة على وحدة المعالجة المركزية. تتميز زيادة وحدة المعالجة المركزية بمزاياها التي لا يمكن إنكارها ، وأهمها ، في رأينا ، القدرة على "إلغاء تحميل" بطاقة الفيديو ، وبالتالي تقاسم المسؤوليات بين جهازي الكمبيوتر.
كيفية حل المشاكل
في حالة تدريب GANs ، عملنا بشكل أساسي مع وظائف الخسارة (وظائف الخسارة). لذلك ، أضفنا المزيد من فقدان الهوية وفقدان اللون. في الوقت نفسه ، لعبنا مع بنية المولد داخل CycleGAN ، ونتيجة لذلك توصلنا إلى reznet من 12 كتلة (النسخة الأصلية كانت قصيرة بالنسبة لنا).
في حالة الكود المتكرر ، كتبنا أغلفة ذات مستوى أعلى على موديلات تسمح لنا بإعادة استخدام الكود المستخدم في عدة موديلات في وقت واحد. يتم أيضًا تعميم رمز مولدات التاريخ بطريقة مماثلة للأسباب نفسها.
لحل المشكلة الثالثة (التحميل مع التعزيزات على وحدة المعالجة المركزية) ، كان علي أن أتوصل إلى أن أكتب رقاقة خاصة بي ، ولكن في وقت ما في المرة القادمة. سوف نقول فقط أنه بسبب ذلك ، يمكن استخدام التكنولوجيا بنجاح لمشاريع أخرى لا ترتبط بأي شكل من الأشكال بأفاتار.
Fakapy عند إنشاء واجهات AI
الخطأ الرئيسي هو تقييم غير صحيح لتعقيد المهمة. للوهلة الأولى ، يبدو غالبًا أن هناك عددًا كبيرًا من الحلول الجاهزة التي تناسبك بنسبة 99٪. يجب أن تؤخذ فقط ونقلها بأمان إلى قضيتك. لذلك ، ليس هكذا. بشكل منفصل ، تجدر الإشارة إلى ما تشعر به لملاحظة كيف في GAN ، التي كانت تدرس بنجاح لعدة أيام ، فجأة ينفجر شيء حرفيًا ، لماذا تبدأ في إنشاء لعبة كاملة.
شيء مثل هذا:

كان هناك عامل خطير آخر وهو أننا في المراحل الأولية نسينا إصلاح البذور العشوائية ، ونتذكر أن شبكات GAN حساسة للغاية للتهيئة. فشل مخجل للغاية من جانبنا ، مثل الصراحة.
حيث يتم استخدام المجال التكيف اليوم
تكييف المجال ببطء ولكن بثبات يخترق مهام الذكاء الاصطناعى. هذا الاتجاه الثابت يرجع إلى حقيقة أنه على الرغم من النمو السريع للمعلومات المتاحة في العالم الحديث ، لا تزال العلامات مهمة طويلة ومكلفة. تطوير نقل التعلم وتعميمه في مواجهة تكييف المجال يحل هذه المشكلة.
مثال على التطبيق العملي للتكيف مع المجال هو عمل شركة Apple لتوسيع مجموعة صور صور العيون البشرية من خلال تكييف الصور التي تم إنشاؤها صناعياً. في دراستهم ، أظهروا أن الطريقة الفعالة تتمثل في توليد بيانات مصنّفة مبدئيًا مع تقريب لاحق للبيانات الحقيقية باستخدام أساليب تكييف المجال.

أو هنا مثال آخر مثير للاهتمام. في عام 2017 ، توصلت مجموعة من العلماء إلى نهج غير معتاد في جمع البيانات في الشوارع والطرق والمشاة والبيئات الأخرى التي يجب أن تتواجد فيها السيارات ذاتية القيادة لتدريبهم.
اقترحوا أخذ هذه المعلومات من GTA V.

لهذا ، في البيئة الافتراضية لـ Grand Theft Auto V ، تم إنشاء أكثر من 480،000 صورة افتراضية موسومة لقيادة الطريق السريع العادية. باستخدام هذه الصور ، تم تدريب النظام على قراءة جميع المتغيرات الأساسية اللازمة للقيادة الذاتية المستقلة: لتحديد المسافة إلى السيارات وغيرها من الأشياء في الجبهة ، ووضع علامات على الشريط وزاوية القيادة (مسار الزاوي نسبة إلى الخط المركزي للشريط). كما تم تحليل حادث تسلا القاتل في فلوريدا.
المستقبل هو NST و GAN
هل من الممكن التحدث عن هذا بثقة؟ ربما نعم. يستخدم نقل النمط العصبي Prisma. قياسًا على ذلك ، يتم إنشاء تطبيقات جديدة ، وليس فقط لأغراض الترفيه. يمكن أيضًا استخدام شبكات GAN كأداة لحل مجموعة واسعة من المشكلات: تلوين الصور ، وتوليد الصورة من الضوضاء ، وحتى توليد الصورة من النص.
العودة إلى موضوع gamedev. هنا ، من المحتمل أن تكون إمكانيات التكيف مع المجال لا حصر لها: إذا حدث ذلك في حالة تدريب المركبات غير المأهولة ، فقد تم أخذ قوام عالم لعبة GTA V ، والتي ظهرت منها شيئًا مشابهًا تمامًا لصور العالم الحقيقي ، ثم لا شيء يمنعك مطلقًا من القيام بعكس ذلك: إنشاء نماذج للعبة من صور بانورامية للمدن الحقيقية .
ميزة السيارة هي أنها لا تتعب. يمكن للكمبيوتر الآن إنشاء عدد كبير من وجهات النظر المختلفة في الثانية تقسيم. مهمتنا هي معرفة كيفية القيام بذلك بكفاءة وفعالية ، وبعد ذلك يبقى فقط لفصل الحبوب عن القشر والتمتع بها.
لا يزال لديك أسئلة؟ سنكون سعداء للرد عليهم في التعليقات.