يتم تدريب الشبكة العصبية رؤية الجهاز على ألعاب الكمبيوتر واقعية.


لقطات من لعبة الكمبيوتر Grand Theft Auto V والترميز الدلالي لتدريب

الشبكة العصبية لرؤية الماكينة الشبكات العصبية تسجل أرقامًا قياسية جديدة في جميع مسابقات رؤية الكمبيوتر تقريبًا ، وتستخدم أيضًا بشكل متزايد في تطبيقات الذكاء الاصطناعي الأخرى. أحد المكونات الرئيسية لأداء الشبكة العصبية المذهل هو توافر مجموعات بيانات كبيرة للتدريب والتقييم. على سبيل المثال ، يتم استخدام تحدي التعرف البصري على نطاق واسع من Imagenet (ILSVRC) مع أكثر من مليون صورة لتقييم الشبكات العصبية الحديثة. ولكن إذا حكمنا من خلال أحدث النتائج (يظهر ResNet نتيجة 3.57٪ فقط من الأخطاء) ، سرعان ما سيتعين على الباحثين تجميع مجموعات بيانات أكثر شمولاً. وبعد ذلك - أكثر شمولاً. بالمناسبة ، التعليق التوضيحي لهذه الصور هو الكثير من العمل ، جزء منه يجب القيام به يدويًا.

يقدم بعض مطوري أنظمة رؤية الكمبيوتر طريقة بديلة لتدريب واختبار هذه الأنظمة. بدلاً من التعليق التوضيحي لصور التدريب يدويًا ، يستخدمون إطارات مركبة من ألعاب الكمبيوتر الواقعية.

هذا نهج منطقي بالكامل. في الألعاب الحديثة ، وصلت الرسومات إلى مستوى من الواقعية لدرجة أن الصور التي تم توليفها تختلف قليلاً قليلاً عن صور العالم الحقيقي. في الوقت نفسه ، يمكن لمحرك اللعبة توليد عدد لا نهائي من هذه الإطارات - وهذا يحل بشكل كبير على الفور مشكلة جمع ملايين الصور للتدريب وتقييم الشبكة العصبية.

على الرغم من أن محرك اللعبة يستخدم عددًا محدودًا من الأنسجة ، إلا أن هناك مجموعة متنوعة من مجموعات الزوايا والإضاءة والطقس ومستوى التفاصيل ، مما يوفر مجموعة متنوعة كافية من مجموعات البيانات.

هذا العام ، فحصت مجموعتان من الباحثين عمليًا ما إذا كان من الممكن استخدام الإطارات الناتجة من ألعاب الكمبيوتر لتدريب الشبكات العصبية للرؤية الحاسوبية. نشرت مجموعة من الباحثين من قسم علوم الكمبيوتر بجامعة كولومبيا البريطانية (كندا) مقالة علمية جمعت من أجلها أكثر من 60.000 إطار من لعبة كمبيوتر ذات طرق عرض مشابهة لمجموعات بيانات CamVid و Cityscapes . تمكن الباحثون من إثبات أن الشبكة العصبية بعد التدريب على الصور الاصطناعية تظهر مستوى خطأ مشابهًا بعد التدريب في الصور الحقيقية. علاوة على ذلك ، يظهر التدريب على الصور المركبة باستخدام صور حقيقية نتيجة أفضل.

تم التقاط جميع الإطارات البالغ عددها 60،000 في طقس مشمس افتراضي ، في الساعة الافتراضية 11:00 ، بدقة 1024 × 768 وإعدادات رسومات قصوى (لم يتم الكشف عن اسم اللعبة بسبب مخاوف بشأن حقوق النشر). قادت سيارة بدون طيار بطريق الخطأ على طول شوارع الألعاب ، مع مراعاة قواعد الطريق. تم تصوير الإطارات مرة واحدة في الثانية. يصاحب كل واحد منهم تجزئة دلالة تلقائية (السماء ، المشاة ، السيارات ، الأشجار ، الخلفية - التقسيم دقيق تمامًا مأخوذ من اللعبة) ، صورة عميقة (صورة عميقة ، خريطة مع ترميز الأشياء) ، وكذلك عادي على السطح.

بالإضافة إلى مجموعة بيانات VG الأساسية ، قام الباحثون بإنشاء مجموعة بيانات VG + أخرى تحتوي على الكثير من المعلومات الدلالية ، على سبيل المثال لا الحصر خمس تصنيفات - هنا التصنيف غير دقيق. تم تنفيذ الترميز تلقائيًا باستخدام SegNet .


تم وضع إطارات ذات علامات مشددة من مجموعة VG +

لمقارنة فعالية تدريب الشبكة العصبية ، تم إعداد مجموعات بيانات CamVid و Cityscapes (خمس علامات) ، بالإضافة إلى CamVid + ​​و Cityscapes + مع مجموعات علامات موسعة.


صور CamVid الأصلية مع تعليقات توضيحية


تم استخدام صورتين عشوائيتين لـ Cityscapes + مع التعليقات التوضيحية المفصلة.

للتصنيف الدلالي ، تم استخدام شبكة عصبية تلافيفية طويلة مع بنية FCN8 بسيطة أعلى شبكة VGG المكونة من 16 طبقة من Simonyan و Sisserman.

أجرى الباحثون العديد من التجارب لتقييم كفاءة التعرف على الأشياء من خلال شبكة عصبية تم تدريبها على مجموعات بيانات مختلفة. في جميع الحالات تقريبًا ، أظهرت الشبكة العصبية المدربة على البيانات الاصطناعية نتيجة أفضل من الشبكة العصبية المدربة على الصور الحقيقية. لقد أظهرت أفضل نتيجة حتى عند التحقق من الصور الحقيقية.

على سبيل المثال ، يوضح الجدول أداء الشبكات العصبية المتطابقة التي تم تدريبها على ثلاث مجموعات بيانات (صور حقيقية ، بيانات اصطناعية من اللعبة ، مجموعة مختلطة) عندما يتم التعرف على الكائنات في صور حقيقية من مجموعات CamVid + ​​و Cityscapes +.



كما ترى ، من الأفضل عند تدريب شبكة عصبية استكمال الصور الاصطناعية من لعبة كمبيوتر بصور حقيقية.

مقال علميتم نشره في 5 أغسطس 2016 على arXiv.org ، الإصدار الثاني هو 15 أغسطس ( pdf ).



بالإضافة إلى باحثين من جامعة كولومبيا البريطانية ، تم تنفيذ نفس العمل تقريبًا في نفس الوقت من قبل مجموعة أخرى من العلماء من جامعة دارمشتات التقنية (ألمانيا) ومعامل إنتل . أخذوا 24.966 إطارًا للتدريب من لعبة الكمبيوتر في العالم المفتوح Grand Theft Auto V. توصل الباحثون إلى نفس النتيجة: عند استخدام مجموعة بيانات تدريبية تتكون من 2/3 من الصور الاصطناعية و 1/3 من صور CamVid ، فإن الدقة يكون التعرف أعلى من استخدام صور CamVid فقط.


دقة التعرف على الكائنات المختلفة في الصور من مجموعة CamVid عند التعلم باستخدام الأساليب التقليدية وعند استخدام الإطارات من GTA V (الخط السفلي)

في الوقت نفسه ، يقلل التعليق التوضيحي شبه التلقائي في محرر تم تطويره خصيصًا بشكل كبير من الوقت اللازم لإعداد مجموعة بيانات لتدريب شبكة عصبية. على سبيل المثال ، التعليق التوضيحي لصورة CamVid يستغرق 60 دقيقة ، صورة Cityscapes تستغرق 90 دقيقة ، والتعليق التوضيحي لإطار GTA V شبه التلقائي يستغرق 7 ثوانٍ فقط ، في المتوسط ​​( فيديو ، عرض توضيحي للمحرر ).



تم إعداد عمل باحثين من جامعة دارمشتات التقنية ومعامل إنتل للمؤتمر الأوروبي حول رؤية الكمبيوتر ECCV'16 (11-14 أكتوبر) ونشرت على موقع الجامعة على الإنترنت. وضع المؤلفون شفرة المصدر لقراءة الملصقات ومجموعات كاملة من البيانات : كل ​​من الصور المصدر والصور المتعمقة مع الترميز الدلالي. من المرجح أن يتم نشر الكود المصدري لمحرر التعليقات التوضيحية في المستقبل.



بفضل التقدم في إنشاء ألعاب كمبيوتر واقعية ، سيكون لدى مطوري أنظمة الذكاء الاصطناعي تحت تصرفهم منصة ممتازة لتعلم أنظمة رؤية الجهاز. سيتم استخدام هذه الأنظمة في المركبات والروبوتات بدون طيار.

ربما يمكن استخدام ألعاب الكمبيوتر ليس فقط في رؤية الماكينة ، ولكن أيضًا لإنشاء أنماط طبيعية للسلوك في المجتمع. فقط مع تدريب الذكاء الاصطناعي يجب أن تكون حذرا بشأن اختيار لعبة.

Source: https://habr.com/ru/post/ar397557/


All Articles