فلاديمير إيفانوف vivanov879 ، الأب. يواصل
مهندس التعلم العميق من NVIDIA الحديث عن التعلم المعزز. ستركز هذه المقالة على تدريب الوكيل لإكمال المهام وكيفية استخدام الشبكات العصبية للفلاتر للتعرف على الصور.
في
مقال سابق ، تمت مناقشة تدريب العملاء على الرماة البسيط.
سوف يتحدث فلاديمير عن تطبيق التعلم المعزز في الممارسة العملية في
مؤتمر منظمة العفو الدولية يوم 22 نوفمبر.
في المرة الأخيرة نظرنا إلى أمثلة لألعاب الفيديو ، حيث يساعد التدريب التعزيز على حل المشكلة. الغريب ، من أجل اللعب الناجح للشبكة العصبية ، كانت هناك حاجة فقط إلى المعلومات المرئية. تحلل كل شبكة عصبية من الإطار الرابع لقطة الشاشة وتتخذ قرارًا.
للوهلة الأولى ، يبدو السحر. بنية معقدة معينة ، وهي شبكة عصبية ، تتلقى صورة عند المدخلات وتصدر الحل الصحيح. دعونا نكتشف ما يحدث في الداخل: ما الذي يحول مجموعة البكسل إلى عمل؟
قبل الانتقال إلى الكمبيوتر ، دعنا نكتشف ما يراه الشخص.عندما ينظر شخص ما إلى صورة ما ، فإن نظراته تتشبث بالتفاصيل الصغيرة (الوجوه ، أشكال الأشخاص ، الأشجار) ، والصورة ككل. سواء كانت لعبة طفل في الزقاق أو مباراة كرة قدم ، يمكن للشخص فهم محتوى الصورة ومزاجها وسياقها بناءً على تجربته في الحياة.

عندما نعجب بعمل سيد في معرض فني ، لا تزال تجربتنا الحياتية تخبرنا أن الشخصيات مخفية خلف طبقات من الطلاء. يمكنك تخمين نواياهم وحركتهم في الصورة.

في حالة الرسم التجريدي ، تجد العين أشكالًا بسيطة في الصورة: دوائر ، مثلثات ، مربعات. يسهل العثور عليها. في بعض الأحيان هذا هو كل ما يمكن رؤيته.

يمكن ترتيب العناصر بحيث تأخذ الصورة لونًا غير متوقع.

أي أنه يمكننا إدراك الصورة ككل ، مستخلصة من مكوناتها المحددة. على عكسنا ، لا يمتلك الكمبيوتر في البداية هذه الإمكانية. لدينا تجربة غنية في الحياة تخبرنا عن العناصر المهمة وما هي الخصائص الفيزيائية التي يمتلكونها. دعنا نفكر في كيفية تزويد الآلة بأداة حتى تتمكن من دراسة الصور.
يفرض العديد من مالكي الهواتف السعداء بكاميرات عالية الجودة قبل نشر صورة من هاتف إلى شبكة اجتماعية فلاتر مختلفة عليها. باستخدام الفلتر ، يمكنك تغيير مزاج الصورة. يمكنك تمييز بعض الأشياء بشكل أكثر وضوحًا.
بالإضافة إلى ذلك ، يمكن للفلتر إبراز حواف الكائنات في الصورة.
نظرًا لأن الفلاتر لديها هذه القدرة على إبراز كائنات مختلفة على صورة ما ، فلنمنح الكمبيوتر الفرصة لالتقاطها. ما هي الصورة الرقمية؟ هذه مصفوفة مربعة من الأرقام ، في كل نقطة توجد بها قيم كثافة لثلاث قنوات ألوان: الأحمر والأخضر والأزرق. الآن سنعطي الشبكة العصبية ، على سبيل المثال ، 32 مرشحًا. يتم فرض كل مرشح بدوره على الصورة. يتم تطبيق قلب المرشح على وحدات البكسل المجاورة.
في البداية ، تكون القيم الأساسية لكل مرشح عشوائية. لكننا سنعطي الشبكات العصبية القدرة على تكوينها اعتمادًا على المهمة. بعد الطبقة الأولى مع المرشحات ، يمكننا وضع المزيد. نظرًا لأننا نحصل على الكثير من الفلاتر ، فنحن بحاجة إلى الكثير من البيانات لإعدادها. لهذا ، بعض البنوك الكبيرة للصور المميزة مناسبة. على سبيل المثال ، مجموعة بيانات MSCoco.

ستقوم الشبكة العصبية بتعديل الأوزان لحل هذه المشكلة. في حالتنا ، لتجزئة الصورة ، أي تعريف فئة كل بكسل صورة. الآن دعونا نرى كيف ستبدو الصور بعد كل طبقة من المرشحات.

إذا نظرت عن كثب ، ستلاحظ أن الفلاتر بدرجة أو أخرى تغادر السيارة وتنظف المنطقة المحيطة - الطريق والأشجار والسماء.
العودة إلى الوكيل الذي يتعلم لعب الألعاب. على سبيل المثال ، خذ لعبة سباق ماريو كارت.
قدمنا له أداة قوية لتحليل الصور - شبكة عصبية. دعونا نرى ما المرشحات التي يختارها لتعلم كيفية الركوب. لنأخذ منطقة مفتوحة للمبتدئين.
دعونا نرى كيف تبدو الصورة بعد أول 24 فيلمًا. توجد هنا في شكل جدول 8x3.
من الاختياري تمامًا أن كل من المخرجات الـ 24 لها معنى واضح ، لأن الصور تذهب إلى المدخل باستخدام المرشحات التالية. يمكن أن تكون التبعيات مختلفة تمامًا. ومع ذلك ، في هذه الحالة ، يمكنك العثور على بعض المنطق في المخرجات. على سبيل المثال ، يبرز الفلتر الثاني في السطر الأول الطريق باللون الأسود. يكرر الفلتر الأول من السطر السابع وظيفته. وعلى معظم الفلاتر الأخرى ، تكون البطاقات التي نتحكم فيها مرئية بوضوح.
في هذه اللعبة ، تتغير المنطقة المحيطة ويلتقي نفق. ما الذي توليه الشبكة العصبية السباق الانتباه عندما تصادف مدخل نفق؟
مخرجات الطبقة الأولى من المرشحات:
في السطر السادس ، يبرز الفلتر الأول مدخل النفق. وهكذا ، خلال الرحلة ، تعلمت الشبكة التعرف عليهم.
وماذا يحدث عندما تدخل الآلة النفق؟
نتيجة المرشحات الـ 24 الأولى:
على الرغم من حقيقة أن إضاءة المشهد قد تغيرت ، وكذلك البيئة ، فإن الشبكة العصبية تلتقط أهم شيء - الطريق والخرائط. مرة أخرى ، يحتفظ المرشح الثاني في السطر الأول ، المسؤول عن إيجاد المسار في العراء ، في النفق بوظائفه. وبنفس الطريقة ، فإن أول مرشح للخط السابع ، كما كان من قبل ، يجد الطريق.
الآن بعد أن اكتشفنا ما تراه الشبكة العصبية ، دعنا نحاول استخدامه لحل مشاكل أكثر تعقيدًا. قبل ذلك ، أخذنا في الاعتبار المهام التي لا تحتاج فيها عمليًا إلى التفكير في المستقبل ، ولكنك تحتاج إلى حل المشكلة التي تواجهنا الآن. في ألعاب الرماية والأجناس تحتاج إلى التصرف "بشكل انعكاسي" ، والاستجابة بسرعة للتغييرات المفاجئة في اللعبة. ماذا عن استكمال لعبة السعي؟ على سبيل المثال ، لعبة Montezuma Revenge ، حيث تحتاج إلى العثور على المفاتيح وفتح الأبواب المغلقة للخروج من الهرم.

في المرة السابقة التي ناقشنا فيها أن الوكيل لن يتعلم كيفية البحث عن مفاتيح وأبواب جديدة ، حيث تستغرق هذه الإجراءات الكثير من وقت اللعبة ، وبالتالي فإن الإشارة في شكل نقاط مستلمة ستكون نادرة جدًا. إذا كنت تستخدم نقاطًا للأعداء الذين تعرضوا للضرب كمكافأة للعامل ، فإنه سيضرب باستمرار الجماجم المتدحرجة ولن يبحث عن حركات جديدة.
دعنا نكافئ الوكيل على فتح غرف جديدة. سنستخدم حقيقة معروفة مسبقًا وهي أن هذه مهمة ، وجميع الغرف فيها مختلفة.

لذلك ، إذا كانت الصورة على الشاشة مختلفة بشكل أساسي عما رأيناه من قبل ، فإن الوكيل يحصل على مكافأة.
قبل ذلك ، أخذنا في الاعتبار وكلاء الألعاب الذين يعتمدون فقط على البيانات المرئية أثناء التدريب. ولكن إذا كان لدينا إمكانية الوصول إلى بيانات أخرى من اللعبة ، فسوف نستخدمها أيضًا. تأمل ، على سبيل المثال ، لعبة Dot. هنا ، تتلقى الشبكة عشرين ألف رقم عند المدخل ، والتي تصف حالة اللعبة بالكامل. على سبيل المثال ، موقف الحلفاء ، صحة الأبراج.

ينقسم اللاعبون إلى فريقين ، كل منهم خمسة أشخاص. تستمر اللعبة في المتوسط 40 دقيقة. يختار كل لاعب بطلًا ذا قدرات فريدة. ويمكن لكل لاعب شراء العناصر التي تغير بارامترات الضرر والسرعة ومجال الرؤية.
على الرغم من حقيقة أن اللعبة للوهلة الأولى تختلف بشكل كبير عن Doom ، إلا أن عملية التعلم تبقى كما هي. باستثناء بضع نقاط. نظرًا لأن أفق التخطيط في هذه اللعبة أعلى مما هو عليه في Doom ، فسوف نعالج آخر 16 إطارًا لاتخاذ القرارات. وستكون إشارة المكافآت التي يتلقاها الوكيل أكثر تعقيدًا بعض الشيء. ويشمل عدد الأعداء المهزومين ، والأضرار التي لحقت بهم ، وكذلك الأموال المكتسبة في اللعبة. لكي تلعب الشبكات العصبية معًا ، سنشمل رفاهية أعضاء فريق الوكيل كمكافأة.
ونتيجة لذلك ،
يهزم فريق الروبوتات فرقًا قوية جدًا من الناس ، لكنه يخسر أمام الأبطال. سبب الهزيمة هو أن الروبوتات نادراً ما لعبت مباريات لمدة ساعة. واستمرت الألعاب مع أناس حقيقيين لفترة أطول من تلك التي تم لعبها على أجهزة المحاكاة. أي أنه إذا وجد الوكيل نفسه في موقف لم يتدرب عليه ، تبدأ الصعوبات في الظهور فيه.