اعتبر الكثير التقدم في لعبة "انتقام مونتيزوما" مرادفًا للانجازات في دراسة البيئات غير المألوفةلقد طورنا طريقة تقطير عشوائي للشبكة العشوائية (RND) تشجع وكلاء التعلم المعززين على استكشاف البيئة من خلال الفضول. تجاوزت هذه الطريقة لأول مرة متوسط النتائج البشرية في لعبة الكمبيوتر
"انتقام Montezuma" (باستثناء
التطبيق المجهول في ICLR ، حيث تكون النتيجة أسوأ من نتائجنا).
يوضح RND الكفاءة الحديثة للغاية ، ويجد بشكل دوري جميع الغرف الـ 24 ويمر المستوى الأول دون عرض أولي وبدون الوصول إلى الحالة الأساسية للعبة.تحفز طريقة RND انتقال العامل إلى حالات غير مألوفة من خلال قياس مدى تعقيد توقع نتيجة تراكب شبكة عصبية عشوائية عشوائية على بيانات الحالة. إذا كانت الحالة غير مألوفة ، فمن الصعب التنبؤ بالنتيجة النهائية ، مما يعني أن المكافأة عالية. يمكن تطبيق الطريقة على أي خوارزمية تعلم تقويمي ؛ إنها سهلة التنفيذ وفعالة للتحجيم. فيما يلي رابط لتنفيذ RND ، والذي يعيد إنتاج نتائج مقالتنا.
نص مقال علمي ، كود
النتائج في انتقام مونتيزوما
لتحقيق الهدف المطلوب ، يجب على الوكيل أولاً دراسة الإجراءات الممكنة في البيئة وما يشكل تقدمًا نحو الهدف. توفر العديد من إشارات المكافأة في الألعاب منهجًا ، لذلك حتى استراتيجيات البحث البسيطة تكفي لتحقيق الهدف. في
العمل الأولي مع عرض DQN ، كانت
لعبة Revenge من
Montezuma هي
اللعبة الوحيدة التي أظهر فيها DQN نتيجة 0٪ من متوسط النتيجة البشرية (4700) . من غير المحتمل أن تجمع استراتيجيات الذكاء البسيطة أي مكافآت ولا تجد أكثر من غرف قليلة على المستوى. منذ ذلك الحين ، اعتبر الكثيرون التقدم في لعبة Revenge Montezuma مرادفًا للتقدم المحرز في دراسة البيئة غير المألوفة.
تم تحقيق تقدم كبير في عام
2016 من خلال الجمع بين DQN ومكافأة على العداد ، ونتيجة لذلك تمكن الوكيل من العثور على 15 غرفة والحصول على أعلى درجة 6600 بمتوسط حوالي 3700. ومنذ ذلك الحين ، يتم
تحقيق تحسينات كبيرة في النتيجة فقط من خلال العروض
التوضيحية من
الخبراء أو عن طريق الوصول إلى الحالات الأساسية
للمحاكي .
لقد أجرينا تجربة RND على نطاق واسع مع 1024 عاملاً ، وحصلنا على
نتيجة متوسطة تبلغ 10000 أكثر من 9 بدايات وأفضل نتيجة متوسطة 14500 . في كل حالة ، وجد الوكيل 20-22 غرفة. بالإضافة إلى ذلك ، في عملية إطلاق واحدة أصغر ولكن أطول (من أصل 10) ، تكون
النتيجة القصوى هي 17500 ، وهو ما يتوافق مع اجتياز المستوى الأول والعثور على جميع الغرف البالغ عددها 24 غرفة . يقارن الرسم البياني أدناه بين هاتين التجربتين ، ويعرض متوسط القيمة اعتمادًا على معلمات التحديث.

يظهر التصور أدناه تقدم التجربة على نطاق أصغر. يقوم الوكيل ، تحت تأثير الفضول ، بفتح غرف جديدة ويجد طرقًا لتسجيل النقاط ، وخلال التدريب ، تجبره هذه المكافأة الخارجية على العودة إلى هذه الغرف لاحقًا.
الغرف التي اكتشفها الوكيل ومتوسط النتيجة أثناء التدريب. تتوافق درجة شفافية الغرفة مع عدد المرات التي تم اكتشافها من أصل 10 تمريرات للوكيل. فيديوقبل تطوير RND ، قمنا ، مع موظفين من جامعة كاليفورنيا في بيركلي ، باستكشاف التعلم دون أي مكافآت بيئية. يوفر الفضول طريقة أسهل لتعليم الوكلاء التفاعل مع
أي بيئة ، بدلاً من استخدام وظيفة مكافأة مصممة خصيصًا لمهمة معينة ، وهي ليست حقيقة تتوافق مع حل المشكلة. في مشاريع مثل
ALE و
Universe و
Malmo و
Gym و
Gym Retro و
Unity و
DeepMind Lab و
CommAI ، يتم فتح عدد كبير من البيئات المحاكاة للوكيل من خلال واجهة موحدة. يمكن للوكيل الذي يستخدم وظيفة المكافأة المعممة التي لا تقتصر على بيئة معينة اكتساب مستوى أساسي من الكفاءة في مجموعة واسعة من البيئات. هذا يسمح له بتحديد السلوك المفيد حتى في غياب مكافآت متقنة.
نص مقال علمي ، كود
في إعدادات التدريب القياسية مع التعزيز في كل خطوة زمنية منفصلة ، يرسل الوكيل الإجراء إلى البيئة ، ويتفاعل ، مما يمنح الوكيل ملاحظة جديدة ، ومكافأة على الانتقال ومؤشرًا لنهاية الحلقة. في مقالنا
السابق ، قمنا بإعداد البيئة
لإنتاج الملاحظة التالية
فقط . هناك ، يدرس الوكيل نموذج التوقع للحالة التالية بناءً على خبرته ويستخدم خطأ التنبؤ كمكافأة داخلية. ونتيجة لذلك ، ينجذب إلى عدم القدرة على التنبؤ. على سبيل المثال ، لا تتم مكافأة تغيير حساب اللعبة إلا إذا تم عرض الحساب على الشاشة وكان من الصعب التنبؤ بالتغيير. الوكيل ، كقاعدة عامة ، يجد تفاعلات مفيدة مع كائنات جديدة ، حيث أن نتائج مثل هذه التفاعلات عادة ما تكون أكثر صعوبة في التنبؤ من جوانب أخرى من البيئة.
حاولنا ، مثل
الباحثين الآخرين ، تجنب نمذجة جميع جوانب البيئة ، بغض النظر عما إذا كانت ذات صلة أم لا ، باختيار ميزات المراقبة للنمذجة. من المدهش أننا وجدنا أنه حتى الوظائف العشوائية تعمل بشكل جيد.
ماذا تفعل العوامل الغريبة؟
اختبرنا وكيلنا في أكثر من 50 بيئة مختلفة ولاحظنا مجموعة من الكفاءات من الإجراءات التي تبدو عشوائية إلى التفاعل الواعي مع البيئة. لدهشتنا ، في بعض الحالات ، تمكن الوكيل من تجاوز اللعبة ، على الرغم من أنه لم يتم إبلاغه بالهدف من خلال مكافأة خارجية.
الأجر الداخلي في بداية التدريب القفزة في المكافأة الداخلية عند مرور المستوى الأولالاختراق - يقفز في المكافأة الداخلية عندما يرى الوكيل تكوينًا جديدًا للكتل في مرحلة مبكرة من التدريب وعندما يمر المستوى للمرة الأولى بعد التدريب لعدة ساعات.
بونغ - قمنا بتدريب الوكيل للتحكم في كلتا المنصتين في وقت واحد ، وتعلم الحفاظ على الكرة في اللعبة ، مما أدى إلى معارك طويلة. حتى عند التدريب ضد الذكاء الاصطناعي داخل اللعبة ، حاول الوكيل تعظيم اللعبة وليس الفوز.
البولينج - تعلم الوكيل لعب اللعبة بشكل أفضل من الوكلاء الآخرين الذين تم تدريبهم مباشرة لزيادة المكافأة الخارجية. نعتقد أن هذا يحدث لأن العامل ينجذب بسبب الوميض الذي يصعب التنبؤ به على لوحة النتائج بعد الرميات.
ماريو - المكافأة الداخلية تتماشى بشكل جيد مع هدف اللعبة: مستوى التقدم. يكافأ الوكيل عن البحث عن مناطق جديدة ، حيث لا يمكن توقع تفاصيل المنطقة المكتشفة حديثًا. ونتيجة لذلك ، اكتشف الوكيل 11 مستوى ، ووجد غرفًا سرية بل وهزم الزعماء.
قضية تلفزيون صاخبة
بصفته مقامرًا على آلة قمار ، تنجذب إليها نتائج عشوائية ، يقع الوكيل أحيانًا في فخ فضوله نتيجة "لمشكلة التلفزيون الصاخبة". يجد الوكيل مصدرًا للعشوائية في البيئة ويستمر في ملاحظتها ، ويواجه دائمًا مكافأة داخلية عالية لمثل هذه التحولات. مثال على هذا الفخ هو مشاهدة التلفزيون الذي ينتج ضوضاء ثابتة. نحن نوضح ذلك حرفياً بوضع الوكيل في متاهة الوحدة بتلفاز يقوم بتشغيل قنوات عشوائية.
وكيل في متاهة مع تلفزيون صاخب وكيل في متاهة بدون تلفزيون صاخبمن الناحية النظرية ، مشكلة التلفزيون الصاخب خطيرة حقًا ، لكننا ما زلنا نتوقع أنه في بيئات حتمية مثل انتقام مونتيزوما ، قد يؤدي الفضول إلى العثور على غرف والتفاعل مع الأشياء. لقد جربنا عدة خيارات للتنبؤ بالحالة التالية استنادًا إلى الفضول ، بالجمع بين مكافأة البحث وحساب اللعبة.
في هذه التجارب ، يتحكم الوكيل في البيئة من خلال وحدة تحكم في الضوضاء ، والتي مع بعض الاحتمالات تكرر الإجراء الأخير بدلاً من الإجراء الحالي. تم
اقتراح هذا الإعداد مع الإجراءات "اللزجة" القابلة للتكرار كأفضل ممارسة لوكلاء التدريب في الألعاب القطعية تمامًا ، مثل Atari ، لمنع الحفظ. تجعل الإجراءات "اللزجة" الانتقال من غرفة إلى غرفة غير متوقعة.
تقطير عشوائي للشبكة
نظرًا لأن التنبؤ بالحالة التالية عرضة بطبيعتها لمشكلة التلفزيون الصاخب ، فقد حددنا المصادر التالية ذات الصلة بأخطاء التنبؤ:
- العامل 1 . يكون خطأ التنبؤ مرتفعًا إذا فشل المتنبئ في التعميم من الأمثلة التي سبق النظر فيها. تتوافق التجربة الجديدة مع خطأ تنبؤي مرتفع.
- العامل 2 . خطأ التنبؤ مرتفع بسبب هدف التنبؤ العشوائي.
- العامل 3 . خطأ التنبؤ مرتفع بسبب نقص المعلومات اللازمة للتنبؤ ، أو لأن فئة نموذج التنبؤ محدودة للغاية بحيث لا تتناسب مع تعقيد وظيفة الهدف.
قررنا أن العامل 1 هو مصدر مفيد للأخطاء لأنه يحدد حداثة التجربة ، بينما يؤدي العاملان 2 و 3 إلى مشكلة التلفزيون الصاخب. لتجنب العوامل 2 و 3 ، قمنا بتطوير RND - مكافأة بحثية جديدة تستند إلى
التنبؤ بإصدار شبكة عصبية ثابتة ومبدئية بشكل عشوائي في الحالة التالية ، مع مراعاة الحالة التالية نفسها .

يقترح الحدس أن النماذج التنبؤية لديها خطأ منخفض في التنبؤ بالظروف التي تم تدريبها فيها. على وجه الخصوص ، ستكون تنبؤات الوكيل حول إصدار شبكة عصبية تم تهيئتها عشوائيًا أقل دقة في الولايات الجديدة عنها في الحالات التي التقى بها الوكيل غالبًا من قبل. تتمثل ميزة استخدام مشكلة التنبؤ الاصطناعي في أنه يمكن أن تكون حتمية (تجاوز العامل 2) ، وضمن فئة الوظائف ، يمكن للمتنبئ أن يختار متنبئًا لنفس البنية مثل الشبكة المستهدفة (تجاوز العامل 3). هذا يزيل مشكلة RND للتلفزيون الصاخب.
لقد قمنا بدمج مكافأة البحث مع المكافآت الخارجية من خلال شكل من أشكال التحسين لأقرب سياسة -
تحسين السياسات القريب (
PPO ) ، والذي يستخدم
قيمتين قيمتين لتدفقين للمكافأة . يسمح لك هذا باستخدام خصومات مختلفة للحصول على مكافآت مختلفة والجمع بين المكافآت العرضية وغير العرضية.
نظرًا لهذه المرونة الإضافية ، غالبًا ما يجد أفضل وكيلنا 22 غرفة من 24 غرفة في المستوى الأول في انتقام مونتيزوما ، وأحيانًا يمر المستوى الأول بعد العثور على الغرفتين المتبقيتين. توضح الطريقة نفسها الأداء القياسي في ألعاب Venture و Gravitar.

يعرض الرسم البياني أدناه رسمًا بيانيًا للمكافأة الداخلية في حلقة الانتقام من مونتيزوما ، حيث يجد الوكيل الشعلة أولاً.

التنفيذ الكفء مهم
لتحديد خوارزمية جيدة ، من المهم مراعاة الاعتبارات العامة ، مثل القابلية لمشكلة التلفزيون الصاخب. ومع ذلك ، وجدنا أن التغييرات التي تبدو صغيرة جدًا في الخوارزمية البسيطة لدينا تؤثر بشكل كبير على فعاليتها: من وكيل لا يمكنه مغادرة الغرفة الأولى إلى وكيل يمر بالمستوى الأول. لزيادة الاستقرار في التدريب ، تجنبنا تشبع الصفات وجلبنا المكافآت الداخلية إلى نطاق يمكن التنبؤ به. لاحظنا أيضًا
تحسينات كبيرة في فعالية RND في كل مرة وجدنا فيها خطأ وأصلحناه (وشملت المفضلة لدينا التصفير العشوائي للصفيف ، مما أدى إلى حقيقة أن المكافآت الخارجية كانت تعتبر غير عرضية ؛ أدركنا ذلك فقط بعد التفكير في وظيفة القيمة الخارجية ، التي بدت بشكل مثير للريبة). أصبح تصحيح هذه التفاصيل جزءًا مهمًا من تحقيق الأداء العالي حتى عند استخدام الخوارزميات المشابهة لمفهوم العمل السابق. هذا هو أحد الأسباب التي تجعل من الأفضل اختيار خوارزميات بسيطة كلما أمكن ذلك.
العمل في المستقبل
نقدم المجالات التالية لمزيد من البحث:
- تحليل مزايا طرق البحث المختلفة والبحث عن طرق جديدة لدمجها.
- تدريب وكيل فضولي في العديد من البيئات المختلفة بدون مكافآت وتعلم الانتقال إلى بيئة مستهدفة بالمكافآت.
- الذكاء العالمي ، بما في ذلك الحلول المنسقة على مدى آفاق زمنية طويلة.