
ينقسم التعلم المعزز إلى فئتين كبيرتين: خالية من النماذج ومستندة إلى النموذج. في الحالة الأولى ، يتم تحسين الإجراءات مباشرةً من خلال إشارة المكافأة ، وفي الحالة الثانية ، تعتبر الشبكة العصبية مجرد نموذج للواقع ، ويتم تحديد الإجراءات المثلى باستخدام جدولة خارجية. كل نهج له مزاياه وعيوبه.
قدم مطورو برامج Berkeley و Google Brain خوارزمية PDDM المستندة إلى الطراز مع برنامج جدولة مُحسّن ، مما يتيح لك تعلم الحركات المعقدة بفعالية مع عدد كبير من درجات الحرية في عدد صغير من الأمثلة. لتعلم كيفية تدوير الكرات في ذراع آلية بمفاصل إصبع واقعية مع 24 درجة من الحرية ، استغرق الأمر 4 ساعات فقط من التدريب على روبوت فعلي حقيقي.
تعزيز التعلم هو تدريب الروبوتات مع إشارة مكافأة. هذا مشابه لكيفية تعلم الكائنات الحية. لكن المشكلة معقدة بسبب حقيقة أنه من غير المعروف كيفية تغيير أوزان الشبكة العصبية بحيث تؤدي أفعالها المقترحة إلى زيادة في المكافآت. لذلك ، في التعلم التعزيز ، أساليب التدريب الشبكة العصبية التقليدية ليست مناسبة. بعد كل شيء ، لا يُعرف بالضبط ما الذي يجب أن تعطيه عند خروجها ، مما يعني أنه من المستحيل العثور على خطأ بين تنبؤها والحالة الحقيقية للأشياء. لتخطي هذا الاختلاف مرة أخرى عبر طبقات الشبكة العصبية وتغيير الأوزان بين الخلايا العصبية لتقليل هذا الخطأ. هذه هي خوارزمية انتشار الظهر الكلاسيكية التي تدرسها الشبكات العصبية.
لذلك ، ابتكر العلماء عدة طرق لحل هذه المشكلة.
نموذج خالية
أحد الأساليب الأكثر فاعلية هو نموذج الممثل الناقد. اسمح لشبكة عصبية واحدة (ممثل) في مدخلاتها باستلام حالة بيئة الحالة ، وفي الخرج ، قم بإصدار إجراءات من شأنها أن تؤدي إلى زيادة مكافآت المكافآت. حتى الآن ، هذه الإجراءات عشوائية وتعتمد ببساطة على تدفق الإشارة داخل الشبكة ، لأن الشبكة العصبية لم يتم تدريبها بعد. والشبكة العصبية الثانية (الناقد) ، دع الإدخال يستقبل أيضًا حالة بيئة الحالة ، ولكن أيضًا الإجراءات من إخراج الشبكة الأولى. وفي المخرجات ، دع مكافأة المكافأة المتوقعة فقط ، والتي سيتم تلقيها إذا تم تطبيق هذه الإجراءات.
راقب يديك الآن: لا نعرف أفضل الإجراءات التي يجب أن تكون عند إخراج الشبكة الأولى ، مما يؤدي إلى زيادة المكافأة. لذلك ، باستخدام خوارزمية الانتشار الخلفي ، لا يمكننا تدريبه. ولكن يمكن للشبكة العصبية الثانية أن تتنبأ بالقيمة الدقيقة لمكافأة المكافأة (أو بالأحرى تغييرها عادة) ، والتي ستتلقاها إذا تم تطبيق الإجراءات الآن. لذلك دعونا نأخذ تدرج تغيير الخطأ من الشبكة الثانية ، ونطبقها على الأول! حتى تتمكن من تدريب أول شبكة عصبية عن طريق الأسلوب الكلاسيكي للانتشار الخلفي للخطأ. نحن ببساطة نأخذ الخطأ ليس من مخرجات الشبكة الأولى ، ولكن من مخرجات الثانية.
نتيجة لذلك ، تتعلم أول شبكة عصبية إصدار الإجراءات المثالية التي تؤدي إلى زيادة المكافآت. لأنه إذا ارتكب الناقد خطأ وتنبأ بمكافأة أصغر مما اتضح أنه في الواقع ، فإن تدرج هذا الاختلاف سيحرك تصرفات الممثل في الاتجاه بحيث يتنبأ الناقد بالمكافأة. وهذا يعني اتخاذ المزيد من الإجراءات المثلى (بعد كل شيء ، سوف تؤدي إلى حقيقة أن الناقد يتوقع بدقة جائزة أعلى). يعمل مبدأ مشابه في الاتجاه المعاكس: إذا بالغ الناقد في تقدير المكافأة المتوقعة ، فإن الفرق بين التوقع والواقع سيقلل من مخرجات تصرفات الشبكة العصبية الأولى ، مما أدى إلى إشارة المكافأة المبالغة في الشبكة الثانية.
كما ترون ، في هذه الحالة ، يتم تحسين الإجراءات مباشرةً من خلال إشارة المكافأة. هذا هو جوهر مشترك لجميع الخوارزميات خالية من النماذج في تعزيز التعلم. هم الدولة من بين الفن في الوقت الراهن.
ميزتهم هي أن الإجراءات المثلى يتم السعي إليها بواسطة تدرج النسب ، وبالتالي ، في النهاية ، يتم العثور على الإجراءات المثلى. مما يعني إظهار أفضل نتيجة. ميزة أخرى هي القدرة على استخدام الشبكات العصبية الصغيرة (وبالتالي أسرع للتعلم). إذا كان من بين العوامل البيئية المتنوعة الكاملة ، فإن بعض العوامل المحددة لها دور أساسي في حل المشكلة ، فإن النسب المتدرج قادر تمامًا على تحديدها. واستخدامها لحل المشكلة. ضمنت هاتان الميزتان النجاح بطرق مباشرة خالية من النماذج.
ولكن لديهم أيضا عيوب. نظرًا لأن الإجراءات يتم تدريسها مباشرةً بواسطة إشارة المكافأة ، فهناك حاجة إلى العديد من الأمثلة التدريبية. عشرات الملايين ، حتى في الحالات البسيطة للغاية. انهم يعملون بشكل سيء في المهام مع عدد كبير من درجات الحرية. إذا لم تنجح الخوارزمية على الفور في تحديد العوامل الرئيسية بين المشهد ذي البعد العالي ، فعلى الأرجح لن تتعلم على الإطلاق. كما يمكن للطرق الخالية من النماذج أن تستغل نقاط الضعف في النظام ، مع التركيز على العمل غير الأمثل (إذا كان النسب المتدرج يتقارب عليه) ، متجاهلاً العوامل البيئية الأخرى. بالنسبة للمهام المختلفة تمامًا الخالية من النماذج ، يجب تدريب الأساليب بالكامل مرة أخرى.
نموذج القائم
تختلف الطرق المعتمدة على النماذج في التعلم المعزز بشكل أساسي عن النهج الموصوف أعلاه. في النموذج القائم ، تتوقع الشبكة العصبية فقط ما سيحدث بعد ذلك. لا تقدم أي إجراء. وهذا هو ، ببساطة هو نموذج للواقع (ومن هنا جاءت "النموذج" - اسمها في الاسم). وليس نظام صنع القرار على الإطلاق.
يتم تغذية الشبكات العصبية المستندة إلى النموذج بالحالة الحالية لبيئة الحالة والإجراءات التي نريد القيام بها. وتتوقع الشبكة العصبية كيف ستتغير الحالة في المستقبل بعد تطبيق هذه الإجراءات. يمكنها أيضًا أن تتوقع المكافأة التي ستكون نتيجة لهذه الإجراءات. لكن هذا ليس ضروريًا ، حيث يمكن عادةً حساب المكافأة من حالة معروفة جيدًا. علاوة على ذلك ، يمكن تغذية حالة الإخراج هذه بإدخال الشبكة العصبية (جنبًا إلى جنب مع الإجراءات المقترحة الجديدة) ، وبالتالي التنبؤ بالتغييرات في البيئة الخارجية بشكل متكرر العديد من الخطوات إلى الأمام.
الشبكات العصبية القائمة على النماذج سهلة التعلم. لأنها تتنبأ ببساطة كيف سيتغير العالم ، دون تقديم أي اقتراحات ينبغي أن تكون الإجراءات المثلى من أجل زيادة المكافأة. لذلك ، تستخدم الشبكة العصبية المستندة إلى النماذج جميع الأمثلة الموجودة لتدريبها ، وليس فقط تلك التي تؤدي إلى زيادة أو نقصان في المكافآت ، كما هو الحال في النموذج المجاني. هذا هو السبب في أن الشبكات العصبية المستندة إلى النموذج تحتاج إلى أمثلة تدريب أقل بكثير.
العيب الوحيد هو أن الشبكة العصبية القائمة على النموذج يجب أن تدرس الديناميات الحقيقية للنظام ، وبالتالي ينبغي أن يكون لديها سعة كافية لذلك. يمكن لشبكة عصبية خالية من النماذج أن تتقارب مع العوامل الرئيسية ، متجاهلة البقية ، وبالتالي تكون شبكة بسيطة صغيرة (إذا تم حل المهمة من حيث المبدأ عن طريق موارد أقل).
ومن المزايا الأخرى الرائعة ، بالإضافة إلى التدريب على عدد أقل من الأمثلة ، أنه كنموذج عالمي في العالم ، يمكن استخدام شبكة عصبية واحدة قائمة على النماذج لحل أي عدد من المشكلات في هذا العالم.
المشكلة الرئيسية في النهج القائم على النموذج هي الإجراءات التي ينبغي تطبيقها على مدخلات الشبكات العصبية؟ بعد كل شيء ، فإن الشبكة العصبية نفسها لا تقدم أي إجراءات مثالية.
أسهل طريقة هي القيادة عبر هذه الشبكة العصبية عشرات الآلاف من الإجراءات العشوائية واختيار تلك التي ستتوقع الشبكة العصبية لها أكبر مكافأة. هذا هو التعلم القائم على النموذج الكلاسيكي التعزيز. ومع ذلك ، مع وجود أبعاد كبيرة وسلاسل زمنية طويلة ، يتضح أن عدد الإجراءات المحتملة أكبر من أن يتم فرزها جميعًا (أو حتى تخمين ما لا يقل عن المستوى الأمثل).
لهذا السبب ، تكون الأساليب المستندة إلى النماذج عادةً أدنى من النماذج الخالية من النماذج ، والتي تتحد بشكل مباشر عن طريق التدرج اللوني إلى الإجراءات المثلى.
الإصدار المحسّن المطبق على حركات الروبوتات ليس استخدام الإجراءات العشوائية ، ولكن للحفاظ على الحركة السابقة ، مع إضافة العشوائية إلى التوزيع الطبيعي. بما أن حركات الروبوتات عادة ما تكون سلسة ، فإن هذا يقلل من عدد التماثيل. ولكن في الوقت نفسه ، يمكن تفويت تغيير حاد حاد.
يمكن اعتبار خيار التطوير النهائي لهذا النهج هو خيار CEM ، الذي لا يستخدم توزيعًا طبيعيًا ثابتًا يقدم العشوائية في مسار الإجراءات الحالي ، ولكنه يحدد معلمات التوزيع العشوائي باستخدام الانتروبيا المتقاطعة. للقيام بذلك ، يتم إطلاق مجموعة من العمليات الحسابية وتستخدم أفضلها لتحسين انتشار المعلمات في الجيل التالي. شيء مثل الخوارزمية التطورية.
PDDM
هناك حاجة إلى مقدمة طويلة من هذا القبيل لشرح ما يحدث في خوارزمية التعلم التعزيز القائم على نموذج PDDM المقترحة الجديدة. بعد قراءة مقال على مدونة بيركلي لمنظمة العفو الدولية (أو نسخة موسعة ) ، وحتى المقال الأصلي arxiv.org/abs/1909.11652 ، ربما لم يكن هذا واضحًا.
تكرر طريقة PDDM فكرة CEM عند اختيار الإجراءات العشوائية التي يجب تشغيلها من خلال شبكة عصبية قائمة على النماذج من أجل تحديد الإجراءات بأعلى مكافأة يمكن التنبؤ بها. بدلاً من تحديد معلمات التوزيع العشوائي ، كما هو الحال في CEM ، يستخدم PDDM ارتباطًا مؤقتًا بين الإجراءات وقاعدة أكثر ليونة لتحديث التوزيع العشوائي. يتم إعطاء الصيغة في المقالة الأصلية. يتيح لك ذلك التحقق من عدد أكبر من الإجراءات المناسبة عبر مسافات زمنية طويلة ، خاصة إذا كانت الحركات تتطلب تنسيقًا دقيقًا. بالإضافة إلى ذلك ، يقوم مؤلفو الخوارزمية بترشيح المرشحين لاتخاذ الإجراءات ، وبالتالي الحصول على مسار أكثر سلاسة للحركات.
ببساطة ، اقترح المطورون ببساطة صيغة أفضل لاختيار الإجراءات العشوائية للاختبار في التعلم المعزز القائم على النموذج الكلاسيكي.
لكن النتيجة كانت جيدة جدا.
في 4 ساعات فقط من التدريب على روبوت حقيقي ، تعلم روبوت به 24 درجة من الحرية حمل كرتين وتدويرهما في راحة اليد دون إسقاطهما. نتيجة غير قابلة للتحقيق لأي أساليب حديثة خالية من النماذج مع عدد قليل من الأمثلة.
ومن المثير للاهتمام ، أنه لأغراض التدريب ، استخدموا ذراعًا روبوتًا ثانيًا به 7 درجات من الحرية ، والتي التقطت الكرات المنسدلة وأعادتها إلى ذراع الروبوت الرئيسية:

نتيجة لذلك ، بعد 1-2 ساعات ، تمكنت roboruk من حمل الكرات بثقة ونقلها في راحة يدها ، وكانت 4 ساعات كافية للتدريب الكامل.

إيلاء الاهتمام لحركات الوخز في الأصابع. هذه هي ميزة النهج القائمة على النموذج. نظرًا لأن الإجراءات المقصودة يتم اختيارها عشوائيًا ، فإنها لا تتوافق دائمًا مع الإجراءات المثلى. يمكن أن تتقارب الخوارزمية الخالية من النماذج مع حركات سلسة مثالية حقًا.
ومع ذلك ، فإن النهج القائم على نموذج يسمح مع شبكة عصبية واحدة مدربة النمذجة العالم لحل المشاكل المختلفة دون إعادة التدريب. هناك العديد من الأمثلة في المقالة ، على سبيل المثال ، يمكنك بسهولة تغيير اتجاه دوران الكرات في اليد (في النموذج المجاني ، سيتعين عليك إعادة تدريب الشبكة العصبية لهذا). أو أمسك الكرة عند نقطة معينة في راحة يدك ، بعد النقطة الحمراء.

يمكنك أيضًا جعل Roboruk يرسم مسارات تعسفية بقلم رصاص ، وتعلم أن الأساليب الخالية من النماذج مهمة صعبة للغاية.

على الرغم من أن الخوارزمية المقترحة ليست حلاً سحريًا ، وليست خوارزمية AI بالمعنى الكامل للكلمة (في PDDM ، فإن الشبكة العصبية تحل ببساطة محل النموذج التحليلي ، ويتم اتخاذ القرارات من خلال البحث العشوائي مع قاعدة صعبة تقلل من عدد تعداد الخيارات). لأنه أظهر تحسنا ملحوظا في النتائج وتم تدريبه على عدد قليل جدا من الأمثلة.