مرحبا بالجميع!
لدينا واحدة من أفضل الكتب حول التدريب على التعزيز المتاحة لما قبل التسجيل ، والتي كانت تسمى في الأصل "
التدريب العملي على تعلم التعزيز العميق " للمكسيم لابان. هنا هو غلاف
الترجمة الروسية :

حتى تتمكن من تقدير ملخص الكتاب ، نقدم لك ترجمة للمراجعة التي كتبها المؤلف إلى الأصل.
تحية!
أنا متحمس لعلم النفس الذي يحرص على التعلم العميق. لذلك ، عندما اتصل بي ممثلو دار نشر Packt واقترحوا كتابًا عمليًا عن الحالة الراهنة للتعلم العميق مع التعزيز ، كنت خائفًا بعض الشيء ، لكن بعد بعض التردد ، وافقت ، بافتراض متفائل: "أوه ، ستكون هناك تجربة مثيرة للاهتمام."
لن أقول إن هذا العمل قد أعطاني كمسيرة سهلة ، بالطبع لا. لا يوجد لديك إجازة ، لا وقت فراغ ، خوف دائم من "غباء التجمد" والسعي إلى تحديد مواعيد نهائية لكل فصل (أسبوعان لكل فصل ورمز مثال). ومع ذلك ، بشكل عام ، ذهب كل شيء بشكل إيجابي ومثير للاهتمام للغاية.
قبل أن تصف بإيجاز محتويات كل فصل ، دعونا نصف
فكرة الكتاب كله .
عندما بدأت تجريب RL منذ أكثر من أربع سنوات ، كان لديّ تحت تصرفي مصادر المعلومات التالية:
ربما كان هناك شيء آخر ، لكن هذه كانت أهم مصادر المعلومات. كلهم بعيدون عن الممارسة:
- يوفر كتاب Sutton و Barto ، المعروف أيضًا باسم "كتاب RL" ، الأسس النظرية لهذا التخصص فقط.
- يتم نشر المقالات المتعلقة بـ RL يوميًا تقريبًا ، ولكن نادرًا ما تحتوي على روابط لرمز معين. الصيغ والخوارزميات فقط. إذا كنت محظوظًا ، فسيتم توضيح المعلمات المفرطة.
- تم تدريس دورة ديفيد سيلفر في جامعة لندن الجامعية (UCL) في عام 2015. إنها تعطي نظرة عامة جيدة جدًا على الطرق التي كانت موجودة في ذلك الوقت ، مما يسمح لها بالتمكن من إتقانها بشكل حدسي ، ومع ذلك ، تسود النظرية مجددًا على الممارسة.
في الوقت نفسه ، كنت
مدمنًا على
المقالة DeepMind ("يمكن لشبكة عصبية أن تتعلم ممارسة ألعاب Atari بالبكسل! نجاح باهر!") ، وشعرت أن هذه النظرية الجافة تخفي قيمة عملية هائلة. لذلك ، قضيت الكثير من الوقت في دراسة النظرية ، وتنفيذ الأساليب المختلفة وتصحيحها. كما ربما كنت تفكر ، لم يكن الأمر سهلاً: يمكنك قضاء أسبوعين في تشذيب الطريقة ومن ثم اكتشاف أن تطبيقك غير صحيح (أو حتى أنك أسيء فهم الصيغة). لا أعتبر هذا التدريب مضيعة للوقت - على العكس من ذلك ، أعتقد أن هذه هي الطريقة الصحيحة لتعلم شيء ما. ومع ذلك ، هذا يستغرق الكثير من الوقت.
بعد عامين ، عندما بدأت العمل على النص ، كان هدفي الرئيسي هو: تقديم معلومات عملية شاملة حول أساليب RL إلى القارئ الذي كان على دراية بهذا الانضباط المذهل - كما فعلت سابقًا.
الآن قليلا عن الكتاب. يركز بشكل أساسي على الممارسة ، وحاولت تقليل حجم النظرية والصيغ. أنه يحتوي على الصيغ الرئيسية ، ولكن لم يتم تقديم أي دليل. في الأساس ، أحاول أن أقدم فهمًا بديهيًا لما يحدث ، وليس السعي إلى أقصى درجات الدقة في العرض التقديمي.
في الوقت نفسه ، من المفترض أن يكون للقارئ معرفة أساسية بالتعلم والإحصاءات العميقة. يوجد فصل في الكتاب يتضمن نظرة عامة على مكتبة PyTorch (نظرًا لأن جميع الأمثلة مذكورة باستخدام PyTorch) ، ولكن لا يمكن اعتبار هذا الفصل مصدرًا مكتفيًا ذاتيًا للمعلومات على الشبكات العصبية. إذا لم يسبق لك أن سمعت عن وظائف الخسارة والتفعيل من قبل ، فابدأ بالنظر إلى كتب أخرى ، فهناك الكثير اليوم. (ملاحظة الخط: على سبيل المثال ، كتاب "
التعلم العميق ").
في كتابي ستجد الكثير من الأمثلة على تعقيد متفاوت ، بدءًا
CrossEntropy
(
CrossEntropy
طريقة
CrossEntropy
في بيئة
CartPole
على حوالي 100 سطر في بيثون) ، تنتهي بمشاريع كبيرة إلى حد ما ، على سبيل المثال ، تعلم AlphGo Zero أو وكيل RL للتداول في البورصة.
تم تحميل نموذج التعليمة البرمجية بالكامل إلى GitHub ، وهناك أكثر من 14 ألف سطر من التعليمات البرمجية في Python.
يتكون الكتاب من 18 فصلاً تغطي أهم جوانب التعلم العميق الحديث مع التعزيز:
- الفصل الأول : يقدم معلومات تمهيدية عن نموذج التعلم المعزز ، ويوضح كيف يختلف عن التعلم مع المعلم أو بدونه. هنا نعتبر النموذج الرياضي المركزي المتعلق بالتعلم المعزز: عمليات صنع القرار في ماركوف: (MPPR). تم التعرف على MPNR خطوة بخطوة: أتحدث عن سلاسل Markov ، والتي يتم تحويلها إلى عمليات Markov للتعزيز (مع إضافة عنصر من عناصر التعزيز) ، وأخيراً ، إلى عمليات صنع القرار Markov الكاملة ، حيث يتم أيضًا اتخاذ إجراءات الوكيل في الاعتبار في الصورة الشاملة.
- الفصل الثاني : محادثات حول OpenAI Gym ، واجهة برمجة تطبيقات عامة ل RL ، مصممة للعمل في مجموعة متنوعة من البيئات ، بما في ذلك Atari ، وحل المشكلات الكلاسيكية ، مثل CartPole ، ومهام التعلم المستمر ، إلخ.
- الفصل 3 : يعطي نظرة عامة صريحة على PyTorch API. لم يكن المقصود من هذا الفصل كدليل كامل ل DL ، ومع ذلك ، فإنه يضع الأساس لفهم فصول أخرى. إذا كنت تستخدم أدوات أخرى لحل مشكلات التعلم العميق ، فيجب أن تكون مقدمة جيدة لنموذج PyTorch الجميل ، بحيث يسهل عليك فهم الأمثلة من الفصول التالية. في نهاية هذا الفصل ، سنقوم بتعليم GAN بسيط يقوم بإنشاء وتمييز لقطات Atari من الألعاب المختلفة.
- الفصل 4 : يفحص أحد أبسط وأقوى الطرق: CrossEntropy. في هذا الفصل ، سنعلمك أول شبكة يمكنها حل المشكلات في بيئة CartPole .
- الفصل الخامس : يبدأ هذا الفصل في الجزء الثاني من كتاب خوارزمية التكرار للقيم. يناقش الفصل 5 طريقة بسيطة للتدريب على جداول البيانات باستخدام معادلة Bellman لحل المشكلات في بيئة FrozenLake .
- الفصل 6 : يقدم هذا الفصل لك DQNs التي تلعب لعبة أتاري. الهندسة المعمارية للعميل هو نفسه كما هو الحال في المادة الشهيرة DeepMind .
- الفصل السابع : يقدم العديد من امتدادات DQN الحديثة للمساعدة في تحسين استقرار وأداء DQN الأساسي. في هذا الفصل ، الأساليب من مقالة " قوس قزح: الجمع بين التحسينات في Deep RL " ؛ يتم تطبيق كل هذه الأساليب في الفصل ، وأشرح الأفكار التي تقوم عليها. هذه الطرق هي: N- الخطوة DQN ، DQN المزدوج ، شبكات صاخبة ، المخزن المؤقت التشغيل الأولوية ، شبكات المبارزة وشبكات الفئة. في نهاية الفصل ، يتم دمج جميع الأساليب في مثال شائع ، تمامًا كما في "مقالة قوس قزح".
- الفصل 8 : يصف أول مشروع متوسط الحجم ، يوضح الجانب العملي لـ RL في حل مشاكل العالم الحقيقي. في هذا الفصل ، باستخدام DQN ، يتم تدريب الوكيل على أداء العمليات في البورصة.
- الفصل التاسع : يبدأ هذا الفصل في الجزء الثالث من كتاب تقنيات التدرج السياسي. وفيه نتعرف على مثل هذه الأساليب ، ونقاط القوة والضعف لديها مقارنة بأساليب التعداد حسب القيم المذكورة أعلاه بالفعل. الطريقة الأولى في هذه العائلة تدعى REINFORCE.
- الفصل 10 : يصف كيفية التعامل مع واحدة من أخطر مشاكل RL: تقلب تدرج السياسة. بعد تجربة مستويات PG الأساسية ، ستصبح على دراية بطريقة الممثل الناقد.
- الفصل 11 : يتحدث عن كيفية موازاة طريقة الناقد الفاعل على الأجهزة الحديثة.
- الفصل 12 : مثال عملي ثانٍ يصف كيفية حل المشكلات المرتبطة بمعالجة اللغة الطبيعية. في هذا الفصل ، نقوم بتدريس chatbot بسيط لاستخدام أساليب RL على المواد من مربع الحوار سينما كورنيل .
- الفصل 13 : مثال عملي آخر على أتمتة الويب: يستخدم MiniWoB كمنصة. لسوء الحظ ، رفض OpenAI استخدام MiniWoB ، لذلك من الصعب العثور على معلومات عنه (فيما يلي بعض الحبوب). لكن فكرة MiniWoB رائعة ، لذلك في هذا الفصل أشرح كيفية تكوين وتدريب الوكيل لحل بعض المشاكل المرتبطة به.
- الفصل 14 : يبدأ الجزء الأخير والرابع من الكتاب ، المكرس لأساليب وتقنيات أكثر تطوراً ، به. يركز الفصل 14 على مهام الإدارة المستمرة ويصف طرق A3C و DDPG و D4PG لحل المشكلات في بعض بيئات PyBullet.
- الفصل 15 : يتحدث أكثر عن مشكلات الإدارة المستمرة ويقدم لك ظاهرة منطقة Trust باستخدام TRPO و PPO و ACKTR كأمثلة.
- الفصل 16 : مخصص لأساليب التدريس مع التعزيز دون التدرجات (العمل على مبدأ "الصندوق الأسود") ؛ يتم وضعهم كبدائل أكثر قابلية للتطوير لطرق DQN و PG. يتم تطبيق الاستراتيجيات التطورية والخوارزميات الجينية هنا لحل العديد من مشكلات التحكم المستمر.
- الفصل 17 : يفحص أساليب RL المستندة إلى الطراز ويصف محاولة DeepMind لملء الفجوة بين الأساليب المستندة إلى النماذج وغير المستندة إلى النموذج. ينفذ هذا الفصل وكيل I2A لـ Breakout.
- الفصل 18 : يناقش الفصل الأخير من الكتاب طريقة AlphaGo Zero المستخدمة عند تشغيل Connect4. ثم يتم استخدام الوكيل النهائي كجزء من برقية التلغ للتحقق من النتائج.
هذا كل شئ! أتمنى أن تستمتع بالكتاب.