تعزيز التعلم أم الاستراتيجيات التطورية؟ - كل ذلك ، وآخر

مرحبا يا هبر!

نادرًا ما نقرر نشر ترجمات للنصوص هنا قبل عامين ، بدون رمز وتركيز أكاديمي واضح - لكن اليوم سنستثنى من ذلك. نأمل أن تكون المعضلة الموجودة في عنوان المقال مصدر قلق لكثير من قرائنا ، وأنك قد قرأت بالفعل العمل الأصلي أو ستقرأ العمل الأساسي بشأن الاستراتيجيات التطورية التي تمت مناقشتها بهذا المنشور. مرحبا بكم في القط!



في مارس 2017 ، أثارت OpenAI ضجة في مجتمع التعلم العميق من خلال نشر مقال " استراتيجيات التطور كبديل قابل للتطوير لتعزيز التعلم ". في هذا العمل ، تم وصف نتائج رائعة لصالح حقيقة أن الضوء لم يتقارب في التدريب مع التعزيز (RL) ، وينصح بتجربة طرق أخرى عند تدريب الشبكات العصبية المعقدة. ثم نشأ نقاش حول أهمية التعلم المعزز والمقدار الذي يستحق فيه وضع التكنولوجيا "الإلزامية" في تعلم حل المشكلات. أريد هنا أن أتحدث عن حقيقة أنه لا ينبغي عليك اعتبار هاتين التقنيتين منافسين ، أحدهما أفضل بشكل واضح من الآخر ؛ على العكس من ذلك ، فهي تكمل بعضها البعض في نهاية المطاف. في الواقع ، إذا كنت تفكر قليلاً في ما هو مطلوب لإنشاء الذكاء الاصطناعى المشترك وتلك الأنظمة التي من خلال وجودها ستكون قادرة على التعلم والحكم والتخطيط ، فسوف نتوصل بالتأكيد إلى أن هذا الحل المشترك أو ذاك سيكون مطلوبًا . بالمناسبة ، كانت الطبيعة هي التي توصلت إلى حل مشترك ، وهبها الذكاء المعقد للثدييات وغيرها من الحيوانات العليا أثناء التطور.

الاستراتيجيات التطورية


كانت الأطروحة الرئيسية لمقال OpenAI أنه بدلاً من استخدام تعلم التعزيز جنبًا إلى جنب مع backpropagation التقليدي ، نجحوا في تدريب الشبكة العصبية على حل المشكلات المعقدة باستخدام ما يسمى "الإستراتيجية التطورية" (ES). يتمثل نهج ES هذا في الحفاظ على توزيع قيم الوزن على مقياس الشبكة ، حيث يعمل العديد من الوكلاء بشكل متوازٍ ويستخدمون المعلمات المحددة من هذا التوزيع. يعمل كل وكيل في بيئته الخاصة ، وعند الانتهاء من عدد معين من الحلقات أو مراحل الحلقة ، تُرجع الخوارزمية مكافأة كاملة ، معبراً عنها كنقاط للياقة البدنية. بالنظر إلى هذه القيمة ، يمكن تحويل توزيع المعلمات إلى وكلاء أكثر نجاحًا ، مما يحرم العوامل الأقل نجاحًا. ملايين المرات تكرار مثل هذه العملية التي تضم مئات من الوكلاء ، من الممكن نقل توزيع الأوزان إلى حيز يسمح لنا بصياغة سياسة الجودة للوكلاء لحل مهمتهم. في الواقع ، فإن النتائج الواردة في المقالة رائعة: حيث أنه إذا قمت بتشغيل ألف عامل على التوازي ، فيمكن دراسة حركة مجسم على قدمين في أقل من نصف ساعة (في حين أن أكثر طرق RL تقدمًا تتطلب أكثر من ساعة واحدة). للحصول على مراجعة أكثر تفصيلاً ، أوصي بقراءة منشور ممتاز من مؤلفي التجربة ، وكذلك المقالة العلمية نفسها.



استراتيجيات التعلم المختلفة للموقف منتصبة مجسم ، درس باستخدام أسلوب ES في OpenAI.

الصندوق الاسود


فائدة كبيرة من هذه الطريقة هو أنه من السهل موازية. بينما تتطلب أساليب RL ، على سبيل المثال ، A3C ، تبادل المعلومات بين سير العمل وخادم المعلمات ، إلا أن ES يحتاج فقط إلى تقديرات الصلاحية ومعلومات معممة حول توزيع المعلمات. بفضل هذه البساطة ، فإن هذه الطريقة تتفوق على طرق RL الحديثة في قابلية التوسع. ومع ذلك ، كل هذا ليس هباء: عليك تحسين الشبكة وفقًا لمبدأ الصندوق الأسود. في هذه الحالة ، يشير "الصندوق الأسود" إلى أنه أثناء التدريب يتم تجاهل الهيكل الداخلي للشبكة تمامًا ، ولا يتم استخدام سوى النتيجة الإجمالية (مكافأة الحلقة) ، ويعتمد ذلك على ما إذا كانت الأوزان المستقبلية لشبكة معينة سيتم توريثها من قبل الأجيال القادمة. في المواقف التي لا نحصل فيها على تعليقات واردة من البيئة - وفي حل العديد من المهام التقليدية المتعلقة بخصائص البحث المباشر ، يكون تدفق المكافآت نادرًا للغاية - تتحول المشكلة من "الصندوق الأسود جزئيًا" إلى "الصندوق الأسود تمامًا". في هذه الحالة ، من الممكن زيادة الإنتاجية بشكل خطير ، وبالتالي ، فإن مثل هذا الحل الوسط له ما يبرره. "من يحتاج إلى التدرجات إذا كان لا يزال صاخباً بشكل يائس؟" - هذا هو الرأي العام.

ومع ذلك ، في المواقف التي تكون فيها الملاحظات أكثر نشاطًا ، تبدأ الأمور المتعلقة بالإدارة البيئية في الخطأ. يصف فريق OpenAI كيف تم تدريب شبكة التصنيف البسيطة MNIST باستخدام ES ، وكان التدريب أبطأ هذه المرة 1000 مرة. الحقيقة هي أن إشارة التدرج في تصنيف الصور مفيدة للغاية فيما يتعلق بكيفية تعليم الشبكة تصنيفًا أفضل. وبالتالي ، فإن المشكلة لا ترتبط مع تقنية RL بقدر ارتباطها بالمكافآت المتفرقة في البيئات التي تنتج تدرجات صاخبة.

الحل وجدت بطبيعتها


إذا حاولت التعلم من مثال الطبيعة ، والتفكير من خلال طرق لتطوير الذكاء الاصطناعي ، في بعض الحالات ، يمكن تمثيل الذكاء الاصطناعي كنهج موجه نحو حل المشكلات . في النهاية ، تعمل الطبيعة ضمن قيود لا يملكها علماء الكمبيوتر. هناك رأي مفاده أن النهج النظري البحت لحل مشكلة معينة يمكن أن يوفر حلولًا أكثر فاعلية من البدائل التجريبية. ومع ذلك ، ما زلت أعتقد أنه سيكون من المستحسن التحقق من أن النظام الديناميكي الذي يعمل في ظل بعض القيود (الأرض) شكلت عوامل (الحيوانات ، وخاصة الثدييات) ، قادرة على سلوك مرن ومعقد. في حين أن بعض هذه القيود غير قابلة للتطبيق في عوالم علوم البيانات المحاكية ، فإن البعض الآخر جيد للغاية.

بعد فحص السلوك الفكري للثدييات ، نرى أنه يتكون نتيجة للتفاعل المعقد بين عمليتين مترابطتين بشكل وثيق: التعلم من تجربة الآخرين والتعلم من تجربتنا الخاصة . غالبًا ما يتم تحديد التطور الأول بسبب الانتقاء الطبيعي ، لكنني هنا أستخدم مصطلحًا أوسع لمراعاة علم التخلق ، علم الأحياء المجهرية ، والآليات الأخرى التي تضمن تبادل الخبرات بين الكائنات الحية التي لا ترتبط ببعضها جينيًا. العملية الثانية ، التعلم المباشر هي كل المعلومات التي يديرها الحيوان لاستيعابها طوال الحياة ، وهذه المعلومات مرتبطة مباشرة بتفاعل هذا الحيوان مع العالم الخارجي. تشمل هذه الفئة كل شيء من تعلم التعرف على الأشياء إلى إتقان التواصل المتأصل في العملية التعليمية.

بمعنى تقريبي ، يمكن مقارنة هاتين العمليتين اللتين تحدثان في الطبيعة بخيارين لتحسين الشبكات العصبية. الاستراتيجيات التطورية ، حيث يتم استخدام معلومات التدرج لتحديث المعلومات حول الجسم ، تقترب من التعلم من تجربة شخص آخر. وبالمثل ، فإن طرق التدرج ، حيث يؤدي استلام تجربة معينة إلى تغيير أو آخر في سلوك الوكيل ، تكون قابلة للمقارنة مع التعلم من التجربة. إذا كنت تفكر في أنواع السلوك الفكري أو حول القدرات التي يتطور بها كل من هذين النهجين في الحيوانات ، فإن هذه المقارنة تكون أكثر وضوحًا. في كلتا الحالتين ، تسهم "الأساليب التطورية" في دراسة السلوكيات التفاعلية التي تسمح بتطور لياقة معينة (كافية للبقاء على قيد الحياة). إن تعلم المشي أو الهروب من الأسر في كثير من الحالات يعادل سلوكيات "غريزية" أكثر "صلبة" في العديد من الحيوانات على المستوى الجيني. بالإضافة إلى ذلك ، يؤكد هذا المثال أن الطرق التطورية قابلة للتطبيق في الحالات التي تكون فيها مكافأة الإشارة نادرة للغاية (على سبيل المثال ، حقيقة تربية شبل ناجحة). في مثل هذه الحالة ، يستحيل ربط المكافأة بأي مجموعة محددة من الإجراءات التي قد تكون ارتكبت قبل سنوات عديدة من بداية هذه الحقيقة. من ناحية أخرى ، إذا أخذنا بعين الاعتبار الحالة التي فشل فيها ES ، وهي تصنيف الصور ، فإن النتائج ستكون قابلة للمقارنة بشكل ملحوظ مع نتائج التدريب على الحيوانات التي تحققت خلال تجارب نفسية لا حصر لها في السلوك النفسي أجريت على مدى أكثر من مائة عام.

تدريب الحيوانات


في العديد من الحالات يتم استنباط الطرق المستخدمة في التعلم المعزز مباشرة من الأدب النفسي في تكييف هواء فعال ، وقد تمت دراسة تكييف هواء فعال على أساس علم نفس الحيوان. بالمناسبة ، حصل ريتشارد ساتون ، أحد مؤسسي التدريب على التعزيز ، على درجة البكالوريوس في علم النفس. في سياق تكييف هواء فعال ، تتعلم الحيوانات ربط المكافأة أو العقوبة بأنماط سلوكية محددة. يمكن للمدربين والباحثين التلاعب بطريقة أو بأخرى بمثل هذا الارتباط بالمكافآت ، مما يستفز الحيوانات لإظهار البراعة أو بعض السلوكيات. ومع ذلك ، فإن تكييف العنصر النشط المستخدم في دراسة الحيوانات ليس أكثر من شكل أكثر وضوحًا من هذا الشرط ، حيث يتم تدريب الحيوانات على مدار الحياة. نتلقى باستمرار إشارات التعزيز الإيجابي من البيئة وضبط سلوكنا وفقا لذلك. في الواقع ، يعتقد العديد من علماء الفيزيولوجيا العصبية والعلماء الإدراكيين أن الأشخاص والحيوانات الأخرى في الواقع يتصرفون بمستوى واحد أعلى ويتعلمون باستمرار التنبؤ بنتائج سلوكهم في المواقف المستقبلية ، معتمدين على المكافآت المحتملة.

يتمثل الدور الرئيسي للتنبؤ في الدراسة الذاتية في تغيير الديناميات الموضحة أعلاه بالطريقة الأكثر أهمية. الإشارة التي كانت تعتبر في السابق نادرة للغاية (المكافأة العرضية) كثيفة للغاية. من الناحية النظرية ، يكون الموقف على النحو التالي تقريبًا: في كل لحظة من الزمن ، يحسب دماغ الثدييات النتائج بناءً على مجموعة معقدة من المحفزات والإجراءات الحسية ، في حين أن الحيوان غارق ببساطة في هذا التيار. في هذه الحالة ، يعطي السلوك النهائي للحيوان إشارة قوية ، والتي يجب أن تسترشد بتصحيح التوقعات وتطور السلوك. يستخدم الدماغ كل هذه الإشارات من أجل تحسين التوقعات (وبالتالي ، نوعية الإجراءات المتخذة) في المستقبل. ويرد لمحة عامة عن هذا النهج في كتاب ممتاز " تصفح عدم اليقين " من قبل عالم المعرفي والفيلسوف أندي كلارك. إذا تم استقراء مثل هذا المنطق لتدريب العوامل الاصطناعية ، فإن تدريب التعزيز يكشف عن عيب أساسي: الإشارة المستخدمة في هذا النموذج ضعيفة بشكل ميؤوس منه مقارنة بما يمكن أن يكون (أو ينبغي أن يكون). في الحالات التي يكون من المستحيل فيها زيادة تشبع الإشارة (ربما لأنها ضعيفة التعريف أو مرتبطة بتفاعلية منخفضة المستوى) - ربما يكون من الأفضل تفضيل طريقة تدريب متوازنة تمامًا ، على سبيل المثال ، ES.

تعلم أفضل للشبكات العصبية


بناءً على مبادئ النشاط العصبي الأعلى المتأصلة في دماغ الثدييات ، والتي تعمل باستمرار على التنبؤ ، أصبح من الممكن مؤخرًا تحقيق بعض النجاحات في تدريب التعزيز ، والذي يأخذ الآن في الاعتبار أهمية مثل هذه التوقعات. يمكنني أن أوصيك بعملين مماثلين:


في كل من هذه المقالات ، قام المؤلفون بتكملة سياسات الشبكات العصبية الافتراضية النموذجية بنتائج متوقعة فيما يتعلق بالظروف البيئية المستقبلية. في المقالة الأولى ، يتم تطبيق التنبؤ على مجموعة متنوعة من متغيرات القياس ، وفي الثانية ، يتم إجراء تغييرات في البيئة وسلوك العامل على هذا النحو. في كلتا الحالتين ، تصبح الإشارة المتفشية المرتبطة بالتعزيز الإيجابي أكثر تشبعًا وغنية بالمعلومات ، مما يوفر التعلم السريع واستيعاب النماذج السلوكية الأكثر تعقيدًا. تتوفر هذه التحسينات فقط عند العمل مع الأساليب التي تستخدم إشارة التدرج اللوني ، ولكن ليس مع الطرق التي تعمل وفقًا لمبدأ "الصندوق الأسود" ، على سبيل المثال ، ES.

بالإضافة إلى ذلك ، التعلم المباشر وطرق التدرج هي أكثر فعالية بكثير. حتى في تلك الحالات التي كان من الممكن فيها دراسة مشكلة معينة باستخدام طريقة ES بدلاً من استخدام تدريب التعزيز ، فقد تم تحقيق المكاسب بسبب مشاركة بيانات أكثر من مرة في استراتيجية ES مقارنةً مع RL. بالتفكير في هذه الحالة حول مبادئ التعلم في الحيوانات ، نلاحظ أن نتيجة التدريب على مثال أجنبي تتجلى بعد أجيال عديدة ، بينما في بعض الأحيان يكون حدث واحد ، من ذوي الخبرة في شخص ، كافياً لتعلم الحيوان الدرس إلى الأبد. في حين أن هذا التدريب بدون أمثلة لا يتناسب تمامًا مع أساليب التدرج التقليدية ، إلا أنه أكثر وضوحًا من ES. هناك ، على سبيل المثال ، مناهج مثل التحكم العصبي العرضي ، حيث يتم تخزين قيم Q- أثناء عملية التدريب ، وبعد ذلك يتم فحص البرنامج معهم قبل تنفيذ الإجراءات. لقد اتضح أن طريقة التدرج تسمح لك بمعرفة كيفية حل المشكلات بشكل أسرع من ذي قبل. في المقال المتعلق بالتحكم العصبي العرضي ، يذكر المؤلفون الحصين البشري ، الذي يمكنه تخزين المعلومات حول الحدث حتى بعد تجربة ذات مرة ، وبالتالي ، يلعب دورًا مهمًا في عملية الاستدعاء. تتطلب هذه الآليات الوصول إلى التنظيم الداخلي للوكيل ، وهو أمر مستحيل بحكم تعريفه في نموذج ES.

فلماذا لا تجمعهم؟


ربما كان معظم هذا المقال قد ترك الانطباع بأنني كنت أدافع عن أساليب RL فيه. ومع ذلك ، في الواقع ، أعتقد أنه في المدى الطويل ، سيكون الحل الأفضل هو مزيج من كلا الطريقتين بحيث يتم استخدام كل منهما في المواقف التي يناسبها بشكل أفضل. من الواضح أنه في حالة وجود العديد من السياسات التفاعلية أو في المواقف ذات الإشارات القليلة جدًا للتعزيز الإيجابي ، تفوز ES ، خاصة إذا كان لديك القدرة الحاسوبية التي يمكنك من خلالها إجراء تدريب موازٍ جماعي. من ناحية أخرى ، ستكون الأساليب المتدرجة التي تستخدم التعلم المعزز أو تدريب المعلمين مفيدة عندما تتوفر ملاحظات مستفيضة لنا ، ويتعين تعلم حل المشكلة بسرعة وببيانات أقل.

بالانتقال إلى الطبيعة ، نجد أن الطريقة الأولى ، في جوهرها ، تضع الأساس للطريقة الثانية. لهذا السبب ، خلال التطور ، طورت الثدييات مخًا يتيح التعلم الفعال للغاية من مواد الإشارات المعقدة القادمة من البيئة. لذلك ، يبقى السؤال مفتوحا. ربما ستساعدنا الاستراتيجيات التطورية على ابتكار هياكل فعالة للتعلم ستكون مفيدة لطرق التعلم المتدرجة. بعد كل شيء ، الحل الذي توصلت إليه الطبيعة ناجح للغاية.

Source: https://habr.com/ru/post/ar456160/


All Articles