NeurIPS: كيفية التغلب على أفضل مؤتمر ML

NeurIPS –– مؤتمر يُعتبر حاليًا أهم حدث في عالم التعلم الآلي. اليوم سأخبرك عن تجربتي في المشاركة في مسابقات NeurIPS: كيفية التنافس مع أفضل الأكاديميين في العالم ، والحصول على جائزة ونشر مقال.





ما هو جوهر المؤتمر؟


NeurIPS يدعم إدخال أساليب التعلم الآلي في مختلف التخصصات العلمية. يتم إطلاق حوالي 10 مسارات سنويًا لحل المشكلات الملحة في العالم الأكاديمي. وبحسب نتائج المسابقة ، يتكلم الفائزون في المؤتمر بتقارير وتطورات وخوارزميات جديدة. الأهم من ذلك كله أنا شغوف بالتعلم المعزز (التعلم المعزز أو RL) ، ولهذا السبب شاركت في مسابقات RL المخصصة لـ NeurIPS للسنة الثانية الآن.


لماذا NeurIPS




يركز NeurIPS في المقام الأول على العلم ، وليس المال. من خلال المشاركة في المسابقات ، فأنت تفعل شيئًا مهمًا حقًا ، تتعامل مع القضايا الملحة.

ثانيًا ، هذا المؤتمر هو حدث عالمي ، حيث يجتمع علماء من دول مختلفة في مكان واحد ، حيث يمكنك التحدث مع كل منهم.


بالإضافة إلى ذلك ، فإن المؤتمر بأكمله مليء بأحدث الإنجازات العلمية والنتائج الحديثة ، فمن المهم للغاية بالنسبة للأشخاص من مجال علم البيانات أن يعرفوها ويراقبوها.


كيف تبدأ؟


بدء المشاركة في مثل هذه المسابقات بسيط للغاية. إذا كنت تفهم DL بشكل كبير بحيث يمكنك تدريب ResNet –– هذا يكفي: اشترك وانطلق . هناك دائمًا لوحة صدارة عامة يمكنك من خلالها تقييم مستواك بشكل صائب مقارنة بالمشاركين الآخرين. وإذا كان هناك شيء غير واضح - فهناك دائمًا قنوات في الركود / الفتنة / الجتار / إلخ لمناقشة جميع القضايا الناشئة. إذا كان الموضوع حقًا "يخصك" ، فلن يمنعك شيء من الحصول على النتيجة العزيزة - في جميع المسابقات التي شاركت فيها ، وقد تمت دراسة جميع المناهج والحلول وتنفيذها مباشرة خلال المسابقة.


دراسة حالة NeurIPS: تعلم الجري




العدد


مشية الشخص هي نتيجة تفاعل العضلات والعظام وأجهزة الرؤية والأذن الداخلية. في حالة اضطراب الجهاز العصبي المركزي ، قد تحدث بعض الاضطرابات الحركية ، بما في ذلك اضطراب المشي - العباية.
قرر باحثون من مختبر ستانفورد للميكانيكا الحيوية العصبية العضلية ربط التعلم الآلي بقضية العلاج حتى يتمكنوا من تجربة واختبار نظرياتهم على نموذج افتراضي للهيكل العظمي ، وليس على الأشخاص الأحياء.


بيان المشكلة


حصل المشاركون على هيكل عظمي بشري افتراضي (في محاكي OpenSim ) ، الذين لديهم طرف صناعي بدلاً من ساق واحدة. كانت المهمة هي تعليم الهيكل العظمي للتحرك في اتجاه معين بسرعة معينة. أثناء المحاكاة ، يمكن أن يتغير كل من الاتجاه والسرعة.




للحصول على نموذج تحكم افتراضي بالهيكل العظمي ، تم اقتراح استخدام التعلم المعزز. أعطانا جهاز المحاكاة بعض حالات الهيكل العظمي S (متجه ~ 400 أرقام). كان من الضروري التنبؤ بالإجراء الذي يجب القيام به (يجب أن تكون قوى التنشيط لعضلات الساق 19 رقمًا). في سياق المحاكاة ، تم منح الهيكل العظمي جائزة R - كنوع من ناقص ثابت ناقص عقوبة للانحراف عن سرعة واتجاه معينين.
حول التدريب التعزيز

التعلم المعزز (RL) هو مجال يتعامل مع نظرية القرار والبحث عن السياسات السلوكية المثلى.


تذكر كيف يعلمون قطة الحيل الكلب الجديد. كرر بعض الإجراءات ، وأعطِ لذيذًا لأداء خدعة ، ولا تعطي عدم الوفاء. يجب أن يفهم الكلب كل هذا ويجد استراتيجية سلوكية ("سياسة" أو "سياسة" من حيث RL) ، والتي تزيد من عدد الحلويات المتلقاة.


رسميا ، لدينا وكيل (كلب) مدرب على تاريخ التفاعلات مع البيئة (الشخص). في نفس الوقت ، البيئة ، بتقييم تصرفات الوكيل ، تمنحه مكافأة (لذيذة) - كلما كان سلوك الوكيل أفضل ، زادت المكافأة. وبناءً على ذلك ، فإن مهمة الوكيل هي إيجاد سياسة تزيد من المكافأة بشكل جيد طوال فترة التفاعل مع البيئة.


تطوير هذا الموضوع أكثر ، الحلول المستندة إلى القواعد - البرنامج 1.0 ، عندما تم وضع جميع القواعد من قبل المطور ، التعلم تحت الإشراف - البرنامج 2.0 ، عندما يتعلم النظام نفسه باستخدام الأمثلة المتاحة ويجد تبعيات البيانات ، فإن التعلم المعزز هو خطوة أبعد قليلاً عندما يكون النظام نفسه يتعلم البحث والتجربة وإيجاد التبعيات المطلوبة في قراراته. كلما تقدمنا ​​، حاولنا تكرار كيفية تعلم الشخص بشكل أفضل.


ميزات المهمة


تبدو المهمة كممثل نموذجي للتعلم المعزز للمهام ذات مساحة العمل المستمر (RL لمساحة العمل المستمر). وهو يختلف عن RL العادي في أنه بدلاً من اختيار إجراء معين (الضغط على زر عصا التحكم) ، فإن هذا الإجراء مطلوب للتنبؤ بدقة (وهناك عدد لا نهائي من الاحتمالات).


تم اختراع النهج الأساسي للحل ( تدرج السياسة الحتمية العميقة ) في عام 2015 ، والذي استمر لفترة طويلة في تطوير معايير تطبيقات الروبوتات وتطبيقات RL في العالم الحقيقي لفترة طويلة وفقًا لمعايير DL. هناك شيء ما يجب تحسينه: المناهج القوية (حتى لا تكسر روبوتًا حقيقيًا) ، وكفاءة العينة (حتى لا تجمع البيانات من الروبوتات الحقيقية لأشهر) ومشاكل RL الأخرى (الاستكشاف مقابل الاستغلال ، المقايضة ، إلخ). في هذه المسابقة ، لم يعطونا روبوتًا حقيقيًا - فقط محاكاة ، ولكن المحاكاة نفسها كانت أبطأ 2000 مرة من نظيراتها مفتوحة المصدر (التي يفحص فيها الجميع خوارزميات RL الخاصة بهم) ، وبالتالي جلبت مشكلة كفاءة العينة إلى مستوى جديد.


مراحل المنافسة


جرت المنافسة نفسها على ثلاث مراحل ، تغيرت خلالها المهمة والظروف إلى حد ما.


  • المرحلة 1: تعلم الهيكل العظمي المشي مباشرة بسرعة 3 أمتار في الثانية. اعتبرت المهمة مكتملة إذا مر الوكيل بـ 300 خطوة.
  • المرحلة 2: تغيرت السرعة والاتجاه بتردد منتظم. زاد طول المسافة إلى 1000 خطوة.
  • المرحلة 3: يجب تعبئة الحل النهائي في صورة عامل ميناء وإرساله للتحقق. في المجموع ، يمكن إجراء 10 طرود.

تم اعتبار مقياس الجودة الرئيسي المكافأة الإجمالية للمحاكاة ، والتي أظهرت مدى التزام الهيكل العظمي باتجاه وسرعة معينين عبر المسافة.


خلال المرحلة الأولى والثانية ، تم عرض تقدم كل مشارك على لوحة الصدارة. يجب إرسال الحل النهائي كصورة لرسو السفن. نصت على قيود على ساعات العمل والموارد.


Coolstory: المتصدرين العامين و RL

نظرًا لتوفر لوحة الصدارة ، لا يُظهر أحد أفضل نموذج له من أجل إعطاء "أكثر قليلاً من المعتاد" في الجولة النهائية والمفاجأة.


لماذا تعتبر صور عامل الميناء مهمة جدًا

في العام الماضي ، وقعت حادثة صغيرة عند تقييم القرارات في الجولة الأولى. في ذلك الوقت ، مر الشيك بتفاعل http مع النظام الأساسي ، وتم العثور على وجه لشروط الاختبار. يمكن للمرء معرفة الحالات التي تم فيها تقييم العامل وإعادة تدريبه فقط في ظل هذه الظروف. والتي ، بالطبع ، لم تحل المشكلة الحقيقية. هذا هو السبب في أنهم قرروا نقل نظام الطلبات إلى صور docker وتشغيله على الخوادم البعيدة للمنظمين. يستخدم Dbrain نفس النظام لحساب نتيجة المسابقات بالضبط لنفس الأسباب.


النقاط الرئيسية


الفريق




أول شيء مهم لنجاح المؤسسة بأكملها هو الفريق. مهما كنت جيدًا (ومدى قوة مخالبك) - تزيد المشاركة في الفريق بشكل كبير فرص النجاح. والسبب بسيط - مجموعة متنوعة من الآراء والمناهج ، وإعادة فحص الفرضيات ، والقدرة على موازاة العمل وإجراء المزيد من التجارب. كل هذا مهم للغاية عند حل المشاكل الجديدة التي يجب أن تواجهها.

من الناحية المثالية ، يجب أن تكون معرفتك ومهاراتك على نفس المستوى وأن تكمل بعضها البعض. لذلك ، على سبيل المثال ، زرعت هذا العام فريقنا على PyTorch ، وحصلت على بعض الأفكار الأولية حول تطبيق نظام تدريب الوكيل الموزع.


كيف تجد فريق؟ أولاً ، يمكنك الانضمام إلى صفوف الاحتمالات والبحث عن الأشخاص ذوي التفكير المماثل هناك. ثانياً ، بالنسبة لزملاء RL ، توجد غرفة دردشة منفصلة في برقية - نادي RL . ثالثًا ، يمكنك أخذ دورة رائعة من ShAD - Practical RL ، وبعد ذلك ستحصل بالتأكيد على اثنين من المعارف.


ومع ذلك ، تجدر الإشارة إلى سياسة "الخضوع - أو لم يكن". إذا كنت ترغب في التوحد ، فاحصل أولاً على قرارك وأرسله واظهر على لوحة الصدارة وأظهر مستواك. كما تظهر الممارسة ، فإن هذه الفرق أكثر توازنا.


الدافع


كما كتبت بالفعل ، إذا كان الموضوع "خاصتك" ، فلن يوقفك شيء. هذا يعني أن المنطقة لا تحبك فقط ، بل تلهمك - تحرقها ، تريد أن تصبح الأفضل فيها.
قابلت RL قبل 4 سنوات - أثناء مرور Berkeley 188x - مقدمة للذكاء الاصطناعي - وما زلت لا أستطيع التوقف عن التساؤل عن التقدم المحرز في هذا المجال.


منهجي


ثالثًا ، ولكن بنفس القدر من الأهمية - يجب أن تكون قادرًا على القيام بما وعدت به ، والاستثمار في المنافسة كل يوم وفقط ... حلها. كل يوم. لا يمكن مقارنة أي موهبة فطرية بالقدرة على فعل شيء ما ، حتى ولو قليلاً ، ولكن كل يوم. ولهذا السبب سوف يكون الدافع مطلوبًا. لتحقيق النجاح ، أوصي بقراءة DeepWork و AMA ternaus .


إدارة الوقت


مهارة أخرى بالغة الأهمية هي القدرة على توزيع قوة المرء واستخدام وقت فراغه بشكل صحيح. الجمع بين العمل بدوام كامل والمشاركة في المسابقات مهمة غير تافهة. الشيء الأكثر أهمية في هذه الظروف هو عدم حرق وتحمل الحمل بأكمله. للقيام بذلك ، تحتاج إلى إدارة وقتك بشكل صحيح ، وتقييم قوتك بهدوء وعدم نسيان الاسترخاء في الوقت المحدد.


إرهاق


في المرحلة الأخيرة من المسابقة ، عادة ما ينشأ موقف حيث تحتاج حرفياً في الأسبوع إلى عدم القيام بالكثير فحسب ، بل إلى حد كبير. للحصول على أفضل نتيجة ، يجب أن تكون قادرًا على إجبار نفسك على الجلوس وجعل آخر دفعة إلى الجائزة المرغوبة.


Coolstory: الموعد النهائي بعد الموعد النهائي

بسبب ما ، بشكل عام ، قد تحتاج إلى إعادة التدوير لصالح المنافسة؟ الجواب بسيط للغاية - نقل الموعد النهائي. في مثل هذه المسابقات ، غالبًا ما لا يستطيع المنظمون التنبؤ بكل شيء ، لأن أسهل طريقة هي منح المشاركين المزيد من الوقت. تم تمديد المسابقة هذا العام 3 مرات: أولاً لمدة شهر ، ثم لمدة أسبوع وفي آخر لحظة (قبل 24 ساعة من الموعد النهائي) - لمدة يومين آخرين. وإذا كنت بحاجة إلى تنظيم الوقت الإضافي بشكل صحيح خلال أول عمليتي تحويل ، فعليك في اليومين الماضيين أن تحرث.


النظرية



من بين أمور أخرى ، لا تنسى النظرية - أن تكون على دراية بما يحدث في الميدان وأن تكون قادرًا على ملاحظة ما هو ذي صلة. لذا ، على سبيل المثال ، لحل العام الماضي ، أقلع فريقنا من المقالات التالية:



تمت إضافة زوجين آخرين هذا العام:



قراءة إضافية

كما أنصح OpenAI بمجموعة مختارة من المقالات حول التعلم المعزز ونسخته لمندلي . وإذا كنت مهتمًا بموضوع التدريب التعزيزي ، انضم إلى نادي RL وأوراق RL .


تدرب




إن معرفة النظرية وحدها ليست كافية - من المهم أن تكون قادرًا على وضع كل هذه الأساليب موضع التنفيذ وإنشاء نظام التحقق الصحيح لتقييم القرارات. على سبيل المثال ، علمنا هذا العام أن وكيلنا يتعامل بشكل سيئ مع بعض الحالات الإقليمية قبل يومين فقط من نهاية المنافسة. وبسبب هذا ، لم يكن لدينا الوقت لإصلاح نموذجنا بالكامل ولم نحصل حرفياً على بضع نقاط إلى المركز الثاني المطلوب. إذا وجدنا هذا حتى في غضون أسبوع - فقد تكون النتيجة أفضل.
Coolstory: الحلقة الثالثة

كان متوسط ​​الجائزة لـ 10 حلقات اختبار بمثابة التقييم النهائي للحل.



يوضح الرسم البياني نتائج اختبار وكيلنا: 9 من أصل 10 حلقات ، ذهب هيكلنا العظمي على ما يرام (متوسط ​​- 9955.66) ، ولكن حلقة واحدة .... لم تعط الحلقة 3 (مكافأة 9870). كان هذا الخطأ هو الذي أدى إلى انخفاض السرعة النهائية إلى 9947 (-8 نقاط).


حظ موفق


وأخيرًا - لا تنسى الحظ الساذج. لا تعتقد أن هذه نقطة خلافية. على العكس من ذلك ، فإن القليل من الحظ يساهم بشكل كبير في العمل المستمر على الذات: حتى لو كان احتمال الحظ 10 ٪ فقط ، فإن الشخص الذي حاول المشاركة في المسابقة 100 مرة سينجح أكثر بكثير من الشخص الذي حاول مرة واحدة فقط وترك الفكرة.


ذهابا وإيابا: قرار العام الماضي - المركز الثالث




في العام الماضي ، شاركنا أنا وفريقنا ميخائيل بافلوف في مسابقات NeurIPS لأول مرة وكان الدافع الرئيسي ببساطة هو المشاركة في أول مسابقة NeurIPS في التعلم المعزز. ثم انتهيت للتو من دورة RL العملية في SHAD وأردت اختبار المهارات المكتسبة. ونتيجة لذلك ، احتلنا المركز الثالث المشرف ، وخسرنا فقط أمام nnaisene (Schmidhuber) وفريق الجامعة من الصين. في ذلك الوقت ، كان حلنا "بسيطًا إلى حد ما" واستند إلى توزيع DDPG مع ضوضاء المعلمة ( النشر والعرض على مل . التدريبات ).

قرار هذا العام هو المركز الثالث



كانت هناك بعض التغييرات هذا العام. أولاً ، لم تكن هناك رغبة في المشاركة فقط في هذه المسابقة ، أردت الفوز بها. ثانيًا ، تغير تكوين الفريق أيضًا: أليكسي غرينشوك وأنتون بيشينكو وأنا. خذ واربح - لم ينجح ، لكننا احتلنا المركز الثالث مرة أخرى.
سيتم تقديم حلنا رسميًا في NeurIPS ، والآن سنقتصر على عدد قليل من التفاصيل. استنادًا إلى قرار العام الماضي ونجاح التعلم التعزيزي خارج السياسة لهذا العام (المقالات أعلاه) ، أضفنا عددًا من التطورات الخاصة بنا ، والتي سنتحدث عنها في NeurIPS ، وحصلنا على نقد المجموعة الكمية الموزعة ، حيث حصلنا على المركز الثالث.


سيتم نشر جميع أفضل ممارساتنا - نظام التعلم الموزع ، والخوارزميات ، وما إلى ذلك ، وهي متاحة في Catalyst.RL بعد NeurIPS.


Coolstory: الكبار - بنادق كبيرة

ذهب فريقنا بثقة إلى المركز الأول طوال المسابقة. ومع ذلك ، كان لدى اللاعبين الكبار خطط أخرى - دخل لاعبين كبيران في المسابقة قبل أسبوعين من نهاية المسابقة: FireWork (Baidu) و nnaisense (Schmidhuber). وإذا لم نتمكن من فعل أي شيء مع Google الصينية ، فعندئذٍ مع فريق Schmidhuber لفترة طويلة ، تمكنا من القتال بصدق للحصول على المركز الثاني ، وخسرنا فقط بأقل هامش. يبدو لي جيدًا جدًا للعشاق.


لماذا هذا كله؟


  • التواصل. يأتي كبار الباحثين إلى المؤتمر الذين يمكنك الدردشة معهم مباشرة ، والذي لن يعطي أي مراسلات عبر البريد الإلكتروني.
  • النشر إذا حصل الحل على الجائزة ، فسيتم دعوة الفريق إلى المؤتمر (أو ربما أكثر من واحد) لتقديم قراره ونشر المقالة.
  • عرض عمل ودكتوراه. يزيد النشر والجائزة في مثل هذا المؤتمر بشكل كبير فرصك في الحصول على منصب في الشركات الرائدة مثل OpenAI و DeepMind و Google و Facebook و Microsoft.
  • قيمة العالم الحقيقي. يتم تنفيذ NeurIPS لحل المشاكل الملحة في العالم الأكاديمي والحقيقي. يمكنك التأكد من أن النتائج لن يتم طرحها على الطاولة ، ولكنها ستكون مطلوبة بالفعل وستساعد على تحسين العالم.
  • القيادة حل هذه المسابقات ... مجرد اهتمام. في المسابقة ، يمكنك الخروج بالكثير من الأفكار الجديدة ، واختبار مناهج مختلفة - فقط لتكون الأفضل. ودعونا نكون صادقين ، متى يمكنك قيادة الهياكل العظمية ، ولعب الألعاب وكل هذا مع نظرة جادة ومن أجل العلم؟

Coolstory: تأشيرة و RL

لا أنصح بشدة بمحاولة توضيح للأمريكي الذي يتحقق من أنك ذاهب إلى المؤتمر ، بينما تقوم بتدريب الهياكل العظمية الافتراضية للتشغيل في المحاكاة. فقط اذهب إلى المؤتمر بالحديث.


ملخص


المشاركة في NeurIPS هي تجربة يصعب المبالغة فيها. لا تخف من العناوين البارزة - ما عليك سوى تجميع نفسك والبدء في اتخاذ القرار.


وانتقل إلى Catalyst.RL ، ثم ماذا.

Source: https://habr.com/ru/post/ar430712/


All Articles