بطولة جديدة ML Boot Camp VI. التنبؤ باستجابة الجمهور للمسح عبر الإنترنت



اليوم ، 25 يونيو ، يبدأ ML Boot Camp VI بمهمة "توقع استجابة الجمهور لاستطلاع عبر الإنترنت" (إذا سمعت فجأة لأول مرة عن ماهية Boot Boot Camp ، اذهب تحت المفسد).

المفسد
ML Boot Camp هي بطولة التعلم الآلي. مخطط العمل: نعطي المهمة ، ويقوم المشاركون بحلها في غضون شهر وإرسال الحلول. يحصل مؤلفو أفضل الحلول على جوائز. آخر مرة منحنا MacBook Pro المركز الأول ، NVIDIA 1080ti - الثاني ، NVIDIA 1060 - الثالث ، و WD My Cloud 6 TB لـ 4-6 أماكن. حسب التقليد ، أرسلنا القمصان ذات رموز البطولة إلى أفضل 50 مشاركًا.

مع كل منافسة جديدة ، ينمو جمهور ML Boot Camp بشكل ملحوظ (حاليًا هناك 7000 مشارك من أكثر من 20 دولة مسجلين بالفعل).

في البداية ، يتلقى المشاركون شروط المهمة ووصفًا لفظيًا للبيانات المتاحة - عينة تدريبية. تتكون العينة من أمثلة مسماة - متجهات وصف لكل كائن بإجابة معروفة. يقوم المشاركون ، باستخدام أساليب التعلم الآلي المعروفة لهم ، بتدريب الكمبيوتر واختبار النظام المدرب على عينة اختبار مقسمة إلى جزأين: التصنيف والنهائي. الفائز هو الذي يحصل على أفضل النتائج في البيانات النهائية.

في اليوم الأخير من البطولة ، يمكن للمشارك اختيار قرارين سيمثلانه في المباراة النهائية. سيتم احتساب الأفضل منهم في الصدارة.

يمكنك العثور على القواعد والمواد المفيدة على موقع البطولة .

نقدم لك هذه المرة الانغماس في الهاوية المظلمة للتسويق: كجزء من منافسة ML Boot Camp التالية ، يمكنك التنبؤ بسلوك المستخدم في إحدى دراسات التسويق واسعة النطاق.

نحن نقدم مهمة من المستوى المناسب ، بينما نحاول جعلها مثيرة للاهتمام لكل من المحترفين والمبتدئين. في هذه البطولة ستجد عمل بحثي حقيقي.

لم يتغير شكل المسابقة: ستستمر البطولة لمدة شهر واحد ، من 25 يونيو إلى 25 يوليو 2018. اقرأ المزيد عن الجوائز والمهمة أدناه.

مهمة "توقع استجابة الجمهور لمسح عبر الإنترنت"


هناك نتائج استطلاع عبر الإنترنت. من المعروف أن جزءًا من الجمهور اجتاز الاستطلاع بشكل كامل وصحيح. الجزء الآخر أكمل المسح جزئياً ، مع وجود أخطاء ، أو رفض المشاركة بالكامل. من الضروري التنبؤ بأكبر قدر ممكن من الدقة من بين المستجيبين الذين ينتمون إلى المجموعة الأولى ، أي أنها اجتازت الدراسة بالكامل وبدون أخطاء.

يحتوي ملف البيانات الرئيسي على 19 528 597 خطًا (10 غيغابايت) ويتكون من 6 أعمدة:

1 . cuid هو معرّف. يمكن أن يحتوي الملف على عدة إدخالات لمعرف واحد ؛
2 . cat_feature هو بعض المتغيرات الفئوية. نطاق القيم: {0،1،2،3،4،5} ؛
3-5 . العدادات التي تم جمعها بناءً على السلوك البشري على الإنترنت. التنسيق: {w_1: c_1، w_2: c_2، ...} ، حيث w_i هو الرمز المشفر ، و c_i هو تكرار هذا الرمز المميز ؛
6 . dt_diff - عدد الأيام التي تسبق تاريخ استلام قيمة المتغير المستهدف.



جزء صغير من البيانات كمثال:

00000d2994b6df9239901389031acaac 5 {"809001":2,"848545":2,"565828":1,"490363":1} {"85789":1,"238490":1,"32285":1,"103987":1,"16507":2,"6477":1,"92797":2} {} 39

يجب إجراء التنبؤات لـ 181 ألف مستخدم. تحتوي مجموعة البيانات الخاصة بتدريب النموذج على جدول بمعرفات وقيم المتغير المستهدف (427995 سجل).

مقياس المهمة هو ROC AUC. هذا يعني أن الإجابة هي تقييم لعضوية الفصل تقع في النطاق [0؛ 1] لكل جديلة. هذا المقياس ، في الواقع ، يقيم صحة الترتيب من قبل مصنّف الأشياء بالنسبة إلى إحدى الفئات. في هذه الحالة ، لسنا مهتمين بتسمية فئة معينة ستعطيها الخوارزمية ، أو الاحتمالية المحددة لكل كائن. نحن مهتمون بصحة الطلب نفسه.

بالطبع ، يحدث أنه في سياق تطبيق معين ، مع roc_auc على قدم المساواة ، قد يتبين أن أحد الحلول أفضل من الآخر ، لكننا قررنا عدم تعقيد المهمة.

الجوائز


توزيع ست جوائز هذه المرة يبدو كما يلي:

Top1: Apple MacBook Pro 13
Top2: Apple MacBook Air 13
Top3: ويسترن ديجيتال My Cloud Mirror
Top4-5-6: ويسترن ديجيتال ماي باسبورت 4 تيرابايت

كما هو الحال دائمًا ، سيتلقى أفضل 50 مشاركًا قمصانًا تحمل رموز البطولة ، وسيتم دعوة المشاركين الذين لديهم أكثر الحلول إثارة لإجراء مقابلة في Mail.Ru Group في منصب علماء البيانات.

مجتمع MLBootCamp


انضم إلى مجتمعنا على Telegram. يمكنك دائمًا طرح الأسئلة والحصول على مشورة الخبراء في مجال علوم البيانات. بالإضافة إلى ذلك ، فإن مجتمع بطولة Mail.Ru Group هو التواصل حيث يسهل العثور على الأشخاص ذوي التفكير المماثل.

التسجيل


تبدأ البطولة اليوم الساعة 19:00 بتوقيت موسكو. التسجيل مفتوح. نحن ننتظر الجميع ونتمنى لك التوفيق!

Source: https://habr.com/ru/post/ar415191/


All Articles