مرحبا بالجميع. في هذه المقالة ، سأتحدث عن تجربتنا في المشاركة في مسابقة تحليل بيانات
كأس تعدين البيانات 2019 (DMC) وكيف تمكنا من الانضمام إلى أفضل 10 فرق والمشاركة في نهائيات البطولة الشخصية في برلين.

سأروي نيابة عن فريقنا ، الذي أدخله (ألكسندر بيريفالوف) ، وكذلك زميلي سيرجي بوبكوف. نحن طلاب الدراسات العليا في
جامعة بيرم للفنون التطبيقية ، في وقت فراغنا من العمل والدراسة ، نشارك في حل مسابقات علم البيانات.
ما هو DMC وكيف عرفنا ذلك
كأس تعدين البيانات هي بطولة عالمية لتحليل بيانات الطلاب تقام مرة واحدة في السنة. بدأ تاريخها منذ 20 عامًا ، قبل
Kaggle بوقت طويل ، يمكن القول أن مركز
دبي للسلع المتعددة أقيم مسابقات لتحليل البيانات قبل أن يصبح سائدًا .
تستضيف شركة
DMC الشركة الألمانية
PrudSys ، وهي شركة
استخبارات للبيع بالتجزئة . في السابق ، كان يُسمح بمشاركة يد واحدة فقط في البطولة ، ثم سُمح للمشاركين بالتوحيد في فرق من الجامعة ، بالمناسبة ، الحد الأقصى لعدد فرق الجامعة هو 2 فقط. كما أن العضوية في الجامعة تخضع لرقابة صارمة ، ومن الضروري المشاركة في البريد مع مجال الطالب الخاص بك. المؤسسات ، وكذلك إرسال نسخة من بطاقة الطالب الخاصة بك.
اليوم ، إذا قارنا مستوى المشاركين في DMC و Kaggle ، بالطبع ، فإن مستوى Kaggle أعلى بكثير. هذا بسبب القيود المفروضة على الطلاب في DMC وشعبية Kaggle. من الخصائص المميزة لمركز دبي للسلع المتعددة هو
غياب لوحة المتصدرين ، مما يلغي مشاكل تركيبها.
تعرفت على كأس تعدين البيانات في الوقت الحالي عندما ذهبنا مع مجموعة من جامعتنا للتدريب في ألمانيا ، لدى وصولي إلى المنزل ، دعاني صديقي وزميلي للمشاركة ، كان ذلك في منتصف أبريل. بصراحة ، كنت متشككًا في هذه الفكرة ، ومع ذلك ، فقد علمت أن البيانات والمهمة في هذا العام بسيطة للغاية - ما زلنا نبدأ في حلها.
كيف حللنا المهمة؟
في عام 2019 ، تكمن المهمة في مجال الكشف عن الاحتيال الذاتي. بالتأكيد صادفت بالفعل عدادات الخروج للخدمة الذاتية في محلات السوبر ماركت. تعمل هذه الأجهزة تحت إشراف موظف متجر وتلقائية بالكامل. تتيح لك سجلات النقد بالخدمة الذاتية تحسين تكاليف الموظفين وتقليل قوائم الانتظار في المتاجر الكبرى. ومع ذلك ، هناك مشكلة واحدة ، والطبيعة البشرية هي أن هناك بطريقة أو بأخرى رغبة في "عدم اختراق" البضائع التي نريد أن نرى في الثلاجة لدينا. لتجنب هذا الأمر ، تعتبر المراقبة ضرورية ، لكنها لا تحرج العملاء أو تزعجهم.
وبالتالي ، استنادًا إلى البيانات الموسومة على معاملات الدفع الذاتي ، من الضروري تطوير نموذج رياضي يصنف تلقائيًا معاملة معينة على أنها احتيالية أو غير احتيالية. لذلك ، نحن نحل مشكلة التصنيف الثنائي.
كانت البيانات على النحو التالي:

كان حجم عينة التدريب فقط 1800 أمثلة ، بينما كانت عينة الاختبار 499000 مثال. أيضا ،
لم تكن عينة التدريب
متوازنة : 4 ٪ فقط من المعاملات كانت احتيالية ، فمن الواضح أن
الدقة (حصة الإجابات الصحيحة) عديمة الفائدة هنا. والمثير للدهشة أنه لم تكن هناك قيم مفقودة في البيانات ، وتم توزيع بعض السمات بالتساوي. بناءً على ذلك ، يمكننا أن نستنتج أن
البيانات يتم إنشاؤها بشكل مصطنع.أيضًا ، اقترح المنظمون مقياسهم في شكل مصفوفة الارتباك ، والتي تقاس بالوحدات النقدية:
بعد تحليلها ، أصبح من الواضح لنا أن Precision أكثر أهمية في هذه الحالة ، لأنه
نحن نتحمل الحد الأقصى للخسارة إذا استدعينا عن طريق الخطأ مشترًا صادقًا محتالًا.يتألف حلنا من مراحل كلاسيكية:
- تحليل البيانات الأساسية
- تحليل العلامات والإحصائيات الوصفية والتوزيعات
- إزالة خارجية
- شخصية جيل
- بناء نموذج وتحديد المعلمات
- التحقق من صحة والتوقعات النهائية
يمكن العثور على الشرائح التي تحتوي على محتوى حلنا على:
www.docdroid.net/2XEDfYg/dmc-2019-1.pdfيوجد مستودع على GitHub هنا:
github.com/Perevalov/dmc2019 (كل شيء منتشر على فروع مختلفة ، حتى يكون هناك وقت لترتيب كل شيء)
نهائيات التنظيمية
بعد أن أرسلنا القرار النهائي في أوائل مايو ، بدأنا نتوقع نتائج. شروط المنظمين
مدعوون إلى دعوة أفضل 10 فرق للمشاركة في نهائي شخصي في برلين ، والذي يُعقد كجزء من مؤتمر قمة ذكاء التجزئة 2019: القرارات الذكية لتجارة التجزئة الذكية.
للإشارة ،
في عام 2019 ، شارك 149 فريقًا من 114 جامعة في 28 دولة في DMC.بصراحة ، لم نكن نأمل في الوصول إلى النهائيات ، لكن الآن ، في نهاية شهر مايو ، تأتي رسالة الدعوة العزيزة. علاوة على ذلك ، طُلب من جميع المرشحين النهائيين دفع نفقات تصل إلى 500 يورو ، كما عرضوا الإقامة في فندق لليلة واحدة ، حيث أقيم الحدث.
وبدون تردد ، اشترينا تذاكر إلى برلين وذهبنا للحصول على تأشيرات. نظرًا لكوننا طلابًا فقراء ، فقد تبين لنا أن نفقاتنا في رحلة مدتها يومان كانت كبيرة بالنسبة لنا. بلغت تكاليف تذاكر بيرم برلين بيرم ومعالجة التأشيرات حوالي 40،000 روبل. للشخص الواحد ، هذا أكثر قليلاً من 500 يورو.
وبما أننا نمثل جامعتنا في هذا الحدث ، فقد قررنا الحصول على الدعم المادي منه. علاوة على ذلك ، تنفذ جامعة بيرم بوليتكنيك برنامجًا لتنمية العلاقات الروسية الألمانية وتدعم بقوة طلاب المبادرة (بدا لنا ذلك). بموافقة وتوقيع رئيس القسم الذي ندرسه ، ذهبنا إلى قسم العلوم والابتكار. بدأت هناك ملحمة بيروقراطية استمرت لمدة شهر ، والتي انتهت بما يلي:
"لا يوجد مال ، لكنك تمسك به" . بالطبع كنا مستاءين بعض الشيء ، لكننا لم نفقد قلوبنا. من السخف الآن قراءة البيانات المختلفة للإدارة العليا في جامعتنا حول "الحاجة إلى دعم العلماء الشباب" وغير ذلك من الهراء. حسنًا ، إنه استطراد.
حصلنا على تأشيرات خلال أسبوعين فقط. خلال نفس الوقت ، قمنا بإعداد تقرير للخطاب وفي 2 يوليو في المساء ذهبنا إلى المطار.
الأداء في نهائي كأس تعدين البيانات ومنحها
وصلنا إلى برلين يوم 3 يوليو في الصباح ، وذهبنا إلى فندق nHow ، حيث عقد المؤتمر. مستوى التنظيم ، بالطبع ، مرتفع. في الواقع ، كانت تكلفة المشاركة فيه 1000 يورو للشخص الواحد (بالنسبة لنا فهي مجانية). وهذا ما يشبه الفندق:

كان من المقرر أدائنا 16:30. وقد انعقد في قاعة المؤتمرات الرئيسية ، وبطبيعة الحال باللغة الإنجليزية. بالمناسبة ، لم يؤخذ الأداء نفسه في الاعتبار في التصنيف النهائي ، فقد تم حسابه فقط على أساس المعدل النهائي ، والذي كان لدى المنظمين فقط بيانات عنه.
من بين الفرق العشرة الأولى كانت هناك جامعات مثل: جامعة جورج واشنطن (الولايات المتحدة الأمريكية) ، جامعة جنيف (سويسرا) ، جامعة شيمنيتز التكنولوجية (ألمانيا) ، جامعة أيوا (الولايات المتحدة الأمريكية) ، إلخ. وبالطبع ، جامعة بيرم الوطنية للأبحاث التطبيقية.
بدا الأمر وكأنه غرفة مؤتمرات:

كان هناك إحراج صغير يتمثل في أنني اضطررت إلى التحدث ليس بالشرائح ، ولكن مع ملصق واحد معروض على الشاشة. لذلك ، فإن أداء المشاركين لم يكن بالمعلومات بما فيه الكفاية. ومع ذلك ، كانت هناك فرصة لمقاربة وعرض الملصق الورقي لكل من المشاركين في قاعة المؤتمرات. في الأساس ، استخدم معظم الناس
التراص والمزج والتجميع (نحن بينهم) ، كما استخدم بعض المشاركين
عتبة متزايدة لنماذج التصنيف ، وتمكّن فريقان من إنشاء ميزات على الإطلاق وبناء النموذج على المصدر.
بالمناسبة ، كنا أصغر فريق - فقط 2 أشخاص.
بعد العروض ، بدأ حفل عشاء ومكافأة. كنا نأمل في الحصول على جوائز ، لكننا أدركنا أن هذا أمر غير مرجح ، لذلك كانت رغبتنا الدنيوية "على الأقل لا تكون 10". اتضح بالضبط كما أردنا - اتخذنا المركز التاسع الشرفاء. بطبيعة الحال ، كان الأمر مزعجًا بعض الشيء ، لكن حقيقة أننا كنا في المرحلة النهائية بين هذه الجامعات الجادة تقول الكثير بالفعل. كان الفائزون مشاركين من جامعة أيوا (الولايات المتحدة الأمريكية) ، رغم أنه لا يمكنك القول أنهم جاءوا من الولايات (انظر الصورة):
وكانت جوائز الأماكن الأولى والثانية والثالثة 2000 و 1000 و 500 يورو على التوالي. التقييم النهائي هو على النحو التالي:

النتائج
لم نأسف على مدى مشاركتنا في هذه المسابقة. على الأقل ، يعد هذا إنجازًا +1 في الحافظة ، في أكثر الاتصالات فائدة مع الأشخاص وفرصة لتمثيل مدينتنا وبلدنا في حدث دولي.
أنصح جميع العلماء بالمشاركة في مثل هذه الأحداث ، إنه أمر رائع!