ग्रिल टेलीकॉम डेटा कप प्रतियोगिता। आने वाला सबसे हॉट



नवंबर की शुरुआत में, मशीन लर्निंग एंड डेटा एनालिसिस चैंपियनशिप , जिसका नाम टेलीकॉम डेटा कप था, को मेल.यू ग्रुप और मेगाफॉन द्वारा लॉन्च किया गया था।

प्रतियोगिता पहले से ही प्रसिद्ध एमएल बूट शिविर मंच पर शुरू की गई है। हम इसके अधिकांश डेटा विश्लेषण प्रतियोगिता का संचालन करने की कोशिश करते हैं। यह प्रतियोगिता इस साल लगातार दूसरी और इस परियोजना के पूरे अस्तित्व में सातवें स्थान पर है। पिछले चैंपियनशिप सैंडबॉक्स मोड में खुले हैं, जो आपको दिन या रात के किसी भी समय पिछले कार्यों को हल करने में प्रशिक्षित करने की अनुमति देता है।

वर्तमान प्रतियोगिता के लिए 2500 से अधिक उपयोगकर्ताओं ने पंजीकरण किया, 1700 लोगों ने डेटासेट डाउनलोड किया, 7800 विभिन्न समाधान अपलोड किए गए, और चैट समुदाय ने 1600 प्रतिभागियों के निशान को पार किया। प्रतियोगिता 16 दिसंबर को समाप्त हो जाएगी, इसलिए यह लड़ाई क्लब में शामिल होने का समय है, अगर आप पहले से ही इसमें नहीं हैं। हम सभी का स्वागत करते हैं और उनकी मदद करते हैं। कॉफी या अपनी खुद की और आपकी मदद करने के लिए कुछ भी :)



लेख के पाद लेख में आपको इस और पिछले प्रतियोगिताओं पर उपयोगी लिंक और सामग्री मिलेगी। मुख्य बात यह है कि अभी आप टेलीकॉम डेटा कप कार्य की दुनिया में उतरेंगे, जो आपको इस प्रक्रिया में जल्दी शामिल होने और वास्तविक अनुसंधान का आनंद लेने की अनुमति देगा।

संक्षेप में कार्य के बारे में


जो लोग पहले से ही जानते हैं कि चैंपियनशिप में क्या हो रहा है, अगले भाग पर जा सकते हैं।

हम सभी "विपणक" के जुनूनी फोन और इंटरनेट चुनावों से थक गए हैं। कल्पना करें कि वे आपको कैसे कॉल करते हैं और पूछते हैं कि क्या आप अभी टीवी देख रहे हैं, कौन सा चैनल, कितने डिवाइस चालू हैं और किस तरह के टीवी शो चल रहे हैं। भगवान, मैं वास्तव में फोन छोड़ना चाहता हूं (हम अक्सर ऐसा करते हैं)। उपयोगकर्ता प्रतिक्रिया देने के लिए बहुत अनिच्छुक हैं, जो प्रदान की गई सेवाओं की गुणवत्ता को नकारात्मक रूप से प्रभावित करता है। समस्या के समाधान की जरूरत है।

इस प्रतियोगिता में, आपको दूरसंचार की दुनिया में खुद को विसर्जित करने की आवश्यकता है, ताकि मेगाफोन टेलीकॉम ऑपरेटर द्वारा प्रदान किए गए अज्ञात उपयोगकर्ता डेटा के आधार पर और वास्तविक लाइव ग्राहकों के सर्वेक्षण के दौरान प्राप्त हो सके, यह अनुमान लगाने के लिए कि क्या ग्राहक संचार की गुणवत्ता से संतुष्ट हैं।

9443 ग्राहकों का सर्वेक्षण किया गया। सर्वेक्षण का परिणाम प्रत्येक ग्राहक के लिए एक संतुष्टि सूचकांक है, जो शून्य (0 - संतुष्ट) या एक (1 - संतुष्ट नहीं) के बराबर है। असंतुष्ट ग्राहकों को सबसे बड़ी संभव सटीकता के साथ पहचानना आवश्यक है।

आपके निर्णयों का मूल्यांकन करने वाला मीट्रिक ROC AUC है। भविष्यवाणी को उसी क्रम में 5221 ग्राहकों के लिए किया जाना चाहिए, जैसा कि subs_csi_test.csv फ़ाइल में है। प्लेटफॉर्म वेबसाइट से डेटा डाउनलोड किया जा सकता है। प्रारंभिक परिणाम 2088 ग्राहकों के लिए प्रतिक्रियाओं द्वारा उत्पन्न किए जाएंगे, और 3133 ग्राहकों (40/60) के उत्तर द्वारा अंतिम परिणाम। प्रति दिन समाधान डाउनलोड की अधिकतम संख्या 5 है, और चयनित समाधानों की संख्या 2 है।

Graali




इस चुनौती से समुदाय की जिज्ञासा बढ़ी। प्रतिभागियों ने विभिन्न समाधानों का चयन किया। कुछ एन मॉडल उत्पन्न करते हैं, उन्हें देखते हैं, नीचे प्रवाह करते हैं और नीचे प्रवाह करते हैं, और ... वॉइला, आपका काम हो गया। अन्य लोग विशेषताएं उत्पन्न करते हैं, रिपॉजिटरी में पोस्ट किए गए व्याख्यान के माध्यम से अनुशासन "सूचना प्रणाली और प्रौद्योगिकी" का अध्ययन करते हैं, और सब कुछ ठीक भी लगता है। और कुछ अच्छे बीज के साथ यादृच्छिक पर भरोसा करते हैं।

लीडरबोर्ड को प्रतियोगिता के अंत में और अधिक सुंदर बनने के लिए, हम आपके साथ कार्य पर कुछ Graals साझा करना चाहते हैं।

कंठ नंबर ०।




चैट पर ध्यान दें और व्याख्यान के साथ Github रिपॉजिटरी। बहुत सारी उपयोगी जानकारी है। हम में से बहुत से लोगों को पता नहीं है कि नेटवर्क कैसे काम करता है। वह जो हमेशा तलाश करता है! बीएस के संचालन के विवरण और सेवाओं द्वारा सुविधाओं के वितरण के साथ एक फ़ाइल के साथ एक छोटी प्रस्तुति को भंडार में जोड़ा गया था।





एक चैट में, प्रतिभागी आयोजकों को प्रताड़ित करते हैं। वापस पकड़ने की कोशिश कर रहा है, लेकिन मुश्किल है।



कंघी नंबर 1


प्रस्तावित डेटा में, cell_lac_id फ़ील्ड एक सेल को इंगित करता है। प्रत्येक सेल संचार की केवल एक पीढ़ी से संबंधित है: 2 जी, 3 जी, 4 जी (एलटीई)। हम प्रत्येक सेल के लिए यह निर्धारित करने की कोशिश करने की सलाह देते हैं कि यह किस पीढ़ी का है।

कंघी №2


प्रत्येक फोन में अधिकतम डेटा अंतरण तकनीक होती है जो इसका समर्थन करती है: 2 जी, 3 जी, 4 जी। इस पर जानकारी subs_features तालिका के INTERNET_TYPE_ID फ़ील्ड में निहित है। मैदान कूट-कूट कर भरा है। इस बात पर विचार करें कि आप यह कैसे निर्धारित कर सकते हैं कि इस क्षेत्र में कौन से मूल्य किस तकनीक से मेल खाते हैं।

कंघी नंबर 3


कृपया ध्यान दें: यदि कुछ क्लाइंट के पास 4 जी सपोर्ट वाला फोन है, लेकिन इतिहास से हम देखते हैं कि वह अक्सर 3 जी या 2 जी सेल के माध्यम से ट्रैफिक डाउनलोड करता है, तो यह तथ्य संचार की गुणवत्ता के बारे में उसकी धारणा को कैसे प्रभावित कर सकता है?

कंघी №4


ग्राहकों के पास मधुकोश होते हैं, जिन पर वे अक्सर और नियमित रूप से जाते हैं (घर, काम, सड़क, दुकान, आदि), और छत्ते जिस पर वे शायद ही कभी और कुछ ही होते हैं। आपको क्या लगता है, ग्राहक के लिए कौन सी कोशिकाओं की गुणवत्ता अधिक महत्वपूर्ण हो सकती है? आप महत्वपूर्ण कोशिकाओं की पहचान कैसे कर सकते हैं?

कंघी №5


इंटरनेट ट्रैफ़िक के लिए subs_bs_consumption table में हस्तांतरित डेटा की मात्रा (SUM_DATA_MB) और उस पर खर्च किए गए समय (SUM_DATA_MIN) दोनों की जानकारी होती है। सेल पर ग्राहक के अनुभव के बारे में क्या जानकारी इस डेटा से निकाली जा सकती है?

कंठ №6


तालिकाओं bs_avg_kpi और bs_chnn_kpi में, प्रति माह औसतन और व्यस्त घंटे (CNN), कई महीनों के इतिहास के साथ सेल विशेषताओं की एक बड़ी संख्या के बारे में जानकारी है। उन कोशिकाओं के समूहों का चयन करने का प्रयास करें जो इन विशेषताओं के संदर्भ में एक-दूसरे के समान हैं। शायद ऐसी कोशिकाएं हैं जो कुल द्रव्यमान से बहुत अलग हैं? उन ग्राहकों का क्या होता है जो अक्सर इन कोशिकाओं का दौरा करते हैं?

इस पर आयोजकों से ग्रिल समाप्त हो गया। हमें यकीन है कि वे एक बेहतर निजी बातचीत हासिल करने में आपकी मदद करेंगे। यह काम नहीं करता है - बेतरतीब ढंग से लोड, आप कभी नहीं जानते हैं, एक टी-शर्ट पर उड़ जाएगा। सभी सबसे दिलचस्प आगे। चैम्पियनशिप के अंत में, लीडरबोर्ड जल जाएगा :) शीर्ष पांच याद रखें!



समय सारिणी


चैंपियनशिप 16 दिसंबर को समाप्त हो रही है, और 22 दिसंबर को मेगाफॉन कार्यालय में सम्मानित किया गया है।

प्रस्तुत


पहली जगह: 400,000 रूबल;
दूसरी जगह: 200,000 रूबल;
तीसरा स्थान: 100,000 रूबल।

परंपरागत रूप से, शीर्ष 200 चैंपियनशिप के प्रतीकों के साथ टी-शर्ट प्राप्त करेंगे।
इसके अलावा, विशेष नामांकन हैं:

  • निजी पर सबसे "vkhuh" के लिए - SSD किंग्स्टन 120 Gb।
  • प्रत्येक प्रतिभागी जो 50 से अधिक लेता है, उसे सामुदायिक पैक से स्टिकर के साथ एक टी-शर्ट मिलेगी।



समुदाय


टेलीग्राम पर हमारे समुदाय में शामिल हों । आप हमेशा सवाल पूछ सकते हैं, डेटा साइंस के क्षेत्र में विशेषज्ञ की सलाह ले सकते हैं। Mail.Ru ग्रुप चैम्पियनशिप कम्युनिटी एक नेटवर्किंग है जहाँ समान विचारधारा वाले लोगों को खोजना आसान है।

उपयोगी लिंक


  1. एमएल बूट शिविर I ( मशीन लर्निंग बूट शिविर - यह कैसे था ... )
  2. एमएल बूट शिविर II ( एमएल बूट शिविर 2016. शीर्ष 10 में नया , "प्रदर्शन मूल्यांकन।" बहुत सरल ... )
  3. एमएल बूट कैंप III। बाइनरी डेटा ( जैसा कि हमने एमएल बूट कैंप III , एमएल बूट कैंप I का विजेता ... प्रतियोगिता , एमएल बूट कैंप III: आधा छोड़ने की भविष्यवाणी ... )
  4. एमएल बूट शिविर IV। गुप्त कार्य ( एमएल बूट शिविर चतुर्थ। चौथा। गुप्त। टी ... , एमएल बूट शिविर चतुर्थ। सार्वजनिक रूप से 1 से 35 तक ... , समाधान में स्थिरीकरण और डिरिक्लेट प्रक्रिया ... )
  5. एमएल बूट कैंप वी। सीवीडी की भविष्यवाणी ( एजहैक - विस्तारित के लिए पहला ऑनलाइन हैकथॉन ... , एमएल बूट कैंप वी, 3 महीने का निर्णय इतिहास ... , एमएलयूपी बूट कैंप चैम्पियनशिप के परिणामों के आधार पर मीटअप )
  6. एमएल बूट शिविर VI। ऑनलाइन सर्वेक्षण के लिए दर्शकों की प्रतिक्रिया की भविष्यवाणी ( एमएल बूट शिविर VI) दर्शकों की प्रतिक्रिया का पूर्वानुमान ... , एमएल बूट शिविर VI पर पहले स्थान का इतिहास )।

Source: https://habr.com/ru/post/hi432046/


All Articles