कैसे जीतें डिजिटल वर्ल्डस्किल्स? एक व्यावहारिक उदाहरण पर

नमस्कार, हेब्र!

दिसंबर में, एडवांस्ड एनालिटिक्स के हमारे सहयोगी, लियोनिद शेरस्ट्युक ने 2 डिजिटलसस्किल्स उद्योग चैम्पियनशिप में मशीन लर्निंग और बिग डेटा योग्यता में पहला स्थान हासिल किया। यह वर्ल्डस्किल्स रूस द्वारा आयोजित प्रसिद्ध पेशेवर प्रतियोगिताओं की एक "डिजिटल" शाखा है। कुल मिलाकर, 200 से अधिक लोगों ने चैंपियनशिप में भाग लिया, 25 डिजिटल दक्षताओं में नेतृत्व के लिए प्रतिस्पर्धा की - कॉर्पोरेट सुरक्षा के खिलाफ आंतरिक सुरक्षा खतरे, इंटरनेट मार्केटिंग, कंप्यूटर गेम और मल्टीमीडिया अनुप्रयोगों का विकास, क्वांटम टेक्नोलॉजीज, इंटरनेट ऑफ़ थिंग्स, औद्योगिक डिजाइन, आदि।



मशीन लर्निंग के लिए एक मामले के रूप में, अर्ध-स्वचालित अल्ट्रासोनिक नियंत्रण प्रणाली का उपयोग करके परमाणु ऊर्जा संयंत्रों, तेल और गैस पाइपलाइनों में दोषों की निगरानी और पता लगाने का कार्य प्रस्तावित किया गया था।

लियोनिद इस बारे में बताएगा कि प्रतियोगिता में क्या था और कैसे वह कट के तहत जीतने में कामयाब रहा।

वर्ल्डस्किल्स एक अंतरराष्ट्रीय संगठन है जो दुनिया भर में पेशेवर कौशल प्रतियोगिता आयोजित करता है। परंपरागत रूप से, औद्योगिक कंपनियों के प्रतिनिधियों और संबंधित विश्वविद्यालयों के छात्रों ने इन प्रतियोगिताओं में भाग लिया, जो कि विशिष्टताओं में अपने कौशल का प्रदर्शन करते हैं। हाल ही में, प्रतियोगिता में डिजिटल नामांकन दिखाई देने लगे, जहां युवा विशेषज्ञ रोबोटिक्स, एप्लिकेशन डेवलपमेंट, सूचना सुरक्षा और अन्य व्यवसायों में दक्षता हासिल करते हैं, जिन्हें आप कार्यकर्ता भी नहीं कह सकते। इनमें से एक नामांकन में - मशीन लर्निंग और बड़े डेटा के साथ काम करने में - मैंने डब्ल्यूएस के तत्वावधान में आयोजित डिजिटलस्किल्स प्रतियोगिता में कज़ान में प्रतिस्पर्धा की।

चूंकि प्रतियोगिता के लिए योग्यता नई है, इसलिए मेरे लिए यह कल्पना करना मुश्किल था कि क्या उम्मीद की जाए। बस मामले में, मैंने डेटाबेस के साथ काम करने और कंप्यूटिंग, मीट्रिक और प्रशिक्षण एल्गोरिदम, सांख्यिकीय मानदंड और प्रीप्रोसेसिंग विधियों के बारे में जानने के बारे में सब कुछ दोहराया। अनुमानित मूल्यांकन मानदंड से परिचित होने के नाते, मुझे समझ नहीं आया कि हडोप के साथ पूर्ण काम करने और 6 छोटे सत्रों में एक चैट बॉट बनाने के लिए कैसे संभव होगा।

पूरी प्रतियोगिता 6 दिनों में, 3 दिन चलती है। प्रत्येक सत्र एक ब्रेक के साथ 3 घंटे है, जिसके लिए आपको कई कार्यों को पूरा करने की आवश्यकता होती है जो सार्थक रूप से एक-दूसरे से संबंधित हैं। सबसे पहले, यह लग सकता है कि समय पर्याप्त है, लेकिन वास्तव में यह सब कुछ कल्पना करने का प्रबंधन करने के लिए एक उन्मत्त गति ले गया।
प्रतियोगिता में, यह उम्मीद की गई थी कि यह बड़े डेटा के साथ काम करने की उम्मीद नहीं थी, और सीमित डेटा सेट का विश्लेषण करने के लिए कार्यों का पूरा पूल कम हो गया था।

वास्तव में, हमें आयोजकों में से एक का मार्ग दोहराने के लिए कहा गया था, जिसमें ग्राहक अपनी समस्या और डेटा लेकर आए थे, और जिनसे उन्होंने कुछ ही हफ्तों में एक वाणिज्यिक प्रस्ताव की उम्मीद की थी।

हमने PUZK (अर्ध-स्वचालित अल्ट्रासोनिक नियंत्रण प्रणाली) के डेटा के साथ काम किया। प्रणाली को दरारें और दोषों के लिए पाइप लाइन में जोड़ों की जांच करने के लिए डिज़ाइन किया गया है। स्थापना स्वयं पाइप पर लगे रेल के साथ यात्रा करती है, और प्रत्येक चरण में 16 माप बनाती है। आदर्श परिस्थितियों में और दोषों की अनुपस्थिति में, कुछ सेंसर को अधिकतम संकेत देना चाहिए, अन्य - शून्य; वास्तव में, डेटा बहुत शोर था, और इस सवाल का जवाब देने के लिए कि क्या किसी दिए गए स्थान में कोई दोष था, एक गैर-तुच्छ कार्य बन गया।


PUZK प्रणाली की स्थापना

पहला दिन डेटा को जानने, उसे साफ करने, वर्णनात्मक आंकड़ों को संकलित करने के लिए समर्पित था। हमें इंस्टॉलेशन और डिवाइस पर लगे सेंसर के प्रकार के बारे में न्यूनतम जानकारी दी गई थी। डेटा प्रीप्रोसेसिंग के अलावा, हमें यह स्थापित करना था कि सेंसर किस प्रकार के हैं और वे डिवाइस पर कैसे स्थित हैं।


नमूना डेटा: यह संबंधित सेंसर कैसा दिखता है

मुख्य प्री-प्रोसेसिंग ऑपरेशन एक चलती औसत के साथ माप की जगह ले रहा है। यदि खिड़की बहुत बड़ी थी, तो बहुत अधिक जानकारी खोने का खतरा था, लेकिन सहसंबंध जो यह निर्धारित करने में मदद करते हैं कि अधिक दृश्य होगा। कुछ कनेक्शन प्रीप्रोसेसिंग के बिना ध्यान देने योग्य थे; हालांकि, कच्चे डेटा की सावधानीपूर्वक जांच करने का समय नहीं था, इसलिए कोरलोग्राम का उपयोग अपरिहार्य है।


सहसंबंध मैट्रिक्स

इस मैट्रिक्स पर, विकर्ण के साथ सेंसर के दोनों जोड़े, एक दूसरे के साथ निकटता से जुड़े हुए हैं, और विपरीत सहसंबंधी चर दिखाई दे रहे हैं; यह सब सेंसर के प्रकारों को निर्धारित करने में मदद करता है।

अंतिम अनिवार्य वस्तु एक समन्वय के लिए सेंसर को कम करना था। चूंकि माप उपकरण एक माप कदम से काफी अधिक था, और सेंसर पूरे उपकरण में फैले हुए थे, यह प्रशिक्षण के लिए डेटा के आगे उपयोग से पहले एक अनिवार्य कदम था।

\
सेंसर लेआउट

डिवाइस पर सेंसर की स्थापना के आरेख से पता चलता है कि हमें सेंसर के तीन समूहों के बीच की दूरी को खोजने की आवश्यकता है। यहां सबसे आसान और सबसे तेज़ तरीका यह है कि डिवाइस के प्रत्येक सेगमेंट को किस सेगमेंट में स्थापित किया जाए, और फिर एक कदम से माप के भाग को स्थानांतरित करते हुए अधिकतम सहसंबंध की खोज करें।

यह चरण इस तथ्य से जटिल था कि सेंसर के प्रकार के बारे में मेरी धारणाओं की गारंटी नहीं थी, इसलिए मुझे सभी सहसंबंधों, प्रकारों, योजना को देखना था और इसे एक एकल सुसंगत प्रणाली में जोड़ना था।

दूसरे दिन, हमें अंकों के आधार पर प्रशिक्षण लेने और क्लस्टरिंग करने के लिए डेटा तैयार करना था, और फिर एक क्लासिफायरियर बनाना था।

डेटा की तैयारी के दौरान, मैंने बहुत अधिक सहसंबंधी रीडिंग को हटा दिया, और एक सिंथेटिक विशेषता के रूप में मैंने चलती औसत, व्युत्पन्न और जेड-स्कोर को जोड़ा। निस्संदेह, नए चर के संश्लेषण को काफी व्यापक रूप से खेला जा सकता है, लेकिन समय ने इसकी सीमाएं लागू कर दीं।

क्लस्टरिंग सभी से अलग दोषपूर्ण बिंदुओं की मदद कर सकता है। मैंने 3 तरीकों की कोशिश की: k- साधन, बिर्च और DBScan, लेकिन, दुर्भाग्य से, उनमें से किसी ने भी एक अच्छा परिणाम नहीं दिया।

भविष्य कहनेवाला एल्गोरिथ्म के लिए, हमें पूर्ण स्वतंत्रता दी गई थी; केवल वह प्रारूप जो आउटपुट पर प्राप्त किया जाना चाहिए, निर्दिष्ट किया गया था। एल्गोरिथ्म एक तालिका प्रदान करने वाला था (या इसके लिए डेटा रिड्यूसबल), जिसमें एक पंक्ति एक दरार से मेल खाती है, और कॉलम इसकी विशेषताओं (जैसे लंबाई, चौड़ाई, प्रकार और पक्ष) के लिए। यह मुझे सबसे सरल विकल्प लगा, जिसमें हम परीक्षण नमूने के प्रत्येक बिंदु के लिए एक भविष्यवाणी करते हैं, और फिर पड़ोसी लोगों को एक दरार में जोड़ते हैं। नतीजतन, मैंने 3 क्लासिफायर बनाए जो निम्नलिखित सवालों का जवाब देते थे: सीम के किस तरफ दोष है, यह कितना गहरा है और यह किस प्रकार का है (अनुदैर्ध्य या अनुप्रस्थ)।

यहां, प्रतिगमन द्वारा जिस गहराई की भविष्यवाणी की जानी चाहिए वह हड़ताली है; हालांकि, चिह्नित-अप नमूने में, मुझे केवल 5 अद्वितीय गहराई मिली, इसलिए मुझे यह सरलीकरण स्वीकार्य लगा।


एल्गोरिदम मूल्यांकन मेट्रिक्स

सभी एल्गोरिदम में से (मैं लॉजिस्टिक रिग्रेशन, डिसीसिव ट्री और ग्रेडिएंट बूस्टिंग की कोशिश करने में कामयाब रहा), जैसा कि उम्मीद थी, को बढ़ावा दिया, सबसे अच्छा किया। मेट्रिक्स निस्संदेह बहुत सुखद हैं, लेकिन नए, परीक्षण सेट में परिणाम के बिना एल्गोरिदम के संचालन का मूल्यांकन करना मुश्किल है। आयोजकों ने विशिष्ट मैट्रिक्स के साथ कभी नहीं लौटाया, खुद को एक सामान्य टिप्पणी तक सीमित कर लिया कि किसी ने परीक्षण के साथ-साथ विलंबित नमूने पर भी नहीं किया।


बढ़ावा देने के लिए त्रुटि मैट्रिक्स

सामान्य तौर पर, मैं परिणामों से प्रसन्न था; विशेष रूप से, भुगतान किए गए श्रेणीगत चर की ऊंचाई को कम करना।

अंतिम दिन, हमें एक ऐसे उत्पाद में प्रशिक्षित एल्गोरिदम को लपेटना था, जिसका उपयोग एक संभावित ग्राहक कर सकता था, और हमारे उद्यम-तैयार समाधान की प्रस्तुति तैयार कर सकता था।

यहां, पूर्णतावाद ने अपेक्षाकृत साफ कोड लिखने में मेरी मदद की, जो सीमित समय में भी गायब नहीं हुआ। कोड के तैयार टुकड़ों से, प्रोटोटाइप जल्दी से विकसित हुआ, और मेरे पास त्रुटियों को डीबग करने का समय था। पिछले चरणों के विपरीत, यहां समाधान के प्रदर्शन ने औपचारिक मानदंडों को पूरा करने के बजाय अधिक महत्वपूर्ण भूमिका निभाई।


तैयार उत्पाद - सीएलआई उपयोगिता

सत्र के अंत में, मुझे एक सीएलआई उपयोगिता मिली जो इनपुट के रूप में स्रोत फ़ोल्डर को स्वीकार करती है और टेक्नोलॉजिस्ट के लिए सुविधाजनक रूप में भविष्यवाणी के परिणामों के साथ तालिकाओं को लौटाती है।

अंतिम चरण में, मुझे अपनी सफलताओं के बारे में बात करने और यह देखने का अवसर दिया गया कि अन्य प्रतिभागी क्या करने आए थे। सख्त मानदंडों के तहत भी, हमारे फैसले पूरी तरह से अलग थे - किसी ने सफलतापूर्वक क्लस्टर किया, दूसरों ने कुशलता से रैखिक तरीकों का इस्तेमाल किया। प्रस्तुतियों के दौरान, प्रतियोगियों ने अपनी ताकत पर जोर दिया - कुछ उत्पाद की बिक्री पर डाल दिया, दूसरों को और अधिक गहराई से तकनीकी विवरण में डूबा हुआ; सुंदर ग्राफिक्स और अनुकूली समाधान इंटरफेस थे।


मेरे समाधान का मुख्य लाभ एक स्लाइड पर फिट होता है

सामान्य तौर पर प्रतियोगिता के बारे में क्या?

इस प्रकार की प्रतियोगिताएं यह पता लगाने का एक शानदार अवसर है कि आप अपनी विशेषता के कार्यों को कितनी तेजी से कर सकते हैं। मानदंड इस तरह से संकलित किए गए थे कि न कि जिसने सबसे अच्छे परिणाम प्राप्त किए (उदाहरण के लिए, कागले पर) को सबसे अधिक अंक मिले, लेकिन जो सबसे जल्दी उद्योग में दैनिक कार्यों के विशिष्ट कार्यों को कर सकते हैं। मेरी राय में, इस तरह की प्रतियोगिताओं में भागीदारी और जीत एक संभावित नियोक्ता को हैकथॉन और केगल में उद्योग में अनुभव से कम नहीं बता सकती है।

लेनोनिद शेरस्त्युक,
डेटा विश्लेषक, उन्नत विश्लेषिकी, SIBUR

Source: https://habr.com/ru/post/hi437974/


All Articles