एक वैक्यूम में आदर्श मशीन लर्निंग एल्गोरिदम और वास्तविक डेटा पर इसके अनुप्रयोग के बीच अक्सर अंतराल होता है। यह एक लेख ले रहा है: एक एल्गोरिथ्म है, इस या उस प्रकार के डेटा के लिए अभिसरण है - इसे ले लो और इसे लागू करें। लेकिन किसी कारण से यह पता चला है कि आपका डेटा प्रशिक्षण के लिए पर्याप्त नहीं है, और वे लेख से मॉडल से अलग हैं, क्योंकि असली सिंथेटिक नहीं हैं।
एल्गोरिथ्म को प्रमाणित करने में सामान्य बात यह है कि डेटा की शुद्धता और उनके वितरण के बारे में धारणा बनाना, जो आपको वास्तविक जीवन में नहीं मिलेगा। उदाहरण के लिए, एक लेख के लेखक ने वयस्क हस्तियों की तस्वीरों पर प्रयोग किया है, और सब कुछ उल्लेखनीय रूप से पहचाने जाने योग्य और उसके साथ वर्गीकृत है, और हमारे वास्तविक उदाहरण में बच्चे और कार्टून चरित्र भी हैं, और सब कुछ अचानक उन पर टूट जाता है। लेकिन ऐसे लोग हैं जो इसके साथ सामना कर सकते हैं, इतना है कि सिद्धांत और व्यवहार के बीच का अंतर अभेद्य प्रतीत होता है, और यह दिखाना सार्थक है कि जो लोग इसे दूर करना चाहते हैं वे तुरंत कैसे मिल जाते हैं।

हमने पहले से ही इस तरह के मामलों को हाईलाड ++ पर देखा है, लेकिन वे अलग-अलग रिपोर्ट, इसके अलावा, उच्च भार पर काम सुनिश्चित करने के कार्यों के करीब थे। इसलिए, अब हम उन लोगों के लिए एक अलग सम्मेलन को इकट्ठा करना चाहते हैं जो मशीन सीखने के तरीकों का उपयोग करके व्यावहारिक समस्याओं को हल करते हैं। और इसकी योजना के करीब पहुंचना बहुत सरल है - हम मशीन लर्निंग और डेटा विश्लेषण पर एक सम्मेलन करना चाहते हैं
जो हम खुद चाहेंगे ।
मैं सहमत हूँ, यह अनुभवहीन लगता है, लेकिन "खुद के लिए पसंद नहीं है" सबसे अच्छा प्रेरणा नहीं है? इसके अलावा, हमारे पास सम्मेलनों के आयोजन का बहुत अच्छा अनुभव है और ऐसा लगता है कि हमारे पास इसका एक अच्छा विचार है कि यह कितना अच्छा होना चाहिए।
बेशक , आपकी अपनी राय हो सकती है, इसलिए मैं आपको बताता हूं कि
16 सितंबर को
UseData Conf पर चर्चा करने की हमारी क्या योजना है।
ओंटिको और
मैं इंजीनियरिंग सम्मेलन आयोजित करते हैं जहां चिकित्सक पहले वायलिन बजाते हैं। सभी सम्मेलनों के लिए:
हाईलोअड ++ (तीनों उदाहरण), मॉस्को पायथन कॉन्फ ++, पीएचपी रूस और कई अन्य, हम ऐसे लोगों को ढूंढते हैं जो सम्मेलन विषय से संबंधित प्रौद्योगिकियों का उपयोग करके कुछ उपयोगी काम कर रहे हैं और इसे साझा करने के लिए तैयार हैं।
पिछले कुछ वर्षों में, मैं भाषणों को तैयार करने में वक्ताओं की मदद कर रहा हूं, इसलिए मेरे पास सही सवाल पूछने का कौशल है। जैसे कि सतह को खींचने के लिए जो केवल वक्ता से सीखा जा सकता है। ताकि रिपोर्ट में केवल एक नुस्खा न हो (हम पिछले एक सप्ताह से कैमरों से वीडियो ले रहे हैं, उन्हें एंड-टू-एंड नेटवर्क और हर चीज पर काम करने के लिए प्रशिक्षित किया है), लेकिन सभी प्रमुख बिंदु जो अंतिम परिणाम के लिए ले गए। यदि आप जानते हैं कि आपने क्या प्रयास किया, क्या गया, क्या नहीं गया, और इसलिए यह समस्या को हल करने के लिए निकला, तो आप अपने निष्कर्ष निकाल सकते हैं और इस तरह के समाधान पर विचार कर सकते हैं या नहीं।
कोई मशीन सीखने के सम्मेलन नहीं हैं जो इस सिद्धांत पर अभी बनाए जाएंगे। बड़े और बहुत अधिक शैक्षिक सम्मेलन होते हैं, जिन पर चिकित्सक सभी रिपोर्टों का एक अपेक्षाकृत छोटा अंश बनाते हैं और शुरुआती के लिए विशुद्ध रूप से वैज्ञानिक परिणामों और प्रशिक्षण सामग्री से सटे होते हैं। इसके अलावा, कृत्रिम बुद्धि के बारे में सम्मेलनों का एक पूरा समूह है। आमतौर पर उनके पास बहुत अधिक प्रचार होता है और बहुत कम वास्तव में कुछ काम होता है, हम इनको बायपास करने की कोशिश करते हैं।
एक को दूसरे से अलग करना आसान है: यदि पायथन में किया जाता है, तो यह मशीन लर्निंग है, और यदि पावर पॉइंट पर यह कृत्रिम बुद्धिमत्ता है। हम उस चीज में रुचि रखते हैं जो न केवल पावरपॉइंट में मौजूद है।
UseData वर्गों में विश्वास
इस विचार के आधार पर कि हमारे सम्मेलन में प्रत्येक प्रस्तुति में वास्तविक उत्पादन का अनुभव होना चाहिए, हमने उन विषयों के कई ब्लॉक चुने जिनका हम खुलासा करना चाहते हैं। इसका मतलब यह नहीं है कि हम खुश नहीं होंगे और उन अनुप्रयोगों को स्वीकार नहीं करेंगे जो इन ब्लॉकों में फिट नहीं होते हैं, बस यह वही है जो चिकित्सकों से चिकित्सकों तक अच्छी तरह से प्रसारित होता है।
व्यावसायिक कार्यों में मशीन लर्निंग और डेटा विश्लेषण । मांग संबंधी पूर्वानुमान, खरीद पूर्वानुमान, सिफारिशें और व्यक्तिगत छूट की गणना से संबंधित सब कुछ। यहां, कहानियां प्रासंगिक होंगी, क्योंकि एमएल तरीके एक व्यवसाय को बेहतर ढंग से विकसित करने और ई-कॉमर्स में मुनाफे को बढ़ाने में मदद करते हैं।
कंप्यूटर दृष्टि । यदि आपने रोबोट को कन्वेयर से कुछ हिस्सों को लेने, छेद ड्रिल करने और इसे वापस लाने के लिए सिखाया है - तो बस यही है कि आपको इस अनुभाग में किस बारे में बात करनी चाहिए। आखिरकार, विवरण अलग-अलग हो सकते हैं, वे एक कन्वेयर बेल्ट पर बिखरे हुए हो सकते हैं, प्रशिक्षण के लिए एक भी समाप्त भाग नहीं हो सकता है, लेकिन केवल एक सीएडी मॉडल, और कई अन्य कारक जो वास्तव में क्या हो रहा है से एक बाँझ कन्वेयर के साथ एक आदर्श शैक्षणिक कार्य को भेद करते हैं। ।
प्राकृतिक भाषाओं में ग्रंथों का प्रसंस्करण । हमें गैर-मानक कार्यों में एनएलपी के उपयोग के बारे में बताएं या बताएं कि मौजूदा तरीके क्यों फिट नहीं थे और आपको अपना दृष्टिकोण विकसित करना था। मशीनी अनुवाद और आवाज सहायक इस खंड के पहले दावेदार हैं।
निर्णय लेने की प्रणाली । यह न केवल बीमारियों का निदान करने का कार्य है, बल्कि किसी भी प्रणाली जिसमें एक व्यक्ति एल्गोरिदम द्वारा प्रस्तावित विकल्पों पर अपने फैसले में निर्भर करता है, और मिसाइल रक्षा भी शामिल है। यदि किसी व्यक्ति की आवश्यकता नहीं है, उदाहरण के लिए, सिस्टम खुद एक ड्राइवर को टैक्सी में ऑर्डर करने के लिए नियुक्त करता है (जब तक कि, निश्चित रूप से, समाधान की पीढ़ी लालची एल्गोरिदम तक सीमित नहीं है), तो यह और भी बेहतर है।
मशीन लर्निंग फ्रेमवर्क और टूल्स । इस विषय पर विस्तार करने के लिए, हम सीधे फ्रेमवर्क के डेवलपर्स को आमंत्रित करना चाहेंगे। हम टूलवॉल डेवलपर्स से टूल की पेचीदगियों के बारे में जानने के लिए - HighLoad ++ - पर यह तरीका अपनाते हैं और UseData Conf पर इसे लागू करने की कोशिश करते हैं। इसलिए, यदि आप सिर्फ कैटबॉस्ट, एक्सजीबोस्ट, टेन्सरफ्लो, पाइटोरेक, लाइट जीबीएम, कैरस विकसित कर रहे हैं - कृपया हमें
लिखें । यदि आप सुनिश्चित हैं कि आप उस लोकप्रिय ढांचे के बारे में जानते हैं जो बहुत से डेटा वैज्ञानिकों को पता नहीं है, और इससे उनका जीवन आसान हो जाएगा, तो हम एक रिपोर्ट के लिए आवेदन का भी इंतजार कर रहे हैं।
मशीन लर्निंग कॉन्टेस्ट को दो ब्लॉकों में विभाजित किया गया है: मशीन लर्निंग कॉन्टेस्ट आयोजित करने की तकनीक, साथ ही उन्हें कैसे जीतना है, इसके लिए रणनीति। यद्यपि वास्तविक समस्याओं को हल करने के लिए एक उपकरण की तुलना में कागल जैसे प्रतियोगिता अधिक भर्ती उपकरण हैं, कुछ पहलू चिकित्सकों के काम आएंगे। अंत में, प्रतियोगिताओं की मदद से आप नौकरियों को सफलतापूर्वक बदल सकते हैं - अच्छा भी।
परीक्षण, निगरानी, व्याख्या, डेटा तैयार करना । हम समझते हैं कि मशीन द्वारा प्रशिक्षित मॉडल बेईमानी करते हैं। कई लोग उस स्थिति से परिचित होते हैं जब वे प्रशिक्षित होते हैं, उत्पादन में लॉन्च होते हैं, और सचमुच एक महीने बाद एल्गोरिथ्म अवांछनीय परिणाम पैदा करता है। आपको उस समय को नोटिस करने में सक्षम होना चाहिए जो मॉडल काम नहीं कर रहा है, और समय में इसे वापस लेना है। यदि कुछ गलत हुआ, तो परिणामों की व्याख्या करने में सक्षम होना महत्वपूर्ण है, और आपको डेटा तैयार करने में सक्षम होने की आवश्यकता है। इन विशेष समस्याओं के समाधान की समग्रता और लड़ाई में एमएल के उपयोग की अनुमति देता है।
कागजात के लिए कॉल करें
यदि आपने इनमें से किसी भी विषय में अपने कार्य कार्यों को मान्यता दी है और सोचते हैं कि आपका अनुभव किसी की मदद कर सकता है, तो रिपोर्ट के लिए
आवेदन करें । यदि मशीन सीखना आपके दैनिक कार्यों का हिस्सा है, लेकिन आपको इसमें संदेह है, तो यह समझने का एक विश्वसनीय तरीका है कि क्या विषय उपयुक्त है - कार्यक्रम समिति को लिखें, और हम विवरण को स्पष्ट करेंगे और रिपोर्ट को उपयोगी बनाने में मदद करेंगे।
फिर भी, एक सामान्य सिफारिश है। यदि आपके पास ऐसा कोई विशिष्ट कार्य है जो केवल उद्योग के दिग्गज हल करते हैं, या इसके विपरीत एक छोटा लेकिन बहुत विशिष्ट स्टार्टअप है, और पहली नज़र में ऐसा लगता है कि यह अनुभव अन्य लोगों के लिए उपयोगी नहीं होगा, यह पूरी तरह से सच नहीं है। क्योंकि किसी के फैसले को वैसे भी लेना और दोहराना शायद ही संभव हो, अगर हम जटिल मामलों के बारे में बात करते हैं, लेकिन एक अलग दृष्टिकोण की कोशिश करने के लिए विचार करने के लिए, दूसरी तरफ से जाएं, यह एक बहुत ही अलग अनुभव के साथ संभव है।
इसके अलावा,
व्यक्ति हमेशा किसी विशेष समस्या से सामान्य दृष्टिकोण की ओर बढ़ सकता है । उदाहरण के लिए, यदि हम असामान्य नेटवर्क ट्रैफ़िक को फ़िल्टर करने के बारे में बात कर रहे हैं (मॉस्को, पावेल के दर्शक के लिए धन्यवाद, जिन्होंने कार्यक्रम समिति के साथ जूम की बैठक में एक सवाल पूछा), तो विषम प्रशिक्षण नमूने और विसंगतियों के एक छोटे प्रतिशत के साथ एक समान समस्या विभिन्न क्षेत्रों में उत्पन्न होती है, और सामान्यीकरण का सुझाव दिया जा सकता है।
लागू रिपोर्ट में सबसे मूल्यवान, हमारी राय में,
समाधान का
रास्ता है, न कि स्वयं समाधान । जब उन्होंने पुस्तकालय के तरीकों को लिया और सब कुछ तैयार है, तो यह निश्चित रूप से बहुत अच्छा है, लेकिन यह बहुत कम उपयोग का है। यह अधिक दिलचस्प है जब उन्होंने यह कोशिश की, अन्य, सीमाओं को पाया, एक रेक में भाग लिया, कुछ का आविष्कार किया, और वे इसके बारे में बात करते हैं।
दूसरी ओर, यदि आप उन समस्याओं का समाधान करते हैं जो उद्योग मशीन लर्निंग के बिना मशीन लर्निंग के साथ जुड़ते हैं, तो आप दिखा सकते हैं कि यह कैसे लाभदायक है, और इससे भी बेहतर, एक नुस्खा दें जब आप अपने उदाहरण का पालन कर सकें - यह उत्कृष्ट है, हमें ऐसी रिपोर्ट की आवश्यकता है।
कॉल फॉर पेपर्स 16 जुलाई तक खुला है, 16 अगस्त को हम पूरे कार्यक्रम को तैयार करने की कोशिश करेंगे, और 16 सितंबर को, इन्फोपेस में UseData Conf कॉन्फ़्रेंस आयोजित की जाएगी।
एक रिपोर्ट प्रस्तुत करना सरल है - आपको 2-3 पैराग्राफ के लिए एक अनुमानित विषय और शोध की आवश्यकता है, आवेदन को कार्यक्रम समिति के लिए एक अपील द्वारा पूरक किया जा सकता है, जिसमें प्रकाशन के लिए विवरण का खुलासा नहीं किया गया है। एक ही नहीं कई रिपोर्ट प्रस्तुत करना बेहतर है, फिर हमारे पास प्रश्नों के लिए अधिक भोजन होगा।
पहले से ही कार्यक्रम में
हम कार्यक्रम में रिपोर्टों का चयन करने के लिए रिपोर्ट की स्वीकृति की प्रतीक्षा नहीं करते हैं। इसलिए, सबसे पहले, यदि आप समय सीमा के बाद वक्ताओं के बीच बढ़ी हुई प्रतिस्पर्धा में नहीं उतरना चाहते हैं, तो एप्लिकेशन को बाहर न खींचें। दूसरे, आप एक श्रोता के रूप में सम्मेलन में भाग लेने की योजना बना सकते हैं।

एमएल के व्यावसायिक उपयोग पर पहले खंड ने पहले ही दो रिपोर्टों को अपनाया है।
अलेक्जेंडर अलेक्सेत्सेव ऑनलाइन स्टोर की OZON.RU की बिक्री की भविष्यवाणी करने के लिए मशीन लर्निंग के उपयोग के बारे में
बात करेंगे । वह मांग पूर्वानुमान मॉडल का उपयोग करके मूल्य अनुकूलन के लिए एक दृष्टिकोण प्रस्तुत करेगा, यह दिखाएगा कि गोदाम को फिर से भरने की प्रक्रिया में संभाव्यता सिद्धांत कैसे लागू किया जाए, और उत्पादन के लिए एमएल समाधान के विकास चक्र का वर्णन करें।
पहले संस्करण को HighLoad ++ में प्रस्तुत किया गया था और इसमें गहरी दिलचस्पी थी।
जूम
अलेक्जेंड्रा लोमकिना आपको बताएगा कि टीवी विज्ञापन को अनुकूलित करने की समस्या को सफलतापूर्वक कैसे हल किया जाए। यह कार्य बहुत दिलचस्प है कि यह एक महंगी खुशी है जो लगभग कोई प्रतिक्रिया नहीं देती है - आपने सीटीआर की गिनती नहीं की है। लेकिन आप अभी भी कुछ माप सकते हैं, लेकिन हम यह पता लगाएंगे कि इसे सितंबर में कैसे और कैसे उपयोग किया जाए।

कंप्यूटर विज़न के विषय में, अब तक हमने
गुइडो मोंटूफ़र द्वारा केवल थोड़ी अकादमिक
रिपोर्ट को अपनाया है। गुइडो की योजना ऐसे मॉडलों को नियमित करने के दृष्टिकोण के बारे में है जो इनपुट डेटा के संबंध में मजबूत हैं, और हम इससे अधिक अभ्यास प्राप्त करने की आशा करते हैं।
इसके अलावा, हमने
ग्रिगरी सैपुनोव को तंत्रिका नेटवर्क की वास्तुकला में नवीनतम घटनाओं पर एक
रिपोर्ट के साथ कार्यक्रम में स्वीकार किया। और यह दुर्लभ मामला है जब एक समीक्षा रिपोर्ट उचित है, क्योंकि ग्रेगरी निश्चित रूप से अपने विशाल अनुभव के आधार पर इसे व्यावहारिक सलाह से भर देगी।

हमने मशीन-लर्निंग प्रोजेक्ट प्रबंधन की एक
रिपोर्ट पर
एडुआर्ड टायंटोव के साथ भी सहमति व्यक्त की। विशेष रूप से उसके लिए, हमने "अन्य" खंड शुरू किया, क्योंकि यह विषय हमें बहुत आवश्यक लगता है। अगर कोई आपको बता सकता है कि बहुत सारे मशीन लर्निंग वाले प्रोजेक्ट्स की बारीकियां क्या हैं, किसी प्रोडक्ट को कैसे विकसित किया जाए और इसे प्रोडक्शन में कैसे लीड किया जाए, इसे लोगों और डेवलपर्स को कैसे बेचा जाए, तो यह संभवत: एडवर्ड ऑफ आर्टिस्टो लॉन्च और मेल में एंटीस्पैम और मशीन लर्निंग ग्रुप के प्रबंधन के साथ है। .ru।
विचारों के लिए बुलाओ
यदि आप यहां तक पढ़ते हैं, तो, सबसे पहले, धन्यवाद, हम सम्मेलन में आपकी प्रतीक्षा कर रहे हैं। दूसरे, अगर कुछ पर्याप्त नहीं था, तो टिप्पणियों में लिखें। हमें बताएं कि व्यक्तिगत रूप से आपके लिए कौन से विषय सबसे अधिक प्रासंगिक हैं, मुझे बताएं कि आपको किस तरह की रिपोर्ट की आवश्यकता है, जो आपको सिर्फ याद नहीं आती (किसी भी मायने में, और कार्यक्रम में क्या छोड़ना है)। इस तरह के सम्मेलन में आप क्या नाम सुनना चाहेंगे - यह बहुत अधिक संभावना है कि हमने पहले ही इस विशेषज्ञ से संपर्क किया है, लेकिन यदि नहीं, तो हम निश्चित रूप से करेंगे। कार्यक्रम समिति में वही लोग हैं - हमारे पास बहुत अनुभव है, लेकिन हम अभी भी कुछ भूल सकते हैं।
UseData Conf उन लोगों के लिए एक सम्मेलन है जो मशीन सीखने के तरीकों का उपयोग करके व्यावहारिक समस्याओं को हल करते हैं। रिपोर्ट जमा करें, पंजीकरण करें और 16 सितंबर को देखें।