ओकटेक डेटा सेंस # 3: स्पीकर मिनी इंटरव्यू



परियोजना लगभग। टेक डेटा टोल का जन्म बड़े डेटा के प्रसंस्करण और विश्लेषण में शामिल विशेषज्ञों के लिए एक चर्चा मंच के रूप में हुआ था। हर बार हम इस बात पर जोर देते हैं कि हमारी बैठकों का मुख्य कार्य रिपोर्ट नहीं है, हालांकि वे भी बहुत महत्वपूर्ण हैं, लेकिन वक्ताओं के साथ दर्शकों की एक खुली चर्चा है, जिसके दौरान प्रतिभागियों के पास घटना के दायरे में किसी भी मुद्दे पर चर्चा करने का समय है। हमारा मानना ​​है कि इस स्थिति में, जब डेटा विज्ञान के क्षेत्र में समस्याओं और अनसुलझी समस्याओं की संख्या तेजी से बढ़ रही है, तो एक खुला संवाद बहुत महत्वपूर्ण है।

हमने 2 बैठकें कीं, सबसे पहले हमने डेटा स्टोरेज के विभिन्न तरीकों के फायदों और नुकसानों पर चर्चा की और ये दृष्टिकोण अलग-अलग टीमों के काम को कैसे प्रभावित करते हैं, और डेटा वेयरहाउस के विकास पर भी छूए। दूसरी बैठक डेटा साइंस में शिक्षा के लिए समर्पित थी, साइट पर अलग-अलग राय के प्रतिनिधियों ने बैठक की, वक्ताओं ने विश्वविद्यालय की शिक्षा के महत्व, ऑनलाइन पाठ्यक्रमों की विविधता और उनकी विशेषताओं के साथ-साथ एक शांत और मांगी गई डेटासेंटर बनने के लिए आपको किन कौशल की आवश्यकता है।

तीसरी बैठक की प्रत्याशा में, जो 6 नवंबर को मॉस्को में आयोजित की जाएगी और सिफारिशकर्ता प्रणालियों के लिए समर्पित होगी, हमने वक्ताओं से बात की कि वे विकासशील प्रणालियों के बारे में अपने मार्ग के बारे में बात करें, कि वे इस दिशा में अपने भविष्य को कैसे देखते हैं और उनसे सिफारिश करने के लिए कहा कि अब क्या किया जाना चाहिए ताकि ज्ञान और कौशल कुछ वर्षों के बाद भी प्रासंगिक बने रहे। हमने यह भी पूछा कि वे बैठक में क्या बात करेंगे और इस कार्यक्रम में भाग लेने के लायक क्यों हैं।

डेटा एक्सप्लोर # 3 के लिए रजिस्टर करें

अपने बारे में थोड़ा बताइए?


एंड्रे कुज़नेत्सोव, सहपाठियों
नमस्ते, मैं प्रशिक्षण द्वारा एक दूरसंचार इंजीनियर हूँ। स्नातक स्तर की पढ़ाई के बाद, वह एक शोध प्रबंध लिखने गया और उसी समय पढ़ाया गया। कुछ बिंदु पर, यह मुझे लग रहा था कि पुरानी जगह में मैंने वह सब कुछ किया जो मैं चाहता था और डेटा साइंस में काम करने के लिए गया था। मैं उद्यम में सिफारिशों के साथ बहुत पहले से काम नहीं कर रहा था, लेकिन मैंने इस क्षेत्र में ऑनलाइन पाठ्यक्रमों और प्रतिस्पर्धी डीएस से मुख्य अनुभव प्राप्त किया।

व्लादिस्लाव ग्रोज़िन, जुम
उन्होंने अलेक्सई नैटकिन की नोक पर सिफारिश प्रणालियों की दुनिया में प्रवेश किया, जहां से उन्होंने डेटामाइनिंग लैब में अध्ययन किया। मुझे इस बात की थोड़ी समझ थी कि मैं क्या करने जा रहा था, लेकिन अंत में मैं विश्वविद्यालय में एक प्रयोगशाला में लिनक्स के लिए नेटवर्क ड्राइवरों को लिखने से बेहतर था (जो मैंने पहले किया था)।

एव्जेनी फ्रोलोव, स्कोलटेक
सिफारिश प्रणाली के लिए मेरी यात्रा काफी सरल रूप से शुरू हुई। 2014 में, मैं स्कोलटेक का छात्र था, जो मशीन लर्निंग के क्षेत्रों में अनुप्रयुक्त शोध करने के अवसरों की तलाश में था, जो मेरी दिलचस्पी थी। मैं बौद्धिक सहायकों से बिल्कुल कुछ चाहता था। बस उसी समय, मेरे भविष्य के पर्यवेक्षक, इवान ओसेलेडेट्स ने एक जर्मन कार्यालय के साथ एक नई परियोजना की घोषणा की, जो कि एडवाइजर सिस्टम के लिए उन्नत गणितीय तरीकों की प्रयोज्यता पर शोध करने में रुचि रखते हैं। सितारे एक साथ आए, इसलिए मैंने अपनी पीएचडी करना शुरू कर दिया।

मुझे उत्पादन में अपने पहले रोलआउट के बारे में बताएं?


एंड्रे कुज़नेत्सोव, सहपाठियों
उत्पादन में पहला रोल ओके में समूहों की सिफारिशों से संबंधित था और निश्चित रूप से, यह एक रोमांचक अनुभव था। लेकिन टीम में अनुभवी सहयोगियों और डीबग किए गए टूल और प्रक्रियाओं की उपस्थिति जीवन को बहुत सरल बनाती है। परिकल्पना, वैसे, काम किया और पाइपलाइन को ठेस पहुंची, लेकिन 3 महीने बाद हमने इसे एक अधिक प्रभावी समाधान के साथ बदल दिया।

व्लादिस्लाव ग्रोज़िन, जुम
पहला मॉडल, जिसे मैंने ठेस में लॉन्च किया था, वास्तव में सिफारिशों के बारे में नहीं था, लेकिन खोज के बारे में। मुझे पूरी तरह से वह पल याद है जब लाइव ट्रैफिक इस पर डाला गया था। ट्रैफ़िक छोटा था, प्रत्येक दूसरे या दो उपयोगकर्ता का अनुरोध आया, जिससे स्क्रीन पर एक और लाइन बन गई (मैंने लॉग को देखा)। यह रोमांचक था: मैं मॉडल और इसके चारों ओर के बुनियादी ढांचे के लिए जिम्मेदार था, और उम्मीद थी कि कुछ टूट जाएगा और तत्काल हस्तक्षेप की आवश्यकता होगी। लेकिन सब कुछ आसानी से हो गया, और लगभग पंद्रह मिनट के बाद मैं शांत हो गया और कॉफी के लिए चला गया।

एव्जेनी फ्रोलोव, स्कोलटेक
उत्पादन में, मैंने व्यक्तिगत रूप से मॉडल नहीं बनाए। "मैं एक शोधकर्ता हूं।" अब तक के मेरे कार्य मुख्य रूप से नए दृष्टिकोण और विधियों के विकास से संबंधित हैं और प्रोटोटाइप के कार्यान्वयन से परे नहीं हैं।

आपको क्या लगता है अधिक महत्वपूर्ण है: शांत एल्गोरिदम या डोमेन समझ?


एंड्रे कुज़नेत्सोव, सहपाठियों
सिफारिशों के क्षेत्र में, ऐसा लगता है, ये दो समान व्हेल हैं, जिन पर सभी बड़ी परियोजनाएं आयोजित की जाती हैं। स्वयं डेटा की बारीकियों को जानने के बाद, यह कैसे एकत्र किया जाता है और सिस्टम कैसे कार्य करता है (विशेष रूप से लोड के तहत हमारी तुलना में) यह अग्रिम में मूल्यांकन करने में बहुत मदद करता है कि क्या यह या वह एल्गोरिथ्म काम करेगा और क्या यह खर्च करने के लिए समय के लायक है। ठीक है, आपको उन एल्गोरिदम और उपकरणों को जानना होगा जो उन्हें कार्यान्वित करते हैं ताकि आप अपने कार्य पर जल्दी से प्रयास कर सकें और ए / बी परीक्षण के लिए कुछ प्रूफ-ऑफ-कॉन्सेप्ट को रोल आउट कर सकें।

व्लादिस्लाव ग्रोज़िन, जुम
सबसे अच्छे एल्गोरिथ्म को लेना महत्वपूर्ण है जो कार्य और विकास और संसाधनों के लिए समय सीमा के अनुकूल है, और इसे ठेस में लॉन्च करने से डरो नहीं।

एव्जेनी फ्रोलोव, स्कोलटेक
यदि हम विशेष रूप से सिफारिश प्रणालियों के क्षेत्र के बारे में बात कर रहे हैं, तो, जैसा कि अभ्यास से पता चलता है (और अनुसंधान से रुकावट के बिना नहीं), विषय क्षेत्र की समझ अधिक महत्वपूर्ण है। इस तरह की एक स्थापित राय है, जिसके साथ मैं अधिक मानता हूं कि एल्गोरिदम एक सिफारिश प्रणाली की सफलता का 5% हिस्सा है। अब क्षेत्र पहले ही विकास के चरण में पहुंच गया है कि एक सुविधाजनक पुस्तकालय या सॉफ्टवेयर पैकेज खोजना काफी आसान है, इसे उत्पादन में रोल करें और लाभ प्राप्त करना शुरू करें। हां, यह हो सकता है कि चुनाव इष्टतम नहीं होगा, लेकिन शुरुआत के लिए यह पर्याप्त होगा, और आपको महत्वपूर्ण व्यावसायिक कार्यों पर ध्यान केंद्रित करने की अनुमति देगा।

किन नए क्षेत्रों में सिफारिश प्रणाली लागू की जाएगी?


एंड्रे कुज़नेत्सोव, सहपाठियों
सबसे महत्वाकांक्षी भविष्य, मेरी राय में, शिक्षा में सिफारिश प्रणाली का इंतजार है, जब शिक्षा प्रणाली खुद (विशेष रूप से रूसी एक) इसके लिए तैयार है :)। दरअसल, वास्तव में, हम पहले से ही वाणिज्यिक सिफारिशों से काफी खराब हैं, लेकिन "स्टेरॉयड पर कैरियर मार्गदर्शन" बहुत कुछ है।

व्लादिस्लाव ग्रोज़िन, जुम
ऐसा लगता है कि रचनात्मक नैतिकता की दृष्टि से कानून के शासन के विषयों पर भौतिक प्रभाव विधियों को लागू करने की प्रासंगिकता के बारे में सिफारिशें देने के लिए जल्द ही सिफारिशी प्रणालियों को रोबोट पुलिस में बनाया जाएगा।

एव्जेनी फ्रोलोव, स्कोलटेक
जहां लापता डेटा की समस्या है, कई समस्याओं को हल करने के लिए अनुशंसित सिस्टम के तरीकों का उपयोग किया जा सकता है। उदाहरण के लिए, केमिस्ट्स ने पता लगाया है कि इस तरह से नए, पहले अज्ञात, अकार्बनिक यौगिकों का अनुमान विभिन्न आयनों / उद्धरणों के संयोजन के आधार पर लगाया जा सकता है। एक अन्य कार्य विशेष निरोधात्मक गुणों वाले प्रोटीन के आधार पर वायरस के खिलाफ प्रभावी दवाओं की पहचान है। यह जानना बेहद मुश्किल है कि कौन से प्रोटीन वायरस का एक विशिष्ट तनाव का मुकाबला करने में प्रभावी होंगे यदि कोई पिछला परीक्षण नहीं किया गया है। उन दोनों के लिए कई संभावित विकल्प हैं, वायरस भी जल्दी से विकसित होते हैं, आप सब कुछ माप नहीं सकते। लेकिन वायरस की प्रतिक्रियाओं में कुछ सामान्य पैटर्न के आधार पर, आप उस परिणाम की भविष्यवाणी करने की कोशिश कर सकते हैं जहां अभी तक परीक्षण नहीं हुए हैं। लगभग ऑनलाइन रिटेल में पसंद है, लेकिन विपरीत प्रभाव के साथ - वायरस को "उत्पाद" बहुत पसंद नहीं करना चाहिए।

अब ये डरपोक कदम हैं, लेकिन, मुझे लगता है, हम वाणिज्य, मनोरंजन और विज्ञापन के सामान्य क्षेत्रों से परे सिफारिश प्रणालियों के तरीकों के अधिक से अधिक प्रवेश देखेंगे। मैं कम से कम उम्मीद करना चाहूंगा। ऐसा लगता है कि धीरे-धीरे जटिल निर्णय लेने में मदद करके जीवन स्तर में गुणात्मक परिवर्तन की दिशा में आराम प्रदान करने से एक बदलाव होगा, जैसे कि एक अच्छी शिक्षा के लिए एक व्यक्तिगत सीखने का रास्ता तैयार करना, एक दिलचस्प और मांग वाले पेशे का चयन करना या व्यक्तिगत चिकित्सा सेवाएं प्राप्त करना।

सिफारिशकर्ता सिस्टम के साथ काम करने वाले किसी व्यक्ति को कौन सी पुस्तक या लेख पढ़ना चाहिए?


एंड्रे कुज़नेत्सोव, सहपाठियों
एक विशिष्ट पुस्तक की सिफारिश करना मुश्किल है, क्योंकि क्षेत्र काफी लागू है। मैं ऑनलाइन पाठ्यक्रमों की सिफारिश करूंगा, उदाहरण के लिए, कोर्टसेरा में एमआईपीटी से डेटा विश्लेषण में विशेषज्ञता बहुत अच्छी है।

व्लादिस्लाव ग्रोज़िन, जुम
यह मुझे लगता है कि सभी वैज्ञानिकों को नेटल्यूज़ के सहयोगात्मक फ़िल्टरिंग के लिए GroupLens: An Open Architecture पढ़ना चाहिए। यह लेख पहले से तैनात सिफारिशकर्ता प्रणालियों में से एक का वर्णन करता है, जैसा कि हम उन्हें अब जानते हैं। यह लेख अब तक पढ़ी गई बातों से बहुत अलग है, क्योंकि यह न केवल एल्गोरिथ्म को प्रभावित करता है, बल्कि उस वातावरण को भी बताता है जिसमें यह काम करेगा।

एव्जेनी फ्रोलोव, स्कोलटेक
इस क्षेत्र में बहुत सारी किताबें नहीं हैं, और यदि आप चाहें, तो आप कम से कम सब कुछ पढ़ सकते हैं, कम से कम धाराप्रवाह स्तर पर। कितने शुरुआती एक ही "रेक" के लिए जाने वाले एक ही मार्ग का अनुसरण करते हुए देख रहे हैं, मैं पाओलो क्रेमोनी, येहुदा कोरन और रॉबर्टो ट्यूरिन द्वारा PureSVD दृष्टिकोण के बारे में 2010 के लेख का उल्लेख करूंगा। यह कोई संयोग नहीं है कि वह इस सम्मेलन के पूरे इतिहास में अनुशंसित सिस्टम पर कागजात एसीएम सम्मेलन के संग्रह में तीसरा उद्धरण है। एक बार, उसने मुझे उन लेखों के ढेर में अलग-अलग रूप से देखने में मदद की, जो खोज परिणामों के शीर्ष पर क्रॉल करते हैं, यदि अनुरोध बहुत बड़े पैमाने पर तैयार किया गया हो।

सिफारिश के लिए सबसे अच्छा खुला स्रोत पुस्तकालय?


एंड्रे कुज़नेत्सोव, सहपाठियों
यह समस्या के हल होने, डेटा की मात्रा और उस प्लेटफॉर्म पर निर्भर करता है जिस पर सिफारिश प्रणाली का निर्माण किया जाएगा। ऐसा लगता है कि कुछ लाइटएफएम को लगभग किसी भी कार्य सिफारिशों के लिए आधार रेखा के रूप में अनुशंसित किया जा सकता है।

व्लादिस्लाव ग्रोज़िन, जुम
PyTorch?

एवगेनी फ्रॉलोव ^ स्कोलटेक
मेरे मामले में, जवाब स्पष्ट है - पोलारा पुस्तकालय जो मैं विकसित कर रहा हूं।

आपकी रिपोर्ट ओकटेक डेटा समझाया # 3 के बारे में क्या होगी, और आपको इसे क्यों सुनना चाहिए


एंड्रे कुज़नेत्सोव, सहपाठियों
रिपोर्ट ओके में प्रोजेक्ट टीमों के लिए एक सिफारिश प्रणाली के विकास का इतिहास होगा। मैं इस बारे में बात करूंगा कि यह अपने आप में एक दिलचस्प मामला क्यों है और यह क्लासिक सिफारिशों से कैसे भिन्न होता है, उदाहरण के लिए, ई-कॉमर्स में उत्पाद। मैं अलग से उल्लेख करता हूं कि विकास के दौरान हमें कौन से धक्कों का सामना करना पड़ा, कौन से निष्कर्ष निकाले गए, और क्यों पर्याप्त डेटा और सार्वभौमिक एल्गोरिदम नहीं हैं।

व्लादिस्लाव ग्रोज़िन, जुम
मैं आपको बताता हूं कि आप सम्मेलनों में क्या उम्मीद कर सकते हैं। बहुत से लोग जाना चाहते हैं, क्योंकि यह शांत और शांत दिखता है, लेकिन वे समय और धन का निवेश करने में संकोच करते हैं, क्योंकि यात्रा के विवरण और व्यावहारिक लाभ स्पष्ट नहीं हैं। मैं अपनी कहानी के साथ इन मुद्दों को स्पष्ट करने की उम्मीद करता हूं।

एव्जेनी फ्रोलोव, स्कोलटेक
मैं हमारे विकास के बारे में बात करूंगा - एक नया मॉडल जिसे हाइब्रिड वीवीडी कहा जाता है - जिसे मैंने हाल ही में एसीएम रेसीस सम्मेलन में प्रस्तुत किया है। यह हाइब्रिड अनुशंसा प्रणालियों के लिए PureSVD मॉडल का प्रत्यक्ष सामान्यीकरण है जो उपयोगकर्ताओं और उत्पादों के बारे में अतिरिक्त जानकारी को ध्यान में रखता है। यह मॉडल दिलचस्प है कि यह एक विलक्षण अपघटन की गणना से परे नहीं है, जिसका अर्थ है कि यह सभी कम्प्यूटेशनल फायदे और उपयोग में आसानी प्राप्त करता है। मैं इस बारे में बात करूंगा, तकनीकी पहलुओं पर और अधिक विस्तार से।

दोस्तों, सवालों के जवाब देने के लिए समय निकालने के लिए आपका बहुत-बहुत धन्यवाद!

हम उन सभी के लिए इंतजार कर रहे हैं जो 6 नवंबर को अपने मॉस्को कार्यालय में बैठक में सुझाए गए सिस्टम के क्षेत्र में विशेषज्ञों के साथ बात करना चाहते हैं।

आओ, यह दिलचस्प होगा!

घटना के लिए रजिस्टर करें

Source: https://habr.com/ru/post/hi472032/


All Articles