यैंडेक्स डेटा विश्लेषण स्कूल से चार तरीके

यांडेक्स 2007 से डेटा साइंस विशेषज्ञों को प्रशिक्षित कर रहा है। छात्र प्रशिक्षण कार्यक्रमों और पाठ्यक्रमों की प्रासंगिकता के लिए स्कूल ऑफ डेटा एनालिसिस को महत्व देते हैं, लेकिन वे हमेशा यह नहीं समझते हैं कि इसके पूरा होने के बाद उन्हें क्या इंतजार है। यांडेक्स या किसी अन्य बड़ी कंपनी में डेटा के साथ काम करें? लेकिन कौन सा?



प्रारंभ में, स्कूल के दो विभाग थे: कंप्यूटर विज्ञान और डेटा विश्लेषण। 2014 में, जब बड़ा डेटा फैशन में आया, तो एक तीसरा विशेषज्ञता दिखाई दिया - बड़ा डेटा। इस साल, छात्रों को तुरंत उनकी संभावनाओं को समझने के लिए, हमने विभागों में सुधार किया: अब प्रशिक्षण चार पेशेवर ट्रैक के ढांचे में होगा। हमारी पहली प्राथमिकता छात्र को संभावित विकास मार्गों के बारे में बताना और यह समझने में मदद करना है कि कौन से पाठ्यक्रम लक्ष्य प्राप्त करने में मदद करेंगे।

व्यावसायिक पटरियों को संयोग से हाइलाइट नहीं किया गया था - ये चार तरीके हैं जो स्नातक सबसे अधिक बार शाद से स्नातक होने के बाद प्रवेश करते हैं (और कुछ पहले से ही अपने अध्ययन के दौरान)। इन चार रास्तों में से प्रत्येक के लिए, हमें एक स्नातक मिला जिसने उसे चुना और यह समझने के लिए उनके साथ बात की कि कौन से पाठ्यक्रम भविष्य के काम के लिए सबसे उपयोगी हैं और कैसे उन्होंने अपने व्यावसायिक व्यवसाय को चुना।

डेटा वैज्ञानिक (निकिता पोपोव, 2016 स्नातक):

“डेटा वैज्ञानिक - जैसा कि सभी धारियों के विश्लेषकों को कहा जाता है। हम यैंडेक्स पर विश्वास करने के आदी हैं कि एक डेटा वैज्ञानिक एक ऐसा व्यक्ति है जो मशीन लर्निंग और आंकड़ों में धाराप्रवाह है और, सबसे महत्वपूर्ण बात, व्यवहार में डेटा की एक बड़ी मात्रा से उपयोगी जानकारी निकाल सकता है।

मैं वर्तमान में खोज मैट्रिक्स टीम पर काम कर रहा हूं। हम अपनी खोज की गुणवत्ता का मूल्यांकन करने के लिए काम कर रहे हैं, यह चुनने के लिए कि कौन से तरीके से चलना है और कितने चल रहे प्रयोगों से वास्तव में "उपयोगकर्ता की खुशी" बढ़ जाएगी। मैं SHAD के अंत के ठीक बाद इंटर्नशिप के माध्यम से टीम में आया। डेटा विश्लेषण के स्कूल ने मुझे एक उत्कृष्ट आधार दिया है: मशीन सीखने और संभाव्य मॉडल पाठ्यक्रम बिल्कुल वही हैं जो मैं हर कार्य दिवस का उपयोग करता हूं।

SHAD में पहुंचने पर, मुझे अभी भी समझ नहीं आया कि मैं क्या करना चाहता था, और मैंने अपने सहपाठियों के साथ कंपनी में प्रवेश किया, लेकिन पहले सेमिनारों से यह स्पष्ट हो गया कि SHAD अविश्वसनीय रूप से दिलचस्प था। यह वहां था कि मुझे एहसास हुआ कि मैं क्या करना चाहता था। मुझे लगता है कि प्रत्येक डेटा वैज्ञानिक को मशीन लर्निंग के विभिन्न तरीकों से अच्छी तरह वाकिफ होना चाहिए, उनके पेशेवरों, विपक्षों और दायरे को जानना चाहिए, डेटा में निर्भरता खोजने और उनके आधार पर सही निष्कर्ष निकालने में सक्षम होना चाहिए। इस तथ्य के बावजूद कि मैं एक विश्लेषक के रूप में काम करता हूं, बहुत बार मुझे विकास से निपटना पड़ता है। हाल ही में मैंने एक सेवा को जोड़ा, जिसके लिए मैंने एक फ्रंटएंड, बैकएंड और स्वयं एल्गोरिदम दोनों विकसित किए - एक डेटा वैज्ञानिक को सब कुछ करने में सक्षम होना चाहिए। "

मशीन लर्निंग डेवलपर (जेन्या ज़ाखरोव, 2018 स्नातक):

"यहां तक ​​कि विश्वविद्यालय में, मुझे सबसे अधिक कार्य पसंद थे, जहां गणित एक महत्वपूर्ण भूमिका निभाता है, लेकिन परिणाम" छुआ जा सकता है। मेरा वर्तमान काम बहुत अच्छी तरह से इन दो स्थितियों को पूरा करता है: हम विभिन्न एल्गोरिदम को लागू करते हैं, साथ ही साथ अपने डेटा के साथ तेजी से, उच्चतर, मजबूत काम करने के लिए उन्हें संशोधित करते हैं। हमारे लिए प्रमुख संकेतकों में से एक उत्पादकता है। बहुत अधिक डेटा है, और एल्गोरिथ्म को उचित समय में जल्दी से भविष्यवाणी करने और सीखने में सक्षम होना चाहिए।

मेरे पास विश्वविद्यालय में बहुत सारी प्रोग्रामिंग थी, लेकिन एसएडी पाठ्यक्रम एल्गोरिदम द्वारा अधिक जटिल कार्यों, प्रदर्शन और कोड की सफाई पर अधिक जोर देते हैं।

SHAD ने मुझे बुनियादी कौशल का एक अच्छा सेट दिया जो मैं हर दिन उपयोग करता हूं: अपने विभिन्न रूपों में मशीन लर्निंग, सांख्यिकी, एल्गोरिदम और औद्योगिक कोड कैसे दिखना चाहिए, इसका एक विचार। बिग डेटा पाठ्यक्रम की परियोजना बहुत प्रासंगिक हो गई, जहां दोस्तों और टीम ने तेजी से वृद्धि को लिखा, लिग्थजीबीएम को गति में पकड़ने की कोशिश की, जिसे हम पकड़ नहीं पाए, लेकिन फिर भी तुलनीय समय हासिल करने में कामयाब रहे। "

बिग डेटा इन्फ्रास्ट्रक्चर विशेषज्ञ (व्लाद बिडज़िला, 2017 स्नातक):

“हाई स्कूल से, मैं पेशेवर रूप से प्रोग्रामिंग में शामिल होना चाहता था। मैंने विश्वविद्यालय में अपने तीसरे वर्ष में होने पर SHAD में प्रवेश किया। उन्होंने मेरे सामने मशीन लर्निंग और डेटा माइनिंग की एक नई दुनिया खोली, जो लागू गणित और प्रोग्रामिंग के जंक्शन पर एल्गोरिदम का एक समूह है।

कई वर्षों तक, मैंने वीडियो खोज रैंकिंग की गुणवत्ता टीम में यैंडेक्स पर काम किया। उन्नत सी ++ और पायथन में ShAD पाठ्यक्रमों ने मुझे थोड़े समय में काम की प्रक्रिया में शामिल होने में मदद की - विश्वविद्यालय में शैक्षणिक कार्यक्रमों को लिखने से लेकर कंपनी में गंभीर उत्पादन कोड तक।

हाल ही में, मैं वितरित कंप्यूटिंग प्रौद्योगिकियों की सेवा में काम कर रहा हूं। हम YT MapReduce प्रणाली विकसित कर रहे हैं: habr.com/company/yandex/blog/311104 । यहाँ, ShAD में प्राप्त ज्ञान और कौशल भी बेहद उपयोगी साबित हुए: शास्त्रीय एल्गोरिदम और डेटा संरचनाओं पर एक कोर्स ने एक एल्गोरिथम संस्कृति को जन्म दिया, जटिल एल्गोरिदम समाधान को समझने के लिए न्यूनतम संख्या में बग और एक समझदार संरचना के साथ कुशल और स्वच्छ कोड लिखने की क्षमता विकसित की; डेटा की बड़ी मात्रा के साथ काम करने के लिए एल्गोरिदम पर एक कोर्स ने उन कठिनाइयों का प्रदर्शन किया जो डेटा की एक सरणी को संसाधित करते समय होती है जो कंप्यूटर की मेमोरी में फिट नहीं होती है, और इन कठिनाइयों से निपटने के तरीके, बाहरी मेमोरी और स्ट्रीमिंग एल्गोरिदम में एल्गोरिदम के निर्माण के लिए बुनियादी पैटर्न की समझ प्रदान करते हैं, और विकसित किए गए बुनियादी व्यावहारिक लेखन कौशल; समानांतर और वितरित कंप्यूटिंग के पाठ्यक्रम ने विकसित सिस्टम में हर जगह और हर जगह लागू मल्टीथ्रेड और वितरित प्रोग्रामिंग के बुनियादी निर्माण पेश किए।

इसके अलावा, यह ध्यान देने योग्य है कि, एसएडी के लिए धन्यवाद, मैं लागू गणितीय पाठ्यक्रमों से गहराई से परिचित होने में सक्षम था, जिन्हें अक्सर शास्त्रीय विश्वविद्यालय कार्यक्रम से बाहर रखा जाता है: सूचना और कम्प्यूटेशनल जटिलता, उन्नत असतत गणित, सांख्यिकीय विश्लेषण, संयोजन और उत्तल अनुकूलन। यह ज्ञान सैद्धांतिक गणित और उच्च तकनीकी आईटी उद्योग को जोड़ता है। "

एप्लाइड साइंसेज में डेटा विश्लेषण विशेषज्ञ (निकिता काजीव, 2015 स्नातक):

“मैं CSE में मौलिक भौतिकी की समस्याओं के लिए मशीन सीखने के तरीकों पर काम कर रहा हूँ जो कि HSE और रोम के Sapienza University में स्नातक छात्र के रूप में हैं।

वह स्कूल से भौतिकी के शौकीन थे, ऑल-रूसी ओलंपियाड के पुरस्कार विजेता थे, FOPF MIPT गए। आदर्शवादी विचारों के कारण - यदि आप विज्ञान नहीं करते हैं, तो क्या? लेकिन हमेशा कंप्यूटर के प्रति आकर्षित। बैचलर का काम गैर-आदर्श प्लाज्मा के कंप्यूटर मॉडलिंग के लिए समर्पित था, और इसमें कई एल्गोरिदम और सी ++ थे।

चौथे वर्ष में, मैंने SHAD में प्रवेश किया, और एक साल बाद मुझे यैंडेक्स में अंतर्राष्ट्रीय शैक्षिक और वैज्ञानिक परियोजनाओं के उभरते समूह में आमंत्रित किया गया। अब यह Yandex और HSE - LAMBDA की एक संयुक्त प्रयोगशाला में बदल गया है। हम न केवल चीजों को अपने हाथों से करते हैं, बल्कि भौतिकविदों को मशीन सीखना भी सिखाते हैं, इसलिए मैं ऑक्सफोर्ड में पढ़ाया जाता हूं। हमारे ग्रीष्मकालीन स्कूल में, लेकिन अभी भी;)

कौन सा शाद काम आता है? बहुत सारी चीजें।

  • एल्गोरिदम पाठ्यक्रम: एक सामान्य प्रोग्रामिंग संस्कृति और, अचानक, एल्गोरिदम। भौतिक सिम्युलेटर को दस गुना तेज करने में दो घंटे का मज़ा आया, बस संपूर्ण खोज के बजाय केडी के पेड़ को जोड़ना।
  • मशीन लर्निंग, डीप लर्निंग: ब्रेड और बटर, खासकर, अचानक, सैद्धांतिक हिस्सा। उच्च-ऊर्जा भौतिकी में, किसी को गैर-मानक समस्याओं से निपटना पड़ता है जिसमें आयात xgboost पर्याप्त नहीं है।
  • डोमेन अनुकूलन: भौतिक विचारों और मशीन लर्निंग को एक एल्गोरिदम बनाने के लिए कैसे संयोजित किया जाए जो कि सिम्युलेटेड डेटा पर प्रशिक्षित किया जाएगा, और वास्तविक पर लागू किया जाएगा? क्या होगा यदि प्रशिक्षण का नमूना गंदा है, लेकिन नकारात्मक भार हैं जो इसे साफ करते हैं? वितरण GANom की सटीकता को कैसे मापें?
  • बड़ा डेटा प्रोसेसिंग: मुझे Hadoop का उपयोग करना था।
  • एक हालिया उत्पाद पाठ्यक्रम: हम 1,000 लोगों के सहयोग के हिस्से के रूप में काम करते हैं, और हमारे कई परिणाम एक शुद्ध वैज्ञानिक खोज नहीं हैं, बल्कि एक उपकरण है जो अन्य लोगों के लिए डिज़ाइन किया गया है। उदाहरण के लिए, जिस प्रोजेक्ट के साथ मैंने एक प्रशिक्षु के रूप में शुरुआत की थी - घटनाओं के लिए खोज सूचकांक जिसे डिटेक्टर पंजीकृत करता है - उस निगरानी प्रणाली के विपरीत, जिसकी आवश्यकता नहीं है, जिसके साथ डिटेक्टर से डेटा की गुणवत्ता की निगरानी अभी की जा रही है।

सामान्य तौर पर, आप जिनेवा में होंगे, यात्रा करें, यह यहाँ दिलचस्प है :) "।

Source: https://habr.com/ru/post/hi422761/


All Articles