"मेरे लिए एक डेटा वैज्ञानिक की प्रेरणा को समझना मुश्किल है जो गणित में सौंदर्य नहीं देखता है" - किरील डानिलियुक, डेटा विशेषज्ञ

नमस्कार, हेब्र! डेटा साइंस लंबे समय से एक आकर्षक क्षेत्र बन गया है, और अधिक से अधिक लोग अपने पेशेवर मार्ग को बदलना चाहते हैं और बड़े डेटा के साथ काम करना शुरू करते हैं। आरएनडी लैब के डेटा साइंटिस्ट किरील डानिल्युक ने डेटा साइंस में बदलाव की अपनी कहानी, शुरुआती लोगों के लिए टिप्स और एडवांस्ड डेटा वैज्ञानिकों के लिए साझा की। इसके अलावा, हमने एक डेटा वैज्ञानिक के आवश्यक गुणों के बारे में, मार्कअप डेटा के बारे में, एमएल इंजीनियर और डेटा वैज्ञानिक, वर्तमान परियोजनाओं, शांत टीमों और उन लोगों के बीच अंतर के बारे में बात की, जिनका काम प्रेरणादायक है।



- आप डेटा साइंस में कैसे आए? क्या शुरू में आपको डेटा के साथ काम करने के क्षेत्र में आकर्षित किया था?

- मेरे पास एक असामान्य पृष्ठभूमि है: जिस तारीख पर मैं यैंडेक्स पीएम (प्रोजेक्ट मैनेजमेंट - लेखक का नोट ) की दुनिया से आया था, जब मुझे ZeptoLab, शायद सबसे अच्छी रूसी गेमिंग कंपनी में आमंत्रित किया गया था। मैंने उन्हें विश्लेषणात्मक प्रणाली, डैशबोर्ड का एक प्रोटोटाइप बनाया, वास्तव में पहली बार मैंने कोड लिखना शुरू किया जो कि कोई और उपयोग कर रहा था। कोड भयानक था, लेकिन यह वास्तविक अभ्यास था। औपचारिक रूप से, निश्चित रूप से, मैंने दो आउटसोर्सरों के काम का समन्वय किया, लेकिन उन्होंने इस प्रोटोटाइप पर बिल्कुल कोड लिखा। तब मुझे नहीं पता था कि यह लगभग डेटा साइंस है, जो कि मैं इसे करता हूं, हालांकि यह एक आंशिक समय है। तो परिचित काफी संगठित रूप से हुआ।

तब भी यह स्पष्ट था कि विकास संबंधी प्रतिमान में एक पूरी बदलाव था - शास्त्रीय अनिवार्य प्रोग्रामिंग के बजाय, जब आप कठोरता से शर्तों को निर्धारित करते हैं, तो एक युग आ रहा था जब मशीन स्वयं डेटा का उपयोग करके खुद को प्रशिक्षित करने में सक्षम होगी। इस पारी को देखना अविश्वसनीय रूप से अच्छा था, और वास्तव में नए युग के उन डेवलपर्स के बीच होना चाहता था।

- आपको पेशेवर रूप से किन कठिनाइयों का सामना करना पड़ा, शुरुआत और भविष्य में आपको किन चुनौतियों का सामना करना पड़ा?

- फिर, मैं आपको याद दिलाता हूं कि मैं मूल रूप से एक परियोजना थी, अर्थात्, एक कैरियर परिवर्तन काफी गंभीर था। बहुत मुश्किलें थीं। सबसे पहले, यह अपने आप में अविश्वास है। आप अपने आस-पास इन सभी स्मार्ट लोगों को देखते हैं जो वहां कुछ लिखते हैं, ऐसी भाषा बोलते हैं जिसे आप नहीं समझते हैं। आप अपने और उनके बीच एक बहुत बड़ा अंतर देखते हैं। उसी समय, आपका वातावरण भी संक्रमण को प्रोत्साहित नहीं करता है - यह लोगों को लगने लगता है कि आप "कचरा कर रहे हैं और आम तौर पर विरासत में हैं।" यह बहुत निराशाजनक है। अब, निश्चित रूप से, डेटास्टैनिस्ट्स का एक समुदाय है, वे आपकी सहायता करेंगे और आपको खुश करेंगे, लेकिन पहले यह अधिक कठिन था। तो यह पहला कदम उठाने के लिए - यह कहने के लिए कि मैं एक डेटाटेन्स्टिस्ट बनूंगा और वास्तव में व्यवस्थित रूप से इस दिशा में जाऊंगा, मेरे पिछले करियर के बावजूद - यह बहुत मुश्किल था।

यह मोड़ तब था जब मैंने “सो गुड वे कैन्ट इग्नोर यू” पुस्तक पढ़ी , जो कि, Google मस्तिष्क के निर्माता, एंड्रयू कूनर, प्रसिद्ध एमएल कोर्स, एंड्रयू ईन द्वारा सलाह दी जाती है। पुस्तक मेरे मामले के बारे में है: आपकी पृष्ठभूमि और इतिहास महत्वपूर्ण नहीं हैं। यदि आप व्यवहार में दिखा सकते हैं कि आप वास्तव में इतने अच्छे हैं कि आपको आसानी से अनदेखा नहीं किया जा सकता है, तो आपको ध्यान दिया जाएगा। मैं इस पुस्तक से बहुत प्रभावित हुआ और डेटा साइंस नहीं छोड़ने का फैसला किया। मैं सभी को पढ़ने की सलाह देता हूं।

- क्षेत्र की खोज करने और कैरियर बनाने के संदर्भ में डेटा के साथ काम करने में शुरुआती लोगों के साथ आप किस जीवन हैक को साझा कर सकते हैं?

- हर कोई अलग-अलग क्षेत्रों में, अलग-अलग हिस्सों में और अलग-अलग लक्ष्यों के साथ डेटा साइंस में आता है - कोई भी इष्टतम तरीका नहीं है। लेकिन कुछ टिप्स हैं।

डेटा विज्ञान पहली नज़र में जटिल लग सकता है - और इसलिए यह है! हालांकि, आश्चर्यजनक तथ्य यह है कि डेटा विज्ञान की तुलना प्याज के साथ की जा सकती है: आपको परत द्वारा परत का अध्ययन करने की आवश्यकता है। इसे शीर्ष-डाउन दृष्टिकोण कहा जाता है, जब आप पहली बार आदिम स्तर पर देखते हैं कि एल्गोरिदम कैसे काम करता है, तो आप एक युगल लाइनों में एक तंत्रिका नेटवर्क को कैसे प्रशिक्षित कर सकते हैं - वास्तव में प्रक्रियाओं को जाने बिना - आप बस इनपुट डेटा, कोड की एक जोड़ी, और यह निर्धारित करते हैं। बल्ब की पहली परत को हटा दिया जाता है। आगे और भी। यह आपके लिए दिलचस्प हो जाता है, आप पहले से ही जानना चाहते हैं - कैसे। यह कैसे काम करता है? आप गहराई से जाएं, कोड को देखें, कार्यान्वयन। फिर आपको आश्चर्य होता है कि यह कोड इस तरह क्यों लिखा गया है। यह पता चला है कि सैद्धांतिक आधार हैं। और इसी तरह। अपनी रुचि बनाए रखें। शीर्ष पर शुरू करें, यह प्रेरणादायक है। रिचर्ड फेनमैन पढ़ें , उन्होंने इस दृष्टिकोण के बारे में बहुत कुछ लिखा।

सलाह का एक और टुकड़ा: जितनी जल्दी हो सके डेटा वैज्ञानिकों की एक पार्टी में शामिल हों। यहां तक ​​कि अगर आप अभी भी कुछ भी नहीं समझते हैं, तो आप इस क्षेत्र में विकसित करने के लिए दृढ़ हैं। जब मैं पढ़ रहा था, तो ओडीएस अभी तक नहीं था, कोई भी आपको इस तरह से खुश नहीं कर रहा था, कोई संगठित डेटा-मीटिंग पार्टी नहीं थी। और मैं इस तरह के हैंगआउट को प्राप्त करने के लिए न्यूप्रालाब कार्यक्रम सहित गया। विकास की कुंजी समाजीकरण में ठीक है। किसी भी मामले में अपने स्वयं के रस में पकाना नहीं है, अन्यथा आप बहुत धीरे-धीरे आगे बढ़ेंगे।

तीसरा टिप (यह दूसरे की निरंतरता है): जितनी जल्दी हो सके प्रतियोगिताओं में भाग लेना शुरू करें। कागले का इलाज अलग तरीके से किया जा सकता है, लेकिन कम से कम यह समाजीकरण के लिए एक और कारण देता है - टीम में शामिल हों। वरिष्ठ सहकर्मी आपको सलाह और मदद करने में प्रसन्न होंगे। साथ ही, केगल आपके पोर्टफोलियो, भाषणों और ब्लॉग पोस्ट के संदर्भ में एक अच्छा किक देता है। कूल डेटा वैज्ञानिकों ने शांत हो गए, वैसे।

- न्यूप्रोलैब पर दो कार्यक्रमों के माध्यम से जाने के अलावा, आपने अभी भी अध्ययन और अध्ययन कहां किया? शुरुआती और उन्नत के लिए आप किन कार्यक्रमों की सिफारिश कर सकते हैं?

- मैं हर समय सीखने की कोशिश करता हूं, क्योंकि कार्य, विशेष रूप से हमारे साथ, लगातार बदल रहे हैं। मैंने कमोबेश आधारभूत ऑनलाइन पाठ्यक्रम, जैसे कि कोर्टेरा में डीएस में यांडेक्स विशेषज्ञता , उडनेस पर एमएल-नैनोडेग्री और उनके ड्रोन कोर्स को लिया । शुरुआती लोगों के लिए, मैं कौरसेरा में डीएस विशेषज्ञता की सिफारिश करता हूं - यह संभवतः दृष्टिकोण और कार्यों को सामान्य रूप से समझने के लिए सबसे संरचित पाठ्यक्रम है। मैं "बिग डेटा स्पेशलिस्ट" से भी प्रसन्न था , मैंने मूल रूप से उनसे डेटा विज्ञान में प्रवेश करना शुरू किया, उन्होंने वास्तव में मेरी मदद की। एक बार फिर - शुरुआत में, वही करें जो दिलचस्प लगता है।

अधिक उन्नत के लिए, डेटा कोर्स से भयानक कैलटेकन लर्निंग है - अपेक्षाकृत कम, लेकिन बहुत व्यावहारिक है। यह दिमाग को बहुत अच्छी तरह से लगाता है। वहाँ भी एक अद्भुत है Vorontsov की ShADovsky कोर्स ओपन एक्सेस व्याख्यान और ट्यूटोरियल -। मैं स्टेट 110 के सिद्धांत पर हार्वर्ड पाठ्यक्रम की अत्यधिक अनुशंसा करता हूं, संभावना सिद्धांत और परिपक्वता के मूलभूत सिद्धांत हैं, जिन्हें आपको जानना चाहिए। साथ ही, एमआईटी पाठ्यक्रमों की एक खुली लाइब्रेरी है, वहां एल्गोरिदम के बारे में पाठ्यक्रम देखें , यह बहुत अच्छा है।

- आपकी टिप्पणियों से: वास्तव में अत्यधिक योग्य विशेषज्ञ बनने के लिए शुरुआती और अनुभवी डेटा वैज्ञानिकों दोनों के लिए क्या नरम और कठोर कौशल अक्सर पर्याप्त नहीं होते हैं?

- चलो नरम कौशल के साथ शुरू करते हैं - क्योंकि वे पर्याप्त नहीं हैं। इस तथ्य के बावजूद कि एक डेटा वैज्ञानिक एक तकनीकी पेशा है, यह आपके काम के परिणाम को सही ढंग से / खूबसूरती से प्रस्तुत करने में सक्षम होने के लिए बेहद महत्वपूर्ण है। मोटे तौर पर, एक आईफोन की तरह - उसके पास न केवल भरने, बल्कि उपस्थिति, पैकेजिंग, इतिहास भी अच्छा है। लोगों को यह जानने की जरूरत है कि उनके परिणाम कैसे प्रस्तुत करें: ब्लॉग पोस्ट लिखें, बोलें, कोड साझा करें। सर्वश्रेष्ठ डेटा वैज्ञानिक इसे बहुत अच्छी तरह से समझते हैं, और वे ऐसा करते हैं। अन्यथा, आप अपने छेद में फंस सकते हैं, और यहां तक ​​कि एक शांत परिणाम के साथ, किसी का ध्यान नहीं जा सकता है।

आप लंबे समय तक कठिन कौशल के बारे में बात कर सकते हैं, लेकिन एक चीज है जिसमें बहुत अधिक डेटा वैज्ञानिकों की कमी है, सक्षम, संरचित, सुंदर कोड लिखने की क्षमता। यह सीधे तौर पर पेशे का परिमार्जन है। आपको सुंदर पठनीय कोड लिखना सीखना होगा। यदि आप केगल को देखते हैं, तो अधिकांश कोड भयानक है। मैं समझता हूं कि यह किससे जुड़ा हुआ है: लोग एक बार कोड लिखते हैं और इसे आगे उपयोग नहीं करते हैं, यह डेटा वैज्ञानिक, विशेष रूप से शुरुआती लोगों के बीच मानक अभ्यास है। मैंने खुद ऐसा पहले किया था, लेकिन यह बुरा है, क्योंकि, सबसे पहले, आप इसे किसी के साथ साझा नहीं कर सकते हैं (लोग सुंदर, पठनीय कोड पढ़ना चाहते हैं), और दूसरी बात, आप अन्य परियोजनाओं में बुरे कोड का उपयोग नहीं कर सकते।

एक और मौलिक कौशल है मैटरियल का ज्ञान: रैखिक बीजगणित, सांख्यिकीय तंत्र, विवेक, अनुकूलन। और, स्पष्ट रूप से, आपको सिर्फ गणित के प्यार की आवश्यकता है। मुझे एक डेटा वैज्ञानिक की प्रेरणा को समझना मुश्किल है जो गणित में सौंदर्य नहीं देखता है। इसी समय, यह ध्यान दिया जाना चाहिए कि विश्वविद्यालय के पहले या दूसरे वर्ष के स्तर पर डेटा विश्लेषण में गणित काफी सस्ती है।

- "बिग डेटा स्पेशलिस्ट" कार्यक्रम को पूरा करने के बाद, आपने कॉर्पोरेट जगत को छोड़ दिया और अपने सहपाठियों के साथ मिलकर एक परामर्श कंपनी खोली। क्यों आप किसी बड़े कंपनी के कर्मचारी के साथ अच्छाईयों का एक समूह नहीं बनना चाहते हैं? वास्तव में, श्रम बाजार की मांग उपलब्ध प्रस्तावों की तुलना में बहुत बड़ी है, और आप एक महान विशेषज्ञ हैं।

- यहां एक दिलचस्प कारण है: शुरू में लक्ष्य परामर्श परियोजनाओं को प्राप्त करना था जो आप पहले से ही एक गंभीर कंपनी दिखा सकते हैं और इसमें नौकरी पा सकते हैं। आखिरकार, जब से आप कहते हैं कि आप एक डेटा वैज्ञानिक हैं, तो यह दिखाएं कि आप कर सकते हैं।

सबसे पहले, हमने किसी भी पैसे के लिए पूरी तरह से डेटा विज्ञान परियोजनाएं लीं, बस यह दिखाने के लिए कि हम यह कर सकते हैं। उन्होंने गलतियों का एक गुच्छा बनाया, उन्होंने सभी रेक पर कदम रखा जिसे आप आगे बढ़ा सकते हैं। पहला साल सिर्फ एक बुरा सपना था, बहुत कठिन। अब पीछे मुड़कर देखें, तो यह तथ्य नहीं है कि परामर्श एक अच्छी शुरुआत थी। शायद मुझे जूनियर और इस साल किसी तरह के प्रोजेक्ट पर काम करना था।

हमने सब कुछ पार कर लिया है। परियोजनाएं दिखाई देने लगीं, आत्म-विश्वास मजबूत हुआ, कुछ बिंदु पर यह समझ में आया कि कोई व्यक्ति अपनी लंबी परियोजनाओं, स्वीकृतियों और नौकरशाही के साथ एक बड़े निगम के अंदर काम नहीं कर सकता है। यह पता चला है कि हमारी परियोजनाएं अब बहुत अधिक दिलचस्प हैं और अधिकांश प्रमुख कंपनियों की तुलना में अधिक विविध मुझे दे सकती हैं: उनमें से कई हैं, वे अक्सर बदलते हैं और आप लगातार अध्ययन करते हैं। बेशक, अब मैं वास्तव में एक बड़ी कंपनी में नहीं जाना चाहता।

- चलो डेटा मार्कअप के बारे में थोड़ी बात करते हैं। आपके पास RnD लैब में एक छोटी सी टीम है, आप डेटा को चिन्हित करने में बहुत समय लगा सकते हैं और मैन्युअल रूप से सब कुछ खुद कर सकते हैं। आप डेटा को कैसे टैग करते हैं?

- आप डेटा मार्कअप के बारे में बहुत लंबे समय तक बात कर सकते हैं! मशीन लर्निंग एल्गोरिदम को काम करने के लिए डेटा की आवश्यकता होती है। और न केवल कुछ डेटा, बल्कि गुणात्मक रूप से लेबल किए गए। और बहुत कुछ। उदाहरण के लिए, हमारे पास एक तस्वीर से तले हुए अंडे की गुणवत्ता निर्धारित करने के लिए एक परियोजना थी। एल्गोरिदम काम करने के लिए, आपको प्रत्येक तस्वीर को चिह्नित करने की आवश्यकता है, प्रत्येक सामग्री को सर्कल करें - प्रोटीन, जर्दी, बेकन - मैन्युअल रूप से। क्या आप सोच सकते हैं कि इस तरह की तस्वीरों को एक हजार, दस हजार के रूप में चिह्नित करना क्या है? और यह सिर्फ डेटा तैयार करने के लिए है। उसके बाद, काम अभी शुरुआत है।

अब कई कंपनियां हैं जो मार्कअप बेचती हैं - वे वस्तुओं की सीमाओं के आसपास मैन्युअल रूप से आकर्षित करने के लिए सस्ते मार्करों की एक सेना को किराए पर लेते हैं। कैसी विडंबना है कि एआई की उम्र में, यह कम-वेतन, कम-कुशल और असंबद्ध लोग हैं जो इसके पीछे खड़े हैं।

मैं इस प्रक्रिया को और अधिक तकनीकी बनाना चाहता हूं। उदाहरण के लिए, हमारी परियोजना में, हमने एक तंत्रिका नेटवर्क लिखा है, जो एक अर्ध-स्वचालित मोड में, डेटा टैग करता है। आप पहले उसे 20 मैन्युअल रूप से चिह्नित अंडों की तस्वीरें और 20 अनलेले वाले देते हैं - वह पहले बीस में सीखती है और बाहर निकालती है, भले ही वह अच्छी तरह से न हो, दूसरा बीस। आप मैन्युअल रूप से त्रुटियों को ठीक करते हैं और इन सही किए गए 20 स्व-चिह्नित फ़ोटो को फिर से दिखाने के लिए देते हैं। अब मॉडल पहले से ही मार्कअप के साथ 40 तस्वीरों में सीख रहा है। आप मार्कअप में अन्य 20 तस्वीरें जमा करते हैं, त्रुटियों को ठीक करते हैं, मॉडल को सही मार्कअप पर प्रशिक्षित करते हैं। कई पुनरावृत्तियों के बाद, लगभग कोई त्रुटि नहीं रहती है। वैसे, यह इस तकनीक पर है कि मैं अभी माध्यम पर एक ब्लॉग पोस्ट लिख रहा हूं।

अन्य विकल्प हैं: आप सिम्युलेटर का उपयोग कर सकते हैं, मोटे तौर पर बोल, एक 3D संपादक पहले से ही चिह्नित छवियों का एक बहुत उत्पन्न करने के लिए। आप आवश्यक वस्तुओं को रखते हैं, उन्हें मार्कअप के साथ-साथ विभिन्न कोणों पर प्रस्तुत करते हैं - यह सब। लेकिन वास्तव में नहीं: ऐसी छवियां अभी भी वास्तविक, वास्तविक लोगों के लिए मॉडल के समान नहीं होंगी। इन छवियों को विभिन्न प्रकार के वास्तविक लोगों के लिए लाने के लिए, आपको एक तकनीक का उपयोग करने की आवश्यकता है जिसे डोमेन अनुकूलन कहा जाता है - GANs पर। यह अब अनुसंधान का एक सच्चा हिस्सा है, ऐसी चीजें रोमांचक हैं। जरा कल्पना करें: आप पूरी दुनिया का अनुकरण कर रहे हैं और किसी भी डेटासेट का शाब्दिक कुछ भी नहीं से उत्पन्न होता है। अब कल्पना करें कि मॉडल सिर्फ सिम्युलेटर में सीखता है, और फिर वास्तविक दुनिया में काम करता है। यह सिर्फ भविष्य है!

- क्या आप उन टीमों / व्यक्तियों का नाम बता सकते हैं जिनके कार्य बड़े डेटा के क्षेत्र में काम करते हैं और आपको प्रेरित करते हैं?

- हाँ, बिल्कुल! मुझे वास्तव में स्वयं शोध नहीं, बल्कि उत्पादों में इसका उपयोग पसंद है। मैं उन लोगों के बारे में बात कर रहा हूं जिन्हें मैं खुद जानता हूं - आप केवल शीर्ष विशेषज्ञों को Google कर सकते हैं, और वे पहले से ही प्रसिद्ध हैं।

अगर हम टीम के बारे में बात करते हैं, तो यह है, सवाल के बिना, यैंडेक्स ड्रोन टीम। लोग अपनी तकनीक को खरोंच से बना रहे हैं, रूसी परिस्थितियों में, उन्होंने सर्दियों में इसका परीक्षण करना शुरू कर दिया - Google ने इसका सपना नहीं देखा था। वे महान फैलो हैं, और मैं ध्यान से उनका पालन करता हूं। जिसमें उनके प्रकाशन और पाठ्यक्रम शामिल हैं। वे तकनीकों का उपयोग करते हैं जिनकी संख्या बहुत बड़ी है, कुछ एक ही समय में कई अलग-अलग चीजों का उपयोग करने के लिए भाग्यशाली हैं।

Connectome.ai टीम - लोग उत्पादन के लिए एक कंप्यूटर विजन सिस्टम बनाते हैं। यह एक चुनौती भरा काम है, और वे इसे कैसे और कैसे शांत करते हैं।

लोग पर्यवेक्षण से । वे शुरू में सलाहकार थे, ठीक उसी तरह जैसे हम RnD लैब में थे, लेकिन फिर उन्होंने एक अर्ध-स्वचालित मार्कअप सिस्टम बनाया और अब वे इसे विकसित कर रहे हैं।

लोगों के संदर्भ में, सबसे पहले, यह एरिक बर्नहार्डसन, Spotify सिफारिश प्रणाली के पूर्व प्रमुख हैं। उनके पास डेटा विज्ञान के बारे में एक अद्भुत ब्लॉग है , मैं इसे सभी के लिए सुझाता हूं।

दूसरे, यह वोलोडा इग्लोविकोव है , जो ओडीएस पर भी टर्ननौस है। वह भौतिकविदों से आया था, उसका विकास पथ बहुत ही उत्सुक है और उसे गधे को उठाने और काम करने के लिए प्रेरित किया गया है। उन्होंने अपने उदाहरण से दिखाया कि कैरियर के माध्यम से खुद को स्थानांतरित करने के लिए गंभीर काम और सक्षम विपणन कैसे मदद करते हैं।

- आप बिग डेटा स्पेशलिस्ट प्रोग्राम और बिल्डिंग पर ग्रुप कोऑर्डिनेटर थे। लक्समबर्ग में कार्यक्रम, और शरद ऋतु में आप हमारे नए ऑनलाइन कार्यक्रम पर मिनी-समूहों का उल्लेख करेंगे। बताओ, तुम्हें यह सब क्यों चाहिए? क्योंकि आप यहाँ बड़ा पैसा नहीं कमा सकते)))

"आप कमाई नहीं कर रहे हैं, यह सुनिश्चित करने के लिए है।" बात अलग है - समाजीकरण में। जैसा कि मैंने पहले ही कहा, यह समाजीकरण है जो अपने आप को पंप करने की कुंजी है, न कि केवल व्यापार के लिए संपर्कों को उपयोगी बनाने का उल्लेख करने के लिए। मेरे समन्वय के माध्यम से, हमें कुछ कॉर्नी लाभदायक आदेश मिले। दूसरे, मैं सिर्फ अपने ज्ञान और अनुभव को लोगों के साथ साझा करना और मुझे डेटा के साथ काम करने में प्रशिक्षित करना पसंद करता हूं। इसके अलावा, तैयारी की प्रक्रिया में, मैं खुद बहुत कुछ सीखूंगा। मैंने खुद बहुत अध्ययन किया और मैं अच्छी तरह से समझता हूं कि कुछ चीजें कितने घंटे मिलती हैं। इसके अलावा, ज़ाहिर है, समन्वय और सलाह एक चुनौती है, आराम क्षेत्र से बाहर निकलने और खुद को पंप करने की क्षमता।



- डेटा वैज्ञानिक और एमएल इंजीनियर: क्या अंतर है?

- इस विषय पर है विज्ञान और yandeksovogo डाटा के ढांचे में एक रिपोर्ट । यह विचार है कि डेटा उद्योग ने अतिव्यापी व्यवसायों के पूरे सेट को जन्म दिया है। इसी समय, विभिन्न कंपनियां उन्हें अलग तरीके से व्याख्या करती हैं। डेटा साइंटिस्ट और MLE ऐसे ही एक उदाहरण हैं।

यह माना जाता है कि एक डेटा वैज्ञानिक उत्पादन कोड लिखने में सक्षम नहीं हो सकता है, लेकिन सिद्धांतों (उदाहरण के लिए, वैज्ञानिक लेख) का निर्माण या अनुकूलन करना चाहिए और मॉडल का निर्माण करना चाहिए। दरअसल, एमएल इंजीनियर - पेशेवर प्रोग्रामर, जो सैद्धांतिक भाग में कम और इंजीनियरिंग में अधिक डूबे हुए हैं - कोड में ही लगे हुए हैं।

यह पृथक्करण महान काम करता है, उदाहरण के लिए, Google में। बेशक, वहाँ मजबूत पीएचडी है कि, सख्ती से बोल रहा है, बिल्कुल भी कार्यक्रम नहीं कर सकता है, लेकिन सिद्धांत में मजबूत हैं। और उच्च श्रेणी के प्रोग्रामर हैं जो इन पीएचडी के प्रोटोटाइप को सुंदर कोड में लपेटते हैं। लेकिन अगर हम छोटी टीमों, जैसे कि हमारी या यहां तक ​​कि यैंडेक्स टीमों के बारे में बात करते हैं, तो खरोंच से शुद्ध शोध का समय नहीं है, लेकिन दूसरों के शोध (लेख या कोड के रूप में) के परिणामों को लेने और इन लेखों के आधार पर लड़ाई लिखने का अवसर है।

व्यक्तिगत रूप से, मैं एक डेटा वैज्ञानिक के व्यावहारिक मूल्य में विश्वास नहीं करता हूं जो कोड नहीं लिखता है - यह कोड है जो डेटासेंटर के काम का परिणाम है। यदि आप कोड नहीं लिखते हैं, तो आप सबसे अधिक डेटा विश्लेषक हैं। यह भी बुरा नहीं है, लेकिन यह एक अलग विशेषज्ञता है। वैसे, कई कंपनियां डेटा एनालिटिक्स सॉस सिर्फ एनालिटिक्स बेचती हैं। क्योंकि विश्लेषक एक्सेल और बोरियत है, और डेटा वैज्ञानिक "21 वीं सदी का सबसे कामुक पेशा" है।

तो मैं एमएल इंजीनियर के लिए हूँ।

- भविष्य के लिए आपके क्या विचार और योजनाएं हैं? आप एक पेशेवर और भौगोलिक (और अचानक!) योजना में कहाँ जाना चाहते हैं?

- हम, आरएनडी लैब, एक सामान्य अर्थ में डेटा विज्ञान परामर्श के रूप में शुरू किया। लेकिन उन्होंने जल्दी से महसूस किया कि प्रभावी रूप से एक बार में सब कुछ करना असंभव था, ध्यान केंद्रित करना आवश्यक था। अब हमारा ध्यान कंप्यूटर दृष्टि परियोजनाओं पर है, जैसे कि हमारी खाद्य गुणवत्ता मान्यता परियोजना। 3 डी में अपने डेस्क पर एक फुटबॉल गेम देखने की कल्पना करें। कल्पना करें कि आप एक बड़े स्टोर के मालिक के रूप में, दुकान की खिड़कियों से सभी चोरी देखें। कल्पना करें कि आपके पुराने कागज काले और सफेद तस्वीरों को रंग में परिवर्तित किया जा सकता है और उनमें विवरण जोड़ सकते हैं। हम इस तरह की परियोजनाओं में लगे हुए हैं। अभी, हमारे पास विकास में दो नई अविश्वसनीय रूप से दिलचस्प परियोजनाएं हैं, वे यैंडेक्स की परियोजनाओं में जटिलता से हीन नहीं हैं, हम थोड़ी देर बाद उनकी घोषणा करेंगे। अब हमने एक प्रोटोटाइप बनाया है, बहुत अधिक संभावना के साथ हम इस परियोजना को आगे भी जारी रखेंगे, वहां का पैमाना अलग होगा और हम टीम का विस्तार करेंगे। मुझे पहले स्थान पर डेटा इंजीनियर और कंप्यूटर विज़न इंजीनियर दोनों की आवश्यकता होगी, जो प्रोटोटाइप को उठाएंगे और इससे एक सिस्टम बनाएंगे। ग्राहक बहुत अच्छा है, सिस्टम बहुत दिलचस्प है, और यह एक विशेषज्ञ के रूप में खुद को अपग्रेड करने का एक शानदार अवसर है। किसी भी पोर्टफोलियो के लिए, इस तरह की परियोजना सिर्फ महान होगी!

इसलिए, कंप्यूटर दृष्टि और उसका अनुप्रयोग - एआर / वीआर, जीएएनएस, छवि और वीडियो पीढ़ी, छवि और वीडियो वृद्धि, वीडियो एनालिटिक्स - हम इस पर ध्यान केंद्रित करते हैं। और यहां हमारे पास पहले से ही उत्कृष्ट विशेषज्ञता और उपकरण हैं।



भूगोल के लिए: मेरा एक महत्वपूर्ण सिद्धांत कहीं से भी 100% दूरस्थ कार्य की संभावना है। कोई भी बड़ी कंपनी आपको इसकी पेशकश नहीं करेगी। , , ? Basecamp, . , .

— -:
?

-.

— , , ?
— , .

— ?
— .

— , “, ”.
— “, ” , . , , . ZeptoLab: , , , . .
, - . : “ , , 5% : , , , , ...” , , . , , 3 , . , , .



Newprolab 20 9- « » , data science.

Source: https://habr.com/ru/post/hi419117/


All Articles