डेटा को कैसे चलाया जाए। शुरू से ही

संख्या हमारे लिए बहुत मायने रखती है। हम डेटा में निवेश करते हैं, इसे सुनते हैं और समझते हैं। निर्णय लेते समय हम उनके द्वारा निर्देशित होते हैं। इस तथ्य के बावजूद कि डेटा के साथ काम करने के लिए बुनियादी ढांचे के मामले में हम अभी भी बहुत आगे हैं, डेटा चालित दृष्टिकोण हमेशा हमारे साथ रहा है। इस पाठ में - इस बारे में एक कहानी कि हम किस रास्ते पर गए, हमने क्या सबक सीखा और हमने क्या इकट्ठा किया।

छवि

मेरा नाम एंड्री सिट्सको है, मैं आईडी फाइनेंस फिनटेक कंपनी में उत्पाद लाइन का प्रमुख हूं। जैसा कि मैंने कहा, हमारे पास अभी भी डेटा के साथ काम करने के तरीकों और उपकरणों के संदर्भ में एक लंबा रास्ता तय करना है। अपनी स्थापना के बाद से कंपनी ने जो कई विकास का अनुभव किया है वह विश्लेषणात्मक बुनियादी ढांचे के लिए एक अप्राप्य गति निर्धारित करता है। हालांकि, यह संभावना है कि डेटा संचालित दृष्टिकोण से अपेक्षाएं बस तेज गति से बढ़ रही हैं। अंत में, जैसा कि हम सभी समझते हैं, न केवल विशिष्ट उपकरण और प्रौद्योगिकियां महत्वपूर्ण हैं, बल्कि दृष्टिकोण, संस्कृति और विश्वदृष्टि।

डेटा संचालित संस्कृति क्या है?


किसी कंपनी में डेटा-संचालित संस्कृति से हमारा क्या तात्पर्य है? मेरी राय में, यह तब होता है जब हम आंतरिक रूप से सहमत होते हैं कि डेटा किसी विशेष व्यवसाय दुविधा के ढांचे में एक अच्छा जवाब या सलाह दे सकता है। ऐसी व्यवस्था के कई परिणाम हैं:

  • हम डेटा के साथ काम करने के लिए निवेश करने के लिए तैयार हैं: निष्कर्षण, भंडारण, विश्लेषण, व्याख्या, दृश्य और अधिक। पैसा और समय खर्च करने के लिए तैयार
  • हम डेटा को सुनने के लिए तैयार हैं। यानी जब आपको कोई व्यावसायिक निर्णय लेने की आवश्यकता होती है, तो हम खुद को रोकते हैं और बताते हैं - चलो संख्याओं को देखते हैं।
  • हम डेटा को समझ सकते हैं। वास्तव में, यह गलत निष्कर्ष निकालने के लिए भयानक है, सभी आवश्यक संख्याएं हाथ पर। कहें कि आपको क्या पसंद है, टेबल, ग्राफ़ और चार्ट से अर्थ निकालने के लिए निर्णय निर्माताओं की विश्लेषणात्मक सोच के लिए कुछ न्यूनतम आवश्यकताएं हैं।
  • हम डेटा पर भरोसा करते हैं और निर्णय लेते समय उनके द्वारा निर्देशित होते हैं। जब एक प्रबंधक एक तैयार विश्लेषणात्मक रिपोर्ट को देखता है, तो वह कहता है कि वह बेहतर करेगा क्योंकि अनुभव उसे बताता है, बजाय एक रिपोर्ट के, तो वह जरूरी गलत नहीं है। अगर विश्लेषकों ने सीज़न को ध्यान में नहीं रखा, तो आगामी चुनावों के परिणाम, या कुछ और? प्रबंधकों और विश्लेषकों के बीच संवाद, एक दूसरे पर भरोसा यहां महत्वपूर्ण है।

स्वाभाविक रूप से, कंपनी में डेटा संचालित संस्कृति का निर्माण करना सबसे आसान है जब कंपनी के संस्थापक पहले से ही इसके वाहक हैं। निर्णय लेने में डेटा का उपयोग इस प्रक्रिया को अधिक समय लेने वाला और महंगा बनाता है। और गंभीर विश्वास के बिना कि यह ऐसा करने के लिए समझ में आता है, और अन्यथा नहीं, आप बहुत दूर नहीं जाएंगे। हम इस मामले में भाग्यशाली थे - भविष्य की इमारत के लिए सही नींव पहले से ही रखी गई थी।

पहला बुनियादी ढांचा कदम


आपके आदर्श डेटा चालित निर्णय लेने के रास्ते पर पहली बात यह आएगी कि आपके पास पर्याप्त डेटा नहीं है। सामान्य तौर पर, वे हमेशा वस्तुनिष्ठ कारणों से चूक जाएंगे, लेकिन आपको कहीं न कहीं शुरुआत करनी होगी।

आरंभ करने के लिए, आप मीट्रिक एकत्र करने और संग्रहीत करने के लिए बुनियादी ढांचे का निर्माण करते हैं। डेटा बैकेंड के लिए परियोजनाओं के विशाल बहुमत में (हमारे लिए, उदाहरण के लिए, ग्राहकों के बारे में जानकारी, उनके ऋण और उनके लिए भुगतान), उत्पादन आधार की प्रतिकृति का उपयोग पहले किया जाता है। इस मामले में, आपको अपने सॉफ़्टवेयर की आंतरिक डेटा संरचना का पूरी तरह से आनंद लेना होगा, जिसे डेवलपर्स ने डेटा का विश्लेषण करने के लिए सुविधाजनक बनाने के बारे में सोचा बिना बनाया था। लेकिन हमारे पास पहले सूचना है, इसलिए बोलने के लिए। शुरुआत में, आमतौर पर एक डेटाबेस होता है, और डेटा संरचना अपेक्षाकृत सरल होती है, साथ ही ऐसे प्रश्न जो आप इस डेटा के लिए पूछना चाहते हैं, इसलिए यह पूरी तरह से काम करने का विकल्प है और कुछ अधिक जटिल में निवेश करने का कोई मतलब नहीं है।

फ्रंट-एंड डेटा (पृष्ठ दृश्य, नियंत्रण, स्क्रॉलिंग, क्लिक, इनपुट के साथ इंटरैक्शन) के लिए, आप Google Analytics या Yandex.Metrica जैसे क्लासिक टूल का उपयोग कर सकते हैं और उदाहरण के लिए, सत्र को रिकॉर्ड करने के लिए HotJar। विपणन कार्यों के लिए पर्याप्त बुनियादी कार्यक्षमता है, और फ़नल और / b परीक्षणों पर उत्पाद रिपोर्ट के लिए, हमने Google रिपोर्टिंग एपीआई के माध्यम से काम करने के लिए जल्दी से पर्याप्त स्विच किया। हमने पहले ही इसके बारे में हैबे पर बताया। इधर और उधर

छवि

आपके द्वारा आधारभूत संरचना का निर्माण करने और आधारभूत आँकड़ों को एकत्रित करने के बाद, आपको यह सुनिश्चित करने की आवश्यकता है कि उत्पाद अपने मेट्रिक्स के साथ समकालिक रूप से विकसित हो।

यानी जब आप किसी उत्पाद में एक नई सुविधा लागू करने जा रहे हैं, तो आपको निम्नलिखित प्रश्नों के उत्तर देने की आवश्यकता है:

  • यह किस प्रमुख व्यावसायिक मैट्रिक्स को प्रभावित करेगा?
  • ग्राहक यात्रा या बैकएंड एल्गोरिदम में क्या बदलाव किए जाएंगे? और यह मौजूदा मीट्रिक को कैसे प्रभावित करेगा?
  • मैं किस चरण / घटकों को नई कार्यक्षमता को तोड़ सकता हूं ताकि उनमें से प्रत्येक के लिए मैट्रिक्स एकत्र करके, मैं अंदर देख सकता हूं और फीचर के काम का विश्लेषण कर सकता हूं

अब इस बारे में सोचें कि क्या उपरोक्त सभी मैट्रिक्स को इकट्ठा करने की क्षमता समस्या कथन का हिस्सा है। और कार्यक्षमता को लागू करने के बाद आप वास्तव में उन्हें कैसे एकत्र करेंगे?

इसके बाद, आपको यह सुनिश्चित करने की आवश्यकता है कि आंकड़े इकट्ठा करने और संग्रहीत करने के लिए सबसिस्टम आपकी विकास टीम और आईटी टीम के लिए पर्याप्त महत्व है। इसका महत्व उत्पादन प्रणाली के महत्व के लगभग बराबर होना चाहिए। उदाहरण के लिए, शुरुआत में हमें अलग-अलग पृष्ठों से गायब Google Analytics ट्रैकिंग के साथ एक निरंतर समस्या थी, जब तक कि हमने डेवलपर्स के साथ इन चीजों के महत्व पर चर्चा नहीं की। उसके बाद, आवश्यक सामान्य पुस्तकालय, क्यूए दिशानिर्देश आदि दिखाई दिए।

विश्लेषकों के लिए विश्लेषण


डेटा की उपलब्धता का मतलब इसके प्रभावी उपयोग से नहीं है। निम्नलिखित समस्याएं / कार्य आमतौर पर होते हैं:

  • इस या उस मीट्रिक को कहाँ प्राप्त करें? उसे वहां से कैसे निकाला जाए?
  • क्या वह सही हो रहा है? (अचानक सब कुछ इरादा के अनुसार काम नहीं करता है)
  • मुझे कौन सी रिपोर्ट आकर्षित करनी चाहिए ताकि मैं कोई निष्कर्ष निकाल सकूं?
  • क्या इसका कोई सांख्यिकीय महत्व है?
  • क्या यह बेहतर हो सकता है कि जो कुछ हो रहा है उसे बेहतर तरीके से समझने के लिए या अन्य मैट्रिक्स द्वारा एक जगह / एक ही तरीके से एकत्र किए गए मीट्रिक की जांच करें।

छवि

यह पता चला है कि यह एक बड़ा काम है जिसमें विशेष कौशल और, सबसे महत्वपूर्ण, समय की आवश्यकता होती है। इसलिए एक विश्लेषिकी विभाग बनाने की आवश्यकता है।

हमारा विश्लेषिकी विभाग काफी बड़ा है, लोगों की संख्या के मामले में यह मध्य प्रबंधन के लगभग बराबर है। इसमें एसक्यूएल के अच्छे ज्ञान वाले दोनों कल के छात्र शामिल हैं, और ऐसे पेशेवर जो व्यावसायिक निर्णय लेने के लिए कैसे और किस डेटा को प्राप्त करना चाहते हैं, इसे अच्छी तरह समझते हैं। उनसे अनुरोधों की धारा पारंपरिक रूप से उनकी क्षमताओं से अधिक है।

झीलों और डेटा गोदामों


समस्याओं में से एक है कि आप मुठभेड़ होने की संभावना है जब अधिक से अधिक डेटा होगा कि वे विभिन्न स्थानों पर झूठ बोलते हैं और कुछ विश्लेषक कुछ रिपॉजिटरी के साथ काम करने में सक्षम हैं, दूसरों के साथ अन्य। और कुछ डेटाबेस के साथ, शायद, कोई नहीं जानता कि अभी कैसे काम करना है। इन आंकड़ों की एक-दूसरे से तुलना करना भी मुश्किल हो जाता है।
इस समस्या का समाधान डेटा वेयरहाउस (DWH) जैसी प्रणाली हो सकती है। हमारे मामले में, हमने पहली बार इस बारे में सोचा था, जब हम साइट पर उपयोगकर्ता के व्यवहार पर डेटा और उधारकर्ता के रूप में उसके व्यवहार पर डेटा को संयोजित करना चाहते थे। डीडब्ल्यूएच के निर्माण के सिद्धांत इस लेख के दायरे से बहुत दूर हैं, मैं केवल यह कहूंगा कि हमारे मामले में क्या कठिनाइयाँ / विशेषताएं थीं:

  • हमारी प्रत्येक परियोजना (अब ६ देशों में ९ हैं) डेटा संरचना थोड़ी अलग है और तदनुसार, उनके एकीकरण के लिए सिद्धांतों को विकसित करना आवश्यक था
  • यह सोचना आवश्यक था कि एक भंडारण में विषम डेटा को कैसे एकजुट किया जाए।

उदाहरण के लिए:

  1. साइट पर उपयोगकर्ता व्यवहार - पृष्ठों के बीच संक्रमण, नियंत्रण के साथ बातचीत
  2. क्रेडिट पॉलिसी कार्य लॉग - नियमों का कार्यान्वयन और उनके परिणाम, तर्क की शाखाओं के साथ संक्रमण
  3. उधारकर्ता व्यवहार - ऋण भुगतान, क्रॉस-सेलिंग

अब जब हमने कम या ज्यादा सीखा है कि डेटा को एक-दूसरे के साथ कैसे एकीकृत किया जाए और इसे एक डेटा झील में मिला दिया जाए, तो हम स्टोरफ्रंट बनाने के लिए आगे बढ़े - पहले से तैयार डेटासेट, रिपोर्ट और विज़ुअलाइज़ेशन - जिसके बारे में यह सब था। बाहर निकलने पर, हम अपने विश्लेषकों के कौशल और श्रम लागत की आवश्यकताओं में एक महत्वपूर्ण कमी प्राप्त करने की उम्मीद करते हैं।

आमतौर पर इस स्तर पर, एक समर्पित डेटा इंजीनियरों की भूमिका कंपनी में दिखाई देती है - अर्थात। डेटा इन्फ्रास्ट्रक्चर के प्रभारी लोग। उन्हें DWH को बनाए रखने और विकसित करने का काम सौंपा गया है।

सही लोगों को तुरंत किराए पर लेना बेहतर है।


कंपनी की वृद्धि के साथ, यह पता चला है कि सभी कर्मचारी तुरंत डेटा के महत्व को नहीं समझते हैं और उनके साथ काम करने में सक्षम हैं। दो सवाल उठते हैं: आंतरिक प्रचार और सही लोगों को काम पर रखना।

आंतरिक पदोन्नति के लिए, फिर, जैसा कि ऊपर उल्लेख किया गया है, अगर कंपनी के संस्थापक एक डेटा संस्कृति के वाहक हैं, तो यह शीर्ष प्रबंधन, मध्य प्रबंधन, और इसी तरह नीचे चला जाता है। उदाहरण के लिए, मैं अपने उत्पाद प्रबंधकों से पैसे के संभावित प्रभाव की गणना करने या कार्यान्वयन से पहले प्रमुख मैट्रिक्स को बदलने की मांग करता हूं, और नई कार्यक्षमता के कार्यान्वयन के बाद योजना तथ्य को देखता हूं। या, कहें, काम को प्राथमिकता देने के लिए, "व्यावसायिक मूल्य" के समान आकलन द्वारा निर्देशित किया जाए।

हम दो तरफ से डेटा-संचालित संस्कृति के रोपण के लिए संपर्क करते हैं। हमारे आईटी विभाग को व्यापार प्रबंधकों को कार्यों के विवरण में धन के प्रभाव का अनुमान लगाने की आवश्यकता हो सकती है। और यह सभी विभागों पर लागू होता है: विपणन, समर्थन, लेखांकन। इसके लिए, हमने हाल ही में आवश्यकता को जोड़ा है कि व्यवसाय स्पष्ट रूप से मैट्रिक्स का वर्णन करता है जिसके द्वारा यह कार्यान्वित परिवर्तनों के परिणामों को ट्रैक करेगा, और आईटी को यह सुनिश्चित करना होगा कि इन मैट्रिक्स को एक समझदार तरीके से एक्सेस किया जा सके।

यह ज़रूरी है कि लोगों को काम पर रखने के दौरान तुरंत जाँच की जाए कि क्या वे अपने काम में संख्याओं पर ध्यान केंद्रित करने के लिए उपयोग किए जाते हैं या नहीं, चाहे उन्हें पता हो कि यह कैसे करना है। साक्षात्कार के दौरान मेरे पसंदीदा प्रश्न, जब हम उम्मीदवार के अनुभव पर चर्चा करते हैं: आपने यह गणना कैसे की कि सुविधा क्या प्रभाव देगी, आपने यह कैसे मापा कि यह वास्तव में क्या प्रभाव देता है, और आपको क्या लगता है कि इस प्रभाव को इस सुविधा के लिए जिम्मेदार ठहराया जाना चाहिए, और नहीं कुछ और। एक अच्छा उम्मीदवार हमेशा तार्किक रूप से यह साबित करने में सक्षम होगा कि उसने ऐसा क्यों किया और अन्यथा नहीं।

व्यवसाय और डेटा वॉल्यूम के विकास के साथ, यह अधिक उन्नत सांख्यिकीय तकनीकों और अधिक उन्नत एप्लिकेशन लाइब्रेरीज़ का उपयोग करने के लिए सार्थक हो जाता है - जो अब डेटा विज्ञान कहलाता है।

अगर हम तंत्रिका नेटवर्क और मशीन सीखने की तुलना में व्यापक अर्थों में डेटा विज्ञान के बारे में बात करते हैं, तो, उदाहरण के लिए, हमें एसएएस जैसे शास्त्रीय पैकेज से स्व-लिखित अजगर उपकरणों के लिए लॉजिस्टिक रिग्रेशन बनाने में सफल अनुभव था। इससे क्रेडिट स्कोरिंग को विकसित करने का समय 5 गुना कम हो गया

कुछ बिंदु पर, हमने महसूस किया कि कुछ संस्करणों पर लॉजिस्टिक प्रतिगमन और क्लस्टर विश्लेषण ग्राहक विभाजन से संबंधित कार्यों के लिए विपणन और उत्पाद प्रबंधन में उनके उपयोग को सही ठहराते हैं और प्रत्येक ग्राहक के लिए व्यक्तिगत रूप से इष्टतम उत्पाद या छूट रणनीति का निर्धारण करते हैं।

भविष्य की भविष्यवाणी करना सीखना


ऋण व्यवसाय की ख़ासियत यह है कि उत्पाद को बेचने के लिए पर्याप्त नहीं है - क्रेडिट पर पैसा, आपको भविष्य के नकदी प्रवाह का प्रबंधन करने की आवश्यकता है। तदनुसार, भविष्य के पी एंड एल के पूर्वानुमान में विभिन्न पूर्वानुमान मॉडल और उनके एकीकरण की भूमिका सामने आती है। ऐसे मॉडलों के उदाहरण: प्रारंभिक बकाया डेटा के आधार पर भविष्य की फीस, ग्राहक विभाजन डेटा के आधार पर औसत बिल, रिटर्न डेटा के आधार पर ऋण की संख्या और इसी तरह।

छवि

यह आम तौर पर बहुत प्रेरक होता है जब कोई टूलकिट होता है जो आपको विभिन्न प्रमुख व्यापारिक मैट्रिक्स पर अपनी सुविधा के प्रभाव का मूल्यांकन करने और कंपनी के राजस्व में वृद्धि की भविष्यवाणी करने की अनुमति देता है।

इस तरह के उपकरणों को विकसित करने, बनाए रखने और लागू करने के लिए, हम अब वित्तीय नियोजन और विश्लेषण (एफपी एंड ए) के लिए एक विभाग विकसित कर रहे हैं, जिसका कार्य डेटा, विश्लेषण और मॉडलिंग द्वारा व्यावसायिक निर्णय लेने को और भी अधिक समर्थित बनाना होगा।

हम में से कई अभी भी बहुत सी दिलचस्प चीजें हैं: बीआई इंफ्रास्ट्रक्चर का आगे विकास, इसका समर्थन करने वाले विभागों का निर्माण और इसका उपयोग करने वाली प्रक्रियाएं।

संक्षेप में, हम एक डेटा-संचालित दृष्टिकोण के विकास के लिए निम्नलिखित सिद्धांतों को अलग कर सकते हैं, जिसका मैं पालन करूंगा:

  • निवेश पर अपेक्षित रिटर्न (उदाहरण के लिए, कर्मचारियों के समय की बचत में, बढ़ती सटीकता / निर्णय लेने की गति, आदि) विस्तारित संसाधनों के लिए पर्याप्त है।
  • आंतरिक उत्पाद प्रबंधन: बुनियादी ढांचे का निर्माण और विकास करते समय, "विशलिस्ट" और आंतरिक ग्राहकों की प्रतिक्रिया की जांच की जाती है। और ध्यान में रखा गया।
  • बुनियादी ढांचे के विकास को प्रक्रियाओं और कार्यप्रणाली के विकास के साथ बनाए रखना चाहिए। और सभी एक साथ - अपनी पिछलग्गू जरूरतों के मामले में कंपनी के विकास को पीछे नहीं छोड़ना चाहते हैं।

Source: https://habr.com/ru/post/hi461339/


All Articles