प्रकाशन का कारण Rstudio ब्लॉग पोस्ट था: "चमकदार 1.1.0: Async के साथ चमकदार स्केलिंग," जो बहुत आसानी से गुजर सकता है, लेकिन जो व्यावसायिक कार्यों के लिए आर का उपयोग करने के कार्य में एक बहुत महत्वपूर्ण ईंट जोड़ता है। दरअसल, चमकदार के देव संस्करण में, अतुल्यकालिक लगभग एक साल पहले दिखाई दिया था, लेकिन यह एक प्रकार का तुच्छ और "मेक-विश्वास" था - यह देव संस्करण है। सीआरएएन पर मुख्य शाखा और प्रकाशन के लिए स्थानांतरण एक महत्वपूर्ण पुष्टि है कि कई मूलभूत मुद्दों पर विचार किया जाता है, हल किया जाता है और परीक्षण किया जाता है, आप सुरक्षित रूप से एक उत्पादक और उपयोग में स्थानांतरित कर सकते हैं।
"हीरा" को छोड़कर, आर में और क्या है, जो आपको व्यावहारिक कार्यों के लिए एक सार्वभौमिक विश्लेषणात्मक उपकरण में बदलने की अनुमति देता है?
यह पिछले प्रकाशनों का एक सिलसिला है।
क्यों चमकदार
अगर हम एक वास्तविक कंपनी की व्यावसायिक प्रक्रियाओं में विभिन्न डेटा प्रोसेसिंग के लिए R के व्यावहारिक अनुप्रयोग के बारे में बात करते हैं, तो विश्लेषणात्मक परिणामों के मुख्य उपयोगकर्ता विभिन्न स्तरों पर प्रबंधक होंगे। हम कोष्ठक के पीछे डीएस एनालिटिक्स की परत को छोड़ देते हैं, उन्हें डेटाबेस तक सीधी पहुंच सहित कई प्रकार के उपकरणों की आवश्यकता होती है। वे स्वयं सब कुछ कर सकते हैं और कर सकते हैं। ग्राफिक वेब-आधारित वर्कस्टेशन एक सुविधाजनक मदद होगी, लेकिन एक महत्वपूर्ण अंतर नहीं।
डीएस विशेषज्ञ के विपरीत, एक साधारण प्रबंधक को एक सुविधाजनक इंटरफ़ेस की आवश्यकता होती है जो उसे निर्णय लेने या प्रबंधन को रिपोर्ट करने के लिए आवश्यक सभी जानकारी (ऐतिहासिक, विश्लेषणात्मक, पूर्वानुमान आदि) प्रदान करेगा। दरअसल, यूजर इंटरफेस किसी भी एंटरप्राइज सिस्टम का "अल्फा और ओमेगा" है। कोई भी कभी भी हुड के नीचे नहीं दिखेगा (ठीक है, शायद केवल आरएफआई-आरएफपी के लंबे और दर्दनाक चरणों में)। नौकरी की जिम्मेदारियों में निर्दिष्ट उनकी उपयोगकर्ता-कहानी की सीमाओं से परे प्रयोग करने के लिए कोई भी कभी भी समझ नहीं पाएगा। कोई भी कभी भी प्रोटोकॉल, एल्गोरिदम, सत्यापन और सटीकता के विषय पर प्रतिबिंबित नहीं करेगा।
शाइनी का उपयोग करके, आप एक बहुत शाखित इंटरफ़ेस बना सकते हैं जिसमें पाठ, ग्राफिक्स, टेबल, लगभग सभी संरचनात्मक HTML तत्व (बूटस्ट्रैप फ्रेमवर्क) शामिल होंगे। जेएस आपको वेब इंटरफ़ेस में जटिल ट्यूनिंग जोड़ने की अनुमति देता है, सीएसएस आपको कस्टम स्टाइल बनाने की अनुमति देता है। आर कई महत्वपूर्ण चीजों पर करना भी बहुत आसान है जो गुणात्मक रूप से इंटरफ़ेस, अर्थात् सामग्री की गतिशील पीढ़ी के साथ काम को बदलते हैं। यहां हम बात कर रहे हैं:
- सारणीबद्ध और ग्राफिक डेटा जिसे टाइमर या उपयोगकर्ता के अनुरोध द्वारा बदला जा सकता है और जब आरोप में प्रदर्शित किया जाता है। गतिशील प्रतिबंधों के साथ (उदाहरण के लिए, भाग के डेटा के तारांकन को छिपाना);
- इंटरफ़ेस में तत्वों की संरचना (व्यवसाय प्रक्रिया के तर्क के आधार पर, आप निष्पादन के दौरान बटन, बुकमार्क आदि जोड़ सकते हैं);
- इन तत्वों की सामग्री (उदाहरण के लिए, लोड किए गए डेटा के आधार पर उपलब्ध मूल्यों की सूची भरना);
- नियंत्रण तत्वों की सामग्री का बुद्धिमान प्रबंधन (उदाहरण के लिए, एक सूची से मूल्यों का चयन, चयन के लिए उपलब्ध अन्य तत्वों की सामग्री का निर्धारण करेगा);
- डेटा स्तर पर रोल मॉडल के कार्यान्वयन (उदाहरण के लिए, भूमिका के आधार पर, किसी तत्व के केवल कुछ सबसेट उपलब्ध हो सकते हैं)
कोई इंटरफ़ेस नहीं - कोई सिस्टम नहीं। और वास्तव में इस बिंदु पर यह लगभग स्पष्ट हो जाता है कि क्यों आर, अजगर नहीं। क्योंकि R में शाइनी (संकुल + रनटाइम) है, जिसके साथ आप सीधे किसी भी एल्गोरिदम की जटिलता के डेटा प्रोसेसिंग सिस्टम के लिए सीधे यूजर इंटरफेस पर R कर सकते हैं, लेकिन अजगर, अफसोस, निकट भविष्य में ऐसी कोई घोषणा नहीं है।
अतुल्यकालिक चमकदार और यह इतना महत्वपूर्ण क्यों है
चमकदार एप्लिकेशन को क्रमिक रूप से निष्पादित किया जाता है, चमकदार सर्वर ओपन-सोर्स में प्रत्येक यूआरएल लिंक (चमकदार ऐप) के लिए, एक बैकएंड आर प्रक्रिया बढ़ जाती है, जो उपयोगकर्ता गतिविधि के अनुसार गणना का कार्य करती है। अंतिम रिलीज तक, चमकदार का ओपन-सोर्स संस्करण पूरी तरह से सिंक्रोनस था। इसका मतलब यह था कि कोड के भीतर कोई भी लंबी गणना "फ्रीज" करने के लिए सभी उपयोगकर्ताओं के लिए आवेदन की प्रतिक्रिया है जो एक ही समय में इसका इस्तेमाल करते थे। स्वाभाविक रूप से, चमकदार सर्वर प्रो के उद्यम संस्करण में, उपयोगकर्ता सत्रों के प्रबंधन का मुद्दा हल हो गया है। उपभोक्ता के पास यह चुनने का अवसर था कि वह 5 सेकंड में उद्यम के आवेदन के दौरान वह सब कुछ प्राप्त कर सकता है जो उसे पसंद है या उसे खुद से पूरक करना है।
सिद्धांत रूप में, चमकदार अनुप्रयोगों की ऐसी विशेषता को निम्न स्तर पर रखा जा सकता है:
- विभिन्न उपयोगकर्ताओं के लिए अलग-अलग यूआरएल के लिए आवेदन पोस्ट करना, उदाहरण के लिए, उपयोगकर्ता नाम (एक कोड, लिंक चमकदार सर्वर पर किए गए हैं)
- अग्रिम में जटिल गणना करना, एक अलग पृष्ठभूमि प्रक्रिया में
- आर में बैकेंड और पोस्टप्रोसेसिंग की डेटा प्रोसेसिंग क्षमताओं के बीच इष्टतम सहजीवन।
हालाँकि, अब यह बहुत अधिक सुविधाजनक हो गया है। वादा (एस) तंत्र के माध्यम से एसिंक्रोनसी अतिरिक्त आर धागे उत्पन्न करने के लिए कुछ पंक्तियों की अनुमति देता है जिसमें धारा के प्रदर्शन और मुख्य चमकदार आवेदन के प्रतिक्रिया समय को प्रभावित किए बिना संसाधन-गहन गणना की जाएगी। इसलिए, औपचारिक रूप से, कई उपयोगकर्ताओं के समानांतर काम के मुद्दे को ओपन-सोर्स संस्करण में भी हल किया जा सकता है। कॉफी पीने और परिणाम की प्रतीक्षा करने का समय चमकदार के बारे में नहीं है।
आर के विशिष्ट केस स्टडीज
वे अक्सर और अक्सर एंटरप्राइज़ अनुप्रयोगों के ढांचे के भीतर मॉडल और एमएल के बारे में बात करना पसंद करते हैं, लेकिन कार्य को डिजिटाइज़ करने और डेटा तैयार करने के बाद ही इन कार्यों से संपर्क करना संभव है। और यह सब आर के ढांचे के भीतर किया जा सकता है।
स्वाभाविक रूप से, आर हमेशा एक के साथ पर्याप्त नहीं होता है, कार्य के पैमाने और डेटा की मात्रा के आधार पर, ओपन-सोर्स ऑलप बैकएंड और ओपन-सोर्स डेटा अधिग्रहण सबसिस्टम दोनों की आवश्यकता हो सकती है। लेकिन यह कुछ भी नहीं बदलता है, क्योंकि उपयोगकर्ता केवल उपयोगकर्ता के आवेदन (ऊपर देखें) के साथ काम करता है।
पहले की कहानियों में से कई में "बड़े विक्रेताओं" के विशेष उत्पाद थे जो कि वर्षों से अरबों डॉलर में पेश किए गए हैं। लेकिन अब सब कुछ बहुत आसान और सस्ता हल है। अभ्यास से पता चलता है कि 99% व्यावसायिक कार्य नीचे वर्णित तीन मामलों में से एक में आते हैं।
केस नंबर 1। संचालन विश्लेषणात्मक
एक विशिष्ट कार्य, जो एक ऑपरेशनल फीडबैक लूप बनाना है। मुख्य चरण:
- मल्टी-प्रोटोकॉल और मल्टी-फॉर्मेट डेटा संग्रह वास्तविक मोड के करीब एक मोड में (व्यावसायिक प्रक्रियाओं की बारीकियों के अनुसार, विभिन्न निर्माताओं के विभिन्न प्रणालियों और संदर्भ पुस्तकों के विभिन्न स्वरूपों से इष्टतम डेल्टा कई मिनटों का है)। उदाहरण के लिए, यह पंपिंग उपकरण से डेटा, विभिन्न स्कैनर से डेटा, सिस्टम ऑपरेशन लॉग हो सकता है
- अन्य स्रोतों और निर्देशिकाओं से डेटा के साथ सफाई, सामान्यीकरण और संवर्धन
- प्राप्त समय श्रृंखला का विश्लेषण। यहां पूर्वानुमानों की गणना और पूर्वानुमानित मूल्यों से विचलन का विश्लेषण, और विसंगतियों का विश्लेषण, और विभिन्न समस्याओं का पूर्वानुमान और संभावित समस्याओं का पूर्वानुमान है (उदाहरण के लिए, रेफ्रिजरेटर में तापमान धीरे-धीरे बढ़ने लगा। जबकि संकेतक सेटिंग्स में हैं, लेकिन प्रवृत्ति स्पष्ट है - उत्पाद जल्द ही खराब हो सकता है)।
- किसी भी तात्कालिक KPI मूल्यों की गणना (व्यवसाय विश्लेषकों की कल्पना की सीमाओं के भीतर)
- मल्टी-चैनल फीडबैक लूपबैक: रिपोर्ट जनरेट करना, डैशबोर्ड को अपडेट करना, बाहरी सिस्टम को स्वचालित रिपोर्टिंग (उदा। मॉनिटरिंग), निचले सिस्टम में कमांड का स्वचालित निष्पादन।
क्लासिक उदाहरण:
- विभिन्न उपकरणों का नियंत्रण,
- लंबी व्यावसायिक प्रक्रियाओं की निगरानी,
- "ऑनलाइन बिक्री विश्लेषण,
- कॉल सेंटर कार्य विश्लेषण,
- एक्सेस कंट्रोल सिस्टम का सामान्य विश्लेषण (उदाहरण के लिए, एसएपी में एक निश्चित समय पर एक निश्चित कर्मचारी की पहुंच के लिए एक आवेदन था, या एसीएस एक विसंगति के रूप में क्या देखता है?)।
ऐसी कई समस्याएं हैं और सब कुछ पारिस्थितिकी तंत्र आर के माध्यम से हल किया जा सकता है।
केस नंबर 2। एक्सेल समेकन
अभ्यास से पता चलता है कि अधिकांश कंपनियों में एक्सेल व्यापार विश्लेषकों के लिए मुख्य उपकरण है। सरल कार्यों के लिए, यह अभी भी स्वीकार्य है; बहुत सारे डेटा के साथ जटिल कार्यों के लिए, यह दृष्टिकोण एक ब्लैक होल में बदल जाता है, जो किसी भी संसाधन में बेकार हो जाता है और आउटपुट में कुछ भी नहीं देता है।
विशिष्ट कार्य:
(Fired) DO {
- विभिन्न स्रोतों के होस्ट से गंदे डेटा एकत्र करें, ज्यादातर एक्सेल मैनुअल;
- बार-बार यह सभी को सत्यापित करें (सूत्रों के तकनीकी और तार्किक सत्यापन + स्रोतों के बीच तार्किक क्रॉस-सत्यापन);
- गणना, समेकन, वितरण करना;
- अन्य इकाइयों को वितरण के लिए बहुत सारे अलग-अलग अनलोडिंग करना;
- किए गए कार्य पर चतुराई से रिपोर्ट करें।
}
और यह सब एक निरंतर आपातकालीन मोड और प्रसंस्करण में किया जाता है।
क्लासिक उदाहरण:
- एकीकृत परियोजना प्रबंधन प्रणाली (KSUP) के लिए विश्लेषिकी, जब आप एक msproject के साथ नहीं उतर सकते। ठेकेदारों की बड़े पैमाने पर रिपोर्ट के रूप में वे सबसे अच्छा कर सकते हैं, लेकिन हमें एक समेकित तस्वीर बनाने और जोखिमों का प्रबंधन करने की आवश्यकता है।
- आदेश और वितरण प्रणाली (व्यापार और रसद)। क्या ले जाना है, कैसे वितरित करना है, कैसे ऑर्डर इकट्ठा करना है, कैसे उन्हें विघटित करना है। यह पूर्वानुमान की खरीद के लिए भी अच्छा है।
केस नंबर 3। निर्णय समर्थन प्रणाली
यहाँ यह सरल और शुद्ध एमएल के सबसे करीब है:
- जहाँ से आप जानकारी प्राप्त कर सकते हैं (सभी प्रकार के odbc और नहीं काफी odbc अनुरूप स्रोत, xml \ json, txt \ csv \ log, xlsx, REST API);
- एक दूसरे के साथ विभिन्न स्रोतों से डेटा को सहसंबंधित करें और एमएल एल्गोरिदम के लिए सुपाच्य रूप में ले जाएं;
- चटाई बिछाकर आओ। वर्णित व्यावसायिक संस्थाओं का एक मॉडल, गणना करने के लिए;
- विभिन्न स्लाइस और विचारों में ड्रा करें, वर्तमान स्थिति और सिफारिशों के विवरण के साथ एक प्रबंधकीय रूप (डॉक, xlsx, pptx, pdf) में विभिन्न रिपोर्ट उत्पन्न करें।
केस वर्गीकरण का आविष्कार नहीं किया गया था, लेकिन व्यवसाय की वास्तविक जरूरतों (विज्ञान और शुद्ध एमएल \ एआई डीएल अलग से) के आधार पर निकला। संभवतः निकट भविष्य में 2-3 समस्याओं को हल करने के बारे में "स्क्रीनशॉट में साझा करना" संभव होगा।
अभ्यास से पता चलता है कि R + Shiny आपको ऐसे कार्यों को बहुत ही कुशलता से "क्लिक" करने की अनुमति देता है। यदि कार्य हैं, तो इन उपकरणों को अधिक बारीकी से देखने के लिए समझ में आता है।
पिछला पोस्ट - एक मजबूत उद्यम आर की विशेषताएं ।