डेटा इंजीनियर कोर्स के छात्रों के लिए विशेष रूप से लेख का अनुवाद तैयार किया गया था।
पहला भाग पढ़ेंकिसी को बिग डेटा की जरूरत नहीं है
जब आप सुनते हैं, "किसी को बिग डेटा की जरूरत नहीं है," स्पीकर के रिज्यूम को देखें। विकास के अद्भुत स्तरों का अनुभव करने वाला एक अफ्रीकी टेलीकॉम ऑपरेटर नए जावास्क्रिप्ट वेब डेवलपर से संपर्क नहीं कर सकता है और उससे पूछ सकता है कि क्या वे अपने डेटा प्लेटफ़ॉर्म को विकसित करने और बिलिंग गणनाओं को अनुकूलित करने में मदद कर सकते हैं। आप एयरलाइन के मुख्यालय में कई आंतरिक वेब एप्लिकेशन पा सकते हैं, लेकिन जब निवारक रखरखाव के लिए विमान टेलीमेट्री के पेटाबाइट्स का विश्लेषण करने की बात आती है, तो इस परियोजना में एक भी PHP डेवलपर नहीं हो सकता है।
उपरोक्त परियोजनाओं को अक्सर इस तरह से विज्ञापित नहीं किया जाता है ताकि वेब डेवलपर उनके बारे में पता लगा सकें। यही कारण है कि कोई भी नई परियोजनाओं पर काम करने में वर्षों लगा सकता है जो विकास और डेटा संचय दोनों के संदर्भ में अपने एस-वक्र के निचले भाग में हैं, और ज्यादातर मामलों में कभी भी डेटा प्रोसेसिंग की आवश्यकता से परे नहीं देखा जाता है एक मशीन पर रैम में फिट हो सकता है।
पिछले 25 वर्षों में, वेब विकास प्रोग्रामर की संख्या में वृद्धि में एक बड़ा चालक रहा है। ज्यादातर लोग जो खुद को प्रोग्रामर कहते हैं, वे अक्सर वेब एप्लिकेशन बनाते हैं। मुझे लगता है कि कई कौशल सेटों को उन्होंने डेटा डिजाइन के लिए आवश्यक लोगों के साथ अच्छी तरह से गठबंधन किया है, लेकिन उनके पास अक्सर कंप्यूटिंग, सांख्यिकी और कहानी कहने की कमी होती है।
वेब साइटें अक्सर किसी एक उपयोगकर्ता के लिए भारी भार नहीं बनाती हैं, और अक्सर लक्ष्य अधिकतम हार्डवेयर सीमा से नीचे बड़ी संख्या में उपयोगकर्ताओं का समर्थन करने वाले सर्वर पर लोड को बनाए रखना होता है। डेटा की दुनिया में काम का बोझ होता है जिसमें एक अनुरोध बड़ी संख्या में मशीनों को अधिकतम करने के लिए हर संभव काम करता है, ताकि बुनियादी ढांचे की लागत को कम करते हुए काम को जल्दी से जल्दी पूरा किया जा सके।
पेटाबाइट डेटा कंपनियों के पास अक्सर अपने शस्त्रागार में सलाहकार और समाधान प्रदाता होते हैं। मैंने शायद ही कभी किसी को अपने नियोक्ताओं द्वारा वेब विकास से बाहर निकाला और डेटा प्लेटफ़ॉर्म विकास क्षेत्र में स्थानांतरित किया गया; यह लगभग हमेशा लंबे समय तक आत्म-निवृत्ति का परिणाम होता है।
यह डेटासेट रैम में रह सकता है
मैंने लोगों को यह कहते सुना कि "एक डेटा सेट मेमोरी में फिट हो सकता है।" क्लाउड में भी RAM की मात्रा में हाल ही में काफी वृद्धि हुई है। 2 टीबी रैम के साथ ईसी 2 के उदाहरण हैं। आमतौर पर, रैम को आपके इंस्टॉलेशन के आर्किटेक्चर के आधार पर 12-25 जीबी / एस पर इस्तेमाल किया जा सकता है। यदि मशीन पर बिजली की विफलता होती है, तो रैम का उपयोग अकेले विफलता से पुनर्प्राप्ति नहीं करेगा। इसके अलावा, ड्राइव का उपयोग करने की तुलना में प्रति जीबी की लागत बहुत बड़ी होगी।
डिस्क भी तेज हो रही है। हाल ही में
घोषित किया गया था कि
एक PCIe 4.0 NVMe 4 x 2 टीबी एसएसडी कार्ड 15 जीबी / एस की गति से पढ़ने और लिखने में सक्षम है। PCIe 4.0 NVMe ड्राइव की कीमत रैम के साथ काफी प्रतिस्पर्धी होगी और यह गैर-वाष्पशील मेमोरी प्रदान करेगी। मैं इन ड्राइव्स का उपयोग करते हुए एक अच्छे नेटवर्क वाले HDFS क्लस्टर को देखने का इंतजार नहीं कर सकता, क्योंकि यह प्रदर्शित करेगा कि अमीर मौजूदा Hadoop इकोसिस्टम टूल्स के साथ गैर-वाष्पशील भंडारण के साथ मेमोरी में डेटा संग्रह कैसा दिखता है।
इंजीनियरिंग की ज्यादतियों से भरा हुआ
मैं एक डेटा प्लेटफ़ॉर्म के विकास पर 6 या 7 अंक खर्च नहीं करना चाहता हूं और एक व्यवसाय के लिए एक टीम है जो एक डेवलपर के लैपटॉप पर फिट बैठता है से आगे नहीं बढ़ सकता है।
वर्कफ़्लो के दृष्टिकोण से, मेरे दिनों में ज्यादातर BASH, पायथन और SQL का उपयोग होता है। कई नए स्नातक उपरोक्त में योग्य हैं।
पेटीएम डेटा Parquet को S3 पर एक लाख फाइलों में आसानी से वितरित किया जा सकता है। उपरोक्त से संबंधित योजना S3 पर 100,000 माइक्रोप्रैट फ़ाइलों को संग्रहीत करने के तरीके पर विचार करने की तुलना में बहुत अधिक जटिल नहीं है। सिर्फ इसलिए कि एक समाधान मापनीय है इसका मतलब यह नहीं है कि यह बेमानी है।
बस PostgreSQL का उपयोग करें?
मैंने यह तर्क भी सुना है कि MySQL और PostgreSQL जैसे पंक्ति-उन्मुख सिस्टम विश्लेषणात्मक वर्कलोड के साथ-साथ उनके पारंपरिक लेन-देन कार्यभार की जरूरतों को पूरा कर सकते हैं। इन दोनों सुझावों को एनालिटिक्स द्वारा किया जा सकता है, और यदि आप 20 जीबी से कम डेटा देख रहे हैं, तो स्केलिंग संभवतः प्रयास के लायक नहीं है।
मुझे एक ऐसी प्रणाली के साथ काम करना था जो MySQL में 10 बिलियन पंक्तियों को प्रतिदिन लोड करती है। MySQL और PostgreSQL में, ऐसा कुछ भी नहीं है जो इस तरह के भार को संभाल सके। पंक्तिबद्ध भंडारण में, कई दिनों के लिए भी डेटा सेटों के भंडारण के लिए बुनियादी ढांचे की लागत ने कर्मचारियों की लागतों पर निगरानी रखी है। इस क्लाइंट के लिए एक कॉलम स्टोरेज सॉल्यूशन पर स्विच करने से इन्फ्रास्ट्रक्चर कॉस्ट में कमी आई और प्रत्येक के लिए परिमाण के दो आदेशों के द्वारा क्वेरी समय को त्वरित किया गया।
PostgreSQL में कई मशीनों पर प्रश्नों के भंडारण और वितरण के लिए कई ऐड-ऑन हैं। मैंने जो सबसे अच्छे उदाहरण देखे हैं, वे वाणिज्यिक प्रस्ताव हैं। घोषित
जेडस्टोर एक डिग्री या किसी अन्य के लिए, मानक PostgreSQL अंतर्निहित फ़ंक्शन के रूप में स्तंभ भंडारण की स्थापना का समर्थन कर सकता है। यह देखना दिलचस्प होगा कि क्या व्यक्तिगत अनुरोधों के वितरण और भंडारण के पृथक्करण भविष्य में मानक कार्य बन जाएंगे या नहीं।
यदि आपको एक ट्रांसेक्शनल डेटासेट की आवश्यकता है, तो ट्रांसेक्शनल डेटा वेयरहाउस का उपयोग करके इस वर्कलोड को अलग रखना सबसे अच्छा है। यही कारण है कि मुझे MySQL, PostgreSQL, Oracle, और MSSQL बहुत लंबे समय तक चलने की उम्मीद है।
लेकिन क्या आप उबेर में 4 घंटे का ब्रेक देखना पसंद करेंगे क्योंकि उनके प्रेस्टो अनुरोधों में से एक अप्रत्याशित व्यवहार का कारण बना? क्या आप चाहेंगे कि आपकी कंपनी को मासिक बिलिंग की आवश्यकता के बारे में सूचित किया जाए, आपको अपनी वेबसाइट को एक सप्ताह के लिए बंद करना होगा ताकि इस कार्य के लिए पर्याप्त संसाधन हों? विश्लेषणात्मक कार्यभार को लेन-देन कार्यभार के साथ नहीं जोड़ा जाना चाहिए। आप परिचालन जोखिम को कम कर सकते हैं और उन्हें एक अलग बुनियादी ढांचे में चलाकर सबसे उपयुक्त उपकरण चुन सकते हैं।
और जब से आप अलग हार्डवेयर पर काम करते हैं, तो आपको एक ही सॉफ्टवेयर का उपयोग करने की आवश्यकता नहीं है। सक्षम PostgreSQL इंजीनियर में निहित कौशल के कई विश्लेषणात्मक उन्मुख डेटा दुनिया के लिए अच्छी तरह से अनुकूल हैं; वेब डेवलपर के लिए बड़े डेटा स्पेस में जाने के लिए कूदने की तुलना में यह एक छोटा कदम है।
भविष्य कैसा दिखता है?
मैं भविष्य के लिए अपने डेटा कौशल का विश्लेषण और विस्तार करना जारी रखूंगा। पिछले 12 महीनों में, मैं लगभग समान मात्रा में Redshift, BigQuery और Presto का उपयोग करके काम कर रहा हूं। मैं अपने दांव को बांटने की कोशिश करता हूं, क्योंकि मुझे अभी तक भविष्यवक्ता की क्रिस्टल बॉल नहीं मिली है।
मैं वास्तव में उम्मीद करता हूं कि अधिक विखंडन हो और अधिक खिलाड़ी उद्योग में प्रवेश करने और साथ ही छोड़ दें। अधिकांश डेटाबेस के अस्तित्व के कारण हैं, लेकिन उपयोग के मामले जो वे सेवा कर सकते हैं वे सीमित हो सकते हैं। इसी समय, अच्छे विक्रेता किसी भी प्रस्ताव के लिए बाजार की मांग का विस्तार कर सकते हैं। मैंने सुना है कि लोगों का मानना है कि व्यावसायिक गुणवत्ता का डेटाबेस बनाने के लिए लगभग $ 10 मिलियन की आवश्यकता होती है, और यह संभवतः उद्यम पूंजी के लिए सबसे अच्छी जगह है।
कई सुझाव और कार्यान्वयन हैं जो ग्राहकों को एक अप्रिय aftertaste के साथ छोड़ देते हैं। क्लाउड प्राइस टैग से झटका लगने जैसी बात भी है। ऐसे समाधान हैं जो अच्छे हैं, लेकिन विशेषज्ञों को काम पर रखने की लागत के कारण बहुत महंगा है। उद्योग में बिक्री और विपणन पेशेवर कुछ समय के लिए उपरोक्त व्यापार-चर्चाओं में व्यस्त रहेंगे।
अभी क्लाउडरा और मैपआर मुश्किल समय में हो सकते हैं, लेकिन मैंने ऐसा कुछ नहीं सुना, जिससे मुझे विश्वास हो जाए कि AWS EMR, DataBricks और Qubole के पास प्रतिस्पर्धा करने के लिए कुछ है। यहां तक कि ओरेकल भी
स्पार्क से चलने वाला ऑफर जारी कर रहा है। यह अच्छा होगा यदि उद्योग Hadoop में केवल एक Cloudera ऑफ़र की तुलना में कुछ अधिक देखे, और मान्यता दी कि इन फर्मों, साथ ही Facebook, Uber और Twitter ने Hadoop की दुनिया में महत्वपूर्ण योगदान दिया।
Hortonworks, जो इस साल Cloudera के साथ विलय हो गया, Azure HDInsight के लिए एक मंच प्रदाता है, जिसे Microsoft Hadoop द्वारा प्रबंधित किया गया है। कंपनी में ऐसे लोग हैं जो तृतीय-पक्ष क्लाउड सेवा प्रदाता को एक अच्छा मंच प्रदान कर सकते हैं। मुझे उम्मीद है कि वे जिस भी प्रस्ताव पर काम कर रहे हैं, वह इस तरह की आपूर्ति पर केंद्रित होगा।
मुझे संदेह है कि शुरुआती क्लाउड ग्राहक HBase, Oozie, Sqoop और Impala के उपयोगकर्ता थे। यह देखना अच्छा होगा कि वे इतने लंबे विकास के समय और अपने प्लेटफार्मों के भविष्य के संस्करणों के लिए प्रतिस्पर्धा नहीं करते हैं जो एयरफ्लो, प्रेस्टो और स्पार्क के नवीनतम संस्करण को बॉक्स से बाहर जहाज देंगे।
अंत में, यदि आपकी कंपनी डेटा प्लेटफ़ॉर्म पर तैनात करने की योजना बना रही है, तो उसे एक समझदार प्रबंधन टीम के लिए एक प्रतिस्थापन नहीं मिलेगा जो पूरी तरह से शोध कर सकती है, सावधानी से योजना बना सकती है, और असफलताओं की पहचान कर सकती है।