भंडारण में डेटा की गुणवत्ता

मूल्यवान जानकारी प्राप्त करने के लिए भंडार में डेटा की गुणवत्ता एक महत्वपूर्ण शर्त है। खराब गुणवत्ता लंबे समय में नकारात्मक श्रृंखला प्रतिक्रिया की ओर ले जाती है।
सबसे पहले, प्रदान की गई जानकारी में विश्वास खो जाता है। लोग बिजनेस इंटेलिजेंस एप्लिकेशन का उपयोग कम करने लगे हैं, अनुप्रयोगों की संभावना लावारिस बनी हुई है।
नतीजतन, विश्लेषणात्मक परियोजना में आगे के निवेश को प्रश्न में कहा जाता है।

डेटा गुणवत्ता के लिए जिम्मेदारी


डेटा की गुणवत्ता में सुधार से जुड़ा पहलू बीआई परियोजनाओं में एक बड़ी बात है। हालांकि, यह केवल तकनीकी विशेषज्ञों का विशेषाधिकार नहीं है।
डेटा गुणवत्ता भी इस तरह के पहलुओं से प्रभावित है

कॉर्पोरेट संस्कृति

  • क्या श्रमिक स्वयं अच्छी गुणवत्ता का उत्पादन करने के इच्छुक हैं
  • यदि नहीं, तो क्यों? हितों का टकराव हो सकता है।
  • शायद कॉर्पोरेट नियम हैं जो गुणवत्ता के लिए जिम्मेदार हैं?

प्रक्रियाओं

  • इन श्रृंखलाओं के अंत में कौन सा डेटा बनाया जाता है?
  • शायद ऑपरेटिंग सिस्टम कॉन्फ़िगर किए गए हैं ताकि वास्तविकता में इस या उस स्थिति को प्रतिबिंबित करने के लिए आपको "बाहर निकलना" पड़े।
  • क्या ऑपरेटिंग सिस्टम डेटा सत्यापन करते हैं और स्वयं सत्यापन करते हैं?

संगठन में हर कोई रिपोर्टिंग सिस्टम में डेटा की गुणवत्ता के लिए जिम्मेदार है।

परिभाषा और अर्थ


गुणवत्ता ग्राहकों की उम्मीदों की एक संतुष्ट संतुष्टि है।

लेकिन डेटा की गुणवत्ता में परिभाषा नहीं होती है। यह हमेशा उपयोग के संदर्भ को दर्शाता है। डेटा वेयरहाउस और BI सिस्टम ऑपरेटिंग सिस्टम की तुलना में अलग-अलग उद्देश्यों को पूरा करते हैं, जहाँ से डेटा लिया जाता है।

उदाहरण के लिए, ऑपरेटिंग सिस्टम पर, क्लाइंट विशेषता एक आवश्यक फ़ील्ड नहीं हो सकती है। रिपॉजिटरी में, इस विशेषता को एक आयाम के रूप में इस्तेमाल किया जा सकता है और इसका भरना अनिवार्य है। जो, बदले में, डिफ़ॉल्ट मूल्यों के साथ आबाद करने की आवश्यकता का परिचय देता है।

डेटा वेयरहाउस आवश्यकताओं में लगातार परिवर्तन हो रहे हैं और वे आमतौर पर ऑपरेटिंग सिस्टम से अधिक हैं। लेकिन यह आसपास का दूसरा तरीका हो सकता है, जब भंडारण में ऑपरेटिंग सिस्टम से विस्तृत जानकारी संग्रहीत करने की आवश्यकता नहीं होती है।

डेटा गुणवत्ता को मापने योग्य बनाने के लिए, इसके मानकों का वर्णन किया जाना चाहिए। जो लोग अपने काम के लिए जानकारी और संख्याओं का उपयोग करते हैं, उन्हें विवरण प्रक्रिया में शामिल होना चाहिए। इस भागीदारी का परिणाम एक नियम हो सकता है, जिसका अनुसरण करते हुए, एक नज़र में, आप कह सकते हैं कि कोई त्रुटि है या नहीं। इस नियम को बाद के सत्यापन के लिए एक स्क्रिप्ट / कोड के रूप में जारी करने की आवश्यकता है।

डेटा की गुणवत्ता में सुधार


रिपॉजिटरी में डेटा लोड करने की प्रक्रिया में सभी काल्पनिक त्रुटियों को साफ और ठीक करना असंभव है। अच्छी डेटा गुणवत्ता केवल सभी प्रतिभागियों के करीबी काम के माध्यम से प्राप्त की जा सकती है। जो लोग ऑपरेटिंग सिस्टम में डेटा दर्ज करते हैं, उन्हें यह पता लगाना चाहिए कि क्या कार्रवाइयां त्रुटियों को जन्म देती हैं।

डेटा की गुणवत्ता एक प्रक्रिया है। दुर्भाग्य से, कई संगठनों में निरंतर सुधार के लिए कोई रणनीति नहीं है। कई लोग केवल डेटा को बचाने के लिए खुद को सीमित करते हैं और विश्लेषणात्मक प्रणालियों की पूरी क्षमता का उपयोग नहीं करते हैं। एक नियम के रूप में, डेटा वेयरहाउस विकसित करते समय, बजट का 70-80% डेटा एकीकरण पर खर्च किया जाता है। नियंत्रण और सुधार की प्रक्रिया अधूरी रह जाती है, यदि ऐसा हो।

उपकरण


सॉफ्टवेयर उपकरणों का उपयोग डेटा गुणवत्ता में सुधार और निगरानी को स्वचालित करने की प्रक्रिया में मदद कर सकता है। उदाहरण के लिए, वे भंडारण संरचनाओं के तकनीकी सत्यापन को पूरी तरह से स्वचालित कर सकते हैं: फ़ील्ड का प्रारूप, डिफ़ॉल्ट मानों की उपस्थिति, तालिका फ़ील्ड नामों की आवश्यकताओं का अनुपालन।

सामग्री की जांच करना अधिक कठिन हो सकता है। जैसे-जैसे भंडारण आवश्यकताएं बदलती हैं, डेटा व्याख्या बदल सकती है। उपकरण स्वयं एक बड़ी परियोजना में बदल सकता है जिसे समर्थन की आवश्यकता है।

परिषद


रिलेशनल डेटाबेस, जिसमें रिपॉजिटरी आमतौर पर डिज़ाइन किए जाते हैं, में विचार (विचार) बनाने का एक शानदार अवसर होता है। यदि आप सामग्री की विशेषताओं को जानते हैं, तो डेटा को जल्दी से जांचने के लिए उनका उपयोग किया जा सकता है। डेटा में त्रुटि या समस्या खोजने का प्रत्येक मामला डेटाबेस के लिए एक प्रश्न के रूप में दर्ज किया जा सकता है।

इस प्रकार, एक कंटेंट नॉलेज बेस बनाया जाएगा। बेशक, ऐसे अनुरोध तेजी से होने चाहिए। एक नियम के रूप में, टेबल पर आयोजित उपकरणों की तुलना में सर्विसिंग के विचारों को कम मानव समय लगता है। चेक के परिणाम को प्रदर्शित करने के लिए दृश्य हमेशा तैयार है।
महत्वपूर्ण रिपोर्टों के मामले में, दृश्य में पताक के साथ एक कॉलम हो सकता है। रिपॉजिटरी में डेटा की गुणवत्ता की स्थिति पर रिपोर्ट करने के लिए समान बीआई उपकरण का उपयोग करना समझ में आता है।

उदाहरण


अनुरोध Oracle डेटाबेस के लिए लिखा गया है। इस उदाहरण में, परीक्षण एक संख्यात्मक मान लौटाते हैं जिन्हें आवश्यकतानुसार समझा जा सकता है। T_MIN और T_MAX का उपयोग अलार्म की डिग्री को समायोजित करने के लिए किया जा सकता है। REPORT फ़ील्ड का उपयोग एक बार एक वाणिज्यिक ETL उत्पाद में एक संदेश के रूप में किया गया था जो यह नहीं जानता था कि ईमेल को पर्याप्त रूप से कैसे भेजा जाए, इसलिए rpad "बैसाखी" है।

एक बड़ी तालिका के मामले में, आप उदाहरण के लिए, और ROWNUM <= 10 जोड़ सकते हैं, अर्थात्। यदि 10 त्रुटियां हैं, तो यह अलार्म के लिए पर्याप्त है।

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS SELECT CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX THEN 'OK' ELSE 'ERROR' END AS RESULT, DESCRIPTION, TABLE_NAME, OUTPUT, T_MIN, T_MAX, rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT FROM (-- Test itself SELECT 'DIM_PRODUCT' AS TABLE_NAME, 'Count of blanks' AS DESCRIPTION, COUNT(*) AS OUTPUT, 0 AS T_MIN, 10 AS T_MAX FROM DIM_PRODUCT WHERE DIM_PRODUCT_ID != -1 -- not default value AND ATTRIBUTE IS NULL ); -- count blanks 

प्रकाशन ने पुस्तक सामग्री का उपयोग किया
रोनाल्ड बच्चन, डॉ। गुइडो केम्पर
राउत गुदा डेर बी-फेल
Wie Business Intelligence zum Erfolg wird

Source: https://habr.com/ru/post/hi459682/


All Articles