جودة البيانات في التخزين

تعد جودة البيانات في المستودع شرطا مسبقا هاما للحصول على معلومات قيمة. نوعية رديئة يؤدي إلى سلسلة من ردود الفعل السلبية على المدى الطويل.
أولاً ، فقد الثقة في المعلومات المقدمة. بدأ الناس في استخدام تطبيقات ذكاء الأعمال بشكل أقل ، وإمكانات التطبيقات لم تتم المطالبة بها.
نتيجة لذلك ، يتم التشكيك في مزيد من الاستثمارات في المشروع التحليلي.

المسؤولية عن جودة البيانات


الجانب المرتبط بتحسين جودة البيانات هو جزء كبير في مشاريع استقصاء المعلومات. ومع ذلك ، فليس من امتياز المتخصصين التقنيين فقط.
تتأثر جودة البيانات أيضًا بجوانب مثل

ثقافة الشركات

  • هل العمال أنفسهم مهتمون بإنتاج نوعية جيدة؟
  • إذا لم يكن كذلك ، لماذا؟ قد يكون هناك تضارب في المصالح.
  • ربما هناك قواعد الشركات التي تحدد المسؤولين عن الجودة؟

العمليات

  • ما هي البيانات التي يتم إنشاؤها في نهاية هذه السلاسل؟
  • ربما تم تكوين أنظمة التشغيل بحيث تحتاج إلى "الخروج" لتعكس هذا أو ذاك الموقف في الواقع.
  • هل تقوم أنظمة التشغيل بالتحقق من صحة البيانات والتحقق من نفسها؟

كل شخص في المؤسسة مسؤول عن جودة البيانات في أنظمة التقارير.

التعريف والمعنى


الجودة هي الارتياح المؤكد لتوقعات العملاء.

لكن جودة البيانات لا تحتوي على تعريف. إنه يعكس دائمًا سياق الاستخدام. يؤدي مستودع البيانات ونظام BI أغراضًا مختلفة عن نظام التشغيل ، حيث يتم أخذ البيانات منها.

على سبيل المثال ، على نظام التشغيل ، قد لا تكون سمة العميل حقلًا مطلوبًا. في المستودع ، يمكن استخدام هذه السمة كبعد ويكون ملؤها إلزاميًا. والذي بدوره يقدم الحاجة إلى ملء القيم الافتراضية.

تتغير متطلبات مستودع البيانات باستمرار وهي عادة أعلى من أنظمة التشغيل. لكن يمكن أن يكون الأمر عكس ذلك ، عندما لا يكون مطلوبًا تخزين معلومات مفصلة من نظام التشغيل في وحدة التخزين.

لجعل جودة البيانات قابلة للقياس ، يجب وصف معاييرها. يجب إشراك الأشخاص الذين يستخدمون المعلومات والأرقام في عملهم في عملية الوصف. يمكن أن تكون نتيجة هذه المشاركة قاعدة ، وبعد ذلك يمكنك في لمحة ما تحديد ما إذا كان هناك خطأ أم لا. يجب إصدار هذه القاعدة في شكل برنامج نصي / رمز للتحقق لاحقًا.

تحسين جودة البيانات


يستحيل تنظيف وإصلاح جميع الأخطاء الافتراضية في عملية تحميل البيانات في المستودع. لا يمكن تحقيق جودة بيانات جيدة إلا من خلال العمل الوثيق لجميع المشاركين. يجب على الأشخاص الذين يدخلون البيانات في أنظمة التشغيل معرفة الإجراءات التي تؤدي إلى حدوث أخطاء.

جودة البيانات هي عملية. لسوء الحظ ، في العديد من المنظمات لا توجد استراتيجية للتحسين المستمر. يقتصر الكثير منهم على حفظ البيانات فقط ولا يستخدمون الإمكانيات الكاملة للأنظمة التحليلية. كقاعدة عامة ، عند تطوير مستودعات البيانات ، يتم إنفاق 70-80 ٪ من الميزانية على تكامل البيانات. عملية السيطرة والتحسين لا تزال غير مكتملة ، إن وجدت.

الأدوات


يمكن أن يساعد استخدام أدوات البرامج في عملية أتمتة تحسين جودة البيانات ومراقبتها. على سبيل المثال ، يمكنهم أتمتة التحقق الفني بشكل كامل من هياكل التخزين: تنسيق الحقل ، والقيم الافتراضية ، والامتثال لمتطلبات أسماء حقول الجدول.

قد يكون من الأصعب التحقق من المحتويات. مع تغير متطلبات التخزين ، قد يتغير تفسير البيانات. الأداة نفسها يمكن أن تتحول إلى مشروع ضخم يتطلب الدعم.

مجلس


تتمتع قواعد البيانات العلائقية ، التي يتم فيها تصميم المستودعات عادةً ، بفرصة رائعة لإنشاء طرق عرض (طرق عرض). يمكن استخدامها لفحص البيانات بسرعة إذا كنت تعرف ميزات المحتوى. يمكن تسجيل كل حالة العثور على خطأ أو مشكلة في البيانات في شكل استعلام إلى قاعدة البيانات.

وبالتالي ، سيتم تشكيل قاعدة المعرفة المحتوى. بالطبع ، يجب أن تكون هذه الطلبات سريعة. كقاعدة عامة ، تستغرق خدمة المشاهدات وقتًا إنسانيًا أقل من الأدوات المنظمة على الجداول. العرض جاهز دائمًا لعرض نتيجة الفحص.
في حالة التقارير المهمة ، قد يحتوي العرض على عمود مع المرسل إليه. من المنطقي استخدام أدوات BI نفسها للإبلاغ عن حالة جودة البيانات في المستودع.

مثال


تتم كتابة الطلب لقاعدة بيانات Oracle. في هذا المثال ، تُرجع الاختبارات قيمة رقمية يمكن تفسيرها حسب الحاجة. يمكن استخدام القيمتين T_MIN و T_MAX لضبط درجة الإنذار. تم استخدام حقل REPORT مرة واحدة كرسالة في أحد منتجات ETL التجارية التي لم تكن تعرف كيفية إرسال رسائل البريد الإلكتروني بشكل كاف ، لذلك فإن rpad هو "عكاز".

في حالة وجود جدول كبير ، يمكنك إضافة ، على سبيل المثال ، AND ROWNUM <= 10 ، أي إذا كان هناك 10 أخطاء ، فهذا يكفي للتنبيه.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS SELECT CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX THEN 'OK' ELSE 'ERROR' END AS RESULT, DESCRIPTION, TABLE_NAME, OUTPUT, T_MIN, T_MAX, rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT FROM (-- Test itself SELECT 'DIM_PRODUCT' AS TABLE_NAME, 'Count of blanks' AS DESCRIPTION, COUNT(*) AS OUTPUT, 0 AS T_MIN, 10 AS T_MAX FROM DIM_PRODUCT WHERE DIM_PRODUCT_ID != -1 -- not default value AND ATTRIBUTE IS NULL ); -- count blanks 

المنشور تستخدم مواد الكتاب
رونالد باخمان ، د. غيدو كيمبر
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird

Source: https://habr.com/ru/post/ar459682/


All Articles