مستودع البيانات بدون E
اليوم ، في أي شركة تتعلق بالشركات الكبيرة والمتوسطة الحجم ، يعد توفر مستودع البيانات معيارًا فعليًا للشركات. لا يهم في أي صناعة تعمل الشركة ، بدون تحليل البيانات المتاحة حول العملاء والموردين والأموال ، فمن المستحيل الحفاظ على ميزة تنافسية. مع تطوير الأتمتة والتحسين في كل مستوى من مستويات إنتاج المنتج أو الخدمة ، تستخدم المؤسسة المزيد والمزيد من أنظمة تكنولوجيا المعلومات التي تنشئ البيانات - إنتاج ، محاسبة ، تخطيط ، إدارة شؤون الموظفين ، وغيرها.
كيفية بناء عملية إنشاء مستودع بيانات بشكل أكثر فاعلية من وجهة نظر التحسين العالمي لموارد المؤسسة ، واحتياجات العمل الجديدة والحالية ، ولماذا يعد الحفاظ على البيانات الوصفية أمرًا مهمًا.
غالبًا ما تُستخدم مهام استخدام البيانات المتراكمة لفئات المهام التالية:
- إعداد التقارير التنظيمية
- محاسبة مالية
- التخطيط والمراقبة
- الميزنة
- تحليل قاعدة العملاء
- إدارة المخاطر
غالبًا ما يكون استخدام مصدر واحد للأغراض الأكثر إلحاحًا - على سبيل المثال ، إذا كنا نتحدث عن تزويد المنظم ببعض التفاصيل من نظام معين ، أو إرسال العميل التاريخ الكامل لأوامره باستخدام CRM. حتى عند تغيير نظم المعلومات ، لا توجد عادة صعوبة في الحصول على التقارير.
طرق وأنواع تخزين البيانات
ومع ذلك ، عندما يصبح حجم المؤسسة كبيرًا بما فيه الكفاية ، أو إذا كنت ترغب في زيادة ميزتك التنافسية ، فلن يكون كافياً فقط لإنشاء منتج وتقديمه إلى السوق. الاتجاهات الحالية - في دراسة شاملة للمستهلك لزيادة ولائه. تحتاج إلى تحليل الأعمال من زوايا مختلفة ومعرفة كيفية تقييم التكاليف بشكل أكثر دقة. المهام النموذجية من الفئة يجب أن تكون كما يلي:
- كيفية تخصيص النفقات لوحدات التعدين التجارية
- كيفية التنبؤ بالطلب اعتمادًا على العوامل الداخلية أو الخارجية
- كيفية إدارة المخاطر في المؤسسات المالية والتأمين
- كيفية زيادة متوسط شيك العميل (الاستهداف)
يتطلب كل من الأمثلة المذكورة أعلاه استخدام أكثر من مصدر بيانات واحد. بالإضافة إلى ذلك ، من المهم أن تكون طرق مقارنة البيانات بين المصادر متسقة. وبخلاف ذلك ، سينشأ الموقف حتمًا عندما تقدم المنظمة ، على سبيل المثال ، مدير الاستراتيجية ومدير المبيعات نفس المعلومات إلى المدير العام ، ولكن بأرقام مختلفة. وبعد ذلك بشهر يكتشفون من "على اليمين" ، يستخدمون ما يقرب من نصف الموظفين تحت تصرفهم.
إن الطريقة الأكثر بدائية لتنظيم مستودع البيانات هي ما يسمى "بحيرة البيانات" (أو بحيرة البيانات) ، عندما نأخذ ونجمع البيانات من مصادر مختلفة. في هذه الحالة ، لدينا منصة تقنية واحدة للعمل مع البيانات وعزل الاستفسارات التحليلية المعقدة من المهام الأساسية لنظم المعلومات. يمكن أن يكون مستودع البيانات هذا غير ذي صلة تمامًا. ومع ذلك ، في هذه الحالة ، يمكنك نسيان التحليل المعقد ، والعمل فقط مع الاستعلامات البسيطة. بالإضافة إلى ذلك ، يجب أن يكون الأشخاص الذين يعملون مع البيانات على دراية ليس فقط بمجال الأعمال ، ولكن أيضًا حول نماذج البيانات لأنظمة المصدر.
علاوة على ذلك ، وفقًا لمستوى تنظيم مستودع البيانات ، يتبع التخزين ، وفقًا لما يسمى تصنيف Kimball (Kimpball). يتم توحيد القياسات من أنظمة مختلفة ، وبهذه الطريقة نحصل على شيء مثل شبكة ذات نوعين من الجداول - الحقائق والقياسات. هذا هو الإثراء الأساسي للأدلة ، عندما نحصل على مرجع واحد باستخدام بعض المفتاح الطبيعي المشترك في نفس الجداول من مصادر مختلفة ، على سبيل المثال ، رقم التعريف الضريبي في دليل المنظمات.
التالي في التعقيد والموثوقية هو مستودع بيانات مع نموذج بيانات واحد يعكس أهم الكائنات التي تصف أنشطة المنظمة. تكمن الموثوقية في حقيقة أن البيانات ، التي يتم تقديمها في شكل قريب من النموذج العادي الثالث ، مع نموذج مؤلف بشكل صحيح ، هي وسيلة عالمية لوصف حياة الشركة بأكملها ، وبالتالي ، يمكن تكييف نموذج البيانات بسهولة ليس فقط لإعداد التقارير التحليلية والتنظيمية ، ولكن ولتشغيل بعض أنظمة المؤسسة.
E - واحد
بالحديث عن أطروحة هذه المقالة ، سأذكر المشاكل الرئيسية التي يواجهها المسؤولون عن بناء مستودعات البيانات:
"
حصان في فراغ ." تم بناء المستودع ، ولكن لا أحد يستخدمه.
الصندوق الأسود . التخزين مبني ، ولكن ما فيه وكيف يعمل غير مفهوم. وبسبب هذا ، تحدث أخطاء ثابتة ، وإذا انسحب جزء من فريق التطوير أيضًا ، فعندئذٍ ننتقل إلى النقطة أ.
"
الحاسبة ". تم بناء التخزين ، ولكنه يفي فقط بالطلبات البدائية ، ويتغير العمل بشكل أسرع بكثير من تنفيذ المتطلبات ، ولا يتم أخذ طلبات الأعمال الجديدة في الاعتبار في ذلك. بالإضافة إلى ذلك ، قد تكون بعض البيانات قديمة أو نادرا ما يتم تحديثها.
"
زهرية كريستال ". هناك حاجة إلى الكثير من التحكم اليدوي والفحوصات وإجراءات التحكم اليدوي للتخزين ، إذا لم يكن أحد المشاركين في الدعم في العمل ، فهناك خطر كبير من تلقي بيانات غير صالحة أو عدم استلامها على الإطلاق.
سنحلل الحالات الأربع بمزيد من التفصيل.
"حصان في فراغ." إذا حصلت على هذه النتيجة ، فهذا حدث لسببين:
- أقل احتمالا. لم تجمع المتطلبات من وحدات الأعمال (أو ، ما هو نفسه ، كانت سيئة التصميم). ينشأ مثل هذا الموقف السخيف على ما يبدو إذا لم تأت فكرة إنشاء مستودع من شركة ، ولكن من قسم تكنولوجيا المعلومات ، الذي يحتوي ببساطة على ميزانية "إضافية" ، وتم تصميم المستودع لأن الجميع لديه ذلك. سنجد نوعًا من العملاء في وقت لاحق (والأفضل من ذلك هو الخيار "أنهم سيعملون بأيد ممدودة") - إذا وضعنا كل شيء هناك. يعتبر الأشخاص المسؤولون عن تخصيص الميزانية هذا أمرًا ضروريًا ، فهم يقرؤون ويسمعون في الكتب ، وهو يشبه إلى حد ما التحديث ، ويومئون برأس الموافقة.
- على الأرجح. تم التعرف على عملاء مستودع البيانات ، على سبيل المثال ، هذا هو قسم المبيعات ، وهنا تأتي الفكرة الساطعة: "دعنا نبذل المزيد من الجهد في الدلتا ، ونوجه التمويل ، والأفراد فيه وأكثر قليلاً وستستخدم المؤسسة بأكملها التخزين". تم بناء المخزن ، ولكن يتم استخدامه فقط من قبل قسم المبيعات ، على الرغم من أن كل شيء جميل هناك ولا أريد أخذ شواطئ الحليب ، ولكن لا ، زملائي ليس لديهم الوقت لبنوك القِبل ، فهم بحاجة إلى حفر قطعة من البيانات في المنجم من الصباح حتى الليل. بعد كل شيء ، هذه قطعة تم الحصول عليها عن طريق العرق والدم (اقرأ: قضاء الوقت).
في كلتا الحالتين ، لا يوجد عنصر لتحمل المسؤولية على رأس المدير وخفضها في التسلسل الهرمي. إنها مثل ثقافة الشركات. إذا كان الجين. إذا كان مدير المؤسسة نائبين ، فإن الجين نفسه فقط يمكنه الاستفادة من التخزين على مستوى المؤسسة. الغزلان ، أو يتم بناء التخزين لجزء من المؤسسة - الذي يشرف عليه رئيس أعلى منصب ، والذي يدرك الحاجة إلى تقديم EDM.
للقضاء على مثل هذه الحالات ، ما يلي ضروري:
- حدد رسميًا راعي مشروع مستودع البيانات - من سيكون مسؤولًا عن النتيجة مالياً وروحياً
- الموافقة على نطاق المشروع ، ربما مراحل ، تشير إلى التواريخ التقريبية
- التنسيق مع جميع الإدارات - ويفضل أن يكون ذلك مع بناء العمليات التجارية كما هي
فقط بعد ذلك يمكننا البدء في تنفيذ المشروع - جمع المتطلبات وتصميم الهندسة المعمارية ، إلخ.
الصندوق الأسود . لذا ، تدعي أنك قمت ببناء المستودع ، وأن جميع المتطلبات تؤخذ في الاعتبار ، ومع ذلك ، لا أحد يفهم كيفية استخدامه ، علاوة على ذلك ، إذا غادر أحد المطورين الرئيسيين ، يصبح من المستحيل تقريبًا فهم ما تم القيام به وكيف.
في هذه الحالة ، من الواضح أنه لم يتم تحديد عملية توثيق التطوير. يجب أن يرتفع مبدأ "التوثيق الأول" ، ثم التطوير ، إن لم يكن إلى المطلق ، ثم إلى سيطرة محكمة إلى حد ما. وليس فقط من الفريق المسؤول عن تطوير مستودع البيانات. من الناحية المثالية ، من الضروري أن يكون مطورو التقارير الإضافيون (التحليلي والتنظيمي) ، وأصحاب أنظمة المعلومات الداخلية للشركة ، وبالطبع ، المستهلكين أنفسهم مرتبطون بعملية التوثيق المستمر والمحدث.
بالإضافة إلى ذلك ، يجب أن تستوفي عملية التوثيق المبادئ التالية:
- الملاءمة - يتم تحديد الحالة الحالية لرمز البرنامج تمامًا من خلال تكوين الوثائق
- الإصدار - القدرة على تحليل توثيق الإصدارات السابقة وتعديل الخطة للإصدارات المستقبلية
- الفصل - يمكن لعدة أشخاص العمل على مستند في نفس الوقت
- الانطباق تنص على أنه لكل نوع من وثائق التخزين ، من المهم اختيار بنية يمكن فهمها بشكل أفضل من قبل المستخدمين المستهدفين: على سبيل المثال ، يتم وصف هيكل الجدول بشكل أفضل في شكل جدولي ، وعمليات الأعمال في شكل تدوينات ، والتفاعل بين أنظمة المعلومات في شكل رسم تخطيطي ، والأعمال التجارية - قاموس على شكل نظام ويكي ، إلخ.
الآن هناك منتجات برمجية تبسط الحياة بجدية ، أي لربط التصميم والتطوير ، ولكن على الرغم من عدم وجود حل كامل لمستودعات البيانات حتى الآن ، فهي:
- مخططات ER
- منتجات BPMN
- حلول ETL
بدون وثائق حديثة ، سيزداد تعقيد تطوير المتطلبات الجديدة ، ومع الوثائق المختصة ، سينخفض.
"
الحاسبة ". إذا افترضنا أننا لم نستقبل "حصانًا في فراغ" ، فإن هذا الموقف يدور حول الوقت الذي يبدو فيه أنه قد تم تلبية المتطلبات ، ولكن تم استيفائها بشكل رسمي. أردت أن تحسب بقية اليوم - من فضلك. هل ترغب في الحصول عليها حسب منطقة الأطراف المقابلة - لم يكن هذا في المتطلبات ، تحتاج إلى التحميل إلى التفوق ، ثم أخذ من تحميل النظام X إلى المقاولين مع اختيار حقل Y ، ثم VPR-ite.
يشير الوضع الحالي إلى نقص الخبرة مع الفريق ، دون رؤية معمارية للتطور اللاحق للمستودع ، حتى بدون نموذج بيانات بدائي. عادة ، تصبح هذه المستودعات مؤقتة ، أو يتم نسيانها بسرعة. بطريقة جيدة ، يجب أن يمتلك المتجر قوة كرة الثلج المتدحرجة من الجبل. في البداية ، عندما لا تزال الكتلة صغيرة ، ويتخللها تساقط ثلوج ، ستحتاج أنت بنفسك إلى جمعها ودفعها. في وقت ما ، ستنتشر شهرة منتجك ، وسيبحث المستخدمون في المتجر أكثر فأكثر.
لذلك ، حتى لا يتحول التخزين إلى آلة حاسبة ، فمن الضروري التأكد من:
- الموظفين المؤهلين - المهندسين المعماريين والمحللين ومطوري EtL و SQL
- ميثاق المشروع ، الذي سيشير إلى الغرض من التخزين ليس فقط لفترة الميزانية القادمة ، ولكن أيضًا للسنوات اللاحقة
- المعايير الكمية والنوعية لمستودع البيانات. إذا لم يكن هناك عدد كاف من الموظفين ، فمن المستحسن جذب الاستشاريين
- تخيل بوضوح ما سيساعد على تحسين مستودع البيانات في المستقبل - تكاليف الموظفين ، والبرمجيات ، وزيادة سرعة تطوير التقارير ، وما إلى ذلك.
"
زهرية كريستال ". تم بناء التخزين ، يبدو أنه يتكيف مع مهامه ، ولكنه يحتاج إلى الكثير من الجهد لدعمه: الحفاظ على نوع من الأدلة اليدوية ، وإعادة تحميل بعض المصادر باستمرار ، فشل في التحميل ، تكرار البيانات ، إلخ.
يمكن أن يحدث هذا الموقف للأسباب التالية:
- حول ما قيل أعلاه - نقص الموظفين المؤهلين.
- مفهوم غير معماري - عندما يتم تصنيع أجزاء مختلفة من التخزين من قبل أشخاص أو فرق مختلفة بدون مفهوم مشترك معتمد ، ونتيجة لذلك لدينا طرق متعددة لاستخراج البيانات وتحويلها وتحميلها ؛
- من الحالات الشائعة جدًا "تطوير الاستعانة بمصادر خارجية" ، دعمها الخاص ، في حين أن قبول العمل يتم بشكل سيئ
- في مرحلة ما من تطوير المستودع ، "انتهت الميزانية". ثم يتم الانتهاء من التخزين (المدعوم) ليس من قبل الفريق الذي أنشأه ، ولكن من قبل أولئك الذين يحتاجون إلى البيانات
لمنع حدوث هذه المواقف ، يوصى بالإجراءات التالية:
- النقاط المذكورة أعلاه تشمل الموظفين المؤهلين ، وميثاق المشروع ، والخطة والميزانية طويلة الأجل ، والشخص المعني من المدير الأعلى.
- ليس الاستعانة بمصادر خارجية هو الذي يقود العملية ، ولكن الموظف الداخلي (كبير المحللين أو المعماري) الذي يشرف على الاستعانة بمصادر خارجية.
- يجب تقديم أي حالات فاشلة إلى الاجتماعات للنظر فيها من قبل مهندس المستودع. إذا كان هناك العديد من المهندسين المعماريين ، فإن اللجنة المعمارية.
- من المستحسن إدخال مقياس الجودة لمستودع البيانات ؛ يمكنك استخدام هذا المقياس للالتزام بأمر مؤشرات الأداء الرئيسية.
كما يتبين ، في جميع هذه الحالات ، على الرغم من حقيقة أن إنشاء مستودع بيانات هو نشاط مشروع ، يجب تنظيم عمليات الإنشاء نفسها لإنشاء نتيجة عالية الجودة.
الانتقال من مستودع البيانات إلى واحد
كما ذكر أعلاه ، يتم تحديد نجاح المشروع لإنشاء مستودع بيانات من خلال الكثير من بيانات الإدخال (الميزانية ، الراعي ، الفريق ، الأهداف ، العملاء). ومع ذلك ، لم نتطرق عمليًا إلى العمليات التجارية التي تهدف إلى تطوير القرص المضغوط نفسه والحفاظ عليه. أدناه سأحاول صياغة العمليات التجارية الرئيسية ، والتي تم تصميمها لجعل عمليات العمل مع البيانات في المؤسسة موحدة حقًا:
- عمليات للحفاظ على الوثائق الفنية ومستندات المستخدم محدثة
- عمليات تحديث قاموس الأعمال (مسرد) البيانات
- عمليات مراقبة جودة البيانات
- عمليات جمع وإدارة متطلبات القرص المدمج ونظام إعداد التقارير
- عمليات إدارة البنية التحتية للتخزين
- عمليات لتحسين التخزين وجمع البيانات
في النموذج الحديث ، تشكل هذه المجموعة من العمليات التجارية الأساس لمفهوم إدارة البيانات.
في كثير من الأحيان ، عند محاولة تنفيذ هذه العمليات من خلال جهود فريق إنشاء القرص المضغوط وإعداد التقارير ، سيتم اتخاذ مقاومة نشطة أو تجاهل العمليات. إنه أمر مفهوم ، لأنه بالمعنى المحلي هو امتداد للتنمية.
لذلك ، سيكون من المفيد اتخاذ الإجراءات التالية:
- إدخال هيكل أفقي للمسؤولية (قد يكون كل مشارك مسؤولاً عن منطقة صغيرة)
- تمثيل رسومي لجميع تدفقات العمل الممكنة لجميع الموظفين (إضفاء الطابع الرسمي على العملية)
- تطبيق النسبة المئوية ونوعية المسؤولية في نظام KPI
على الرغم من حقيقة أن عملية الانتقال تبدو ، بالمعنى المحلي ، "بيروقراطية" وثقيلة بشكل كبير ، فهي بالمعنى العالمي تعطي مزايا كبيرة وتوفر الوقت. منذ الضياع الرئيسي للوقت - عند اختراع الحلول من الصفر بالفعل بسبب استحالة أو عدم الرغبة في فهم الآلية القائمة.
القليل عن الحل المعماري المستهدف
على الرغم من حقيقة أن بنية EDS تعتمد على مقال كبير منفصل ، أو حتى كتاب ، فسأشير أيضًا إلى المتطلبات التقنية الرئيسية لمستودع البيانات الناضج:
- لا يحل نموذج بحيرة البيانات محل مخازن بيانات الشركة ، ولكنه يتعايش معها
- يجب أن يكون لـ EDS واجهات عرض بيانات مختلفة: أدوات ثنائية ، والقدرة على تنفيذ استعلامات sql hoc المخصصة ، وتوفير البيانات القياسية في json ، xml ، إلخ.
- يجب تنفيذ نموذج دور الوصول إلى البيانات.
- سرعة الاستجابة عند الوصول إلى البيانات: 90٪ من طلبات البحث النموذجية - أقل من ثانية واحدة ، 99٪ من طلبات البحث - أقل من 10 ثوانٍ. يجب أن يكون هناك موارد جيدة إلى حد ما
- وجود طبقة مركزية مفردة ومتصلة من HD (يفضل - منهجية Inmon)
ونتيجة لذلك ، يسمى مستودع البيانات موحدًا ليس بتوفر المصادر ، ولكن بتوفر مستهلكي البيانات. وهذا أكثر تعقيدًا بكثير من كتابة ETL عالمية وضبط بيتابايت من الذاكرة.