مرحبا يا هبر! لقد كتب الكثير عن موضوع بنية مستودع البيانات ، لكنه لم يجتمع بعد بإيجاز وبإيجاز كما في مقالة عثرت عليها بطريق الخطأ.
أدعوكم للتعرف على هذه المقالة في الترجمة الخاصة بي. التعليقات والإضافات هي موضع ترحيب!
(مصدر الصورة)مقدمة
لذلك ، فإن بنية مستودعات البيانات تتغير. في هذه المقالة ، سنقوم بمقارنة مستودعات بيانات المؤسسات التقليدية والحلول السحابية بتكلفة أولية أقل وإمكانية تطوير محسّنة وأداء.
مستودع البيانات هو نظام يتم فيه جمع البيانات من مصادر مختلفة داخل الشركة ويتم استخدام هذه البيانات لدعم قرارات الإدارة.
تنتقل الشركات بشكل متزايد إلى مستودعات البيانات المستندة إلى مجموعة النظراء بدلاً من الأنظمة المحلية التقليدية. تحتوي مخازن البيانات السحابية على عدد من الاختلافات عن المستودعات التقليدية:
- لا حاجة لشراء المعدات المادية ؛
- مستودعات البيانات السحابية هي أسرع وأرخص من حيث التكوين والحجم ؛
- يمكن لمستودعات البيانات السحابية عادة أداء استفسارات تحليلية معقدة بشكل أسرع لأنهم يستخدمون معالجة متوازية هائلة.
بنية مستودع البيانات التقليدية
تسليط الضوء على المفاهيم التالية بعض الأفكار والمبادئ التصميم المعمول بها المستخدمة لإنشاء مستودعات البيانات التقليدية.
ثلاثة مستوى العمارة
في كثير من الأحيان ، تتمتع بنية مستودع البيانات التقليدية بهيكل ثلاثي المستويات يتكون من المستويات التالية:
- المستوى الأدنى : يحتوي هذا المستوى على خادم قاعدة البيانات المستخدم لاسترداد البيانات من العديد من المصادر المختلفة ، على سبيل المثال ، من قواعد بيانات المعاملات المستخدمة للتطبيقات الأمامية.
- الطبقة الوسطى: تحتوي الطبقة الوسطى على خادم OLAP يحول البيانات إلى بنية مناسبة بشكل أفضل للتحليل والاستعلامات المعقدة. يمكن لخادم OLAP العمل بطريقتين: إما كنظام متقدم لإدارة قواعد البيانات العلائقية الذي يعين عمليات البيانات متعددة الأبعاد لعمليات OLAP العلائقية القياسية ، أو باستخدام نموذج OLAP متعدد الأبعاد الذي ينفذ مباشرة البيانات والعمليات متعددة الأبعاد.
- المستوى الأعلى : المستوى الأعلى هو مستوى العميل. يحتوي هذا المستوى على الأدوات المستخدمة لتحليل البيانات رفيعة المستوى وإعداد التقارير وتحليل البيانات.
كيمبال ضد إنمون
رائدان من مستودعات البيانات: Bill Inmon و Ralph Kimball ، يقدمان أساليب تصميم مختلفة.
يعتمد منهج
رالف كيمبال على أهمية علامات البيانات ، والتي هي مستودعات بيانات تخص شركات محددة. مستودع البيانات هو ببساطة
مزيج من مختلف البيانات التي تسهل الإبلاغ والتحليل. يستخدم مشروع مستودع البيانات المستند إلى Kimball مقاربة من القاعدة إلى القمة.
يعتمد نهج Bill Inmon على حقيقة أن مستودع البيانات هو تخزين مركزي لجميع بيانات الشركة. مع هذا النهج ، تقوم المؤسسة أولاً بإنشاء
نموذج مستودع بيانات عادي. ثم ، يتم إنشاء علامات بيانات الأبعاد استنادًا إلى نموذج المستودع. هذا هو المعروف باسم نهج مستودع البيانات من أعلى إلى أسفل.
نماذج مستودع البيانات
في الهندسة المعمارية التقليدية ، هناك ثلاثة نماذج عامة لمستودعات البيانات: التخزين الافتراضي ، وعرض البيانات ، ومستودع بيانات الشركة:
- مستودع البيانات الافتراضي عبارة عن مجموعة من قواعد البيانات المنفصلة التي يمكن مشاركتها حتى يتمكن المستخدم من الوصول بفعالية إلى جميع البيانات كما لو كانت مخزنة في مستودع بيانات واحد ؛
- يستخدم نموذج عرض البيانات للإبلاغ عن خطوط عمل محددة وتحليلها. في نموذج التخزين هذا ، يتم تجميع البيانات المجمعة من عدد من أنظمة المصدر المتعلقة بمجال أعمال معين ، مثل المبيعات أو التمويل ؛
- يتضمن نموذج مستودع بيانات الشركة تخزين البيانات المجمعة التي تغطي المؤسسة بأكملها. يعتبر هذا النموذج مستودع البيانات بمثابة قلب نظام معلومات المؤسسة مع بيانات متكاملة من جميع وحدات الأعمال.
نجمة مقابل ندفة الثلج
تعد مخططات Star و snowflake طريقتين لتنظيم مستودع البيانات الخاص بك.
يحتوي المخطط
النجمي على مستودع بيانات مركزي ، يتم تخزينه في جدول حقائق. يقسم المخطط جدول الحقائق إلى سلسلة من جداول الأبعاد غير الطبيعية. يحتوي جدول الحقائق على البيانات المجمعة التي سيتم استخدامها للإبلاغ ، ويصف جدول البعد البيانات المخزنة.
المشاريع غير الطبيعية أقل تعقيدًا لأن البيانات مجمعة. يستخدم جدول الحقائق رابط واحد فقط لإرفاقه بكل جدول الأبعاد. التصميم الأبسط على شكل نجمة يبسط إلى حد كبير كتابة الاستعلامات المعقدة.
نمط
ندفة الثلج يختلف في أنه يستخدم بيانات طبيعية. يعني التطبيع تنظيم بيانات فعال بحيث يتم تعريف جميع تبعيات البيانات ويحتوي كل جدول على الحد الأدنى من التكرار. وبالتالي ، يتم تفرع جداول القياس الفردية في جداول قياس منفصلة.
يستخدم نظام
ندفة الثلج مساحة أقل على القرص ويحافظ على سلامة البيانات بشكل أفضل. العيب الرئيسي هو تعقيد الاستعلامات المطلوبة للوصول إلى البيانات - يجب أن يمر كل استعلام من خلال عدة وصلات الجدول للحصول على البيانات المقابلة.
ETL مقابل ELT
ETL و ELT طريقتان مختلفتان لتحميل البيانات إلى التخزين.
يقوم ETLs (استخراج ، تحويل ، تحميل) أولاً باسترداد البيانات من مجموعة من مصادر البيانات. يتم تخزين البيانات في قاعدة بيانات مؤقتة. بعد ذلك ، يتم إجراء عمليات التحويل لتنظيم البيانات وتحويلها إلى نموذج مناسب لنظام مستودع البيانات الهدف. ثم يتم تحميل البيانات المهيكلة في التخزين وجاهزة للتحليل.
في حالة
ELT (استخراج ، تحميل ، تحويل) ، يتم تحميل البيانات على الفور بعد الاستخراج من تجمعات البيانات المصدر. لا توجد قاعدة بيانات وسيطة ، مما يعني أنه يتم تحميل البيانات على الفور إلى مستودع مركزي واحد.
يتم تحويل البيانات إلى نظام مستودع بيانات للاستخدام مع أدوات تحليل الأعمال والمعلومات التجارية.
النضج التنظيمي
يعتمد هيكل مستودع بيانات المنظمة أيضًا على وضعه الحالي واحتياجاته.
يتيح الهيكل الأساسي للمستخدمين النهائيين للتخزين الوصول مباشرة إلى البيانات الموجزة من أنظمة المصدر وإنشاء التقارير وتحليل هذه البيانات. هذه البنية مفيدة للحالات التي تأتي فيها مصادر البيانات من نفس أنواع أنظمة قواعد البيانات.
التخزين مع مساحة وسيطة هو الخطوة المنطقية التالية في مؤسسة مع مصادر بيانات غير متجانسة مع العديد من أنواع مختلفة وتنسيقات البيانات. تحول منطقة التدريج البيانات إلى تنسيق منظم عام يسهل طلبه باستخدام أدوات التحليل وإعداد التقارير.
أحد الاختلافات في البنية الوسيطة هو إضافة علامات بيانات إلى مستودع البيانات. تخزّن بيانات البيانات ملخصات البيانات في حقل نشاط معين ، مما يجعل هذه البيانات سهلة الوصول لأشكال محددة من التحليل.
على سبيل المثال ، يمكن أن تؤدي إضافة علامات بيانات إلى تمكين المحلل المالي من إجراء استعلامات تفصيلية بسهولة أكبر حول بيانات المبيعات والتنبؤ بسلوك العميل. تسهِّل مجموعات البيانات التحليل من خلال تكييف البيانات خصيصًا لتلبية احتياجات المستخدم النهائي.
بنيات مستودع بيانات جديدة
في السنوات الأخيرة ، تنتقل مستودعات البيانات إلى السحابة. لا تلتزم مستودعات البيانات السحابية الجديدة بالعمارة التقليدية ، وكل منها يوفر هيكله الفريد الخاص به.
يصف هذا القسم باختصار الهياكل المستخدمة من قبل أكثر المخازن السحابية شيوعًا: Amazon Redshift و Google BigQuery.
الانحناء الأحمر الأمازون
أمازون ريدشيفت فهو منظر قائم على السحابة لمستودع البيانات التقليدي.
يتطلب Redshift إعداد موارد الحوسبة وتكوينها كمجموعات تحتوي على مجموعة من عقد واحدة أو أكثر. تحتوي كل عقدة على معالج خاص بها وذاكرة وذاكرة الوصول العشوائي. تقوم Leader Node بتجميع الطلبات وتمريرها إلى عقد حساب تنفيذ الطلبات.
في كل عقدة ، يتم تخزين البيانات في كتل تسمى
الشرائح . يستخدم Redshift تخزين الأعمدة ، أي أن كل كتلة بيانات تحتوي على قيم من عمود واحد في عدة صفوف ، وليس من صف واحد مع قيم من عدة أعمدة.
يستخدم Redshift بنية MPP (المعالجة المتوازية بشكل كبير) ، حيث يقوم بتقسيم مجموعات البيانات الكبيرة إلى مجموعات مخصصة لشرائح في كل عقدة. الطلبات أسرع لأن حساب العقد يعالج الطلبات في كل شريحة في نفس الوقت. تجمع عقدة Leader Node بين النتائج وتعيدها إلى تطبيق العميل.
يمكن لتطبيقات العميل مثل BI والأدوات التحليلية الاتصال مباشرة بـ Redshift باستخدام برامج تشغيل PostgreSQL JDBC و ODBC مفتوحة المصدر. بهذه الطريقة ، يمكن للمحللين أداء مهامهم مباشرة على بيانات Redshift.
يمكن لـ Redshift فقط تحميل البيانات المنظمة. يمكنك تحميل البيانات إلى Redshift باستخدام الأنظمة المدمجة مسبقًا ، بما في ذلك Amazon S3 و DynamoDB ، عن طريق نقل البيانات من أي مضيف محلي باستخدام اتصال SSH ، أو عن طريق دمج مصادر البيانات الأخرى باستخدام واجهة برمجة تطبيقات Redshift.
جوجل bigquery
لا تتطلب هندسة BigQuery خادمًا ، مما يعني أن Google تتحكم ديناميكيًا في تخصيص موارد الكمبيوتر. لذلك ، يتم إخفاء كافة قرارات إدارة الموارد من المستخدم.
يتيح BigQuery للعملاء تنزيل البيانات من Google Cloud Storage ومصادر البيانات الأخرى القابلة للقراءة. البديل هو تدفق البيانات ، والذي يسمح للمطورين بإضافة البيانات إلى مستودع البيانات في الوقت الفعلي ، سطراً سطراً ، عندما تصبح متاحة.
يستخدم BigQuery محرك استعلام يسمى Dremel ، والذي يمكنه مسح مليارات الصفوف من البيانات في بضع ثوانٍ فقط. يستخدم Dremel استعلامات متوازية بشكل كبير لمسح البيانات في نظام إدارة الملفات الأساسي في Colossus. يوزع Colossus الملفات في أجزاء من 64 ميغابايت بين مجموعة متنوعة من موارد الحوسبة تسمى العقد ، والتي يتم تجميعها في مجموعات.
يستخدم Dremel بنية بيانات عمود مشابهة لـ Redshift. ترسل بنية الشجرة طلبات لآلاف الأجهزة في ثوانٍ.
يتم استخدام أوامر SQL بسيطة لتنفيذ استعلامات البيانات.
Panoply
يوفر Panoply إدارة بيانات شاملة كخدمة. تستخدم بنية التحسين الذاتي الفريدة الخاصة به التعلم الآلي ومعالجة اللغة الطبيعية (NLP) لنموذج وتبسيط نقل البيانات من المصدر إلى التحليل ، مما يقلل من الوقت من البيانات إلى القيم في أقرب وقت ممكن من الصفر.
تتضمن Panoply Intelligent Data Infrastructure الميزات التالية:
- تحليل الاستعلام والبيانات - تحديد أفضل تكوين لكل حالة استخدام ، وضبطه مع مرور الوقت وإنشاء فهارس ، ومفاتيح الفرز ، ومفاتيح القرص ، وأنواع البيانات ، والإخلاء والتقسيم.
- يحدد الاستعلامات التي لا تتبع أفضل الممارسات - على سبيل المثال ، تلك التي تتضمن حلقات متداخلة أو قوالب ضمنية - وإعادة كتابتها في استعلام مكافئ يتطلب جزءًا صغيرًا من وقت التنفيذ أو الموارد.
- تحسين تكوين الخادم بمرور الوقت بناءً على أنماط الاستعلام وتعلم إعداد الخادم الذي يعمل بشكل أفضل. يقوم النظام بتبديل أنواع الخوادم بسهولة ويقيس الأداء الكلي.
وراء سحابة التخزين
يعد تخزين البيانات المستندة إلى مجموعة النظراء بمثابة تحسن كبير مقارنة بنهج الهندسة المعمارية التقليدية. ومع ذلك ، لا يزال المستخدمون يواجهون عددًا من المشكلات عند تكوينها:
- إن تحميل البيانات إلى مستودعات البيانات المستندة إلى مجموعة النظراء ليس تافهاً ، وتتطلب خطوط أنابيب البيانات الواسعة النطاق التكوين والاختبار ودعم عملية ETL. يتم تنفيذ هذا الجزء من العملية عادةً بواسطة أدوات تابعة لجهة خارجية ؛
- يمكن أن تكون التحديثات والإدخالات والحذف معقدة ويجب إجراؤها بعناية لمنع تدهور أداء الاستعلام ؛
- من الصعب التعامل مع البيانات شبه المهيكلة - يجب تطبيعها بتنسيق قاعدة بيانات علائقية ، مما يتطلب أتمتة تدفقات البيانات الكبيرة ؛
- لا يتم دعم الهياكل المتداخلة في مستودعات البيانات السحابية. تحتاج إلى تحويل الجداول المتداخلة إلى تنسيقات يفهمها مستودع البيانات ؛
- تحسين الكتلة . هناك العديد من الخيارات لتكوين كتلة Redshift لتشغيل أحمال العمل الخاصة بك. قد تتطلب أحمال العمل أو مجموعات البيانات المختلفة أو حتى أنواع الاستعلامات المختلفة تكوينات مختلفة. لتحقيق الأداء الأمثل ، من الضروري مراجعة التكوين وتكوينه إضافيًا إذا لزم الأمر ؛
- تحسين الاستعلام - قد لا تتبع استعلامات المستخدم أفضل الممارسات ، وبالتالي سوف تستغرق وقتًا أطول لإكمالها. يمكنك العمل مع المستخدمين أو تطبيقات العميل الآلية لتحسين الاستعلامات بحيث يمكن لمستودع البيانات العمل كما هو متوقع
- النسخ الاحتياطي والاسترداد - على الرغم من أن موفري تخزين البيانات يوفرون العديد من الخيارات للنسخ الاحتياطي لبياناتك ، إلا أنهم ليسوا من السهل تهيئتها ويحتاجون إلى مراقبة واهتمام وثيق.
رابط إلى النص الأصلي: panoply.io/data-warehouse-guide/data-warehouse-architecture-traditional-vs-cloud