
بالنسبة إلى Hadoop و Greenplum ، هناك فرصة لإعداد SaaS. وإذا كان خادوب شيئًا مشهورًا ، فإن Greenplum (وهو أساس منتج ArenadataDB ، الذي سيتم مناقشته لاحقًا) أمر مثير للاهتمام ، ولكنه بالفعل أقل "عن طريق الأذن".
Arenadata DB هو قاعدة بيانات موزعة على أساس المصدر المفتوح Greenplum. مثل حلول MPP (المعالجة المتوازية للبيانات) ، للأنظمة المتوازية بشكل كبير ، فإن البنية السحابية بعيدة عن أن تكون مثالية. هذا يمكن أن يقلل من الأداء بنسبة تصل إلى 30 ٪ (عادة أقل). ولكن ، مع ذلك ، يمكن تسوية هذه المشكلة (والتي سيتم مناقشتها أدناه). بالإضافة إلى ذلك ، يجدر شراء مثل هذه الخدمة من السحابة ، وغالبًا ما تكون مريحة ومربحة بالمقارنة مع نشر المجموعة الخاصة بك.
يشار إلى الأدلة الداخلية بوضوح في الأدلة ، ولكن الآن يدرك كثير من الناس حجم راحة السحابة. يدرك الجميع أنه سيكون هناك نوع من تدهور الأداء ، ولكن لا يزال هناك الكثير من الراحة والسرعة الفائقة بحيث توجد بالفعل مشروعات يتم فيها التضحية بهذا في بعض المراحل مثل اختبار الفرضيات.
إذا كان لديك مستودع بيانات يحتوي على أكثر من 1 تيرابايت وأنظمة معاملات - وليس ملف تعريف التحميل الخاص بك ، إذن أدناه قصة حول ما يمكن القيام به كخيار. لماذا 1 تيرابايت؟ بدءًا من هذا المجلد ، يكون استخدام MPP أكثر كفاءة من حيث نسبة الأداء / التكلفة مقارنةً بنظام إدارة قواعد البيانات الكلاسيكية.
متى تستخدم؟
عندما DBMS الكلاسيكية عقدة واحدة من قبل الهندسة المعمارية ليست مناسبة لوحدات التخزين الخاصة بك. الحالة الشائعة هي مستودع بيانات جديد بسعة تزيد عن 1 تيرابايت. MPP DBMS الآن في الاتجاه ، و Greenplum هي واحدة من الأفضل في السوق للمهام الحديثة. خاصة بالنظر إلى الانفتاح. هناك أيضًا مجموعة من أنظمة الملكية مع الكثير من الميزات خارج الصندوق: Terradata ، Sap Khan ، Exadata ، Vertika. لذلك ، إذا كنت لا تستطيع تحمل تكلفة الأناناس وتناول الطعام ، فاخذ البرقوق.
الحالة الثانية هي عندما يكون لديك مستودع بيانات موجود على شيء عالمي مثل Oracle أو Post-Congress ، لكن المستخدمين يشكون بانتظام من التقارير البطيئة. وعندما تكون هناك مهام جديدة مثل Big Data - عندما يريد المستخدمون جميع البيانات على الفور ، لا يمكنهم التنبؤ بما سيفعلون به. هناك العديد من المواقف التي يحتاج فيها العمل التشغيلي إلى تقارير ذات صلة بيوم واحد فقط ، وليس لديهم وقت للدفع في يوم واحد. وهذا هو ، لا يوجد أساسا البيانات اللازمة. في هذه الحالة ، من الملائم أيضًا أخذ قواعد بيانات MPP ومحاولة استخدام SaaS في السحابة.
الحالة الثالثة هي عندما يتبع شخص ما أسلوب Hadup ويحل المهام القياسية لمعالجة الدُفعات المُهيكلة ، لكن المجموعة غير مُجمَّعة جيدًا. كثيرا ما نرى أن التكنولوجيا يتم تطبيقها قليلا وحتى لا تطبق على الإطلاق كما ينبغي. على سبيل المثال ، لا تحتاج إلى إنشاء قاعدة بيانات علائقية على Khadup. ومع ذلك ، إذا لم يكن لدى Hadoup فجأة معالجة في الوقت الفعلي أو كان من المفترض أن يكون ، ولكن المسؤول والمطور قد هربا في حالة رعب ، فيمكنك أيضًا النظر إلى Greenplum في السحابة: سيكون الدعم بسيطًا للغاية مع الحفاظ على القدرة على معالجة كميات هائلة من البيانات.
لماذا قليل من الناس يحاولون؟
أي MPP DBMS يتطلب الكثير من القدرات. هذا كثير من الحديد. في الواقع ، يخاف الناس من محاولة الوصول إلى مستوى إثبات الفكرة ببساطة بسبب سعر الدخول. انهم لا يستطيعون القيام بذلك جسديا. تتمثل إحدى الأفكار الرئيسية لنظام SaaS في إعطائك الفرصة للعب بكل هذا دون شراء كتلة حديدية.
ونحن نلتقي بشكل منتظم مع العملاء الذين يقولون أننا لا نريد أن نرافق ونعمل وما إلى ذلك بشكل مستقل. وأود أن الاستعانة بمصادر خارجية. هذا نظام تحليلي ، وغالبًا ما يكون مهمًا للأعمال ، ولكنه ليس مهمًا للمهمة. كثيرون في الغرب يقومون بالاستعانة بمصادر خارجية ؛ لقد بدأنا أيضًا مؤخرًا.
ما هو أفضل شيء يمكن فعله على MPP؟
مستودع بيانات الشركة الكلاسيكي: بالنسبة لجميع مصادر البيانات ، تحصل على بيانات إضافية ، ثم يتم تصميم النوافذ للمستخدمين. المستخدمين فوق واجهات المحلات هذه بناء تقاريرهم. "كل يوم أريد أن أرى كيف تسير الأمور" - هذا كل شيء.
بضع كلمات أخرى حول الحل السحابي
كان من المعتاد أن تكون البنية التحتية من هذا النوع سيئة التصميم للسحب. ولكن في الواقع ، المزيد والمزيد من العملاء يدخلون السحب. يتطلب العمل أداءً عاليًا ، حيث يدور حول الكثير من الاستعلامات التحليلية الكبيرة التي تستهلك الكثير من وحدات المعالجة المركزية (CPU) ، وتتطلب الكثير من الذاكرة ولديها متطلبات عالية على الأقراص والبنية الأساسية للشبكة. نتيجة لذلك ، عندما ينشر العملاء قواعد بيانات إدارة قواعد البيانات الموزعة في السحابة ، فقد يواجهون العديد من المشاكل.
الأول هو ضعف أداء الشبكة. نظرًا لأن كل هذا يحدث في السحابة في بيئة افتراضية ، يمكن أن يكون هناك العديد من الأجهزة على برنامج Hypervisor واحد. الأجهزة الافتراضية يمكن أن تنتشر عبر برامج مراقبة مختلفة. علاوة على ذلك ، في بعض اللحظات يمكن أن تنتشر في مختلف مراكز البيانات ، يمكن للمشرفين تدور عليها تقريبا. وبسبب هذا ، تعاني الشبكة إلى حد كبير. عند معالجة مليار سجل في جدول ، دعنا نقول 10 خوادم ، وهو يحرك هذه البيانات بين جميع الخوادم. تعمل الأنواع الفرعية في الداخل ، وحتى داخل خادم واحد تعمل العديد من هذه الأنواع الفرعية. يمكن أن يكون هناك 10-20 ، والآن يبدأون جميعًا في نقل البيانات عبر الشبكة أثناء تنفيذ الطلب. الشبكة تتساقط مثل المحاصيل الشتوية. ما النتيجة التي يمكن استخلاصها من هذا؟ استخدم غيوم عرض النطاق الترددي العالي ، مثل CROC Cloud ، الذي يعطي 56 جيجابايت على Infiniband.
المشكلة الثانية هي أن جدران الحماية وحماية DDoS تبدو مائلة للغاية في ذلك. متكسرة ، قررت. قبل الاستخدام ، نوصي بجدولة ساعة إضافية لمعاينة جميع الإعدادات.
لا يزال غير مباشر الهجرة الحية والتحديث. لسحب آلة إلى برنامج مراقبة آخر ، ثم العودة ، لا تحتاج إلى فقد الحزم. من الضروري أن تدهر مع الإعدادات في النهاية. على سبيل المثال ، صعدنا على الفور تقريبا لزيادة الحافظة. رفعت MTU إلى 9000 jumboframe.
بالطبع ، محركات الأقراص التي لديها HDD. إنهم لا يحبون حقًا مثل هذا السجل ، خاصةً عندما تكون هذه القطاعات عشوائية للغاية في قائمة الانتظار مع بقية الطلبات. قررنا تقسيم التخزين إلى أجزاء: واحد فقط لـ Greenplum ، والآخر مشترك. يعد هذا ضروريًا للحالات التي ينشر فيها أكثر من عشرة عملاء منشآت Greenplum بشكل متوازٍ. تستخدم MPP النظام الفرعي للقرص إلى أقصى حد ممكن ، وتتصل الخدمات السحابية بالتخزين ، والأداء هناك مماثل تقريبا لأداء القناة. إذا لم يحسب جميع عملاء السحابة MPP ، فيمكنك الحصول على مكسب كبير جدًا. توزيع الطاقة بكفاءة في مثل هذه الأحمال يعمل بشكل جيد للغاية.
وبسبب هندستها المعمارية الخاصة بها ، تؤدي Greenplum في السحابة أداءً أفضل في الكفاءة من Redshift و BigQuery و Snowflake.
كيف يبدو النشر:
مثل هذا:


الهيكل "تنفس" ، أي أنه يمكنك نشر عامل بسيط بسرعة في التكوين. على سبيل المثال ، في فترة ما بعد الظهيرة ، لدينا خمس وحدات معالجة مركزية ، وفي المساء ، لدينا 1000 معالج ، حيث تعمل عشرة وحدات معالجة مركزية. في هذه الحالة ، لا تحتاج إلى موازنة البيانات ، لأنها تقع داخل نفس المتجر. امتداد متاح من خارج منطقة الجزاء ، لا يزال هناك حاجة إلى استكمال الضغط السريع قليلا.

الآن للعميل هناك نقطة واحدة للإدارة. إنه يأتي إلى مكان واحد ، ويلقي طلبًا هناك مثل: "نشر خطة نظام من أجلي على هذه الأجهزة" ، وينشر دعمنا الأجهزة الموجودة في السحابة (معنا أو مع العميل) ، ويضع Greenplum هناك ، ويقوم بتشغيل ، وتكوين ، وإعداد جميع الإعدادات. الشيء نفسه ينطبق على الرصد والإدارة والتحديث. مع استمرار التشغيل الآلي ، سيترك هذا الدعم على الأزرار في حسابك.
لقد فهمنا أولاً مدى ملاءمة مثل هذا النهج في المشروعات الداخلية ، ثم بدأنا في توفير SaaS للعملاء. لدينا تكامل عميق مع S3 - وهذا يسمح لك باستخدام Greenplum كنظام مع طبقات منفصلة للحوسبة والتخزين ، أو استخدام S3 للنسخ الاحتياطية ، و Greenplum كوحدة أساسية في QCD في السحابة. هناك نشر مرن للبيئات للمؤسسات باستخدام واجهة برمجة تطبيقات CROC و ADCM.