
زملاء الدراسة هم أكبر مستخدمين لـ Apache Cassandra في RuNet وواحد من أكبر المستخدمين في العالم. لقد بدأنا في استخدام Cassandra في عام 2010 لتخزين تقديرات الصور ، والآن تقوم Cassandra بإدارة عدد كبير من بايتات البيانات على آلاف العقد ، علاوة على ذلك ، قمنا بتطوير
قاعدة بيانات المعاملات الخاصة بـ
NewSQL .
في 12 سبتمبر ، في مكتبنا في سانت بطرسبرغ ، سنعقد
الاجتماع الثاني المخصص لأباتشي كاساندرا . وسيكون المتحدث الرئيسي لهذا الحدث هو كبير المهندسين Odnoklassnikov Oleg Anastasiev. أوليغ خبير في مجال الأنظمة الموزعة والمتسامحة مع الأخطاء ، وهو يعمل مع شركة كاساندرا منذ أكثر من 10 سنوات
وتحدث مرارًا وتكرارًا
عن ميزات هذا المنتج في المؤتمرات .
عشية الاجتماع ، تحدثنا مع أوليغ حول التسامح مع الأعطال في الأنظمة الموزعة مع كاساندرا ، وسألنا عما سيتحدث عنه في الاجتماع ، ولماذا كان الأمر يستحق حضور هذا الحدث.
بدأ أوليج حياته المهنية كمبرمج في عام 1995. تطوير البرمجيات في القطاع المصرفي ، الاتصالات ، النقل. يعمل كمطور رئيسي في Odnoklassniki منذ عام 2007 كجزء من فريق المنصة. تشمل مسؤولياته تطوير البنى والحلول لأنظمة الأحمال العالية ومستودعات البيانات الكبيرة وحل مشكلات الإنتاجية وموثوقية البوابة. كما يشارك في تدريب المطورين داخل الشركة.
- أوليغ ، مرحبا! تم عقد الاجتماع الأول المخصص لأباتشي كاساندرا في شهر مايو ، ويقول المشاركون إن المناقشات استمرت حتى وقت متأخر من الليل ، فضلاً أخبرني ، ما هي انطباعاتك عن الاجتماع الأول؟أتى المطورون ذوو الخلفيات المختلفة من مختلف الشركات بألمهم وحلولهم غير المتوقعة للمشاكل والقصص المذهلة. تمكنا من إجراء معظم الجلسة في شكل مناقشة ، ولكن كان هناك الكثير من المناقشات التي تمكنا من تناول فقط ثلث الموضوعات التي تم تحديدها. لقد أولينا الكثير من الاهتمام لكيفية وماذا نراقب باستخدام خدمات الإنتاج الحقيقية لدينا كمثال.
كنت مهتما واستمتعت حقا.
- إذا حكمنا من خلال الإعلان ، سيتم تخصيص التخفيف الثاني تمامًا للتسامح مع الخطأ ، لماذا اخترت هذا الموضوع؟Cassandra عبارة عن نظام موزّع نموذجي محمل يحتوي على قدر كبير من الوظائف بالإضافة إلى تقديم طلبات المستخدم مباشرةً: ثرثرة ، اكتشاف الفشل ، توزيع تغييرات المخطط ، توسيع / تقليل المجموعة ، مكافحة الانتروبيا ، النسخ الاحتياطي والاسترداد ، إلخ. كما هو الحال في أي نظام موزع ، مع زيادة كمية الحديد ، يزداد احتمال حدوث أعطال ، وبالتالي فإن تشغيل إنتاج مجموعات كاساندرا يتطلب فهمًا عميقًا لجهازها للتنبؤ بالسلوك في حالات الفشل وإجراءات المشغل. في عملية استخدام Cassandra لسنوات عديدة ، اكتسبنا
خبرة كبيرة ، ونحن على استعداد للمشاركة ، ونريد أيضًا مناقشة كيفية حل زملائنا للمشاكل النموذجية.
- عندما يتعلق الأمر بكاساندرا ، ماذا تقصد بالتسامح مع الخطأ؟أولاً وقبل كل شيء ، بالطبع ، قدرة النظام على التغلب على أعطال الأجهزة النموذجية: فقدان الأجهزة أو الأقراص أو اتصال الشبكة مع العقد / مراكز البيانات. لكن الموضوع نفسه أوسع من ذلك بكثير ، ويشمل على وجه الخصوص التعافي من حالات الفشل ، بما في ذلك حالات الفشل ، والتي نادراً ما يتم إعداد الأشخاص لها ، على سبيل المثال ، أخطاء المشغل.
- هل يمكنك إعطاء مثال على مجموعة البيانات الأكثر تحميلًا والأكبر؟واحدة من أكبر المجموعات لدينا هي مجموعة الهدايا: أكثر من 200 عقد ومئات TB من البيانات. لكنها ليست الأكثر تحميلًا ، لأنها مغطاة بذاكرة تخزين مؤقت موزعة. تحتوي مجموعاتنا المزدحمة على عشرات الآلاف من RPS للكتابة والآلاف من RPS للقراءة.
- واو! كم مرة ينكسر شيء ما؟نعم باستمرار ! في المجموع ، لدينا أكثر من 6 آلاف خادم ، وفي كل أسبوع يتم استبدال عدد من الخوادم وعشرات الأقراص (باستثناء عمليات الترقية الموازية وتوسيع الأسطول). لكل نوع من أنواع الفشل ، تتم كتابة إرشادات واضحة حول ما يجب القيام به وبأية طريقة للقيام بذلك ، يتم كل شيء تلقائيًا إذا أمكن ، وبالتالي فإن الفشل يعد روتينًا وفي 99٪ من الحالات تحدث دون أن يلاحظها أحد من قبل المستخدمين.
- ماذا تكافح مع مثل هذه الإخفاقات؟من بداية تشغيل كاساندرا والحوادث الأولى ، وضعنا آليات للنسخ الاحتياطي والاسترداد منها ، وقمنا بإعداد إجراءات النشر التي تأخذ في الاعتبار حالة مجموعات كاساندرا ، وعلى سبيل المثال ، نمنع العقد من إعادة التشغيل إذا كان فقدان البيانات ممكنًا. نحن نخطط للحديث عن كل هذا في الاجتماع.
- كما قلت ، لا توجد أنظمة موثوقة تمامًا. ما أنواع الإخفاقات التي تستعد لها وتستطيع البقاء على قيد الحياة؟إذا تحدثنا عن عمليات تثبيت مجموعات كاساندرا الخاصة بنا ، فلن يلاحظ المستخدمون أي شيء إذا فقدنا العديد من الأجهزة في وحدة تحكم واحدة أو وحدة تحكم كاملة (حدث هذا). مع الزيادة في عدد البلدان النامية ، فإننا نفكر في البدء في ضمان التشغيل في حالة فشل اثنين من البلدان النامية.
- ما رأيك كاساندرا يفتقر من حيث التسامح مع الخطأ؟تتطلب Cassandra ، مثلها مثل العديد من مستودعات NoSQL المبكرة ، فهمًا عميقًا لهيكلها الداخلي والعمليات الديناميكية المستمرة. أود أن أقول إنها تفتقر إلى البساطة والقدرة على التنبؤ والملاحظة. ولكن سيكون من المثير للاهتمام سماع رأي المشاركين الآخرين في الاجتماع!
أوليغ ، شكراً جزيلاً على الوقت الذي أمضيته في الإجابة على الأسئلة!
نحن في انتظار كل من يريد التحدث مع خبراء في مجال تشغيل Apache Cassandra في اجتماع يوم 12 سبتمبر في مكتبهم في سان بطرسبرج.
تعال ، سيكون من المثير للاهتمام!
سجل لهذا الحدث.