خطأ التسامح في تخزين Qsan

اليوم ، في البنية التحتية لتكنولوجيا المعلومات ، مع الاستخدام الواسع النطاق للمحاكاة الافتراضية ، تعد أنظمة التخزين هي العنصر الأساسي الذي يخزن جميع الأجهزة الافتراضية. فشل هذه العقدة قادر على إيقاف عمل مركز البيانات تمامًا. على الرغم من أن جزءًا كبيرًا من معدات الخوادم لديه القدرة على تحمل الأعطال بشكل أو بآخر "افتراضيًا" ، إلا أنه نظرًا للدور الخاص لأنظمة التخزين داخل مركز البيانات ، زادت متطلباتها من حيث "قابلية البقاء".




الطريقة الأكثر فعالية لضمان التسامح مع الخطأ في تكنولوجيا المعلومات هي استخدام العديد من مثيلات المعدات والبرامج (في أبسط الحالات ، التكرار). بالطبع ، يمكن تكرار التخزين بالكامل. وبالنسبة للتعافي من الكوارث ، هذا هو بالضبط النهج المستخدم. لكن ليس كل الشركات تستطيع تحمل هذا الحل. لا يتعلق الأمر فقط بمضاعفة تكلفة المعدات ، بل يتعلق أيضًا بتكاليف أخرى لتنظيم مثل هذا الحل ودعمه الإضافي.


ومع ذلك ، فإن احتمال ازدواجية المعدات لا يلغي الحاجة إلى ضمان التسامح مع الخطأ على مستوى المكون. على وجه الخصوص ، يتم تطبيق التكرار على أنظمة التخزين الخاصة بإمدادات الطاقة ووحدات التبريد ومحركات الأقراص وبالطبع وحدات التحكم. كل هذا أصبح منذ فترة طويلة شائعة. من الصعب العثور على التخزين دون استخدام تصميم مماثل. Qsan هنا ليست استثناء. لكننا نريد التحدث في هذا المقال حول ما هو غير واضح على الفور ، وفي الوقت نفسه يهدف بشكل أساسي إلى زيادة التسامح مع النظام ككل.


وحدات التبريد


غالبًا ما يتم استخدام الوحدات المدمجة التي تجمع بين مصادر الطاقة والمراوح في أنظمة التخزين التي تحتوي على علب 2U-3U. من ناحية ، إنها مريحة لأن تحتاج وحدة واحدة فقط إلى الصيانة. من ناحية أخرى ، إذا فشل نظام التبريد ، فقد يتم إيقاف تشغيل مصدر الطاقة قسراً لتجنب ارتفاع درجة الحرارة. ويبدو أنه لن ينشأ الموقف الأكثر خطورة ، ولكن من الواضح أنه لا يستحق إضافة نقاط ضعف التخزين.


يتم تنظيم التبريد في أنظمة التخزين Qsan في شكل وحدات منفصلة مع استبدال "الساخنة" ، مستقلة عن إمدادات الطاقة. في الواقع ، لدى مزودات الطاقة مراوح خاصة بهم ، مصممة لتفجير PSU نفسها. وحدة التبريد تستوعب اثنين من المراوح المستقلة التي تضمن بعضها البعض. هناك نوعان من هذه الوحدات في نظام التخزين: على اليمين وعلى اليسار - لتدفق الهواء بكفاءة لجميع المكونات. إذا فشل أحد المشجعين ، فإن جميع المشجعين الآخرين يزيدون سرعتهم تلقائيًا من أجل تعويض النقص الناتج في تدفق الهواء. هذا هو السبب في عطل المروحة لا ينطوي على خطر ارتفاع درجة حرارة الجهاز بأكمله.


طوبولوجيا اتصال الجرف التمديد


المخطط الكلاسيكي لتوصيل أرفف التمدد بالتخزين يعني طوبولوجيا تسمى تتالي. في هذه الحالة ، يتم ربط رف التحكم ووحدات التخزين المقابلة بواسطة كبل SAS واحد. في المجموع ، تم الحصول على 2 الكابلات لنظام تحكم مزدوج. إذا كنت ترغب في توصيل الثانية ، فهو متصل بنفس الطريقة بالجرف الأول. و هكذا. ميزة هذا الهيكل هي سهولة التنفيذ في المعدات. وسيكون ناقص بعض الضعف لكسر مفاجئ في دائرة SAS بسبب الفشل المتقاطع من وحدات تحكم التخزين ورفوف غير متصلة أو بسبب انقطاع أحد رفوف التوسع في منتصف السلسلة. ستكون النتيجة فقدان الوصول إلى جزء من محركات الأقراص وانهيار محتمل لمجموعة RAID إذا كانت "منتشرة" في عدة حالات.


من فشل وحدة التحكم المتقاطعة ، تتمتع Qsan بالحماية في شكل اتصال منطقي داخلي بين وحدات التحكم من خلال لوحة الكترونية معززة للتخزين. أي لا ترى وحدة التحكم في التخزين وحدة JBOD متصلة مباشرة به فحسب ، بل ترى أيضًا وحدة التحكم "المجاورة" من خلال رابط خاص في اللوحة الخلفية. نتيجة لذلك ، إذا حدث مثل هذا الموقف ولم يسحب أحد ماديًا كبلات SAS بين نظام التخزين والجرف ، فسيتم الحفاظ على الوصول إلى جميع محركات الأقراص.



لحماية دائرة SAS من الانهيار ، على سبيل المثال ، بسبب إلغاء تنشيط رف التمديد ، عادةً ما يتم استخدام طوبولوجيا اتصال مختلفة - تتالي العكسي. في هذه الحالة ، يتم توصيل نظام التخزين على الفور بالجرف الأول والأخير في السلسلة ، للوصول إلى محركات الأقراص من كلا الجانبين.



إذا كنت تريد حماية أقوى ، فيمكنك بناء التكوينات على نطاق أوسع ، باستخدام طوبولوجيا الشجرة ، على سبيل المثال. أو تعقيد آخر من خلال مزيج من الطوبولوجيا المذكورة. هذا ممكن بسبب العدد الكبير من موصلات SAS على الأجهزة (2 لكل وحدة تحكم تخزين و 5 لكل وحدة تحكم JBOD) مع الكشف التلقائي عن أوضاع تشغيل الإدخال / الإخراج. الشيء الرئيسي هو أن المسؤول نفسه ليس مرتبكًا. ونظام التخزين سيكون قادرا على تكوين التكوين بشكل صحيح.


إعادة بناء سريع


إن توفر أقراص الغيار الاحتياطية الساخنة في النظام يزيد بشكل كبير من موثوقية تخزين المعلومات. ومع ذلك ، فإن مجرد تخصيص هذه الأقراص لا يعني الحماية المطلقة. الحقيقة هي أن عملية الاسترداد (إعادة الإنشاء) تستغرق وقتًا طويلاً وتستغرق وقتًا طويلًا. التعقيد ينشأ من الوصول المستمر إلى البيانات الرئيسية. أي يجب على النظام ، إلى جانب العمل الحالي ، نسخ البيانات إلى قرص جديد. وتعتمد مدة إعادة الإنشاء بشكل مباشر على سعة محرك الأقراص وخصائص سرعته. نظرًا لأن النظام لا يعرف شيئًا عن مساحة القرص الفعلية المشغولة ، في عملية إعادة بنائه ببساطة ينسخ كل شيء: كتلة تلو الأخرى.


نتيجة لذلك ، يمكن بسهولة استعادة قرص حديث عالي السعة من 10 + تيرابايت مع تحميل خطير على أنظمة التخزين لمدة أسبوع أو أكثر. يجب أن تضع في اعتبارك أيضًا حقيقة أنه أثناء عملية إعادة الإنشاء ، يزيد احتمال فشل محركات الأقراص الأخرى بشكل كبير بسبب زيادة الحمل عليها. وهذا يمكن أن يشكل بالفعل خطرا كبيرا في حالة استخدام ، على سبيل المثال ، RAID5.


كحل لهذه المشكلة ، يشعر الكثير من مطوري وحدات التخزين بالقلق من تسريع عملية الاسترداد. يمكن استخدام طرق مختلفة لهذا الغرض ، ولكن الجوهر هو نفسه - نسخ الكتل المشغولة حقًا فقط أثناء إعادة البناء. لم تقف Qsan جانبا من هذه المشكلة. في نظام التخزين لهذا البائع ، عندما يتم تنشيط خيار Fast Rebuild ، يقوم النظام بتتبع الكتل المستخدمة للتسجيل ، وبالتالي يكون لديه القدرة على نسخها فقط إلى محرك أقراص جديد في حالة تعطل القرص.



لا يتم تمكين خيار Fast Rebuild افتراضيًا عند إنشاء وحدات تخزين جديدة ، مثل له تأثير على الأداء ، خاصة في عمليات الكتابة العشوائية ، لأنه:


  1. من الضروري تتبع السجلات في الكتل ؛
  2. عند إعادة البناء ، لا يتم إعادة حساب المجموع الاختباري للحصول على مساحة غير مخصصة ، لذلك ، عند إدخال إدخال جديد إلى هذه المنطقة ، من الضروري أولاً "تهيئة" ذلك.

لذلك ، لا يوصى باستخدام Fast Rebuild لوحدات التخزين ، على سبيل المثال ، مع قواعد البيانات المحملة بدرجة عالية أو في أنظمة المراقبة بالفيديو ، حيث سيظل مستوى الصوت ممتلئًا بنسبة 100٪. ولكن بالنسبة لخوادم الملفات أو البريد ، سيكون هذا الخيار مفيدًا للغاية.


بدلا من الاستنتاج


كل مصنع تخزين يشير إلى أن أجهزته موثوقة. وإذا لم تكن هناك أخطاء فادحة في تطوير الأجهزة وتعطش لا يصدق لتحقيق وفورات في عملية إنتاجها واختبارها ، فبصفة عامة يمكننا أن نتفق مع البائع. ومع ذلك ، تحتاج إلى فهم:


  • التسامح الأساسي مع أنظمة التخزين هو أولاً وقبل كل شيء وسيلة لمواصلة الوصول إلى البيانات في حالة فشل أي مكون (مكونات) ؛
  • الخيارات الإضافية المتعلقة بتسامح الأخطاء (مثل تلك الموضحة أعلاه) هي التخلص من أنواع معينة من الأعطال وزيادة فرصك في الوصول إلى البيانات ؛
  • 100 ٪ موثوقية ، للأسف ، لا يحدث. ولكن من أجل الاقتراب قدر الإمكان من ذلك ، يبذل معظم بائعي التخزين عاقل (ومن بينهم Qsan ) كل جهد ممكن لتحسين منتجاتهم بشكل مستمر في كل من الأجهزة والبرامج.

في الوقت نفسه ، لا ينبغي لأحد أن ينسى أنه لا توجد موثوقية مطلقة لأنظمة التخزين لا تلغي توفر النسخ الاحتياطية ، وخطط واضحة ومدروسة لاستردادها في حالة وقوع حادث ، والدعم الفني التشغيلي للبائع.

Source: https://habr.com/ru/post/ar459214/


All Articles