غالبية أنظمة التخزين المتوفرة في السوق لا تختلف كثيرًا عن بعضها البعض ، لأن العديد من البائعين يطلبون معدات من نفس مصنعي ODM تقريبًا. لدينا كل شيء تقريبًا ، من الهيكل إلى وحدات التحكم والتقنيات مثل RAID 2.0+ والبرامج.

تحت الخفض ، هناك بعض التفاصيل حول ما قد يكون غير عادي في كل من عقد نظام تخزين البيانات.
ما هو مثير للاهتمام على مستوى الوحدة
من الناحية الهيكلية ، تبدو جميع أنظمة التخزين الحديثة من أي مُصنِّع هي نفسها: يتم تثبيت وحدات التحكم في الجزء الأمامي من هيكل صندوق الصلب ووحدات الواجهة في العمق. هناك أيضا امدادات الطاقة والتهوية. يبدو أن كل شيء مألوف ومعياري. ولكن في الواقع ، لقد أدخلنا الكثير من الأشياء المثيرة للاهتمام في هذا النموذج.

لنبدأ بتركيب عناصر نظام التخزين في الهيكل. يوجد عدد أقل من محركات الأقراص المغناطيسية 3.5 بوصة في نظام التخزين ؛ حيث بدأت الأنظمة الهجينة والفلاش الكامل في الهيمنة. ولكن حتى العديد من محركات الأقراص ذات سرعة الدوران التي تصل إلى 15 ألف دورة في الدقيقة تخلق اهتزازًا لا يمكن تجاهله. لقد قمنا بتطوير مجموعة كاملة من التوصيات لهذه الحالة - كيفية توزيع محركات الأقراص المغناطيسية بمختلف المعلمات بين أرفف الأقراص.
حتى في جزء صغير من المئة ، لكنه يؤثر على الموثوقية. وعلى نطاق مركز بيانات كبير ، تتحول النسب المئوية لكل محرك إلى مؤشرات ملموسة للفشل والأعطال. للتأكد من أن اهتزاز الأقراص الفردية أقل انتقالًا من خلال هيكل الهيكل الصلب ، فإننا نجهز الأقراص الموجودة تحت الأقراص بمخمدات مطاطية أو معدنية. لتحييد مصدر آخر للاهتزاز في نظام التخزين - وحدات التهوية - نضع مراوح ثنائية الاتجاه ونعزل جميع العناصر الدوارة عن الهيكل المعدني.
بالنسبة لمحركات المغزل ، يعد الحد الأدنى من الاهتزاز مشكلة بالفعل: تبدأ الرؤوس في الضلال ، وينخفض الأداء بشكل كبير. سواقات الأقراص الصلبة هي مسألة أخرى ، فهي لا تخاف من الاهتزازات. لكن تحديد المكونات بشكل آمن لا يزال مهمًا. قم بعملية التسليم: يمكن إسقاط الصندوق أو إلقاؤه عرضًا أو وضعه جانبيًا أو مقلوبًا رأسًا على عقب. لذلك ، لدينا جميع مكونات نظام التخزين ثابتة بدقة في ثلاثة أبعاد. هذا يلغي إمكانية نزوحهم أثناء النقل ، ويحمي الموصلات من الخروج من المقابس في حالة حدوث صدمة عرضية.

ذات مرة ، بدأنا بتطوير تكنولوجيا الكمبيوتر لصناعة الاتصالات ، حيث تكون معايير قابلية التشغيل في درجة الحرارة والرطوبة مرتفعة بشكل تقليدي. وقمنا بنقلها إلى اتجاهات أخرى: الأجزاء المعدنية في أنظمة التخزين لا تتأكسد حتى في الرطوبة العالية - بسبب استخدام الطلاء بالنيكل والجلفنة.
تم تطوير التصميم الحراري لأنظمة التخزين الخاصة بنا مع التركيز على التوزيع الموحد لدرجة الحرارة عبر الهيكل المعدني - لمنع ارتفاع درجة الحرارة أو التبريد الزائد في أي زاوية من رف القرص. خلاف ذلك ، لا يمكن تجنب التشوه المادي - حتى لو كان ضئيلًا ، ولكن لا يزال ينتهك الهندسة وقادر على تقصير عمر الجهاز. وبالتالي ، يتم ربح بعض الكسور في المئة ، ولكن هذا لا يزال يؤثر على الموثوقية العامة للنظام.
الدقيقة أشباه الموصلات
نحن نكرر مكونات مهمة لأنظمة التخزين: إذا فشل شيء ما ، فهناك دائمًا شبكة أمان. على سبيل المثال ، تعمل وحدات الطاقة الخاصة بالموديلات الأصغر سناً وفقًا لنظام 1 + 1 ، وللمزيد من الوحدات الصلبة - 2 + 1 وحتى 3 + 1.

يتم أيضًا حجز وحدات التحكم ، التي يوجد منها نظامان على الأقل في نظام التخزين (لا نوفر أنظمة تحكم مفردة). في نظام التخزين في السلسلة 6800 والإصدارات الأقدم ، يتم إجراء التكرار وفقًا لنظام 3 + 1 ، في الموديلات الأصغر - 1 + 1.
حتى لوحة الإدارة محجوزة ، والتي لا تؤثر بشكل مباشر على تشغيل النظام ، ولكنها ضرورية فقط لإجراء تغييرات التكوين والمراقبة. بالإضافة إلى ذلك ، يتم بيع أي بطاقات توسيع واجهة لأنظمة التخزين في أزواج فقط ، بحيث يكون لدى العميل احتياطي.
جميع المكونات - وحدات PSU ، والمراوح ، وأجهزة التحكم ، ووحدات الإدارة ، إلخ. - مجهز بميكروكونترولر قادرة على الاستجابة لحالات معينة. على سبيل المثال ، إذا بدأت المروحة في التباطؤ من تلقاء نفسه ، يتم إرسال إنذار إلى وحدة التحكم. نتيجة لذلك ، لدى العميل صورة كاملة عن حالة نظام التخزين - وإذا لزم الأمر ، يمكن أن يحل محل بعض المكونات بمفرده ، دون انتظار وصول مهندس الخدمة لدينا. وإذا سمحت سياسة أمان العميل ، فإننا نقوم بتكوين وحدات التحكم بحيث تقوم بنقل المعلومات حول حالة الحديد إلى الدعم الفني لدينا.
رقائقها أفضل وأكثر قابلية للفهم.
نحن الشركة الوحيدة التي تطور معالجاتها الخاصة ورقائقها ووحدات التحكم في محرك الأقراص الصلبة لأنظمة التخزين الخاصة بها.

لذلك ، في بعض الموديلات ، كالمعالج الرئيسي لنظام التخزين (Storage Controller Chip) ، لا نستخدم نظام Intel x86 الكلاسيكي ، ولكننا نستخدم معالج ARM HiSilicon ، وهو فرعنا. والحقيقة هي أن بنية ARM في التخزين - لحساب نفس RAID وإلغاء البيانات المكررة - تظهر نفسها أفضل من x86 القياسي.
فخرنا الخاص هو رقائق وحدات تحكم SSD. وإذا كان من الممكن تزويد خوادمنا بمحركات أشباه الموصلات من جهات خارجية (Intel ، Samsung ، Toshiba ، إلخ) ، ثم في أنظمة تخزين البيانات ، نقوم فقط بتثبيت محركات أقراص الحالة الصلبة SSD ذات التصميم الخاص بنا.

يعتبر متحكم وحدة الإدخال / الإخراج (رقاقة I / O الذكية) في أنظمة التخزين أيضًا تطوير HiSilicon ، بالإضافة إلى رقاقة الإدارة الذكية لإدارة التخزين عن بُعد. يساعدنا استخدام الرقاقات الخاصة بنا على فهم أفضل لما يحدث في كل لحظة مع كل خلية ذاكرة. هذا هو ما سمح لنا بتقليل التأخير عند الوصول إلى البيانات في أنظمة التخزين Dorado نفسها.

بالنسبة للأقراص المغناطيسية ، تعد المراقبة المستمرة مهمة للغاية من حيث الموثوقية. تدعم أنظمة التخزين الخاصة بنا DHA (Disk Health Analyzer): يسجل القرص نفسه باستمرار ما يحدث له ، ومدى شعوره. بفضل تراكم الإحصائيات وبناء نماذج تنبؤية ذكية ، من الممكن التنبؤ بانتقال محرك الأقراص إلى حالة حرجة خلال 2-3 أشهر ، وليس في 5-10 أيام. لا يزال القرص "مباشرًا" ، والبيانات الموجودة عليه آمنة تمامًا - لكن العميل مستعد لاستبداله عند أول علامة على حدوث عطل محتمل.
RAID 2.0+
فشل التصميم الآمن في أنظمة التخزين التي فكرنا بها على مستوى النظام. تعد تقنية Smart Matrix الخاصة بنا إضافة إضافية على PCIe - هذا الحافلة ، الذي يتم على أساسه تنفيذ الاتصالات بين المراقبين ، مناسب بشكل خاص لمحركات أقراص الحالة الصلبة.

توفر Smart Matrix ، على وجه الخصوص ، شبكة كاملة ذات 4 وحدات تحكم في مخزننا Ocean Store 6800 v5. حتى يتسنى لكل وحدة تحكم الوصول إلى جميع الأقراص في النظام ، قمنا بتطوير الواجهة الخلفية SAS خاصة. ذاكرة التخزين المؤقت ، بطبيعة الحال ، هو معكوسة بين جميع وحدات التحكم النشطة حاليا.

عندما يتعطل جهاز التحكم ، تتحول الخدمات منه بسرعة إلى وحدة التحكم في المرآة ، وتستعيد وحدات التحكم المتبقية العلاقة لتعكس بعضها البعض. في الوقت نفسه ، تحتوي البيانات المسجلة في ذاكرة التخزين المؤقت على نسخة متطابقة لضمان موثوقية النظام.

يقاوم النظام فشل ثلاث وحدات تحكم. كما هو موضح في الشكل ، إذا فشل التحكم A ، فإن بيانات ذاكرة التخزين المؤقت بوحدة التحكم B ستختار جهاز التحكم C أو D لعكس ذاكرة التخزين المؤقت. عندما تفشل وحدة التحكم D ، تعكس وحدات التحكم B و C ذاكرة التخزين المؤقت.

يعد نظام توزيع البيانات RAID 2.0 هو المعيار لأنظمة التخزين لدينا: فقد حلت المحاكاة الافتراضية على مستوى القرص منذ فترة طويلة محل النسخ بدون كل مجموعة للمحتوى من وسيط إلى آخر. يتم تجميع جميع الأقراص في كتل ، يتم دمجها في تكتلات أكبر لهيكل من مستويين ، وهي بالفعل أعلى مستواها العلوي هي وحدات التخزين المنطقية التي تشكل صفائف RAID.

الميزة الرئيسية لهذا النهج هو انخفاض وقت إعادة بناء الصفيف. بالإضافة إلى ذلك ، في حالة حدوث عطل في القرص ، لا تتم عملية إعادة الإنشاء على القرص الاحتياطي الساخن الذي ظل قائماً طوال هذا الوقت ، ولكن على مساحة خالية في جميع الأقراص المستخدمة. يوضح الشكل التالي تسعة محركات أقراص RAID5 كمثال. عند تعطل القرص الصلب 1 ، تتلف البيانات CKG0 و CKG1. يختار النظام CK لإعادة الإعمار بشكل عشوائي.

تبلغ سرعة الاسترداد العادية لـ RAID 30 ميجابايت / ثانية ، لذلك يستغرق استرداد البيانات 1 تيرابايت لمدة 10 ساعات. يعمل RAID 2.0+ على تقليل الوقت إلى 30 دقيقة.

تمكن مطورونا من تحقيق توزيع حمل موحد بين جميع محركات الدوران ومحركات أقراص الحالة الثابتة في النظام. يسمح لك هذا بإلغاء تأمين إمكانات أنظمة التخزين المختلطة بشكل أفضل بكثير من الاستخدام المعتاد لمحركات الأقراص ذات الحالة الصلبة كذاكرة تخزين مؤقت.

في أنظمة فئة دورادو ، قمنا بتنفيذ ما يسمى RAID-TP ، وهي مجموعة ذات تكافؤ ثلاثي. سيستمر هذا النظام في العمل بينما تفشل أي من محركات الأقراص الثلاثة. هذا يزيد من الموثوقية مقارنة بـ RAID 6 بأمرتين عشريتين ، مع RAID 5 بثلاثة.

نوصي باستخدام RAID-TP فيما يتعلق بالبيانات الهامة بشكل خاص ، نظرًا لأن RAID 2.0 ومحركات أقراص فلاش عالية السرعة ، فإن هذا لا يؤثر بشكل كبير على الأداء. تحتاج فقط إلى المزيد من المساحة الحرة للحجز.

وكقاعدة عامة ، يتم استخدام جميع أنظمة الفلاش لقواعد بيانات إدارة قواعد البيانات مع كتل بيانات صغيرة و IOPS عالية. هذا الأخير ليس جيدًا بالنسبة لمحركات الأقراص الصلبة: خلايا الذاكرة NAND تنفد بسرعة. في تطبيقنا ، يجمع النظام أولاً مجموعة كبيرة نسبيًا من البيانات في ذاكرة التخزين المؤقت لمحرك الأقراص ، ثم يكتبها بالكامل إلى الخلايا. يسمح لك هذا بتقليل الحمل على الأقراص ، وكذلك في وضع أكثر تجنيبًا ، "تجميع البيانات المهملة" وإخلاء مساحة على SSD.
ستة تسعة

ما سبق يسمح لنا بالتحدث عن التسامح مع الخطأ لأنظمتنا على مستوى الحل بأكمله. يتم تطبيق التحقق من الصحة على مستوى التطبيق (على سبيل المثال ، Oracle DBMS) ونظام التشغيل والمحول والتخزين وما إلى ذلك على القرص. يضمن هذا النهج أن كتلة البيانات التي وصلت إلى المنافذ الخارجية ستتم كتابتها على الأقراص الداخلية للنظام دون أي ضرر أو خسارة. هذا يعني مستوى المؤسسة.

لتخزين البيانات وحمايتها واستعادتها بشكل موثوق ، بالإضافة إلى الوصول السريع إليها ، قمنا بتطوير عدد من التقنيات الاحتكارية.

HyperMetro هو التطور الأكثر إثارة للاهتمام في العام الماضي ونصف. يتم تطبيق حل جاهز يعتمد على أنظمة التخزين الخاصة بنا لبناء مجموعة مترو آمنة من الفشل على مستوى وحدة التحكم ، ولا يتطلب أي بوابات أو خوادم إضافية ، باستثناء المحكم. يتم تنفيذه ببساطة عن طريق ترخيص: نظامان للتخزين من Huawei بالإضافة إلى ترخيص - وهو يعمل.

توفر تقنية HyperSnap حماية مستمرة للبيانات دون فقدان الأداء. يدعم النظام RoW. لمنع فقد البيانات عند التخزين في أي وقت ، يتم استخدام العديد من التقنيات: لقطات متعددة ، استنساخ ، نسخ.

بناءً على أنظمة التخزين الخاصة بنا ، تم تطوير واختبار أربعة حلول على الأقل لاستعادة القدرة على العمل بعد الكوارث.

لدينا أيضًا حل لثلاثة مراكز بيانات 3DC Ring DR Solution: مركزان للبيانات في الكتلة ، والثالث هو النسخ المتماثل. يمكننا تنظيم النسخ المتماثل غير المتزامن أو الترحيل من صفائف الجهات الخارجية. يوجد ترخيص للمحاكاة الافتراضية الذكية ، بحيث يمكنك استخدام وحدات التخزين من معظم الصفائف القياسية مع وصول FC: Hitachi ، DELL EMC ، HPE ، إلخ. تم حل هذا الحل فعلاً ، فهناك نظائر في السوق ، لكنها تكلف أكثر. هناك أمثلة للاستخدام في روسيا.
نتيجة لذلك ، على مستوى الحل بأكمله ، يمكنك الحصول على موثوقية ستة تسعة ، وعلى مستوى التخزين المحلي - خمسة تسعة. بشكل عام ، حاولنا.
بقلم فلاديمير سفينارينكو ، مدير أول لحلول تقنية المعلومات ، شركة Huawei Enterprise في روسيا