AERODISK Engine N2 تخزين تحطم اختبارات ، اختبار القوة


مرحبا بالجميع! مع هذا المقال ، يفتح AERODISK مدونة على Habré. الصيحة ، أيها الرفاق!


في مقالات سابقة عن هبر ، تم النظر في أسئلة حول البنية والتكوين الأساسي لأنظمة التخزين. في هذه المقالة ، سننظر في سؤال لم تتم تغطيته مسبقًا ، ولكن تم طرحه غالبًا - حول التسامح مع أنظمة التخزين AERODISK Engine. سيقوم فريقنا بعمل كل شيء حتى يتوقف نظام التخزين AERODISK عن العمل ، أي كسرها.


لقد حدث أن مقالات عن تاريخ شركتنا ، وعن منتجاتنا ، وكذلك مثال عن التنفيذ الناجح معلقة بالفعل على Habré ، والتي بفضل جزيل الشكر لشركائنا - TS Solution وشركات Softline.


لذلك ، لن أتدرب على مهارات إدارة نسخ اللصق هنا ، لكنني ببساطة أعطي روابط لأصول هذه المقالات:



أريد أيضًا مشاركة الأخبار الجيدة. لكنني سأبدأ ، بالطبع ، بالمشكلة. نحن ، بصفتنا بائعًا شابًا ، من بين التكاليف الأخرى ، نواجه دائمًا حقيقة أن العديد من المهندسين والإداريين هم من المبتذلون ولا يعرفون كيفية تشغيل أنظمة التخزين لدينا بشكل صحيح.
من الواضح أن إدارة معظم أنظمة التخزين تبدو متشابهة تقريبًا من وجهة نظر المسؤول ، ولكن لكل مصنع خصائصه الخاصة. ونحن لسنا استثناء.


لذلك ، من أجل تبسيط مهمة تدريب متخصصي تكنولوجيا المعلومات ، قررنا تكريس هذا العام للتعليم المجاني. للقيام بذلك ، في العديد من مدن روسيا الكبرى ، نفتتح شبكة من مراكز AERODISK المختصة والتي سيكون فيها أي متخصص تقني مهتم قادرًا على أخذ دورة مجانية تمامًا والحصول على شهادة إدارة تخزين AERODISK Engine.


في كل مركز من مراكز الكفاءات ، سنقوم بتثبيت منصة تجريبية كاملة من نظام التخزين AERODISK وخادم فعلي يقوم عليه مدرسنا بإجراء تدريب بدوام كامل. سيتم نشر جدول أعمال مراكز الكفاءة فور ظهورها ، لكننا الآن افتتحنا مركزًا في نيجني نوفغورود وستكون مدينة كراسنودار هي التالية. يمكنك التسجيل للحصول على التدريب باستخدام الروابط أدناه. أحمل المعلومات المعروفة حاليًا عن المدن والتواريخ:


  • نيجني نوفغورود (يعمل بالفعل - يمكنك التسجيل هنا https://aerodisk.promo/nn/ ) ؛
    حتى 16 أبريل 2019 ، يمكنك زيارة المركز في أي وقت عمل ، وفي 16 أبريل 2019 سيتم تنظيم دورة تدريبية كبيرة.
  • Krasnodar (قريبًا - اشترك هنا https://aerodisk.promo/krsnd/ ) ؛
    من 9 أبريل إلى 25 أبريل 2019 ، يمكنك زيارة المركز في أي وقت عمل ، وفي 25 أبريل 2019 سيتم تنظيم دورة تدريبية كبيرة.
  • Yekaterinburg (بعد الافتتاح ، اتبع المعلومات الموجودة على موقعنا أو على Habré) ؛
    من مايو إلى يونيو 2019.
  • نوفوسيبيرسك (اتبع المعلومات على موقعنا على شبكة الإنترنت أو على Habré) ؛
    أكتوبر 2019
  • كراسنويارسك (اتبع المعلومات على موقعنا أو على Habré) ؛
    نوفمبر 2019

وبالطبع ، إذا لم تكن موسكو بعيدة عنك ، يمكنك في أي وقت زيارة مكتبنا في موسكو والخضوع لتدريب مماثل.


هذا كل شيء. مرتبطة بالتسويق ، انتقل إلى التقنية!


في Habré ، سننشر بانتظام مقالات تقنية حول منتجاتنا واختبارات الضغط والمقارنات وميزات الاستخدام والتطبيقات المثيرة للاهتمام.


AERODISK Engine N2 تخزين تحطم اختبارات ، اختبار القوة


ACHTUNG! بعد قراءة المقال ، يمكنك القول: حسنًا ، بالطبع ، سوف يتحقق البائع من نفسه حتى يعمل كل شيء "مع اثارة ضجة" ، وظروف الاحتباس الحراري ، إلخ. سأجيب: لا شيء من هذا القبيل! على عكس منافسينا الأجانب ، نحن هنا ، بالقرب منك ، ويمكنك دائمًا القدوم إلينا (في موسكو أو أي لجنة مركزية) واختبار نظام التخزين الخاص بنا بأي طريقة. وبالتالي ، فإننا لا نعقل كثيراً عن ضبط النتائج على الصورة المثالية للعالم ، لأن نحن من السهل جدا التحقق. بالنسبة لأولئك الذين هم كسولون جدًا في المشي وليس لديهم وقت ، يمكننا تنظيم الاختبارات عن بُعد. لدينا مختبر خاص لهذا الغرض. للإتصال به.


ACHTUNG-2! هذا الاختبار ليس اختبار الحمل لأن نحن هنا معنيون فقط بالتسامح مع الخطأ. في غضون أسبوعين ، سنقوم بإعداد موقف أكثر قوة وإجراء اختبارات تحميل لأنظمة التخزين ، ونشر النتائج هنا (بالمناسبة ، يتم قبول رغبات الاختبارات).


لذلك ، دعنا نذهب استراحة.


موقف اختبار


يتكون جناحنا من الحديد التالي:


  • 1 × تخزين Aerodisk Engine N2 (وحدتان ، ذاكرة تخزين مؤقت سعة 64 جيجابايت ، منافذ 8xFC 8 جيجابت / ثانية ، 4 منافذ إيثرنت بسرعة 10 جيجابت / ثانية ، منافذ إيثرنت 4 × 1 جيجابت / ثانية) ؛ يتم تثبيت الأقراص التالية في نظام التخزين:
  • 4 × قرص SAS SSD 900 جيجابايت ؛
  • محركات أقراص SAS 10k مقاس 12 × 1.2 تيرابايت ؛
  • 1 خادم فعلي مع Windows Server 2016 (2xXeon E5 2667 v3 ، ذاكرة وصول عشوائي 96 جيجابايت ، منافذ 2xFC 8 جيجابت / ثانية ، منافذ إيثرنت 2x 10 جيجابت / ثانية SFP +) ؛
  • 2 × سان 8 جرام التبديل ؛
  • 2 × تبديل LAN 10G ؛

لقد قمنا بتوصيل الخادم بالتخزين عبر المحولات عبر FC و Ethernet 10G. مخطط الموقف أدناه.


صورة

يتم تثبيت المكونات الضرورية ، مثل MPIO و iSCSI البادئ ، على Windows Server.
يتم تكوين المناطق على مفاتيح FC ، يتم تكوين شبكات محلية ظاهرية مقابلة على مفاتيح LAN ، ويتم تثبيت MTU 9000 على منافذ التخزين ، ومفاتيح التبديل والمضيف (كيفية القيام بكل هذا موصوف في وثائقنا ، لذلك لن نصف هذه العملية هنا).


منهجية الاختبار


خطة اختبار التصادم كما يلي:


  • التحقق من فشل منفذ FC و Ethernet.
  • فحص انقطاع التيار الكهربائي.
  • فحص فشل تحكم.
  • تحقق من فشل القرص في مجموعة / تجمع.

سيتم إجراء جميع الاختبارات في ظل ظروف الحمل الصناعي ، والتي سنقوم بإنشائها باستخدام IOMETER. في موازاة ذلك ، سنقوم بإجراء نفس الاختبارات ، ولكن في ظروف نسخ الملفات الكبيرة إلى نظام التخزين.


التكوين IOmeter كالتالي:


  • القراءة / الكتابة - 70/30
  • كتلة - 128 كيلو (قررنا بلل نظام التخزين بكتل كبيرة)
  • عدد الخيوط هو 128 (والذي يشبه إلى حد بعيد عبء العمل)
  • عشوائي بالكامل
  • عدد العمال - 4 (2 لـ FC ، 2 لـ iSCSI)




يحتوي الاختبار على المهام التالية:
  1. تأكد من عدم توقف التحميل الاصطناعي وعملية النسخ ولن تتسبب في حدوث أخطاء في أوضاع الفشل المختلفة.
  2. تأكد من أن عملية تبديل المنافذ ، ووحدات التحكم ، وما إلى ذلك ، مؤتمتة بما فيه الكفاية ولا تتطلب إجراءات المسؤول في حالة الفشل (أي مع الفشل ، بالطبع ، لا يوجد حديث عن حالات الفشل).
  3. تأكد من عرض المعلومات بشكل صحيح في السجلات.

إعداد المضيف والتخزين


لقد قمنا بتكوين وصول كتلة على وحدة التخزين باستخدام منافذ FC و Ethernet (FC و iSCSI ، على التوالي). كيفية القيام بذلك ، تم وصف الرجال من TS Solution بالتفصيل في مقالة سابقة ( https://habr.com/en/company/tssolution/blog/432876/ ). حسنًا ، وبالطبع ، لم يقم أحد بإلغاء الكتيبات والدورات التدريبية.


أنشأنا مجموعة مختلطة باستخدام جميع محركات الأقراص لدينا. تتم إضافة قرصين SSD إلى ذاكرة التخزين المؤقت ، ويضاف قرصان SSD كمستوى تخزين إضافي (الطبقة على الإنترنت). قمنا بتجميع 12 قرص SAS10k في RAID-60P (تعادل ثلاثي) من أجل التحقق من فشل ثلاثة أقراص في مجموعة في وقت واحد. تم ترك قرص واحد للتصحيح التلقائي.



وصلنا LUNs اثنين (واحد على FC ، واحد على iSCSI).



كلا LUNs مملوكة من قبل وحدة تحكم Engine-0.



بدء الاختبار


قم بتشغيل IOMETER باستخدام التكوين أعلاه.



نصلح النطاق الترددي 1.8 غيغابايت / ثانية وتأخير 3 ميلي ثانية. لا توجد أخطاء (إجمالي عدد الأخطاء).


في الوقت نفسه ، من محرك الأقراص المحلي "C" لمضيفنا ، نبدأ في وقت واحد في نسخ ملفين كبيرين بسعة 100 جيجابايت إلى وحدة تخزين FC و iSCSI LUN (محركات الأقراص E و G في Windows) ، باستخدام واجهات أخرى.


أعلاه عملية النسخ إلى LUN FC ، فيما يلي iSCSI.




اختبار رقم 1. تعطيل منافذ الإدخال / الإخراج


نحن نقترب من الجزء الخلفي من نظام التخزين))) ومع نقرة من الرسغ نقوم بسحب جميع كابلات FC و Ethernet 10G من وحدة التحكم Engine-0. كما لو كانت سيدة تنظيف مع ممسحة مرت وقررت غسل الأرض في مكانها خاط الكذب كانت الكابلات تكذب (أي أن وحدة التحكم لا تزال تعمل ، لكن منافذ الإدخال / الإخراج قد ماتت).



نحن ننظر إلى IOMETER ونسخ الملفات. انخفض عرض النطاق الترددي إلى 0.5 جيجابايت / ثانية ، ولكنه عاد سريعًا إلى مستواه السابق (في حوالي 4-5 ثواني). لا توجد أخطاء.



لم يتوقف نسخ الملفات ، فهناك انخفاض في السرعة ، لكنه غير مهم تمامًا (من 840 ميجابايت / ثانية ، انخفض إلى 720 ميجابايت / ثانية). النسخ لم يتوقف.


نحن نبحث في سجلات نظام التخزين ونرى رسالة حول عدم توفر المنافذ والنقل التلقائي للمجموعة.



أيضًا ، تخبرنا لوحة القيادة أن كل شيء ليس جيدًا مع منافذ FC.



فشلت منافذ الإدخال / الإخراج في التخزين بنجاح.


اختبار رقم 2. تعطيل وحدة تحكم التخزين


على الفور تقريبًا (بعد توصيل الكابلات مرة أخرى في نظام التخزين) ، قررنا إنهاء التخزين بسحب جهاز التحكم من الهيكل المعدني.


مرة أخرى ، نقترب من نظام التخزين من الخلف (لقد أحببنا ذلك))) وفي هذه المرة نسحب وحدة التحكم Engine-1 ، والتي في هذه اللحظة هي مالك RDG (الذي انتقلت المجموعة إليه).


الوضع في IOmeter كما يلي. توقف إخراج الإدخال لمدة 5 ثوانٍ تقريبًا. الأخطاء لا تتراكم.



بعد 5 ثوانٍ ، استؤنفت I / O ، بنفس معدلات الإنتاجية تقريبًا ، ولكن مع تأخير قدره 35 مللي ثانية (تم تصحيح التأخير بعد بضع دقائق تقريبًا). كما يتضح من لقطات الشاشة ، قيمة عدد الأخطاء هي 0 ، أي أنه لم تكن هناك أخطاء في الكتابة أو القراءة.



نحن ننظر في نسخ ملفاتنا. كما ترون ، لم تنقطع ، فقد كان هناك انخفاض بسيط في الأداء ، ولكن بشكل عام ، عاد كل شيء إلى نفس 800 ميجابايت / ثانية.



نذهب إلى نظام التخزين ونرى سوء الاستخدام في لوحة المعلومات بأن وحدة التحكم Engine-1 غير متوفرة (بالطبع ، لقد خبطناها).



نرى أيضًا إدخالًا مشابهًا في السجلات.



فشل وحدة التحكم في التخزين بنجاح أيضًا .


رقم الاختبار 3. فصل مزود الطاقة.


فقط في الحالة ، بدأنا نسخ الملفات مرة أخرى ، لكن IOMETER لم يتوقف.
نحن نسحب BP-Schnick.



تمت إضافة تنبيه آخر إلى وحدة التخزين في لوحة المعلومات.



نرى أيضًا في قائمة المستشعرات أن المستشعرات المرتبطة بمصدر الطاقة المسحوب تتحول إلى اللون الأحمر.



التنمية البشرية المستدامة تواصل العمل. لا يؤثر فشل BP-Schnick على تشغيل نظام التخزين بأي طريقة ، من وجهة نظر المضيف ، ظلت مؤشرات سرعة النسخ ومؤشر IOMETER دون تغيير.


الانتهاء من اختبار انقطاع التيار الكهربائي بنجاح.


قبل الاختبار النهائي ، قررنا إعادة وضع SHD مرة أخرى إلى الحياة بعض الشيء ، ووضع وحدة التحكم و BP-shnik مرة أخرى ، ووضع الأمور في نصابها من خلال الكابلات ، والتي أبلغتنا SHD بسعادة برموز خضراء في لوحة الصحة.




اختبار رقم 4. فشل ثلاثة أقراص في المجموعة


قبل هذا الاختبار ، أجرينا خطوة تحضيرية إضافية. والحقيقة هي أن تخزين Engine يوفر شيئًا مفيدًا جدًا - سياسات إعادة بناء مختلفة (إعادة بناء). في السابق ، كتب TS Solution عن هذه الميزة ، لكن تذكر جوهرها. يمكن لمسؤول التخزين تحديد أولوية تخصيص الموارد أثناء إعادة البناء. أو في اتجاه أداء الإدخال / الإخراج ، أي إعادة بناء أطول ، ولكن لا يوجد سحب أداء. أو في اتجاه سرعة إعادة البناء ، ولكن سيتم تخفيض الأداء. أو خيار متوازن. نظرًا لأن أداء التخزين أثناء إعادة إنشاء مجموعة الأقراص يمثل دائمًا صداعًا للمسؤول ، فسوف نختبر السياسة بانحياز في اتجاه أداء الإدخال / الإخراج وعلى حساب سرعة إعادة الإنشاء.



الآن تحقق من فشل محركات الأقراص. نحن أيضا تمكين التسجيل على LUNs (الملفات و IOMETER). نظرًا لأن لدينا مجموعة تماثل ثلاثية (RAID-60P) ، فهذا يعني أن النظام يجب أن يصمد أمام فشل ثلاثة أقراص ، وبعد الفشل يجب أن يعمل الاستبدال التلقائي ، يجب أن يكون هناك قرص واحد في مجموعة RDG بدلاً من أحد الأقراص الفاشلة ، ويجب أن تبدأ إعادة البناء عليه.


نبدأ. أولاً ، من خلال واجهة التخزين ، قم بتمييز الأقراص التي نريد سحبها (حتى لا يفوتك وعدم سحب قرص الاستبدال التلقائي).



تحقق من إشارة على الحديد. كل شيء على ما يرام ، ونحن نرى ثلاثة محركات الأقراص المميزة.



واسحب هذه الأقراص الثلاثة.



نحن ننظر إلى المضيف. وهناك ... لم يحدث شيء خاص.




نسخ المؤشرات (تكون أعلى مما كانت عليه في البداية ، لأن ذاكرة التخزين المؤقت تحسنت) و IOMETER لا تتغير كثيرًا عند سحب الأقراص وبدء إعادة الإنشاء (خلال 5 إلى 10٪).


نحن ننظر إلى التخزين.



في حالة المجموعة ، نرى أن عملية إعادة البناء قد بدأت وأنها على وشك الانتهاء.



يُظهر الهيكل العظمي RDG أن قرصين في حالة اللون الأحمر ، وتم استبدال أحدهما بالفعل. لم يعد قرص التصحيح التلقائي موجودًا ، فقد حل محله القرص الثالث الفاشل. تم تنفيذ Rebild لعدة دقائق ، ولم يتم مقاطعة تسجيل الملفات عند فشل 3 أقراص ، ولم يتغير أداء I / O كثيرًا.




لقد كان اختبار فشل القيادة ناجحًا بالتأكيد .


استنتاج


في هذا ، قررنا إيقاف إساءة استخدام أنظمة التخزين. لتلخيص:


  • FC Port Failure Check - Successful
  • فحص فشل منفذ إيثرنت - ناجح
  • فشل تحقق تحكم - ناجحة
  • فحص قوة الفشل - ناجح
  • تحقق من فشل القرص في المجموعة \ التجمع - بنجاح

لم توقف أي من عمليات التسجيل ولم تتسبب في حدوث أخطاء في التحميل الصناعي ، بالطبع ، كان انخفاض الأداء (ونحن نعرف كيفية إلحاق الهزيمة بهذا الأمر ، وهو ما سنفعله قريبًا) ، لكن بالنظر إلى أن هذه الثواني ، فهي مقبولة تمامًا. الاستنتاج: إن التسامح مع جميع مكونات التخزين AERODISK عملت على المستوى ، لا توجد نقاط من الفشل.


من الواضح ، في إطار مقال واحد ، لا يمكننا اختبار جميع سيناريوهات الفشل ، لكننا حاولنا تغطية الأكثر شعبية. لذلك ، يرجى إرسال تعليقاتكم ، رغبات المنشورات التالية ، وبطبيعة الحال ، نقد كاف. سنكون سعداء لمناقشة (والتوصل إلى أفضل التدريب ، فقط في حالة ، وتكرار الجدول الزمني)! حتى اختبارات جديدة!


  • نيجني نوفغورود (يعمل بالفعل - يمكنك التسجيل هنا https://aerodisk.promo/nn/ ) ؛
    حتى 16 أبريل 2019 ، يمكنك زيارة المركز في أي وقت عمل ، وفي 16 أبريل 2019 سيتم تنظيم دورة تدريبية كبيرة.
  • Krasnodar (قريبًا - اشترك هنا https://aerodisk.promo/krsnd/ ) ؛
    من 9 أبريل إلى 25 أبريل 2019 ، يمكنك زيارة المركز في أي وقت عمل ، وفي 25 أبريل 2019 سيتم تنظيم دورة تدريبية كبيرة.
  • Yekaterinburg (بعد الافتتاح ، اتبع المعلومات الموجودة على موقعنا أو على Habré) ؛
    من مايو إلى يونيو 2019.
  • نوفوسيبيرسك (اتبع المعلومات على موقعنا على شبكة الإنترنت أو على Habré) ؛
    أكتوبر 2019
  • كراسنويارسك (اتبع المعلومات على موقعنا أو على Habré) ؛
    نوفمبر 2019

Source: https://habr.com/ru/post/ar447070/


All Articles