لماذا مراقبة أنظمة التخزين؟


شخص ما سيسقط قريبا

لأن SHD يخزن قدس الأقداس - البيانات. إذا لم تعد البيانات متاحة ، فسوف تنبعث منها رائحة المقلية قريبًا. أو إذا انتهى المكان فجأة - أيضًا مفاجأة غير سارة. لذلك ، يجب أن تكون المراقبة إلزامية ، ويجب أن تشمل أنظمة التخزين.

هناك طريقتان رئيسيتان لرصد التخزين . إما استخدام نظام مراقبة عالمي مثل Nagios ، Icinga ، والذي سيجمع المعلومات عبر SNMP ، أو يشتري برامج متخصصة للغاية من الشركات المصنعة لأنظمة التخزين نفسها. بالطبع ، يوفر الخيار الثاني تحليلاً أعمق لحالة الحديد ، ويظهر أشياء محددة مثل حالة ذاكرة التخزين المؤقت ، iops ، معدل الضرب ، تحميل وحدة التحكم ، إلخ. هذا هو الخيار الذي غالبًا ما يتم اختياره من قبل عملائنا ، الذين لديهم مصفوفات كبيرة ومكلفة في الخدمة. .

ولكن بالمناسبة ، ليس كل شيء سلسًا جدًا مع برامج المراقبة التجارية. بمزيد من التفصيل سأقول المزيد. ستكون ، إذا جاز التعبير ، تجربة مباشرة. في وقت واحد ، لمدة عامين تقريبًا ، كنت أنهي أحد هذه الأنظمة لآلاف القطع الخضراء من الورق من بائع مشهور. والتقطها حتى بدأ دعم البائع بالتشاور معي. ولكن تم استبدال بعض مشكلات البرامج بمشاكل أخرى ، تمامًا كما تم استبدال بعض الهنود من الدعم بالهنود الجدد - وعندها فهمت الفكرة ، إن لم يكن التصرف بشكل جذري على الإطلاق ... بشكل عام ، بدأ كل شيء بهذا.

ما هو الخطأ في برنامج البائع؟


كما قلت ، فإن المراقبة من الشركة المصنعة تراقب بشكل مثالي أنظمة التخزين لنفس الشركة المصنعة. هذه هي ميزتها الرئيسية. تنمو العيوب من هنا: يتم دعم صفائف الشركات المصنعة الأخرى بشكل محدود أو لا يتم دعمها على الإطلاق. اتضح أنه إذا كان لديك عدة صفائف مختلفة في المزرعة ، فأنت بحاجة إلى عدة أدوات مراقبة مختلفة. نعم ، ولا تنسى ما ومتى تحتاج إلى النظر إليه في المرة القادمة. من الناحية المثالية ، بشكل عام من قبل المشرف لكل مجموعة.

ليس سرا أن الأدوات من الشركات المصنعة للبائعين تكلف المال ، وكبيرة جدا. كما أن تمديد الدعم يكلف أيضًا بنسًا واحدًا. وقد أتقن بعض البائعين تركيزًا جديدًا: فقد أعلنوا عن نهاية دورة حياة برامجهم وعرضوا ببساطة شراء منتج آخر ، دون ترحيل التراخيص. لقد كان مثل هذا الإعداد الذي حدث للتو منذ شهرين مع أحد عملائنا. لا توجد خيارات: إذا كنت ترغب في متابعة مراقبة الأجهزة - قم بإجراء عملية شراء جديدة.

إذا قمت بحفر برنامج البائع بشكل أعمق ، فستظهر ميزات أخرى غير سارة. على سبيل المثال ، في عدد من المنتجات ، يمكنك رؤية صورة الحالة الحالية ، ولكن لا يمكنك رؤية السجل للفترة السابقة. أو أن القصة محدودة: تتم إعادة كتابة السجل مرة واحدة كل 3 أيام. ببساطة لا توجد حاجة للحديث عن تراكم الإحصائيات. وغالبًا ما يكون تاريخ الأحداث مطلوبًا للتنبؤات ، على سبيل المثال ، شراء قطع الغيار ، والإبلاغ ، والتحقيق في الحوادث. على سبيل المثال ، يمكن دفع الفرامل في بعض أنظمة الأعمال إلى نظام التخزين ، وإذا لم تكن هناك بيانات فعلية ، فلا يوجد ما تخفيه وراءها.

وأخيرًا ، لا يسع المرء إلا أن يشكو من سرعة التحديثات والتغييرات في برنامج البائع. أوه ، كم مرة واجهت هذه المشكلة لممارستي الطويلة! تظهر نماذج جديدة من المصفوفات ، تخرج برامج ثابتة جديدة ، تظهر إعدادات جديدة. كل هذا يكسر بسهولة مراقبة العمل: إما أن يتوقف جمع نوع ما من INFA ، أو تسقط المصفوفات بشكل عام. في الرمز الصغير الجديد ، أوقفت الشركة المصنعة دعم الإصدارات القديمة من طبقة المقابس الآمنة ، ولم يدعم برنامج المراقبة بروتوكول TLS بعد. وفي البداية لم يتمكن أحد من إيجاد سبب. بعد تحقيقي الخاص ، أرسلت هذه المدخلات إلى الشركة المصنعة ، وقاموا بالفعل بتحديث المكتبات القديمة. ومع ذلك ، استمر كل هذا الروتين إلى أجل غير مسمى.

وبمجرد فشلنا في الطيار عند العميل. تم اقتراح استخدام برنامج البائع ، وأحب العميل كل شيء من حيث الوظائف والواجهة. ولكن للأسف ، لم يتم دعم أنظمتها الإنتاجية الرئيسية. كانوا مستعدين للانتظار لمدة شهر أو شهرين ، لكن البائع قال إنه لا توجد خطط لإدراج هذه الأنظمة في الدعم في المستقبل القريب (وكان هذا مجرد تحديث لخط Hitachi AMS على HUS).

بشكل عام ، هناك الكثير من الإزعاج ولسبب ما الكثير من المال.

منذ وقت طويل لم ألتقط لعبة الداما ...


شعرت بالإحباط بسبب هذه الحالة من الأشياء ، فكرت في كثير من الأحيان في كيفية تنفيذ المراقبة الخاصة بي للتخزين. إذا كنت تعرف المصفوفة جيدًا وتمتلك CLI الخاصة بها ، فيمكنك بسرعة الحصول على المعلومات التي تحتاجها حول الحالة أو الوصول إلى الجزء السفلي من المشاكل. بالطبع ، قبل ذلك ، من الضروري تجريف الكثير من الأحواض ومنتديات الدخان وقواعد المعرفة للبائعين ، وتقسيم المعلومات المختلفة بشكل جزئي. ولكن عندما تعرف أي أمر تكتب به أي مفتاح وما يعنيه كل عمود إخراج ، فأنت بالفعل معلم. بقي بناء هذه المعرفة في واجهة مريحة ، والتي ستواصل القيام بكل شيء من أجلك.

أعترف أنه في البداية خططت لكتابة الواجهة من الصفر أيضًا ، ولكن بعد ذلك صادفت Zabbix - وهي أداة ناضجة ذات مجتمع كبير ، والتي يسهل أيضًا توسيعها. كان لديه كل ما أحتاجه: واجهة ، نموذج يحتذى به ، إشعارات ، نظام تشغيل ، وكلاء عملاء وكيل. بقي فقط لهذا الجمع لتقديم معلومات حول أنظمة التخزين وقيم عتبة المعلمات المختلفة بشكل صحيح. بدأت القضية في الغليان. لدينا فريق من المتخصصين في المصفوفات. بالطبع ، من المستحيل معرفة جميع المصفوفات من قبل شخص واحد ، لذلك نحن مقسمون حسب النموذج والشركة المصنعة.

هناك صعوبة أخرى في تطوير المراقبة الخاصة بك وهي القدرة على الوصول إلى قطع الحديد نفسها بحيث لا تزال غير خائفة من تحميل وكسر وإجراء جميع أنواع التجارب. لحسن الحظ ، سمحت موارد مختبرنا بكل هذا.

أول شيء يجب مراقبته هو صحة جميع مكونات الأجهزة. يمكن أخذ شيء ما عبر SNMP ، ولكن في معظم الحالات يكون هذا مسحًا باستخدام بروتوكول خاص (SMI-S و REST API و SOAP API وغيرها). يجب أن أقول أن المصفوفات نفسها تسمح لك بتكوين إشعارات حول الأعطال عليها. ويستخدم جميع العملاء هذا على الأقل. ولكن ماذا يحدث إذا انقطع الإشعار نفسه على المصفوفة؟ حدث هذا ، وأكثر من مرة ، عندما كانت المجموعة صامتة لأسابيع وبدا للجميع أن كل شيء كان على ما يرام ، كان صامتًا. ثم أصبح من الواضح فجأة أن عددًا كبيرًا من الأقراص طار عليه ، ولكن كان قد فات الأوان بالفعل.

النقطة الثانية المهمة للمراقبة هي الأداء. لأنه عندما يعتمد الأداء على نظام التخزين مع تأخير التسجيل لبضع ثوانٍ ، يمكن لشركة Oracle أن ترتفع وتنخفض. ليس لدي فكرة. إنه أداء في البنى التحتية الكبيرة مع العديد من أنظمة التخزين التي تسيطر عليها. ولدى Zabbix تحليل تنبؤي مناسب للغاية: استنادًا إلى التوقعات ، يمكنك تعيين قيمة المقياس ، والذي سيصبح في المستقبل. على سبيل المثال ، قمنا بعمل محفز يعمل إذا كان هناك توقع بأنه لن يتبقى سوى 3 أشهر للتخلص الحالي. أو ، على سبيل المثال ، أن وقت الاستجابة وفقًا للتنبؤ في أسبوعين سيكون أكثر بمقدار 50 مللي ثانية. يمنحنا الرصد وقتًا للتعرف على المشكلات القادمة مسبقًا والقيام بشيء بالفعل.

في مرحلة ما ، أدركنا أنه من الجيد معرفة حالة التخزين ، بالطبع ، ولكن من الأفضل أن نفهم ما يحدث على الشبكة وعلى جانب الخادم. ونتيجة لذلك ، بعد عدة أشهر من العمل ، أصبح من الممكن رؤية كل من الخوادم والشبكة وأنظمة التخزين في واجهة واحدة. لم تظهر فقط المكونات الإضافية والموصلات للتخزين ، ولكن أيضًا ربط مفيد في شكل خرائط طوبولوجيا الشبكة. حتى الآن ، بالطبع ، يأخذ البرنامج المساعد في الاعتبار خبرتنا واحتياجاتنا ، ولكن إذا أخبرتنا ما تحتاج إلى رؤيته فيه ، فسنقوم بتحريفه.


طوبولوجيا شاملة لكتلة VMware: من الجهاز الظاهري إلى حجم التخزين



الأداء

على الرسم البياني لأداء المصفوفة ، نرى أن النظام مثقل للغاية. يشير الاستخدام العالي لمجموعات الأقراص إلى زيادة تحميل الأقراص. هناك الكثير من عمليات الإدخال / الإخراج على منافذ التخزين ، مما يعني أن أنظمة تكنولوجيا المعلومات تقوم بتحميل الصفيف من جانبها. حسنًا ، الرسم البياني المميز لوقت الاستجابة ، بالإضافة إلى استخدام المعالجات فوق القيم الموصى بها. الحكم - تم وضع الكثير من المهام على المصفوفة ؛ يجب ترحيل بعضها.


خريطة شبكة التخزين: البحث عن الاختناقات

الملخص


على ماذا حصلنا؟ لقد زودنا نظام مراقبة Zabbix الرائج والشائع جدًا بميزات جديدة ، بما في ذلك:

  1. جمع معلومات عن حالة جميع الأجهزة والمكونات المنطقية من صفائف الأقراص ومفاتيح التبديل لشبكة التخزين.
  2. إحصائيات الأداء لجميع الأنظمة التي أنشأناها للمكونات الإضافية (لدى البائعين ثغرات في هذا الصدد).
  3. خرائط طوبوغرافية لكل من شبكة التخزين المشتركة ومن البداية إلى النهاية من الأجهزة الافتراضية إلى وحدات التخزين على أنظمة التخزين (حتى الآن فقط لـ VMware).
  4. جمع كل معلومات المخزون.
  5. مقدار مساحة القرص.

يتيح لك Zabbix نفسه إنشاء إشعارات رائعة جدًا ، وتعيين عتبات ، وإرسال رسائل إعلامية حول المشكلة. على سبيل المثال ، إذا سقط المنفذ على المحول (أو أصبحت حركة المرور على المنفذ كبيرة جدًا) ، فلن تحتوي الرسالة على اسم المحول برقم المنفذ فحسب ، بل ستحتوي أيضًا على معلومات حول الجهاز المتصل.

ما الأنظمة التي ندعمها حاليًا؟ العديد من الاختلافات:

  1. جميع صفائف هيتاشي (AMS ، HUS ، VSP ، VSP G).
  2. المصفوفات Dell-EMC CLARiiON و VNX و Unity و ISILON و Compellent.
  3. صفيفات HPE 3PAR و P9500 و XP7.
  4. صفائف IBM Storwize ، DS5000.
  5. المصفوفات NetApp FAS (7-mode ، c-mode).
  6. HPE StoreOnce و EMC DataDomain Disk Libraries.
  7. بروكيد دودة القز ، Cisco MDS.

لدينا أيضًا ملحقات لبعض أنظمة التشغيل (Windows ، ESX) ، والتي نجمع بها البيانات على FC HBA من أجل رسم خرائط طوبوغرافية في المستقبل. تطوير المكونات الإضافية بنشاط لأنظمة OpenStack وأنظمة المحاكاة الافتراضية.

عند تطوير المكونات الإضافية ، يتم أخذ خبرة مهندسينا في الاعتبار ، والتي خلفها هناك العديد من الحالات لحل المشكلات في المصفوفات - كل من الأجهزة والأداء. تم تطوير المكونات الإضافية الجديدة عند الطلب في وقت قصير بسبب العدد الكبير من المكتبات الجاهزة الخاصة بها.

يقوم بعض عملائنا بتكوين النظام على النحو التالي: يتم تلقائيًا إرسال الإشعارات التي تحتوي على رقم العقد وأشخاص الاتصال وجميع معلمات المكون المعيب إلى بريدنا. هذا يقلل من وقت رد الفعل ويطلب قطع الغيار اللازمة ، حيث لا يحتاج المهندس المناوب إلى الاتصال وتوضيح الكثير من المعلومات - حتى في الليل. يذهب التطبيق على الفور للعمل.

كيف تحل مشاكل مراقبة البنية التحتية ، ولا سيما التخزين؟ أخبرنا عن ذلك في التعليقات أو في الرسالة إلى البريد VRyzhevsky@croc.ru

Source: https://habr.com/ru/post/ar413247/


All Articles