المراقبة كعملية لإدارة الأحداث

مرحبا يا هبر! اليوم نريد أن نطلعكم على مقال من رئيس الدعم الفني IT-GRAD أليك فخر الدينوفا ، والذي سنتحدث فيه عن كيفية قيامنا ببناء نظام مراقبة جديد كجزء من التعاون مع MTS PJSC. هذه المرة نحذف التفاصيل الفنية والفروق الدقيقة ونركز على التعقيد الإداري للعملية. في إطار الخفض ، سنتحدث عن الأحداث التي دفعتنا إلى بناء نظام مراقبة جديد تمامًا (بدلاً من "إزالة" النظام القديم) ، والتحدث عن رقائق المراقبة الجديدة كخدمة للعملاء والصعوبات التي واجهناها في هذه العملية.



كما تعلم ، يتم تمثيل مفهوم الموفر السحابي الموحد حاليًا بثلاث علامات تجارية متعاونة:

  • #CloudMTS ، التي أنشأها مركز الابتكار MTS ؛
  • IT-GRAD Company ، مزود IaaS المستند إلى مجموعة النظراء ؛
  • خدمة 1cloud.

الآن تعمل جميع العلامات التجارية ضمن هذا المفهوم مع بعضها البعض وتكمل بعضها البعض ، في محاولة لإغلاق طلبات شرائح مختلفة من جمهورنا. ومع ذلك ، خلال الاندماج ، واجهنا بعض الصعوبات ، واحدة منها أدت إلى تطوير نظام مراقبة جديد.

بعد المعاملة ، تم إطلاق عملية فصل البنية التحتية السحابية لتكنولوجيا المعلومات في IT-GRAD إلى جزء منفصل. لقد كانت لحظة انتقالية صعبة ، تم خلالها فصل عدد كبير من المعدات ومراكز البيانات ، والتي لم يتم تضمينها في مخطط المعاملة. لقد تغير توجيه الشبكات الداخلية والخارجية. في الوقت نفسه ، كانت المواعيد النهائية ضيقة ، ولم تنجح المشغلات في نظام المراقبة دائمًا في التحديث في الوقت المحدد. هذا أدى إلى توليد العديد من الحوادث الخاطئة من معدات غير موجودة.

في عملية إعادة التكوين العالمية ، كان موظفو هؤلاء أيضًا يواجهون أوقاتًا عصيبة. الدعم - لقد واجهوا مثل هذا التدفق الضخم من التنبيهات الخاطئة بحيث كان من الصعب للغاية معالجة جميع الأحداث بشكل صحيح وفي الوقت المناسب. كان من الضروري إعادة تكوين نظام المراقبة بالكامل ، وتحديثه للمهام الحالية ، وتحويله بالفعل إلى خدمة جديدة للاستخدام الداخلي ولعملائنا على حد سواء.

ونتيجة لذلك ، تقرر إنشاء وحدة مخصصة لإدارة الأحداث ، والتي ستنشئ نظام المراقبة في IT-GRAD ، وبالتالي تصبح مركزًا واحدًا لمراقبة حالة البنية التحتية للمزود السحابي المتكامل.

نتيجة للتحول ، المتطلبات الرئيسية هي:

  • يجب ألا يعمل نظام المراقبة على IT-GRAD فحسب ، بل يصبح أيضًا خدمة داخلية لمزود الخدمة السحابية الموحدة وخدمة للعملاء.
  • هناك حاجة لحل من شأنه أن يجمع الإحصاءات من البنية التحتية لتكنولوجيا المعلومات بأكملها.
  • نظرًا لوجود العديد من الأنظمة ، يجب أن تتلاقى جميع أحداث المراقبة في مجمع بيانات واحد ، حيث يتم فحص الأحداث والمشغلات مقابل CMDB واحد ، وإذا لزم الأمر ، يتم إعلام المستخدمين تلقائيًا.

بعد جمع وتحليل جميع البيانات التي كانت متاحة في ذلك الوقت ، قسمنا تنفيذ المشروع إلى عدة مراحل:

  1. تحديد المتطلبات لنظام الرصد.
  2. إعداد نماذج لخدمات "المكونات الصحية".
  3. تحليل متطلبات الموثوقية والتسامح مع الخطأ لنظام الرصد.
  4. اختبار وتنفيذ متسق للنظام.
  5. تنظيم المراقبة كخدمة للعملاء.

من أجل الوضوح ، نقدم هذه العملية في شكل مخطط انسيابي.





صعوبات النمو


بالطبع ، لا يمكن إدخال مثل هذا النظام المعقد بسلاسة تامة ، وقد واجهنا بعض الصعوبات.

  • النقطة الأولى هي تشكيل قسم جديد. اتضح أن العثور على متخصصين ذوي خبرة عالية ممن يعرفون ولديهم خبرة عملية في العمل مع أنظمة المراقبة المختلفة ليس بالأمر السهل. كان أحد متطلباتنا هو فهم المراقبة كخدمة ، وليس فقط كأحد مكونات البنية التحتية لتكنولوجيا المعلومات.
  • المواعيد النهائية لحل المشكلة.
  • بنية تحتية لتقنية المعلومات مجزأة جغرافيا تحتاج إلى الوصول إلى مستوى واحد.
  • عدد كبير من أنظمة المراقبة المختلفة التي يجب دمجها في نظام واحد.

الرصد وإعداد التقارير في نظام الرصد




الاشتراكية - البنية التحتية لتكنولوجيا المعلومات هي المحاسبة والتحكم. لا ينبغي ترك حدث واحد ، حتى الأكثر أهمية ، دون اهتمام. في الوقت الحالي ، تمكنا من بناء عملية إعداد تقارير ومراقبة ، بما في ذلك:

  • الإبلاغ عن الإحصاءات وتتبعها بشأن مكونات عملائنا ؛
  • إجراء تحليل إداري لـ "الوضع التشغيلي" للبنية التحتية الداخلية لدينا ؛
  • تخطيط تحسينات الخدمة على أساس التقارير المجمعة.

يسمح لنا CMDB المنفرد بتتبع حالة الأحداث ومحفوظاتها عبر البنية التحتية ككل ولكل مكون على حدة.
بالإضافة إلى ذلك ، بدأنا في مراقبة حالة الخدمات الفردية ، على سبيل المثال ، النسخ الاحتياطية ، أي صحة مهام النسخ الاحتياطي. إذا فشلت المهمة لسبب ما ، فإن النظام يسجل الحادث. إنه يشير إلى خادم النسخ الاحتياطي والمهمة نفسها والجهاز الظاهري - ومع معرفة ذلك ، يمكننا إصلاحه بسرعة. أيضًا ، من خلال خدمات المراقبة ، يمكننا تقديم تقارير لعملائنا.



نقدم أدناه لقطة شاشة لتقارير Live Technologies.



أدناه يمكنك مشاهدة تقرير موجز عن عدد الحوادث التي تم تجميعها حسب فئة وحدات التكوين (KE) من حيث درجة التأثير على البنية التحتية.



رصد نتائج النظام


نظام المراقبة الجديد يعمل بالفعل بنشاط ، ونحن على استعداد لنطلعكم على نتائج أعماله وملاحظاتنا الخاصة.

في الوقت الحالي ، تمكنا من استعادة مراقبة البنية التحتية IT-GRAD بالكامل والتخلص من توليد الحوادث الخاطئة. يتم اختبار الخدمة للعملاء وستتاح قريبًا. في المستقبل ، نخطط لاستكمال تكامل البنى التحتية عن طريق توصيل 1cloud و #CloudMTS بنظام مراقبة IT-GRAD واحد.



في السابق ، عندما تم تشغيل مشغل تنبيه ، تم إنشاء حادث على دعم خط واحد. قام المسؤول المناوب بمعالجته وإخطار العميل إما عن طريق الاتصال أو عبر البريد الإلكتروني.

الآن كل شيء يعمل بشكل مستقل: عندما يتم تشغيل المشغل لمدة دقيقتين ، إذا لزم الأمر ، يتم إخطار العميل تلقائيًا.

سنولي القليل من الاهتمام لكيفية عمل التنبيهات.



في حالة حدوث تغيير في حالة مكون تكنولوجيا المعلومات ، يسجل نظام المراقبة الحدث في مجمع البيانات ، الذي يعالج الحدث من خلال نص الرسالة ، وبناءً على درجة درجة خطورة حالة المكون المحدد في التنبيه ، يقوم بإنشاء طلب أو إخطار أو حادث بالأولوية المطلوبة. علاوة على ذلك ، يحدد النظام ، من خلال CMDB ، العميل الذي ينتمي إليه KE ، ووفقًا للنموذج الصحي ، فإنه ينبه عبر البريد الإلكتروني أو الرسائل القصيرة. بالإضافة إلى ذلك ، في الوقت الحالي ، يمر روبوت برقية خاص للتنبيهات بمرحلة وضع اللمسات الأخيرة وسيصبح متاحًا لجميع عملائنا قريبًا.



الآن ، كجزء من عملية مراقبة الخدمات والتحكم فيها ، نحن نراقب "الحالة الصحية" لبيئة تكنولوجيا المعلومات العاملة في الوقت الفعلي ، ونقوم تلقائيًا بإخطار المستخدمين الخارجيين والداخليين. تسمح لك مراقبة حالة البنية التحتية لتكنولوجيا المعلومات والخدمات ، وكذلك البيانات التي تم جمعها ، باتخاذ إجراءات استباقية قبل حدوث خطأ ما.

كما ترون ، فإن عملية بناء نظام المراقبة مليئة بالمخاطر. ومع ذلك ، نحن على يقين من أنه نتيجة للعمل المشترك للمهندسين والمحللين ، فقد حصلنا على منتج ممتاز يعمل على حل مشكلتي العمل في آن واحد: إنه يوفر لنا مراقبة عالية الجودة ويسمح لنا بتنفيذ المراقبة كخدمة للعملاء.

Source: https://habr.com/ru/post/ar479058/


All Articles