تعلم الآلة في مراقبة تكنولوجيا المعلومات

مقدمة



Netcracker هي شركة دولية ، مطور لحلول تكنولوجيا المعلومات المتكاملة ، بما في ذلك خدمات لوضع ودعم المعدات العميلة ، وكذلك استضافة نظام تكنولوجيا المعلومات الذي تم إنشاؤه لمشغلي الاتصالات.

هذه هي القرارات المتعلقة بتنظيم الأنشطة التشغيلية والتجارية لمشغلي الاتصالات. مزيد من التفاصيل يمكن العثور عليها هنا .

استمرار توافر الحل الذي يجري تطويره مهم جدا. إذا توقف مشغل الاتصالات عن العمل لمدة ساعة واحدة على الأقل ، فسيؤدي ذلك إلى خسائر مالية وسمعة كبيرة لكل من المشغل ومزود البرنامج. لذلك ، أحد معلمات الحل الرئيسية هي توفر المعلمة ، والتي تتراوح قيمتها من 99.995٪ إلى 99.95٪ حسب نوع الحل.

الحل نفسه عبارة عن مجموعة معقدة من أنظمة تكنولوجيا المعلومات المركزية المتجانسة ، بما في ذلك معدات الاتصالات المعقدة وبرنامج الخدمة الموجود في سحابة عامة ، فضلاً عن العديد من الخدمات المصغرة المدمجة مع قلب مركزي.

لذلك ، من المهم جدًا لفريق الدعم مراقبة جميع أنظمة الأجهزة والبرامج المدمجة في حل واحد. في معظم الأحيان ، تستخدم الشركة المراقبة التقليدية. هذه العملية راسخة: يمكننا بناء نظام مراقبة مماثل من البداية ونعرف كيفية تنظيم عمليات الاستجابة للحوادث بشكل صحيح. ومع ذلك ، هناك العديد من الصعوبات في هذا النهج التي نواجهها من مشروع إلى آخر.

  1. ما لرصد

    ما المقياس المهم حاليًا ، والذي سيكون مهمًا في المستقبل؟ لا توجد إجابة محددة هنا ، لذلك نحاول مراقبة كل شيء . الصعوبة رقم واحد - عدد المقاييس. هناك مشاكل في الأداء ، وتشبه لوحات المعلومات التشغيلية بشكل متزايد لوحة تحكم المركبة الفضائية.



    لقطة من لوحة القيادة الحقيقية. يمكن لمهندسي فريق الدعم تحديد الشذوذ في سلوك النظام بناءً على تمثيلهم الرسومي
  2. تنبيه / العتبة

    على الرغم من حقيقة أن لدينا خبرة في تشغيل العديد من الأنظمة الكبيرة ، إلا أن مراقبتها لا تزال مهمة صعبة نظرًا لخصائص المعدات المستخدمة وإصدارات البرامج من مختلف الموردين. غالبًا ما لا يمكن نقل الخبرة والقواعد الجاهزة تمامًا من حل إلى آخر. هناك مجموعة أساسية معينة ، يتم تحسينها بشكل تكراري ، كتحليل للحوادث الناشئة عن تشغيل الحل.
    الصعوبة الثانية هي عدم وجود قواعد واضحة للتخصيص.
  3. تفسير النتيجة

    عند حدوث حادثة ، من المهم جدًا تحديد موقعها بسرعة. هذا يعتمد إلى حد كبير على تجربة فريق الدعم ، حيث أنه في ظل الرسائل الثانوية حول حالات الفشل ، لا يمكنك ملاحظة السبب الجذري للمشكلات وتضيع الوقت في استجابة سريعة. وهذا هو التعقيد ثلاثة.

بمساعدة العمليات المنظمة بشكل صحيح ، يكون الفريق قادرًا على مواجهة الصعوبات المذكورة أعلاه ، ومع ذلك ، فإن الطلب الحديث لإجراء تغيير تفاعلي للقرار - عندما يتم قياس وقت الانتقال من فكرة إلى تنفيذ بالأيام - يعقد المهمة إلى حد كبير. مطلوب تدريب فريق مستمر. تؤدي التغييرات المستمرة إلى حقيقة أن بعض القواعد وعلاقات السبب والنتيجة تفقد معناها ، ونتيجة لذلك ، فإن الحادث ، الذي لم يتم القضاء عليه في الوقت المناسب ، يمكن أن يتحول إلى حادث.

كيف يساعدنا التعلم الآلي


يصبح التنبؤ بالأعطال في أنظمة الأجهزة والبرامج وظيفة شائعة جدًا للاستجابة الوقائية أو التفاعلية للحوادث. تستثمر شركة NEC ، الشركة الأم ، بكثافة في تطوير فكرة المراقبة. إحدى نتائج هذا الاستثمار هي تقنية تحليل نظام براءة الاختراع (SIAT) .

SIAT هي تقنية تعلم الآلة ، من بين مجموعة بيانات المستشعرات أو المقاييس المقدمة كسلسلة زمنية ، تجد باستخدام خوارزميات ML علاقات وظيفية ثابتة وتبني نموذجًا عامًا - رسمًا بيانيًا لهذه العلاقات. التفاصيل يمكن العثور عليها هنا .


شكل يوضح العلاقة الموجودة بين مجسات الأشياء المادية

انتشرت الفكرة ، التي تم تطويرها أصلاً لأنظمة تكنولوجيا المعلومات ، في الوقت الحالي فقط لمراقبة المجمعات المادية ، مثل المصانع والمصانع ومحطات الطاقة النووية. تقوم شركة لوكهيد مارتن ، على سبيل المثال ، بتنفيذ هذه التقنيات في قسم الفضاء الخاص بها. في عام 2018 ، أعادت Netcracker ، مع NEC ، إعادة التفكير في هذه الفكرة وإنشاء منتج مناسب لمراقبة أنظمة تكنولوجيا المعلومات كأداة لتحليلات إضافية. هام : هذه مجرد إضافة إلى نظام المراقبة ، ولكن ليس استبداله.

تطبيقات SIAT لأنظمة تكنولوجيا المعلومات


ما هو الفرق بين المعقدة المادية والبرمجيات؟ في أنظمة البرمجيات ، يتم استخدام المقاييس ، في الأنظمة المادية - أجهزة الاستشعار. يتم استخدام المقياس أكثر من ذلك بكثير ، نظرًا لأن المستشعر المادي يستحق المال دائمًا ويتم وضعه فقط حيثما يكون ذلك منطقيًا. مقاييس البرامج ، عندما يتم تنظيمها بشكل صحيح ، لا تكلف شيئًا. بالإضافة إلى ذلك ، تعد مقاييس البيانات الخاصة بأنظمة المعلومات أكثر صعوبة في الاستيفاء بشكل صحيح إلى حالة النظام. يسهل على الشخص فهم المستشعرات المرتبطة بالعالم المادي ، في حين أن القيم المحددة لمقاييس البرامج تكون منطقية فقط فيما يتعلق بجهاز معين ، وتكوين ، وتحميل.

يوحي الترابط الوظيفي في النموذج أيضًا بأنه إذا استبدلنا إصدار الجهاز أو البرنامج (على سبيل المثال ، تصحيحات نظام التشغيل) وأصبحت جميع العمليات أسرع أو أبطأ ، فلن يؤدي ذلك إلى رسائل خاطئة حول الحوادث بسبب عدم تغييرنا عتبات . إذا توقفت المقاييس عن الارتباط ببعضها البعض ، فإن هذا يعني انحرافًا عن القاعدة في سلوك النظام. علاوة على ذلك ، تسمح تقنية SIAT باكتشاف انحرافات صغيرة في السلوك في الوقت الفعلي ، بما في ذلك ما يسمى بالفشل الصامت - أعطال لا تصاحبها أي رسائل خطأ. وإذا كان هذا الانحراف مجرد نذير بحدوث فشل أكبر ، فلدينا وقت للرد بشكل صحيح.

لقد تحققنا من هذا البيان من خلال محاكاة خادم ويب Apache صغير قيد التحميل ، ومحاكاة الأخطاء الداخلية باستخدام آلية Fault Injection على Linux .

يتم تقديم النتيجة في شكل نقاط شذوذ متري عددي ، والتي ترتبط قيمتها بهذا النموذج. كلما كانت القيمة أكبر ، كلما كان الفشل أكثر خطورة: كلما كانت المقاييس تتصرف بشكل غير طبيعي. قيمة الحد هي 100 ٪ من المقاييس غير طبيعية ، لا يعمل النظام. بالإضافة إلى ذلك ، تشير النتيجة إلى تلك المقاييس التي يمكن اعتبار سلوكها حاليًا غير طبيعي. هذا يسرع إلى حد كبير تحليل سبب وتحديد النظام الفرعي الذي فشل حاليا ضمن نموذج السلوك الحالي.

بشكل عام ، يتيح لك SIAT الاستجابة حتى للتغيرات الطفيفة في السلوك التي لا يمكن اكتشافها تقريبًا باستخدام المراقبة التقليدية أو الأساسية.


الشكل يوضح اضطراب في العلاقة بين أجهزة الاستشعار

ميزة إضافية لـ SIAT هي خوارزمية إنشاء نموذج سلوك لا يتطلب الإشارة إلى أي معنى تجاري للمقاييس. تحدد الخوارزمية تلقائيًا جميع المقاييس التي يرتبط سلوكها ببعضها البعض ، وهذه العلاقة ثابتة. المقاييس المعزولة المتبقية هي إما أنظمة فرعية ذات نقاط لا تؤثر على حل تكنولوجيا المعلومات ، أو مقاييس ليست مهمة لحالة الحل في الوقت الحالي. إذا كان من المنطقي ، يتم تنفيذ مراقبة هذه المقاييس في إطار النهج التقليدي القائم على تنبيه العتبة .

من المهم جدًا أن يتطلب إنشاء نموذج البيانات المتعلقة بالأداء الطبيعي للنظام ، والذي يكون أبسط بكثير من عند التعامل مع التدريب على الحوادث.

يتم تحسين النموذج وإعادة بنائه إذا تغير السلوك أو أضفنا مقاييس جديدة إليه.

نظرًا لأن السلوك العادي للنظام هو خاصية متغيرة ، اعتمادًا على الوقت من اليوم وظروف العمل الأخرى ، فمن أجل استجابة أكثر دقة من المنطقي إنشاء العديد من النماذج التي تصف سلوك النظام في ظروف معينة.

كيف تبدو العملية


عملية تنظيم المراقبة على النحو التالي.

  1. نبدأ الرصد التقليدي. الاختيار الصحيح لاسم المقاييس مهم للغاية. الحقيقة هي أن النتيجة تتضمن أسماء المقاييس التي يكون سلوكها غير طبيعي ، مما يعني أنه كلما كان المقياس يصف المكان والمعنى بدقة أكبر ، كلما تم الحصول على النتيجة بشكل أسرع. على سبيل المثال ، مقياس يسمى ncp. erp_netcracker _com.apps.erp. clust4.wls .jdbc. LMSDataSource . يشير ActiveConnectionsCurrentCount إلى أنه في نظام Netcracker ERP ، يفشل المقياس المسمى ActiveConnectionsCurrentCount في نظام مجموعة Weblogic الرابع الخاص بـ LMSDataSource . بالنسبة للخبير ، فإن هذه المعلومات أكثر من كافية لتوطين الوضع الشاذ بدقة.
  2. بعد ذلك ، ندمج مع نظام تخزين بيانات المقاييس - في حالتنا ، ClickHouse - ونحصل على بيانات جميع المقاييس لفترة معينة من السلوك الطبيعي للحل: يتم بناء أفضل النماذج على أساس نتائج المراقبة لمدة 30 يومًا. للحصول على نماذج أكثر دقة ، نستخدم البيانات المترية في الدقيقة دون أي تجميع.
  3. نحن نبني نموذجًا باستخدام SIAT استنادًا إلى بيانات من نظام مراقبة. في إطار النموذج المشيد ، نقوم بتصفية العلاقات الوظيفية وفقًا لدرجة التشابه. باختصار ، هذه هي درجة انحراف السلوك عن شيء ما ، معبرًا عنه كنسبة مئوية.
  4. نتحقق من النموذج الموجود في بيانات الأيام السابقة ، حيث تم اكتشاف حالات الفشل باستخدام فريق المراقبة والدعم التقليدي.
  5. نبدأ المراقبة عبر الإنترنت: كل 10 دقائق ، يتم نقل بيانات جميع المقاييس إلى النموذج أو النماذج. نحصل على النتيجة - النتيجة الشاذة ، وإذا كانت النتيجة ليست صفرية ، بالإضافة إلى ذلك نحصل على قائمة بالمقاييس التي يكون سلوكها غير طبيعي حاليًا.
  6. يتم إرسال النتيجة إلى نظام المراقبة العام ، حيث يصبح جزءًا من لوحات المعلومات الشائعة وأدوات المراقبة التقليدية الأخرى.

اختبار


لا يتم تنفيذ واحد دون التحقق. نظرًا لأننا الأنظمة المختبرة ، فقد اخترنا نظام ERP الخاص بنا (متراصة ، Weblogic ، أوراكل ، 4500 مترًا) ونظام التوجيه لنظام المراقبة بأكمله ، 7 ملايين متر في الدقيقة ، - ترحيل الكربون (1200 متر ).

تم استخدام مقالب جميع المقاييس كمدخلات ، كما تمت الإشارة إلى الأيام التي سجلت فيها حالات الفشل. لتقييم النتيجة ، قدمنا ​​المفاهيم التالية:

  1. عدد الأخطاء من النوع الثاني هو عندما فشل نظام المراقبة أو فريق الدعم التقليدي ، ولكن SIAT لم يفعل ذلك .
  2. عدد الاكتشافات الصحيحة - عندما اكتشف كل من المراقبة التقليدية و SIAT مشكلة.
  3. عدد الأخطاء من النوع الأول - عندما اكتشف SIAT انحراف السلوك ، ولكن فريق الدعم لم يجد ذلك.

لم نجد أي أخطاء من النوع الثاني لكلا النظامين المختبرين. عدد الاكتشافات الصحيحة - 85٪ من إجمالي عدد حالات الفشل التي عثر عليها SIAT ، وفي حالة فشل المعدات - فشل مجموعة RAID في قاعدة البيانات - اكتشف SIAT تدهور السلوك مع إشارة دقيقة إلى المقاييس المرتبطة بقاعدة البيانات ، قبل سبع ساعات من الوصول ضبط قيمة العتبة في نظام الرصد.

ال 15 ٪ المتبقية من إخفاقات SIAT المشار إليها هي أخطاء من النوع الأول - سلوك غير طبيعي لا يمكن لفريق الدعم شرحه. ربما يرجع هذا إلى حقيقة أنه عند إنشاء النموذج ، تم تضمين تلك المقاييس تلقائيًا ذات معنى وظيفي ، ولكن ليس لها تأثير ملحوظ على السلوك العام للنظام. بعد العديد من الإيجابيات الخاطئة ، يمكن لخبير تكنولوجيا المعلومات تمييز هذه المقاييس على أنها غير مهمة وإزالتها من النموذج ، بعد أن وافق مسبقًا على ذلك مع الشركات الصغيرة والمتوسطة .

أظهرت النتائج أن هذا المنتج يعمل آلياً بالكامل على اكتشاف حالات الفشل (بما في ذلك الأعطال الخفية) ، وتوطين الحادث في الوقت المناسب وتقييم حجمه.

ما التالي


نحن الآن نراكم خبرة في تشغيل المنتج لأنواع مختلفة من أنظمة الأجهزة والبرامج من أجل تحليل مدى قابلية تطبيق هذا النهج على الأنظمة المختلفة: أجهزة الشبكات وأجهزة إنترنت الأشياء والخدمات الصغيرة السحابية وما إلى ذلك.

في الوقت الحالي ، مهمة إعادة بناء النموذج هي عنق الزجاجة. هذا يتطلب قوة حوسبة كبيرة ، ولكن لحسن الحظ ، يمكن إجراء إعادة الفرز على آلة معزولة ، وتصدير النتيجة كنموذج نهائي. لا يتطلب الرصد في الوقت الفعلي بحد ذاته موارد كبيرة ويتم تنفيذه بالتوازي مع المراقبة التقليدية على نفس الجهاز.

الخاتمة


خلاصة القول ، أريد أن أشير إلى أن استخدام مزيج من تقنيات المراقبة التقليدية وخوارزميات التعلم الآلي يتيح لك بناء نموذج بسيط يساعدك على الاستجابة في الوقت المناسب ، ومعرفة أين نشأت المشكلة ، وكذلك الحفاظ على النظام في حالة صالحة للعمل.

بالإضافة إلى تقنية SIAT الواعدة ، نقوم بتحليل إمكانيات استخدام تقنية NEC أخرى - تحليلات سجل الجيل التالي . تسمح هذه التقنية باستخدام خوارزميات التعلم الآلي واستخدام سجلات النظام لتحديد الحالات الشاذة المتعلقة بالحالة الداخلية للمنتج والتي لا تؤثر على التدهور العام للنظام من حيث الأداء.

ما التحليلات التي تستخدمها لمراقبة أنظمة تكنولوجيا المعلومات؟

Source: https://habr.com/ru/post/ar442620/


All Articles