AIOps في الممارسة العملية - ما يمكن لشركة Huawei FabricInsight

استجابة لزيادة عدد التطبيقات قيد التشغيل وعدد أجهزة الشبكة ، يزداد عرض النطاق الترددي للشبكة ويتم تشديد متطلبات تسليم الحزمة. على نطاق من مراكز البيانات السحابية الحرجة للأعمال ، لم يعد النهج التقليدي لصيانة البنية التحتية يسمح بحل المهام النموذجية. لذلك ، ولد مفهوم AIOps (عمليات تكنولوجيا المعلومات الخوارزمية).

وفقًا لـ Gartner ، ستستخدم حوالي 50٪ من الشركات AIOps بحلول العام المقبل. يمكننا أن نتحدث عن ما يمكن أن تفعله الأدوات المماثلة اليوم ، وذلك باستخدام مثال Huawei FabricInsight ، وهو محلل شبكة يمثل جزءًا من حل شامل لمراكز بيانات Huawei CloudFabric.



يوفر التحول الرقمي للمؤسسات فرصًا جديدة - إدخال تحليل البيانات الضخمة ، وتطوير خوارزميات التعلم الآلي - لم يعد مجرد بدعة ، ولكن حاجة واعية ، وإغلاقها يحقق ربحًا حقيقيًا. ومع ذلك ، تستلزم التطبيقات الجديدة زيادة متعددة في تعقيد البنية التحتية ، والتي تشكل في الوقت نفسه تحديات جديدة فيما يتعلق بصيانتها.

المشكلة الرئيسية في الحفاظ على البنية التحتية الكبيرة اليوم هي مقدار البيانات التي يجب جمعها ومعالجتها للحصول على معلومات حول حالة مركز البيانات ، وكذلك السرعة التي يجب أن تعطى بها إجابة ذات صلة لأسباب الفشل. من ناحية ، يتزايد عدد المعلمات التي يتم مراقبتها باستمرار ، من ناحية أخرى ، يلعب الوقت ضد المنظمات ، لأن هدف أي شركة هو استعادة توفر خدماتها في أسرع وقت ممكن إذا حدث خطأ ما (لا سيما مع مراعاة متطلبات SLA الصارمة). يتم تحديد سرعة "صعود" الخدمة بعد الانهيار إلى حد كبير من خلال سرعة التحقيق في الحادث. وهذا بدوره يعتمد على اكتمال المعلومات حول ما يحدث. ولكن إذا تم تثبيت ما لا يقل عن 50 - 100 رف خادم في مركز البيانات ، فلن تتمكن آليات المراقبة القياسية من مواجهة متطلبات النطاق الترددي العالي وتسليم الطرود في الوقت المناسب.

لماذا فشل SNMP؟


الآليات القياسية - SNMP و xFlow - تجمع البيانات فقط كل 5-15 دقيقة ، ومعلومات أخذ العينات. تم تطويرها في الأصل مع مراعاة قيود ما بعد المعالجة من البيانات المتراكمة دون مهمة تحديد المشاكل في الوقت الحقيقي. وحتى جمع البيانات المحدود هذا يؤثر على تشغيل أجهزة الشبكة.

بالنظر إلى أن حركة المرور التي لا تسبب المشكلات هي 3.65٪ فقط ، يكشف النهج التقليدي ، بناءً على نتائج التحليل ، عن 30٪ فقط من مشاكل الشبكة ، و 70٪ غير مرئي لأنظمة المراقبة.

هناك حاجة للمسؤولين ذوي الخبرة الذين يعرفون ماذا وأين يجب أن يبحثوا لتحديد جذر المشكلة من البيانات التي تم جمعها بواسطة SNMP و xFlow. يجب تحديد المشكلات عن طريق تحليل سجلات ضخمة ورسائل خطأ متعددة ، ثم إجراء تغييرات التكوين يدويًا. ولكن مع تطور SDN ، مع التمثيل الافتراضي للموارد المادية ، أصبح التكوين اليدوي شيئًا من الماضي. اليوم ، لم يعد بإمكان حتى طاقم من مسؤولي النظام ضمان الامتثال المستمر لمعلمات البنية التحتية لمتطلبات العمل.

FabricInsight يعمل بشكل مختلف


يقدم نظام FabricInsight Network Analysis Platform نهجًا مختلفًا ، وهو أتمتة صيانة الشبكة واكتشاف نقاط الفشل. يحلل FabricInsight سلوك التطبيقات ، ويحدد مسارات الشبكة التي يستخدمونها ويتتبع حالة الأجهزة عليها.



يعتمد هذا النهج على عنصرين رئيسيين - جمع جميع البيانات المتاحة وتحليلها التلقائي. بالإضافة إلى التصور الوظيفي وسياسة فتح البيانات ، يسمح لنا هذا النهج بحل العديد من المشكلات التي كانت طريق مسدود سابقًا.

جمع كل البيانات المتاحة.


مفتاح الاستجابة السريعة للوضع هو الصورة الكاملة لما يحدث داخل مركز البيانات على مستوى الشبكة. يستخدم FabricInsight آلية الاشتراك في القياس عن بُعد لجمع جميع بيانات خدمة المستوى الثاني في الوقت المناسب دون أخذ عينات. للحصول على صورة كاملة للشبكة ، يتم جمع البيانات حول تشغيل الأجهزة والتطبيقات ومرور حركة مرور الشبكة (رزم TCP SYN و FIN و RST) - يتم دعم ERSPAN لعكس الحزم دون استخدام وحدة المعالجة المركزية للجهاز و GRPC من Google للإبلاغ عن أداء الأجهزة نفسها.

يتم نقل البيانات التي تم جمعها من خلال FabricInsight LEAF إلى FabricInsight Collector ، الذي يراقب المعلمات الزمنية للحزمة التي تمر عبر الشبكة. يوفر Collector بيانات حركة مرور الشبكة مع الطوابع الزمنية ، ويقوم بترميز وإرسال عبر HTTP إلى FabricInsight Analyzer. يسمح لك هذا النهج بجمع أقصى قدر من المعلومات حول الشبكة ، والتقاط حتى رشقات نارية قصيرة الأجل لا يمكن اكتشافها بواسطة حلول "كلاسيكية".
في الوقت نفسه ، لا يبحث FabricInsight داخل حزم IP (لا يتم التقاط محتوياتها) ، وذلك باستخدام الرؤوس فقط في عملها. وبالتالي ، يمكن استخدامه في المناطق المهمة للأعمال ، على سبيل المثال ، حيث يوجد عمل مع البيانات الشخصية.

تحليل الوقت الحقيقي


العنصر الثاني لا يتجزأ من النظام هو محلل FabricInsight. تلقي البيانات التي تم جمعها ، فإنه يحدد مسارات حركة المرور ويدير خوارزميات التي تحلل الوضع في الوقت الحقيقي تقريبا. بشكل عام ، يقوم FabricInsight Analyzer بربط حركة مرور الشبكة بالتطبيقات ، مما يسمح لك بتحديد المشكلات وحلها بسرعة. بسبب التعلم الآلي ، يتم "تدريب" الخوارزميات لتحديد السلوك الطبيعي وغير الطبيعي للبنية التحتية.

يعكس NetworkInsight نتائج تحليل الشبكة في واجهته في شكل خرائط لحالة الشبكة ، تفاعلات التطبيقات ، تحليلات للتطبيقات الفردية ، وما إلى ذلك ، يتم تحديثها في الوقت الفعلي. يتم تنفيذ الواجهة بطريقة تربط بصريًا مستوى التطبيقات والأجهزة المادية المحددة المسؤولة عن قابلية تشغيل الشبكة ، مما يزيد من سرعة استكشاف الأخطاء وإصلاحها وطرق حلها.

إذا تم الكشف عن أي حالات شاذة ، يتم حفظ المعلومات الأولية تلقائيًا ، وفقًا لتحديد المشكلات (مدة التخزين قابلة للتعديل) ، إذا لزم الأمر ، يحذر FabricInsight المستخدم. بالإضافة إلى ذلك ، تتم تهيئة إجراءات تصحيح الموقف "بنقرة واحدة بالماوس" من خلال الواجهة الرسومية. في الوقت نفسه ، يتم تحليل أنماط تصحيح الخطأ المختلفة للعثور على النهج الأكثر صلة.

الحالات


لتحديد الشذوذ في مركز البيانات ، يتم استخدام تحليل الارتباط لتشغيل التطبيقات والأجهزة ومسارات المرور ، وبالتالي يتم تسجيل أنواع مختلفة من الحالات الشاذة - مؤقتة وطويلة الأجل.



بالمناسبة ، لا يمكن إصلاح معظم الحالات الشاذة المذكورة أعلاه باستخدام النهج الكلاسيكي. وهذا ينطبق أيضا على بعض الحالات الشاذة على المدى الطويل. مثال شائع إلى حد ما هو تحديث برنامج "ملتوية". لنفترض أن هناك تطبيقًا معينًا كان يعمل في مركز البيانات الذي ولد حركة مرور معينة. بعد تحديثه ، تغير حجم حركة المرور هذه بشكل كبير ، على سبيل المثال ، انخفض إنتاجية التطبيق ، زاد التأخير. سيتم إصلاح هذا الشذوذ بواسطة FabricInsight.

مثال آخر هو التدهور التدريجي لوحدة الاتصالات البصرية (فقدان الأداء) ، قبل الفشل. يحدد التدهور عدم استقرار الإرسال ، والذي قد يشير على مدى فترات زمنية طويلة إلى الحاجة إلى استبدال مبكر للمعدات. ولكن التعرف على هذا مع نهج قياسي أمر بالغ الصعوبة.



كإجابة على هذه المشكلة ، تعرض واجهة FabricInsight حالات جميع الوحدات البصرية في النظام بالإضافة إلى تقدير لاحتمالية فشلها.



التكامل


على الرغم من ظهور FabricInsight في السوق الروسية في يناير من هذا العام ، فقد تم نشره بالفعل في ICBC و China UnionPay و China Merchants Bank و PICC وغيرها من مراكز البيانات الكبيرة القائمة على بنية Huawei التحتية.

حتى الآن ، لا يدعم الحل إلا مفاتيحنا (على شرائح Broadcom) ، ولكن في المستقبل من المخطط أن يتجاوز النظام البيئي لشركة تصنيع واحدة. أيضًا ، عند العمل على FabricInsight ، ركزنا في البداية على المعايير المفتوحة حتى نتمكن من تكوين صداقات باستخدام أدوات الجهات الخارجية بشكل طبيعي. على سبيل المثال ، يمكن استخدام Druid لتصدير البيانات من FabricInsight ، والتي من خلالها يمكنك إرسال المعلومات إلى متخيل الطرف الثالث. تم دمج FabricInsight بالفعل مع أداة التقديم المفتوحة من Grafana.

بشكل عام ، أدوات AIOps مثل FabricInsight لدينا هي طريقة منطقية لتطوير أدوات مراقبة وصيانة البنية التحتية. يبدو لنا أن هذه هي الطريقة الوحيدة لمواصلة الامتثال لاتفاقية مستوى الخدمة للخدمات.

Source: https://habr.com/ru/post/ar443482/


All Articles