نظام مراقبة التعدين

توصلت إحدى شركات التعدين الكبيرة إلى مهمة مثيرة للاهتمام: هناك العديد من المواقع التي تحتوي على أنظمة تكنولوجيا المعلومات. تقع في المدن وفي الودائع. هذه العشرات من المكاتب الإقليمية بالإضافة إلى شركات التعدين. 500 كيلومتر في التايغا بدون طريق - سهل! يوجد في كل مرفق معدات يجب "طويتها" في بنية تحتية مشتركة وتحديد ما هي وحالتها التي تعمل.

ما كان مطلوبًا هنا لم يكن مجرد جرد فني لجميع الأجهزة على الشبكة (الأرقام التسلسلية وإصدارات البرامج وما إلى ذلك) ، ولكن نظام مراقبة كامل. لماذا؟ من أجل تحديد الأسباب الجذرية للحوادث والتحذير منها على الفور ، قم ببناء خرائط الشبكة ، وارسم الاتصالات بين المعدات ، ورصد حالة الحديد وقنوات الاتصال ، وقم بعمل تحذيرات بشأن كيفية إنهاء الدعم أو تشغيل معدات جديدة غير محسوبة ، وما إلى ذلك. بالإضافة إلى ذلك ، كان التكامل مطلوبًا مع CMDB (مع مراعاة وحدات التكوين) ، بحيث تتم مقارنة كل الحديد الذي "وجده" نظام المراقبة مع ما هو مسجل في فرع معين ، أي أنه في الواقع في الشبكة.

نظام مراقبة آخر يجب أن يكون "أصدقاء" مع المهاتفة النجمة ، بحيث يكون هذا الأخير
في حالة حدوث بعض حالات الطوارئ الخطيرة مثل انقطاع التيار الكهربائي في الموقع في كراسنويارسك ، يمكن أن يتصل تلقائيًا بالأشخاص المسؤولين بسرعة. كانت هناك أيضًا مهمة للتمييز بين رؤية عناصر المراقبة وسلطات مجموعات المستخدمين. مشغلي رعاية المعدات ، موسكو - موسكو ، المهندسين في الميدان - فقط مجالهم.

اختار العميل بين عدة أنظمة مراقبة: 1) منتج تجريبي ؛ 2) أحد الحلول التجارية ؛ 3) نظام Infosim StableNet. نتيجة للاختبار ، أصبحت عيوب منتج البرامج المشتركة واضحة للعميل: كانت طويلة وصعبة التكوين ، بالإضافة إلى أنه لم يكن لديه مقدار الوظائف المطلوبة (في نفس الجزء ، على سبيل المثال ، تقديم الاتصالات بين الأجهزة على الشبكة). من خارج منطقة الجزاء ، لا يعرف كيف يفعل ذلك ، ولكن مع الإضافات ، يتضح ذلك. لم يكن المنتج التجاري يوزع وكلاء مراقبة - يتم تركيبهم على موقع محدد ويتحكمون فقط في "الأدغال" الخاصة بهم. وفقًا لذلك ، توقفنا عند Infosima - أغلق كل قائمة الرغبات. ولهذا السبب.

هذا ما تبدو عليه الشاشة الرئيسية لمدير InfoSim StableNet (هذا ليس مشروعًا معدنيًا ، بل بنية تحتية للاختبار).

الشاشة الرئيسية التي يتم عرض حالة الشبكة الحالية عليها:



تظهر لوحة التحكم على اليسار ، حيث يمكننا تكوين النظام وعرض الإحصائيات التي نحتاجها. على سبيل المثال ، يتيح لك زر Analyzer عرض إحصائيات لأي معلمة نجمعها ، على وجه الخصوص ، وقت الذهاب والعودة لمدة ساعة لقطعة معينة من الحديد.



يعرض زر الجرد بيانات المخزون الخاصة بأجسام المراقبة والجيران وجدول MAC لكل جهاز موجود في النظام. مريحة بشكل لا يصدق: يتم تسهيل عملية العثور على أي معلمة معدات في الشبكة من خلال الأرقام التسلسلية وأنواع المعدات وإصدارات نظام التشغيل ، وما إلى ذلك.



عندما ، في مكان ما بعيدًا في التايغا ، قام الموظفون المحليون ، على سبيل المثال ، بتثبيت مفتاح جديد ولم يخبروا أي شخص عنه ، أصبح على الفور مرئيًا في النظام. يقع هذا الجهاز في فرع خاص في شجرة أجهزة "الأجهزة الجديدة" ويصبح تلقائيًا في CMDB.



لا يتم استطلاع كائنات المراقبة للنماذج والنماذج التسلسلية فحسب ، ولكن أيضًا لتحميل الذاكرة والواجهات وما إلى ذلك. هناك دعم للعديد من البائعين - على وجه الخصوص ، الخوادم ، التخزين ، معدات الاتصالات ، أجهزة المستخدم النهائي. إذا كان هناك شيء مفقود ، يكتب العميل إلينا أو إلى البائع مباشرة وتتم إضافة قطع جديدة من الحديد. كل شيء بسيط.



يتكامل النظام مع MS Active Directory وخوادم RADIUS للحصول على تفويض عام وتطبيق سياسات المجموعة. هذا ما تبدو عليه بنية النظام:


الخادم المركزي مسؤول عن معالجة وعرض الإحصائيات المجمعة من الأجهزة.

العنصر الثاني المهم هو العامل المسؤول عن استجواب المعدات والتحقق من توافر الحديد. يمكن أن يكون هناك العديد من الوكلاء (البرامج البعيدة) ، ولدينا موضوع موزع جغرافيًا ، مع وكيل لكل موقع. يعد ذلك ضروريًا حتى لا يتم توجيه حركة بيانات التتبع عن بُعد إلى المؤسسة الأم - حيث يمتلك العميل عددًا كبيرًا من المواقع المتصلة عبر القنوات الفضائية باهظة الثمن ، لذلك يتم إرسال نتيجة القياس فقط. وقاعدة بيانات لتخزين كل ما يتم جمعه.

إذا كان الموقع البعيد غير متوفر ، فيمكن للموظفين في الموقع الاتصال بالوكيل مباشرة ومعرفة حالة "شجرتهم" الخاصة بالشبكة حتى بدون الوصول إلى الخادم المركزي.

يمكن أن يكون الوكيل عبارة عن خادم x64 / x86 يقوم بتشغيل RedHat أو CentOS أو Ubuntu أو Windows Server (للأنظمة الأساسية الكبيرة) أو وكيل صغير يعتمد على أجهزة كمبيوتر ARM الصغيرة مثل Raspberry PI (للأنظمة الأساسية الصغيرة). نحن لا نقوم بتحميل القناة بأصوات حديدية ، فالوكيل يقوم بذلك ، ويقوم بالفعل بتجميع الحزم بالإحصائيات.



يمكننا أيضًا إزالة اختلافات التأخير والارتعاش والارتعاش لمعدات Cisco (IP SLA) و Huawei (NQA). لذلك ، إذا أضاف العميل في المستقبل بعض الحديد الآخر ، فلن تواجه الشركة أي مشاكل - يمكننا أيضًا المساعدة في قياس مؤشرات جودة القناة وإجراء اختبارات اصطناعية وتحميل قنوات اتصال اختبار بين الوكلاء.



نظام المراقبة قادر على استقبال رسائل سجل النظام ، ومصائد SNMP من الحديد ، وتصفيتها وتوليد رسائل إنذار. يقوم تلقائيًا ببناء الطوبولوجيا على مستوى L2 و L3 ، وبناءً على ذلك ، يتم تكوين تبعيات حالات الطوارئ تلقائيًا (تحليل السبب الجذري) تلقائيًا. هذا أمر رائع للغاية ، لأنه يسمح بإبلاغ المسؤولين عن السبب الجذري للحادث ، وبالتالي تقليل الوقت اللازم لحله. على سبيل المثال ، إذا سقط في سلسلة من خمسة مفاتيح مفتاح واحد في المنتصف ، فسوف نتلقى رسالة مفادها أن المفتاح الثالث (السبب الأساسي) قد سقط ، وأن الرابع والخامس لا يمكن الوصول إليهما بسبب هذا.



يعمل الحل خارج الصندوق ، ولكن يمكن تخصيص العملية. لذا ، على سبيل المثال ، لتسهيل عمل دعمنا الفني ، "أضفنا" حالة مصدر الطاقة غير المنقطع وحالة الطاقة: إذا تم إيقاف تشغيل الطاقة في الموقع ، فبدلاً من 30 إنذارًا نحصل على واحد للطاقة. يحدث الارتباط وفقًا للطبولوجيا والمستخدمين والقواعد.

هناك تكوين مجموعة للمعدات ، لا يمكنك فقط استطلاع الأجهزة بشكل سلبي ، ولكن طرح التكوينات مثل الإعدادات على المفاتيح. تسجيل VLAN أو NTP على 40 مفاتيح؟ سهل!



من الرائع أيضًا أن يسمح النظام للعميل بالنسخ الاحتياطي لتكوين المعدات وفقًا لجدول زمني: جمع عمليات التهيئة مرة واحدة يوميًا أو أثناء حدث (على سبيل المثال ، تظهر رسالة حول تغيير التكوين - يمكنك إعداد مهمة ستحقق لحظة حدوث الحدث وجمع التكوين الذي تم تغييره). الشيء نفسه هو منحدرات ، لأحداث الطوارئ. سيساعد هذا كثيرًا في "استخلاص المعلومات" والبحث عن الجناة الرئيسيين لتغييرات التكوين. بالإضافة إلى ذلك ، في الواقع ، يتم إنشاء قاعدة بيانات محدثة لجميع تكوينات الأجهزة على الشبكة.

هناك API للتكامل. في مشروعنا ، تم رصد التكامل مع CMDB 1C: إدارة تقنية المعلومات ITIL Enterprise لتخزين جميع المعلومات حول المعدات (الأصول المادية). تتم مقارنة معلومات المسح مع ما هو موجود في الأصول ، عندما يكتشف معدات غير محسوبة ، يقول النظام: "هنا مفتاح غير مفهوم". اكتشف ما هو ، يسدون جميع الحقول الضرورية - موقع التثبيت ، الاسم ، إلخ. يتم الحصول على الرقم التسلسلي والاسم ورقم الجزء وإصدار البرامج الثابتة من الأجهزة. بعد ذلك ، يتم إرسال المهمة للمراقبة - يتم تغيير اسم قطعة الحديد في النظام ، ويتم تعيينها على الموضع الصحيح في شجرة الموقع ، ويتم تطبيق إعدادات المراقبة اعتمادًا على نوع قطعة الحديد (على سبيل المثال ، يجب استجواب معدات الحدود أكثر من البقية) ، ويتغير اسم المضيف على الجهاز نفسه ، وهكذا د.

العملية الميدانية


بادئ ذي بدء ، قمنا بإعداد التكامل مع م. هذا جعل الحياة أسهل لنا أثناء التنفيذ ، وكذلك في العملية اللاحقة. لا حاجة لإنشاء حسابات وحذفها للمستخدمين في كل مرة. سيتلقى النظام تلقائيًا جميع الحسابات النشطة من م. إذا استقال شخص فجأة ، فعندئذٍ يقوم النظام نفسه بإلغاء تنشيط هذا الحساب في المنزل ولا يمكن لأي شخص آخر إدخاله.

بالنسبة للمسؤولين والإدارة الوسطى ، كانت المهمة العاجلة للغاية هي الحصول على الكثير من التقارير. أثناء الإطلاق ، تم تكوين تقارير حول استخدام القنوات وإمكانية الوصول إليها ، وتوافر الغدد على المواقع ، وأعلى حالات الطوارئ ، وتقارير عن أنواع معينة من الحوادث ، وإصدارات نظام التشغيل ، وتقارير عن التغييرات في تكوين المعدات ، وغيرها.





يمكن مشاهدة التقارير بتنسيق HTML ، ويتم تلقيها عبر البريد بتنسيق PDF و XLSX مع التكرار المطلوب (مرة واحدة في اليوم أو الأسبوع أو الشهر ، إلخ). بالنسبة إلى التقارير المختلفة ، تم إعداد تكراره واستهدافه الشخصي لمستهلك التقرير.

يتمتع النظام أيضًا بالمرونة لإخطار وتنفيذ الإجراءات المخصصة في حالة الطوارئ ، ويمكنه إرسال رسائل البريد الإلكتروني ورسائل SMS (باستخدام بوابة SMS خارجية) ، بالإضافة إلى كتابة البرامج النصية الخاصة بك التي سيتم إطلاقها. على سبيل المثال ، قمنا بعمل روبوت Telegram في خدمة المراقبة السحابية الخاصة بنا ، والتي تخبر الموظفين المسؤولين في خدمة التشغيل لدينا عن حالات الطوارئ. يمكن أيضًا استجوابه لمعلمات مختلفة: "وحدة المعالجة المركزية ، 10.1.1.100" تُرجع "95٪" ، ولكن بالنظر إلى دعم تطبيق الهاتف المحمول ، قد يبدو هذا زائدًا قليلاً ، على الرغم من أنه ملائم.

بعد ذلك ، كتبنا نصًا للتكامل مع بدالة الهاتف. الآن ، عندما ينشأ موقف شديد الحدة (انقطاع التيار الكهربائي في المواقع الحرجة أو مراكز البيانات) ، يقوم النظام باستدعاء الأشخاص المسؤولين على الهواتف المحمولة وبصوت مثل سيري يقول: "الجهد عند مثل هذا الكائن أقل من مستوى حرج". يتم ذلك بكل بساطة: يتم تكرار الحادث في مجلد معين في مقسم الهاتف ، حيث تتم معالجته عن طريق خدمة الهاتف - تحتاج فقط إلى تحديد الأرقام مسبقًا لمن تتصل تلقائيًا. في الواقع ، قمنا بأتمتة عملية إخطار المسؤولين المسؤولين أو الإدارة في حالة وقوع حادث. وبعبارة أخرى ، استبدلوا الشخص الذي يجب أن يتصل ويبلغ عن الحادث.

وظيفة بحث مريحة للغاية للمستخدمين والغدد. يقول المستخدم: "شبكتي لا تعمل". من خلال عنوان IP الخاص به ، يمكنك أن ترى على الفور مكان توصيله (أي التبديل ، أي منفذ ، أي خشخاش) وأين تم توصيله من قبل:



يمكنك بناء أنواع مختلفة من الطوبولوجيا الرسومية التي تجعل الحياة أسهل للمهندسين. تحتاج ، على سبيل المثال ، لمعرفة أين لدينا نوع من التبديل. الأمر بسيط: لقد وجدوه في الفرع الصحيح (أو استخدموا البحث) وفتحوا جيرانه. يتم دعم العديد من مستويات الجوار (الأول هو الجيران المباشرون ، والثاني هو الجيران من الجيران ، وما إلى ذلك). ويمكنك أن ترى على الفور أين يقع محولنا في الهيكل ، أي الموانئ وأين يتصل ، ما هي عناوين الخشخاش على المنافذ. أو انظر إلى خريطة البروتوكول OSPF و BGP و EIGRP و STP و PIM و MPLS - سيقوم النظام بمعالجة كل هذا بنفسه ورسمه.



أو انظر بصريًا كيف "تبدو" الشبكة على أحد المواقع. من أجل الراحة ، قمنا بتقسيم أجزاء من مواقع WAN و LAN ونرسمها ببطاقات منفصلة. جميع المؤشرات والروابط تفاعلية. عند المرور فوقها ، يمكنك رؤية الحالة الحالية والوقوع في أي جهاز معين. أود أيضًا أن ألفت الانتباه إلى حقيقة أن المخطط من Microsoft Visio ، الذي رسمه المهندس نفسه ، يستخدم كركيزة لمثل هذا التقرير. رأى هذا المخطط عدة مرات كصورة ثابتة على الورق أو على الشاشة. الآن "يأتي إلى الحياة" ويقدم ملاحظات في الوقت الحقيقي. مريح للغاية.



وفقًا لمتطلبات العميل ، تم تحديد حقوق وصول المستخدم. هناك الكثير من الأدوار ، ولكن يتم تكوينها بمرونة. نظرًا للاختلاف في المناطق الزمنية بين الكائنات ، كانت ميزة ساعات العمل في الأدوار مفيدة جدًا: في أي وقت ، ولأي حوادث ، ولمن SMS ، وما إلى ذلك.

يقوم InfoSim StableNet بجمع إحصائيات الحوادث. وفقًا لتجربتنا ، في مثل هذه الحالات ، هناك مشاكل في العمل المخطط له - فهي تفسد التقارير وتسبب مخاوف غير ضرورية. وتجدر الإشارة هنا إلى أنه سيكون هناك عمل هنا: ثم ستنطلق أجهزة الإنذار في الوضع الصامت ، وسيشير التقرير بلون مختلف إلى أن فترة التوقف هذه هي خطة. نعم ، لا يتم الإعلان عن الأنشطة المخططة بأثر رجعي.



إذا لم تكن هناك فرص كافية خارج الصندوق ، يمكنك إنشاء قوالب مكتوبة ذاتيًا. على سبيل المثال ، كانت هناك نقاط وصول Motorola في المشروع. لم تكن هناك نماذج جاهزة لهم. باستخدام "المعالج" المدمج ، أنشأنا قوالب وراقبنا المعلمات التي أراد العميل رؤيتها (مستوى الإشارة ، نسبة الإشارة إلى الضوضاء).

كانت هناك حالة أخرى عندما "لم يفهم النظام" شركة مصنعة روسية وأظهر رمز الشركة المصنعة بدلاً من الاسم. في هذه الحالة ، يحتوي النظام على وظائف تسمح لك بإضافة موردين ونماذج جديدة للأجهزة في غضون ثوان.

فيما يلي قائمة بالميزات التي يسمح نظام المراقبة حاليًا للعميل بأدائها:

  1. مراقبة مدى التوافر باستخدام اختبارات ICMP.
  2. جمع المعلومات باستخدام SNMP.
  3. فحص الشبكات الفرعية بحثًا عن أجهزة جديدة.
  4. إرسال التقارير حسب الفترة.
  5. تنفيذ تكوينات النسخ الاحتياطي.
  6. تحليل التوفر.
  7. "دق الإنذار" حول عدم توفر المعدات أو إخراج المؤشرات خارج النطاق الطبيعي.
  8. Script SNMP يعوض كمشغلات وبيانات سجل النظام وأي مدخلات.
  9. التكامل مع م.
  10. اكتشاف اتصال الجهاز تلقائيًا (CDP ، LLDP ، حي L3) وبناءً على ذلك ، رسم خريطة الشبكة تلقائيًا.
  11. إنشاء "خرائط الطقس" لتصور حالة الشبكة مع القدرة على استخدام الركائز الرسومية.
  12. قم بإنشاء شاشات عمل (لوحات المعلومات) لعرض المعلومات التشغيلية حول حالة الشبكة والأجهزة.
  13. قم بإجراء جرد للمعدات (نوع المعدات ، الشركة المصنعة ، الطراز ، إصدار البرنامج ، عندما يأتي تاريخ EoS / EoL ، إلخ.)
  14. هناك REST API للتكامل العميق مع CMDB 1C والأنظمة الخارجية الأخرى.
  15. أداء تكوين مجموعة من المعدات من نظام المراقبة.
  16. تحقق من تكوين الجهاز لسياسات الشركة

المراجع


- دراجات دعم الخط الأول.
- قنوات الاتصال للرواسب المعدنية.
- بريدي: DDrozhzhin@croc.ru

Source: https://habr.com/ru/post/ar415621/


All Articles