مراقبة خوادم Windows على MS SQL فقط ، وكيف نفذتها سراً

ذات مرة ، في مجرة ​​بعيدة وبعيدة ، كانت هناك شركة نمت منذ فترة طويلة من شركة ناشئة ، لكنها لا تزال مضغوطة وفعالة للغاية. استضافت الشركة (على أجهزتها) مئات خوادم Windows ، وكان لابد من مراقبتها بطريقة ما. حتى قبل مجيئي إليها ، تم اختيار NetIQ كحل.

تم إرشادي لإعداد NetIQ ، ولم يقم الشخص الذي فعل ذلك قبلي بكلمة واحدة عنه. طبع. سرعان ما أدركت لماذا. ربما يكون ستيف جوبز يدور في القبر ، وينظر إلى واجهة مشابهة:

الصورة

في سطر واحد ، منطق "الطيور" إيجابي (رفع الحدث). في سلبية أخرى (لا تثير الحدث). كيف تعمل "إثارة الأحداث فقط عندما" تعمل مع مجموعة مختلفة من مربعات الاختيار ، كنت أفهم بشكل عام فقط تجريبيًا (ونسيت بالفعل).

ومع ذلك ، كانت الميزة الأكثر سوءًا في NetIQ هي ضعفها. وكيلها ، الذي تم تثبيته على كل خادم ، كان أكثر عرضة للخطر من Windows نفسه. لا توجد ذاكرة كافية؟ طار الوكيل خارج. وحدة المعالجة المركزية 100٪؟ الوكيل لا يستجيب. بقي 0 بايت على القرص - ما رأيك؟ لإرسال رسالة ، يجب على الوكيل إنشاؤها أولاً على القرص ، كملف ... حسنًا ، أنت تفهم.

ومع ذلك ، عاشوا معها بطريقة أو بأخرى حتى تم شراء الشركة من قبل الشركة أكثر. عندما يأكل وحش شركة صغيرة ، تذوب هذه الشركة مثل قطرة في البحر. في حالتنا ، نحن أنفسنا ، بمعايير تكنولوجيا المعلومات ، كنا أقل بقليل من أولئك الذين اشتروا لنا ، وكان من الواضح على الفور أن عملية الاندماج ستكون صعبة للغاية. معقد للغاية لدرجة أننا لم نتلمسها على الإطلاق لبعض الوقت وبقيت جميع العمليات كما هي داخليًا. كانت هذه الحالة مشابهة للحظة التي سقط فيها خاتم القدرة المطلقة على الحمم البركانية ، لكنه لم يبدأ بعد في الذوبان:


في هذه الأثناء ، قمت بترقية NetIQ من الإصدار 7 إلى 8 ثم إلى 9 ، عندما بدأت مشاكلنا. راقب NetIQ بضعة أشياء فقط: توفر الخادم نفسه ، والذاكرة ، ووحدة المعالجة المركزية ، والقرص ، والأهم من ذلك - الخدمات. إذا كانت خدماتنا المكتوبة ذاتيًا في Automatic ، فيجب أن تكون قد عملت. لا ينبغي أن يكون هذا على هذا النحو:


هذه الأحداث في معظم الحالات وتوقفت عن مراقبة NetIQ. بعد أسبوع من التجارب وأسبوع من العمل مع الدعم ، اكتشفنا أن "هذا ليس خطأ ، هذه ميزة" وأنه يتم إنشاء تنبيه فقط برمز خروج معين. وقد سقطت خدماتنا في بعض الأحيان بأي رموز.

مر الكثير من الوقت وكان الأوان قد فات للتراجع. كما فهمت ، بعد أن اكتشفت أن بنيتنا التحتية الحيوية لا تخضع للمراقبة ، لم نفعل شيئًا على الفور ... لأنه بحلول هذا الوقت ، كان "حل" شركتنا في جزء أكبر قد دخل المرحلة النشطة ، وبدا شيء من هذا القبيل:


وصلتني أشجار رعد وصراخ وبروق بعيدة ، وبدا وكأن مصير العالم قد تقرر ، وكنت أتسلق مع نوع من المشاكل التقنية البسيطة ... لكنني لم أستطع النوم بسلام ، مع العلم أن مراقبتنا كانت نصف أعمى.

بعد أن أدركت أنه لا يوجد مكان لانتظار المساعدة ، قررت أن أكتب بسرعة ماسح ضوئي للخدمة يتخطى جميع الخوادم ويرسل بريدًا إلكترونيًا إذا لم يكن هناك شيء كما فعل NetIQ. ربما تعتقد أنني استخدمت Powershell؟ لا. إذا كان لديك مطرقة في يديك ، فإن كل شيء هو مسامير ، وإذا كنت تستخدم DBA وتعمل مع SQL منذ الإصدار 6.0 ، فعندئذٍ ... مقتطف قصير من الرمز بحيث يمكنك فهم ما يدور حوله:


فعلت ذلك في بضع ساعات. خلال الأيام القليلة التالية ، كان هناك تدقيق للرسائل والمعلمات وغيرها من الأشياء الجيدة. بعد القراءة عن أمر WMIC ، لم أستطع التوقف. ثم بضعة أسابيع في الضباب. استيقظت عندما تمت إعادة كتابة كل شيء استخدمناه في NetIQ وعملت مع ضجة.

لم يتم نسخ الوظيفة فقط - لقد أدركت كل خيالي ، كل ما أريده من مثل هذا النظام. LOWDISK - يمكنك أيضًا الحصول على رسم بياني لكيفية تصرف المساحة الخالية على القرص مؤخرًا - سواء كان هذا النمو طبيعيًا أو حدث خطأ. لا توجد ذاكرة كافية - هذا هو الجدول الزمني وقائمة العمليات والمقدار الذي تستغرقه ، وبالنسبة لملف w3wp.exe ، سننهي اسم تجمع التطبيقات والتذكيرات الذكية والمزيد. بالمناسبة ، يمكن للنظام أن يأخذ قائمة الخوادم بمفرده من VMware. كانت نظرة سريعة على موضوعات التنبيهات على الهاتف كافية لفهم ما كان يحدث:


اعتاد المبرمجون المعاصرون على التفكير بشكل مجرد لدرجة أنهم لا يستطيعون كتابة نظام مراقبة بخلاف "للخادم ، ندير مجموعة من البرامج النصية للمراقبة المجردة ، ولا نهتم بما بداخلها" ، بينما نراقب كل حالة - قرص ، ذاكرة ، وحدة معالجة مركزية ، خدمات - بطريقتها الخاصة فريدة من نوعها. من خلال إدراك ذلك "بشكل تجريدي" ، فأنت تفعل بشكل متساوٍ لكل حالة ، وهذا ما يحدث: (هذه لقطة شاشة من البريد الإلكتروني من SCOM. بالتأكيد يتم ذلك بدقة وفقًا لـ TOR)


كان هناك إضافة ضخمة للنظام الجديد أنه كان بدون وكيل ، على التوالي ، لم تكن هناك مشاكل في تثبيت الوكيل ، وتعطله - ببساطة لم يكن هناك شيء يسقط هناك. كان النظام بسيطًا وموثوقًا مثل المطرقة.

في الأشهر القليلة القادمة ، أتيت إلى العمل في الصباح ، وقفت أمام عقلي ، مثل فنان أمام لوحة ، وضربت بعض السكتات الدماغية ، مما جعلها أكثر مثالية. نظرًا لأنه لم يكن لدي أي مواعيد نهائية ، تم تقليل الديون الفنية إلى الحد الأدنى. في مرحلة ما ، ما زلت أجبر نفسي على التوقف.

لا يزال NetIQ يعمل ، لكن الجميع أحبوا النوع الجديد من التنبيهات أكثر ، وقمت تدريجياً بنقل الجميع إلى التنبيهات من النظام الجديد ، دون إيقاف تشغيل النظام القديم. في هذه الأثناء دخلت عملية "الاندماج" مرحلتها النهائية:


حسنًا ، كان من المفترض أن تنتهي القصة الخيالية. فوجئت بنفسي لأني استمتعت كثيرا في شركة بيروقراطية كبيرة. بعد شهر من التحضير ، أخبروني أنه في غضون أسبوع ، أطفأنا NetIQ ، وانتقلنا إلى SCOM. قمت بإيقاف تشغيل NetIQ (أعترف أنني كرهته كثيرًا لدرجة أنني كنت سعيدًا جدًا) وبدأت في انتظار SCOM. ولكن في الوقت المحدد لم يكن هناك. ليس بعد أسبوع ، وبعد شهر.

ظهر SCOM بعد ستة أشهر فقط - نسي شخص ما عدد الخوادم التي لدينا وعدد التراخيص التي نحتاجها لـ SCOM. في غضون ستة أشهر ، بدأت العديد من الأنظمة تعتمد على نظامي ، الذي بدأ في الاحتفاظ بالمخزون والمقاييس وأكثر من ذلك بكثير ، والتي بقيت بهدوء في المرتبة الثانية - غير رسمية. بالنسبة للمدققين ، هناك SCOM ، وكل شيء مفيد حقًا في النظام الثاني.

في بعض الأحيان تساءل المدراء من مستويات مختلفة - من أين تأتي رسائل البريد الإلكتروني الآلية هذه؟ في الآونة الأخيرة ، وصفت لهم بالتفصيل القصة التي حددتها في هذه المقالة ، وضحكوا بمرح. على الرغم من أنها لا تزال مضحكة للغاية بالنسبة لي في بعض الأحيان ، إلا أنه في شركة بيروقراطية كبيرة يمكنك "جر في غموض صامت" أشياء كثيرة. نعم ، ومن الجيد كتابة الرمز ، كما في الأيام الخوالي.

Source: https://habr.com/ru/post/ar430662/


All Articles