حول الرصد

مقدمة


المراقبة هي الجزء الأكثر أهمية في البنية التحتية الخاصة بك. الرصد هو أساسيات مهندسي النظام. ومع ذلك ، كل شخص لديه طريقته الخاصة لفهم ذلك. طريقي يتكون من الحرمان. الغضب والقبول.


إنكار


إنكار


من الصعب تصديق ذلك ، لكن هناك غرفة خوادم في الصورة.


كان عام 2007. كنت أدرس في CSU (جامعة ولاية تشيليابينسك) في قسم أمن المعلومات في السنة الثانية. قررت التقدم بطلب للحصول على CSU كمساعد في مختبر أمن المعلومات. كانت وظيفة مؤقتة بدوام جزئي. بعد ذلك في عام 2009 ، حصلت على وظيفة دائمة بدوام جزئي في مؤسسة إنتاج تداول كمسؤول للنظام. في ذلك الوقت ، لم أكن أتعرف على المراقبة ، كنت مبتلًا خلف الأذنين واعتقدت أنه من الممكن أن أكون بطلاً في حل أي مشكلة تواجهها. على أمل ، كانت فترة قصيرة من حياتي ، شعرت أنها كانت خاطئة.


الغضب


الغضب


كان عام 2010 من أكثر السنوات المرهقة. عملت لأرباب عمل دورات تدريبية كان يستعد أطروحة الماجستير. علاوة على ذلك ، كنت المحافظ. تحت ضغط التجربة ، كانت رؤيتي حول المراقبة تتغير. اشتبكت تلك العملية مع استقالتي. قبل التخرج ، قررت الاستقالة والبحث عن وظيفة جديدة. كانت الغالبية العظمى من المقابلات مشوشة لأنني كنت طالبًا. ومع ذلك ، وافق أحدهم على تعييني ، وكان لدي وظيفة دائمة بدوام كامل لشركة دولية متعددة الجنسيات. تخرجت كنت أقوم بتحسين مهاراتي وخبرتي ، عملت مع شركات متقنة. كانت الغالبية العظمى من مشاريعنا الشركات الناشئة مذهلة ومثيرة للاهتمام. لقد صعدت مؤهلاتي للغاية ، لأنه لم تكن هناك طرق أخرى في حالة وجود 400 خادم للشخص الواحد. كنت قد عملت DevOps قبل أن يكون التيار الرئيسي. لقد أحرقت في العمل وقررت تغيير العمل.


في ذلك الوقت ، اعتقدت أنه كان علينا مراقبة كل شيء. كان من المهم حقا. يجب أن يتلقى الجميع إشعارات المراقبة. أيضا ، مجموعة أدوات الرصد كانت تتغير وتحسين. كان أحد البرامج الأولى للتطبيقات النصية bash / PowerShell (مساحة حرة ، عدد التحديثات المتاحة ، حالة النسخ الاحتياطية ، إلخ) والخدمات الخارجية Red Alert ، Lazy farmer (أداة داخلية للتحقق من الموقع). كانت جيدة بما فيه الكفاية في 2010-2011 ، ومع ذلك ، واجهنا الكثير من القضايا المختلفة:


  • البريد الإلكتروني الجحيم.
  • تأخير غير متوقع.
  • استخدام الموارد غير معروف.

لقد قررنا القيام بحياتنا أسهل قليلاً واختيار Zabbix. راقبنا كل شيء:


  • عدد المستخدمين المتصلين بـ wifi.
  • عدد الصفحات المطبوعة.
  • عد أنفاق VPN على قيد الحياة.
  • درجة حرارة الخوادم.
  • تحميل الشبكة.
  • الخ ...

أيضًا ، أود مشاركة بعض المشكلات التي تواجهها:


  1. كانت هناك بنية تحتية موزعة عبر العاصمة والكثير من المقاييس. واجهنا أنه في بعض الأحيان كانت المقاييس غائبة. نحن إصلاحه عبر وكيل Zabbix.
  2. في حالة فشل نفق VPN ، سنتلقى الكثير من الرسائل. نحن تكوين تبعيات البنية التحتية.
  3. نحن الآلي المهام المتكررة. أي في حالة انخفاض المساحة الحرة ، حاولنا تنظيفه تلقائيًا.
  4. لقد أدركنا أنها كانت فكرة سيئة لإخطار شخص ما إذا كان متوسط ​​قياس حمل وحدة المعالجة المركزية سيكون أكثر من 95 ٪ خلال 30 ثانية ، ونتيجة لذلك ، أضفنا شيئا مثل فترة العتبة.
  5. لقد تحققنا من سيناريوهات الأعمال الهامة (مثل تسجيل الدخول إلى الويب ، البحث ، إلخ).
  6. أضفنا Zabbix إلى عمليات تكامل السكايب ، بسبب عمليات الدردشة.
  7. Quis custodiet ipsos custodes؟
  8. الخ ...

القبول


القبول


بعد ذلك بقليل ، فهمت أن رجال الأعمال لا يهتمون من ناحية RAM / CPU / IOPS. إن اهتمامهم بمقاييس TTM (الوقت للتسويق) ومقاييس العمل ، ولكن من ناحية أخرى ، يجب أن يكون بإمكان تقنية المعلومات تتبع أي مشكلة.


الوجبات الجاهزة


  • إنكار . يجب ألا تراقب أي شيء ، لأنه يعلمك المستخدمون إذا حدث شيء غريب.
  • الغضب لديك لمراقبة كل شيء. يُسمح لك بإخطار CTO / CEO إذا كان متوسط ​​قياس وحدة المعالجة المركزية يزيد عن 95٪ خلال 30 ثانية.
  • القبول رجال الأعمال لا يهتمون RAM / وحدة المعالجة المركزية / IOPS. اهتمامهم TTM (الوقت لتسويق) ومقاييس الأعمال.

كانت Zabbix جيدة بما فيه الكفاية ، ولكن العالم كان يتغير. كان هناك الكثير من الأساليب الحديثة للرصد.


  • من الممكن تقسيم تطبيق مراقبة متراصة إلى مستويات مختلفة: التجميع والتخزين والحاضر.
  • يجب أن يعمل قطاع الأعمال وتكنولوجيا المعلومات بنفس البيانات تمامًا ، لكن يجب أن ينظروا إلى وجهات نظر البيانات المختلفة.
  • لا يوجد رصاصة فضية موجودة ، فهذا يعني أنه يجب عليك تخصيص حلولك.

PS


Source: https://habr.com/ru/post/ar437190/


All Articles