حوادث "لا تشاهد": تبرير إحصائي لوضع الدعم الفني على مدار الساعة طوال أيام الأسبوع



بناءً على نتائج العديد من التقييمات التشغيلية لمراكز البيانات حول العالم ، لاحظ معهد Uptime أن مستوى التوظيف في مراكز البيانات يختلف اختلافًا كبيرًا من مكان إلى آخر. هذه الملاحظة محيرة إلى حد ما ، لكنها ليست مفاجئة. في حين أن التوظيف هو نشاط مهم لمراكز البيانات التي تحاول الحفاظ على التفوق التشغيلي ، فإن العديد من العوامل الأخرى تؤثر على قرارات المنظمات حول المستوى المطلوب من الموظفين.

من بين العوامل التي يمكن أن تؤثر على المستوى العام للتوظيف ، يمكن للمرء تحديد مدى تعقيد مركز البيانات ، ودوران الموظفين ، وعدد ساعات العمل للدعم الفني المطلوب ، وعدد العقود مع المقاولين وأهداف العمل الخاصة بإمكانية الوصول. التكاليف مقلقة أيضًا ، نظرًا لأن كل موظف يمثل تكلفة مباشرة لمركز البيانات. نظرًا لهذه العوامل العديدة ، من الضروري مراجعة مستويات التوظيف في مراكز البيانات باستمرار لتقديم دعم فعال بسعر معقول.

غالبًا ما يطرح معهد وقت التشغيل السؤال: "ما هو مستوى التوظيف المناسب لمركز البيانات الخاص بي؟" لسوء الحظ ، لا توجد إجابة موجزة ستكون عالمية لكل مركز بيانات. يعتمد التوظيف المناسب على عدد من المتغيرات.

يعد الوقت المطلوب لإكمال مهام الصيانة والتأكد من اكتمال نوبات الدعم الفني متغيرين رئيسيين. يعد التوظيف لتلبية متطلبات الصيانة عاملاً ثابتًا نسبيًا ، ولكنه يعتمد على الإجراءات التي يقوم بها موظفو مركز البيانات والوظائف المسندة إلى المقاولين. يتم تعريف إدارة تحولات الدعم الفني بأنها التوظيف لرصد مركز البيانات والاستجابة لأية حوادث وأحداث. يمكن تحديد التوظيف في التحول للدعم الفني بطرق مختلفة. كل طريقة من طرق التوظيف لها تأثير محتمل على العمليات ، اعتمادًا على العمليات التي يغطيها الدعم الفني.

اتجاهات التحول


الهدف الرئيسي من الوجود الدائم للموظفين المؤهلين هو تقليل مخاطر الفشل الناجم عن الأحداث غير الطبيعية عن طريق منع وقوع حادث أو ردعه أو عزله ، بالإضافة إلى منع انتشاره أو تأثيره على الأنظمة الأخرى. تستمر العديد من مراكز البيانات في توفير حضور مستمر لفريق من المؤهلين من الكهربائيين والمهندسين الميكانيكيين والفنيين الآخرين الذين يقدمون وضع تشغيل على مدار الساعة طوال أيام الأسبوع. ومع ذلك ، فإن تقنيات المراقبة عن بعد ، والترتيب الخاص للمباني في شكل مجمع ، والرغبة في تحقيق التوازن بين التكاليف وغيرها من الأسباب قد تدفع المنظمات إلى تعيين موظفين بطرق مختلفة.

يمكن أن تؤدي إدارة نظام الدعم الفني دون وجود موظفين مؤهلين في أي وقت إلى زيادة المخاطر بسبب تأخر الاستجابة للحوادث غير الطبيعية. في نهاية المطاف ، يجب أن تتخذ الشركة قرارًا بمستوى مقبول من المخاطر.

تشمل نماذج الدعم الفني الأخرى ذات التغطية الكاملة ما يلي:

  • تدريب أفراد الأمن على الرد على الإنذارات وتنفيذ الإجراءات لحل المشاكل ؛
  • مراقبة مركز البيانات من خلال نظام مراقبة المباني المحلية أو الإقليمية (BMS) وإشراك فنيي المكالمة ؛
  • توافر الموظفين في الموقع خلال ساعات العمل العادية وعند الطلب ليلاً وفي عطلات نهاية الأسبوع ؛
  • عمل العديد من مراكز البيانات على شكل مجمع خاص من المباني ، يقدم فريقه الدعم للعديد من مراكز البيانات دون الحاجة إلى وجودها في كل مركز بيانات منفصل في أي وقت.

يجب تقييم هذه الطرق وغيرها من حيث الفعالية بشكل فردي. من أجل تقييم نموذج الدعم الفني ، يجب على مركز البيانات تحديد المخاطر المحتملة للحوادث في مركز البيانات وتأثيرها المحتمل على الأعمال.

على مدار العشرين عامًا الماضية ، قام معهد Uptime بتجميع قاعدة بيانات للحوادث غير الطبيعية (تقارير الحوادث غير الطبيعية ، AIRs) ، باستخدام المعلومات الواردة من أعضاء شبكة Uptime Institute. يقوم معهد Uptime بتحليل البيانات سنويًا وتقديم نتائجها إلى أعضاء الشبكة. تحتوي قاعدة بيانات AIRs على معلومات مثيرة للاهتمام تتعلق بمشكلات الموظفين ونماذج التوظيف الفعالة لمراكز البيانات.

تقع الحوادث خارج ساعات العمل


في عام 2013 ، وقعت أغلبية صغيرة من الحوادث (من أصل 277 حالة) خلال ساعات العمل. ومع ذلك ، حدثت 44٪ من الحوادث بين منتصف الليل والساعة 8:00 صباحًا ، مما يؤكد الحاجة المحتملة لوضع دعم فني على مدار الساعة طوال أيام الأسبوع (انظر الشكل 1).


الشكل 1: وقع حوالي نصف الحوادث الشاذة التي وقعت في عام 2013 بين الساعة 8 صباحًا وظهيرة ، والنصف الآخر من منتصف الليل إلى الساعة 8 صباحًا

يمكن أن تحدث الحوادث في أي وقت من السنة. إن تركيز نشاط الموظفين على مدار فترة معينة من السنة على سبيل الأولوية على الآخرين لن يكون مفيدًا (على سبيل المثال ، حظر الإجازة). يتم توزيع الحوادث بالتساوي إلى حد ما على مدار العام.

يوضح الشكل 2 توزيع الحوادث حسب أيام الأسبوع. يوضح الرسم البياني أن كل يوم من أيام الأسبوع له حصة متساوية تقريبًا ، مما يشير إلى أن التوظيف يجب أن يكون هو نفسه في نوبات كل يوم من أيام الأسبوع. هذا استنتاج مهم ، لأن بعض مراكز البيانات قد ركزت موارد العمل من دعمها الفني للفترة من الاثنين إلى الجمعة وترك أيام العطلة للمراقبة عن بعد (انظر الشكل 2).


الشكل 2. يجب أن يكون موظفو مركز البيانات جاهزين كل يوم من أيام الأسبوع.

الحوادث حسب الصناعة


يوضح الشكل 3 كذلك حوادث الصناعة ولا يظهر اختلافًا كبيرًا في الاتجاهات بين الصناعات. يوضح الرسم البياني أن صناعة الخدمات المالية أبلغت عن حوادث أكثر بكثير من الصناعات الأخرى ، ولكن هذا يعكس على الأرجح تكوين العينة.


الشكل 3. تقع الحوادث في مراكز البيانات على مدار السنة.

أسباب الفشل وطرق الكشف


بمعرفة متى تقع الحوادث ، لا يمكن قول الكثير عن الموظفين الذين يجب أن يكونوا في مكانهم. سيساعد فهم الحوادث التي تحدث في أغلب الأحيان في تشكيل هيكل التحول ، وكذلك معرفة كيفية اكتشاف الحوادث في أغلب الأحيان. يوضح الشكل 4 أن معظم الحوادث تؤثر على الأنظمة الكهربائية ، تليها الأنظمة الميكانيكية. على النقيض من ذلك ، تتسبب أعباء العمل المهمة في مجال تكنولوجيا المعلومات في عدد صغير نسبيًا من الحوادث.


الشكل 4. يرتبط أكثر من نصف الحوادث الشاذة التي تم الإبلاغ عنها في عام 2013 بالنظام الكهربائي.

ونتيجة لذلك ، من المنطقي أن يكون لدى جميع فرق التحولات الخبرة الكافية للاستجابة للحوادث الأكثر شيوعًا في الأنظمة الكهربائية. يجب أن يستجيب فريق الدعم أيضًا لأنواع أخرى من الحوادث. يمكن أن يوفر التدريب المتبادل للمهندسين الكهربائيين على الأنظمة الميكانيكية وأنظمة البناء تغطية كافية ، ويمكن للحاضرين الاتصال تغطية حوادث تكنولوجيا المعلومات النادرة نسبيًا.

تسلط قاعدة بيانات AIR أيضًا الضوء على كيفية اكتشاف الحوادث. يوضح الشكل 5 أن أكثر من نصف المعلومات الأساسية حول جميع الحوادث التي تم اكتشافها في عام 2013 تم الحصول عليها من أنظمة الإنذار ، وتم اكتشاف أكثر من 40٪ من الحوادث من قبل المتخصصين التقنيين في الموقع ، والتي تشكل معًا حوالي 95٪ من الحالات. أكبر تغيير على مر السنين يظهر في الرسم البياني هو النمو البطيء للحوادث التي تم اكتشافها بواسطة الإنذارات.


الشكل 5. التنبيهات هي الآن وسيلة للكشف عن معظم الحوادث. ومع ذلك ، غالبًا ما يتم العثور على مشكلات إمكانية الوصول بواسطة الخبراء التقنيين.

ومع ذلك ، لا يمكن للإنذارات الاستجابة للحوادث أو التخفيف من العواقب. شهد معهد Uptime عددًا من الأساليب التي تسمح لمراكز البيانات بتجنب الأعطال وتقليل تأثيرها. تتطلب هذه الأساليب من الأفراد الرد على الحادث ، وخلق فائض في النظم الحرجة ، وبرامج الصيانة التنبؤية الفعالة للتنبؤ بالفشل المحتمل قبل حدوثها. ويبين الشكل 6 عدد مرات "إنقاذ" كل من هذه المراكز لمراكز البيانات.


الشكل 6: ساهم تكرار المعدات في عام 2013 في زيادة "الإنقاذ" عما كان عليه في السنوات السابقة.

يوضح الرسم التخطيطي أيضًا أنه في السنوات الأخيرة أصبح تكرار المعدات والصيانة الوقائية أكثر كفاءة ويوفر مراكز البيانات المزيد والمزيد من المال. هناك العديد من التفسيرات المحتملة لذلك ، بما في ذلك زيادة موثوقية النظم ، والاستخدام الأوسع للخدمات الاستباقية وتخفيضات الميزانية ، مما يؤدي إلى انخفاض عدد الموظفين أو نقلهم خارج مركز البيانات.

الفشل في سياق السبب الجذري


تشير البيانات إلى أن جميع مشاكل إمكانية الوصول في عام 2013 كانت بسبب حوادث مع النظام الكهربائي. حدثت معظم حالات الفشل بسبب عدم تنفيذ إجراءات الصيانة بشكل صحيح. تؤكد هذه النتيجة أهمية وجود إجراءات كافية وموظفين مدربين تدريباً جيداً.


الشكل 7: ما يقرب من نصف حالات الفشل المبلغ عنها في عام 2013 كانت بسبب مشاكل الصيانة.

في الشكل. 7 يناقش أسباب الحوادث في عام 2013. تم وصف حوالي نصف الحوادث على أنها "في الخدمة" ، والتي تم تعريفها على أنها صيانة غير ملائمة أو إعداد غير لائق للمعدات أو فشل في العمل أو عدم وجود سبب رئيسي محدد. تشير حالات "الصيانة الوقائية" بالفعل إلى الصيانة الوقائية التي تم إجراؤها بشكل غير صحيح. تسبب موظفو مركز البيانات في 2٪ فقط من الحوادث ، مما يدل على أن تفاعلات الأفراد والمعدات لم تكن السبب الرئيسي للحوادث والفشل.

الخلاصة


إن التعقيد المتزايد لإدارة البنية التحتية لمركز البيانات (DCIM) ، وأنظمة إدارة المباني (BMS) وأنظمة التشغيل الآلي للمباني (BAS) يجعل من الصعب العثور على إجابة للسؤال عما إذا كان من الممكن تقليل عدد الموظفين في مراكز البيانات. إن التقدم في تحسين هذه الأنظمة كبير. يمكنهم تحسين أداء مركز البيانات الخاص بك ؛ ومع ذلك ، تظهر البيانات أن الوقاية من الحوادث غالبًا ما تتطلب موظفين في الموقع. هذا هو السبب في أن الاستمرار في الحصول على موظفين بدوام كامل (FTE) هو توجيه لمراكز البيانات المعتمدة من المستوى الثالث والمستوى الرابع.

الهدف الرئيسي هو توفير وقت استجابة سريع للتخفيف من عواقب أي حوادث وأحداث. تشير البيانات إلى أنه عند وقوع الحوادث ، لا يتم ملاحظة أي أنماط مؤقتة. يتم توزيع مظهرهم بشكل جيد على مدار 24 ساعة وطوال أيام الأسبوع السبعة.

الهدف الرئيسي هو الوقاية من المخاطر. تستمر مراكز البيانات في التطور ، مما يتيح للإدارة من خلال الوصول عن بعد وزيادة التكرار في الأجهزة. كل مركز بيانات فريد من نوعه ولديه مجموعة خاصة به من المخاطر الكامنة. وضع الدعم الفني هو عامل واحد فقط ، ولكنه مهم للغاية. القرار المتعلق بعدد الموظفين الذين سيشاركون في كل نوبة ومع المؤهلات التي يمكن أن يكون لها تأثير كبير على الوقاية من المخاطر وتوفر مراكز البيانات. اتخذ خيارات ذكية.

مقالات مدونة Cloud4Y الأخرى:

ما هي التكلفة الحقيقية لتعطل البنية التحتية لتكنولوجيا المعلومات للمؤسسات الصغيرة والمتوسطة الحجم؟ (رابط خارجي)
ذروة الحوسبة السحابية في أتمتة المؤسسات الصناعية (رابط خارجي)
ماذا يحدث لأسعار الحوسبة السحابية في السنوات الأخيرة (هبر)
كيفية إنشاء عينات لنظام القياسات الحيوية الموحد ولماذا يمكن أن تكون خطيرة (هبر)

Source: https://habr.com/ru/post/ar418077/


All Articles