يثير موضوع الحوادث الكبرى في مراكز البيانات الحديثة أسئلة لم يتم الإجابة عليها في المقالة الأولى - قررنا تطويرها.

وفقًا لإحصائيات معهد Uptime ، فإن معظم الحوادث في مراكز البيانات مرتبطة بفشل نظام إمداد الطاقة - فهي تمثل 39٪ من الحوادث. يتبعهم العامل البشري - وهذا هو 24 ٪ أخرى من الحوادث. السبب الثالث الأكثر أهمية (15٪) هو فشل نظام تكييف الهواء ، والمركز الرابع (12٪) كان كوارث طبيعية. إجمالي حصة المشاكل الأخرى 10٪ فقط. دون التشكيك في بيانات المنظمة ذات السمعة الطيبة ، نسلط الضوء على شيء شائع في الحوادث المختلفة ونحاول أن نفهم ما إذا كان من الممكن تجنبها. المفسد: ممكن في معظم الحالات.
الاتصال بالعلوم
بعبارات بسيطة ، هناك مشكلتان فقط في مزود الطاقة: إما أنه لا يوجد اتصال بالمكان الذي يجب أن يكون فيه ، أو أنه يجب ألا يكون هناك اتصال. يمكنك التحدث لفترة طويلة عن موثوقية أنظمة الإمداد بالطاقة غير المنقطعة الحديثة ، لكنها لا توفر دائمًا. خذ على سبيل المثال الحالة المثيرة لمركز البيانات الذي تستخدمه الخطوط الجوية البريطانية التي تملكها الشركة الأم International Airlines Group. هناك نوعان من هذه المرافق بالقرب من مطار هيثرو - Boadicea House و Comet House. في أولها ، في 27 مايو 2017 ، حدث انقطاع غير مقصود في الطاقة ، مما أدى إلى زيادة الحمل وفشل نظام UPS. ونتيجة لذلك ، تضرر جزء من معدات تكنولوجيا المعلومات ماديًا ، واستغرق الأمر ثلاثة أيام لحل آخر حادث.
اضطرت شركات الطيران إلى إلغاء أو إعادة جدولة أكثر من ألف رحلة ، ولم يتمكن حوالي 75 ألف مسافر من السفر في الوقت المحدد - تم إنفاق 128 مليون دولار على دفع التعويض ، وليس حساب مراكز بيانات التكلفة اللازمة لاستعادة الوظيفة. قصة أسباب انقطاع التيار الكهربائي غير مفهومة. إذا كنت تعتقد أن نتائج التحقيق الداخلي ، التي عبر عنها المدير العام لمجموعة الخطوط الجوية الدولية ، ويلي والش ، حدث ذلك بسبب خطأ من المهندسين. ومع ذلك ، كان على نظام الإمداد بالطاقة غير المنقطع أن يتحمل مثل هذا الإغلاق - لذلك تم تركيبه. تمت إدارة مركز البيانات بواسطة متخصصين من شركة CBRE Managed Services ، لذا حاولت الخطوط الجوية البريطانية استرداد مقدار الضرر من خلال محكمة في لندن.

تحدث انقطاع التيار الكهربائي وفقًا لسيناريوهات مماثلة: أولاً ، سبب انقطاع التيار الكهربائي بسبب عطل مورد الكهرباء ، وأحيانًا بسبب سوء الأحوال الجوية أو المشكلات الداخلية (بما في ذلك أخطاء الموظفين) ، ومن ثم لا يمكن لنظام مزود الطاقة غير المنقطع التعامل مع الحمل أو انقطاع قصير في الجيوب الأنفية مما يؤدي إلى فشل العديد من الخدمات ، استعادة الصحة مما يترك انفراج الوقت والمال. هل من الممكن تجنب مثل هذه الحوادث؟ بالطبع إذا قمت بتصميم النظام بشكل صحيح ، فحتى منشئي مراكز البيانات الكبيرة ليسوا بمنأى عن الأخطاء.
عامل بشري
عندما يكون السبب المباشر للحادث هو الإجراءات الخاطئة لموظفي مركز البيانات ، تؤثر المشكلات في أغلب الأحيان (ولكن ليس دائمًا) على جزء البرنامج من البنية التحتية لتكنولوجيا المعلومات. مثل هذه الحوادث تحدث حتى في الشركات الكبيرة. في فبراير 2017 ، نظرًا لوجود عضو تمت كتابته بشكل غير صحيح في فريق الصيانة الفنية لأحد فرق مراكز البيانات ، تم قطع اتصال بعض خوادم Amazon Web Services. حدث خطأ أثناء تصحيح عملية الفوترة لعملاء السحابة Amazon Simple Storage Service (S3). حاول الموظف إزالة عدد معين من الخوادم الافتراضية التي يستخدمها نظام الفوترة ، ولكنه لمس مجموعة أكبر.

نتيجة لخطأ المهندس ، تم حذف الخوادم التي كانت تعمل عليها وحدات برامج التخزين السحابي الهامة في Amazon. أولاً وقبل كل شيء ، تلف نظام الفهرسة الفرعي ، حيث يحتوي على معلومات حول البيانات التعريفية وموقع جميع كائنات S3 في منطقة US-EAST-1 الأمريكية. أثر الحادث أيضًا على النظام الفرعي المستخدم لتخزين البيانات وإدارة مساحة التخزين المتوفرة. بعد إزالة الأجهزة الظاهرية ، تطلب هذان النظامان الفرعيان إعادة تشغيل كاملة ، ثم فوجئ مهندسو أمازون بحقيقة أن التخزين السحابي العام لم يتمكن من تلبية طلبات العملاء لفترة طويلة.
كان التأثير واسع الانتشار ، حيث أن العديد من الموارد الكبيرة تستخدم Amazon S3. أثرت الأعطال على شركات Trello و Coursera و IFTTT ، والأكثر روعة ، خدمات الشركاء الأمازون الكبار من قائمة S&P 500. ليس من السهل حساب الأضرار في مثل هذه الحالات ، لكن طلبها كان في المنطقة بمئات الملايين من الدولارات الأمريكية. كما ترون ، من أجل تعطيل خدمة أكبر منصة سحابة ، يكفي وجود فريق واحد خطأ. هذه ليست حالة معزولة ، في 16 مايو 2019 ، أثناء أعمال الصيانة ، Yandex. سحبت خدمة Cloud الأجهزة الافتراضية للمستخدمين في المنطقة ru-central1-c الذين كانوا مرة واحدة على الأقل في حالة SUSPENDED. هنا ، لقد تأثرت بيانات العملاء بالفعل ، والتي فقدت بعضها بشكل لا رجعة فيه. بالطبع ، الأشخاص غير كاملين ، لكن أنظمة أمن المعلومات الحديثة كانت قادرة على التحكم في تصرفات المستخدمين المميزين قبل تنفيذ الأوامر التي يدخلونها. إذا قمت بتطبيق هذه الحلول في ياندكس أو أمازون ، يمكن تجنب مثل هذه الحوادث.

تبريد متجمد
في يناير 2017 ، وقع حادث كبير في مركز البيانات Dmitrov من Megafon. ثم انخفضت درجة الحرارة في منطقة موسكو إلى −35 درجة مئوية ، مما أدى إلى فشل نظام التبريد للمنشأة. لم تتحدث الخدمة الصحفية للمشغل بشكل خاص عن أسباب الحادث - فالشركات الروسية مترددة للغاية في التحدث عن الحوادث في منشآتها ، من حيث الدعاية ، نحن متخلفون عن الغرب. في الشبكات الاجتماعية ، كان هناك نسخة عن تجميد المبرد في الأنابيب الموضوعة على طول الشارع وتسرب جليكول الإيثيلين. إذا كنت تصدقها ، فلن تتمكن خدمة التشغيل ، نظرًا للعطلات الطويلة ، من الحصول بسرعة على 30 طنًا من سائل التبريد وخرجت من خلال استخدام وسائل مرتجلة ، مما يؤدي إلى تنظيم دورات مرتجلة في انتهاك لقواعد تشغيل النظام. أدى تفاقم البرد الشديد إلى تفاقم المشكلة - في يناير ، حدث فصل الشتاء فجأة في روسيا ، رغم أن أحداً لم يكن ينتظرها. نتيجة لذلك ، اضطر الموظفون إلى إلغاء تنشيط جزء من رفوف الخادم ، نظرًا لعدم توفر بعض خدمات المشغلين لمدة يومين.

ربما ، هنا يمكنك التحدث عن حالة الطقس الشاذة ، ولكن هذه الصقيع ليست غير عادية لمنطقة العاصمة. يمكن أن تنخفض درجة الحرارة في فصل الشتاء في منطقة موسكو إلى مستويات أقل ، لذلك يتم إنشاء مراكز البيانات مع توقع التشغيل المستقر عند -42 درجة مئوية. في معظم الأحيان ، تفشل أنظمة التبريد في الطقس البارد بسبب عدم وجود تركيز عالٍ بشكل كافٍ من الجليكول والماء الزائد في محلول سائل التبريد. هناك مشاكل في تثبيت الأنابيب أو مع سوء التقدير في تصميم واختبار النظام ، وترتبط بشكل رئيسي مع الرغبة في الادخار. نتيجة لذلك ، يحدث حادث خطير من اللون الأزرق ، ويمكن الوقاية منه.
الكوارث الطبيعية
في أغلب الأحيان ، تؤدي العواصف الرعدية و / أو الأعاصير إلى تعطيل عمل البنية التحتية الهندسية لمركز البيانات ، مما يؤدي إلى إيقاف الخدمات و / أو إلحاق أضرار مادية بالمعدات. الحوادث الناجمة عن سوء الاحوال الجوية تحدث في كثير من الأحيان. في عام 2012 ، اجتاح إعصار ساندي على طول الساحل الغربي للولايات المتحدة بسبب الأمطار الغزيرة. يقع مركز البيانات Peer 1 في مبنى شاهق في مانهاتن السفلى ، وفقد إمدادات الطاقة الخارجية بعد أن غمرت المياه المالحة الطوابق السفلية. كانت مولدات الطوارئ التابعة للمنشأة في الطابق الثامن عشر ، وكانت إمدادات الوقود الخاصة بها محدودة - فالقواعد المطبقة في نيويورك بعد هجمات الحادي عشر من سبتمبر تحظر تخزين كميات كبيرة من الوقود في الطوابق العليا.
فشلت مضخة الوقود أيضًا ، لأن الموظفين قاموا لعدة أيام بسحب الديزل للمولدات يدويًا. أنقذت بطولة الفريق مركز البيانات من حادث خطير ، ولكن هل كان ذلك ضروريًا؟ نحن نعيش على كوكب مع جو من النيتروجين والأكسجين والكثير من الماء. العواصف الرعدية والأعاصير هنا شائعة (خاصة في المناطق الساحلية). من المحتمل أن يأخذ المصممون في الاعتبار المخاطر المرتبطة بهم وبناء نظام إمداد طاقة مستمر دون انقطاع. أو على الأقل اختيار مكان أكثر ملاءمة لمركز البيانات من المباني الشاهقة في الجزيرة.
كل الباقي
يميز معهد الجهوزية مختلف الحوادث في هذه الفئة ، ومن بينها اختيار نوع نموذجي. سرقة الكابلات النحاسية التي تصطدم بمركز البيانات ، وأبراج نقل الطاقة ، ومحطات فرعية للمحولات ، والحرائق ، والحفارات التي تفسد البصريات والقوارض (الجرذان ، والأرانب ، وحتى الأمبات ، التي تنتمي عمومًا إلى جرابيات جراحية) ، بالإضافة إلى الهواة لممارسة الرماية عند الأسلاك - . يمكن أن يكون انقطاع التيار الكهربائي ناتجًا عن سرقة مزرعة الماريجوانا غير القانونية للطاقة. في معظم الحالات ، يكون مرتكبو الحادث أشخاصًا محددين ، أي أننا نتعامل مرة أخرى مع العامل الإنساني عندما يكون للمشكلة اسم ولقب. حتى لو كان للوهلة الأولى يرتبط الحادث مع خلل فني أو كوارث طبيعية ، يمكن تجنبه إذا تم تصميم المنشأة بشكل صحيح وتشغيلها بشكل صحيح. الاستثناءات الوحيدة هي حالات الأضرار الجسيمة التي لحقت بالبنية التحتية لمركز البيانات أو تدمير المباني والهياكل بسبب الكوارث الطبيعية. هذه هي بالفعل ظروف قاهرة ، وجميع المشاكل الأخرى ناتجة عن التمديد بين الكمبيوتر والكرسي - ربما هذا هو الجزء الأكثر موثوقية من أي نظام معقد.