تعطل نشر البرامج غير الناجحة خدمة Cloudflare

هذا مقال مؤقت صغير ، سيتبعه لاحقًا تحليل كامل ومعلومات شاملة حول ما حدث اليوم.


اليوم ، لنحو 30 دقيقة ، يمكن لزوار مواقع Cloudflare رؤية الخطأ 502 بسبب قفزة حادة في تحميل وحدة المعالجة المركزية على شبكتنا. كان هذا بسبب فشل نشر البرنامج. لقد تراجعنا عن التغييرات ، والآن تعمل الخدمة كالمعتاد ، كما كان من قبل ، وعادت جميع المجالات التي تستخدم Cloudflare إلى مستويات حركة المرور العادية.


نؤكد لكم أنه لم يكن هناك أي هجوم ، ونقدم أعمق اعتذاراتنا لما حدث. يقوم مطورونا بالفعل بإجراء تحليل مفصل للأخطاء ويحاولون معرفة ما يجب القيام به لتجنب مثل هذه الحوادث في المستقبل.


نشر في 20:09 بالتوقيت العالمي:


اليوم في تمام الساعة 13:42 بالتوقيت العالمي (UTC) ، تم اكتشاف عطل في شبكتنا ، ونتيجة لذلك رأى زوار نطاقات Cloudflare الخطأ 502 ("بوابة سيئة"). كان سبب هذا الفشل هو نشر قاعدة خاطئة في Cloudflare Web Application Firewall (WAF) أثناء العملية القياسية لنشر قواعد CloudFare WAF الجديدة المدارة.


تم تصميم القواعد الجديدة لتحسين آلية حظر جافا سكريبت المضمنة المستخدمة في هجمات القراصنة. تم نشر هذه القواعد في وضع المحاكاة ، حيث يتم عادةً اكتشاف الأخطاء وتسجيلها دون حظر حركة مرور المستخدم ، مما يسمح لنا بقياس عدد الإيجابيات الخاطئة والتأكد من أن القواعد الجديدة ستعمل بشكل صحيح عند نشرها في إطار هذا المشروع.


لسوء الحظ ، تحتوي إحدى هذه القواعد على تعبير منتظم ، مما أدى إلى قفزة في وحدة المعالجة المركزية تصل إلى 100 ٪ على أجهزة الكمبيوتر لدينا في كل مكان. بسبب هذه القفزة ، شهد مستخدمو خدمتنا خطأ 502 ، وانخفض عدد الزيارات إلى 82٪.


يوضح الرسم البياني أدناه قفزة تحميل وحدة المعالجة المركزية على أحد PoPs لدينا:



لأول مرة واجهنا مشكلة الاستنفاد الكامل لموارد وحدة المعالجة المركزية ، والتي كانت غير متوقعة للغاية بالنسبة لنا.


إننا نقوم دائمًا بنشر البرامج في شبكتنا وقمنا بالفعل بتطوير أنظمة تلقائية لتشغيل الاختبارات وإجراء النشر التدريجي من أجل منع المواقف غير السارة. لسوء الحظ ، كان النشر العالمي لقواعد WAF عملية لمرة واحدة ، والتي تسببت في فشل اليوم.


في تمام الساعة 14:02 بالتوقيت العالمي ، أدركنا ما حدث وقررنا تعطيل مجموعات قواعد WAF تمامًا ، مما أدى إلى تطبيع حمل وحدة المعالجة المركزية واستعادة حركة المرور على الفور. لقد فعلنا ذلك في الساعة 14:09 بالتوقيت العالمي.


بعد ذلك ، قمنا بتحليل طلب السحب الإشكالي ، وقمنا بإعادة التغييرات في القواعد ذات الصلة ، واختبرنا إجراءاتنا للتأكد من أن الخطأ تم العثور عليه بشكل صحيح بنسبة 100٪ ، ثم استعدنا قواعد قاعدة WAF في الساعة 14:52.


نحن ندرك مقدار الضرر الذي تسببه هذه الحوادث لمستخدمينا. في هذه الحالة ، لم تتعامل آلية الاختبار الخاصة بنا مع المهمة ، ونحن نعمل بالفعل على تحسينها وتحسين عملية النشر لتفادي حدوث أخطاء مماثلة في المستقبل.

Source: https://habr.com/ru/post/ar458660/


All Articles