تبين أن نهاية الشهر الأول وبداية الشهر الثاني من صيف 2019 كانت صعبة وتميزت بالعديد من الانخفاضات الكبيرة في خدمات تكنولوجيا المعلومات العالمية. من أبرزها: حادثان خطيران في البنية الأساسية لـ CloudFlare (الأول - بأيد ملتوية وموقف مهمل تجاه BGP من قِبل بعض مزودي خدمات الإنترنت من الولايات المتحدة الأمريكية ؛ والثاني - مع النشر المتعرج لعقود CFs نفسها ، وتأثير كل من يستخدم CF ، وهذه العديد من الخدمات البارزة) و التشغيل غير المستقر للبنية التحتية لشبكة CDN على Facebook (التي تؤثر على جميع منتجات FB ، بما في ذلك Instagram و WhatsApp). كان علينا أيضًا أن نكون تحت التوزيع ، على الرغم من أن انقطاعنا كان أقل وضوحًا على خلفية عالمية. لقد بدأ شخص ما بالفعل في سحب المروحيات السوداء والمؤامرات "السيادية" ، وبالتالي فإننا نصدر حالة وفاة بعد الحادث العام.
07/03/2019 ، 16:05بدأنا في إصلاح مشكلات الموارد ، على غرار انتهاك اتصال الشبكة الداخلية. نظرًا لعدم التحقق من كل شيء تمامًا ، بدأوا يخطئون بشأن تشغيل القناة الخارجية في اتجاه Data Line ، حيث أصبح من الواضح أن هناك مشكلة في وصول الشبكة الداخلية إلى الإنترنت (NAT) ، إلى الحد الذي وضعوا فيه جلسة BGP في اتجاه DataLine.
07/03/2019 ، 16:35أصبح من الواضح أن المعدات التي تؤدي ترجمة عنوان الشبكة والوصول إليها من الشبكة المحلية للموقع إلى الإنترنت (NAT) قد فشلت. لم تؤدي محاولات إعادة تشغيل الجهاز إلى أي شيء ، فقد بدأ البحث عن خيارات بديلة لتنظيم الاتصال قبل تلقي استجابة من الدعم الفني ، نظرًا لأن التجربة لن تساعد على الأرجح من التجربة.
تفاقمت المشكلة إلى حد ما بسبب حقيقة أن هذا الجهاز قد أنهى أيضًا الاتصالات الواردة لموظفي VPN العميلين ؛ وأصبح تنفيذ أعمال الاستعادة عن بُعد أكثر صعوبة.
07/03/2019 ، 16:40حاولنا إعادة تنشيط خطة احتياطي NAT الموجودة مسبقًا والتي عملت بجد من قبل. ولكن أصبح من الواضح أن عددًا من معدات إعادة الشبكة جعلت هذا المخطط غير فعال تمامًا تقريبًا ، حيث قد لا تعمل استعادته في أفضل الأحوال ، وفي أسوأ الأحوال ، يكسر النظام الذي يعمل بالفعل.
لقد بدأوا في صياغة عدة أفكار لنقل حركة المرور إلى مجموعة من أجهزة التوجيه الجديدة التي تخدم العمود الفقري ، لكنها بدت غير صالحة للعمل بسبب خصوصيات توزيع المسارات في الشبكة الأساسية.
07/03/2019 ، 17:05في الوقت نفسه ، تم الكشف عن مشكلة في آلية حل الأسماء على خوادم الأسماء ، مما أدى إلى حدوث أخطاء في حل نقاط النهاية في التطبيقات ؛ فقد بدأوا في ملء ملفات المضيف بسجلات للخدمات الهامة بسرعة.
07/03/2019 ، 17:27استعادة وظائف محدودة من هبر.
07/03/2019 ، 17:43ولكن في النهاية ، تم العثور على حل آمن نسبيًا لتنظيم حركة المرور التي تمر عبر واحد فقط من أجهزة توجيه الحدود ، التي تم اقتلاعها بسرعة. تعافى اتصال الإنترنت.
خلال الدقائق القليلة التالية ، تلقت أنظمة المراقبة الكثير من الإخطارات حول استعادة القدرة التشغيلية لوكلاء المراقبة ، ولكن تبين أن بعض الخدمات غير صالحة للعمل ، حيث تم انتهاك آلية تحليل الأسماء على خوادم الأسماء (DNS).
07/03/2019 ، 17:52تم إعادة تشغيل NS ، تم إعادة تعيين ذاكرة التخزين المؤقت. حل تعافى.
07/03/2019 ، 17:55حصل على جميع الخدمات باستثناء MK ، Freelansim و Toaster.
07/03/2019 ، 18:02حصل MK و Freelansim.
07/03/2019 ، 18:07عاد جلسة BGP الأبرياء مع DataLine.
07/03/2019 ، 18:25بدأوا في إصلاح الشفاه على الموارد ، وارتبط ذلك بتغيير في العنوان الخارجي لبركة NAT وغيابه في عدد من الخدمات ، تم تصحيحه بسرعة. حصل على الفور ومحمصة.
07/03/2019 ، 20:30لاحظنا الأخطاء المتعلقة ببرامج Telegram. اتضح أنهم نسوا تسجيل العنوان الخارجي في زوج من acl (خوادم بروكسي) ، قاموا بتصحيحه بسرعة.
النتائج
- فشل المعدات ، والتي حتى قبل ذلك كان يلقي ظلالا من الشك على ملاءمتها. كانت هناك خطط لاستبعادها من العمل ، لأنها تتداخل مع تطور الشبكة ولديها مشاكل التوافق ، ولكن في الوقت نفسه نفذت وظيفة مهمة ، وهذا هو السبب في أن أي بديل لم يكن سهلاً من الناحية الفنية دون انقطاع الخدمات. الآن يمكنك الانتقال.
- يمكن تجنب مشاكل DNS عن طريق تقريبها من الشبكة الأساسية الجديدة خارج شبكة NAT وفي نفس الوقت مع الاتصال الكامل بالشبكة الرمادية دون ترجمة (التي تم التخطيط لها قبل الحادث).
- لا تستخدم أسماء النطاقات عند تجميع مجموعات RDBMS ، نظرًا لأن راحة تغيير عنوان IP بشفافية ليست ضرورية بشكل خاص ، لأن كل هذه العمليات تتطلب إعادة تجميع نظام المجموعة. تملي هذا القرار لأسباب تاريخية ، وقبل كل شيء ، عن طريق وضوح نقاط النهاية بالاسم في تكوينات RDBMS. بشكل عام ، فخ الكلاسيكية.
- من حيث المبدأ ، تم إجراء مناورات مماثلة "لسيادة رونيت" ، هناك شيء للتفكير فيه من وجهة نظر تقوية إمكانيات البقاء المستقل.