
لقد أثر تسرب رئيسي في الطرق على قطاعات الإنترنت الكبيرة ، بما في ذلك Cloudflare
ماذا حدث
في 24 يونيو ، الساعة 10:30 بالتوقيت العالمي ، انهارت الإنترنت: قامت شركة صغيرة في شمال ولاية بنسلفانيا بسكب حركة مرور من العديد من الطرق التي تمر عبر مزود كبير فيريزون (AS701) - مع نفس النجاح ، يمكن للملاح أن يرسل مجموعة من السيارات من طريق سريع متعدد المسارات إلى شارع ضيق . نتيجة لذلك ، تواجه العديد من مواقع الويب على Cloudflare والعديد من مزودي الخدمة الآخرين مشكلات تتعلق بالوصول. هذا ما كان يجب أن يحدث على الإطلاق ، لأن Verizon لم يكن من المفترض أن يرسل هذه المسارات إلى الإنترنت بالكامل. لمعرفة كيف حدث ذلك ، اقرأ على.
لقد كتبنا بالفعل عن مثل هذه الحوادث من قبل ، فهي تحدث من وقت لآخر ، لكن هذه المرة شعرنا بالعواقب في جميع أنحاء العالم. وقد تفاقمت المشكلة من خلال برنامج BGP Optimizer الخاص بـ Noction . لها وظيفة تقسم بادئات IP المستلمة إلى أخرى أصغر وأكثر تحديدًا. على سبيل المثال ، تم تقسيم مسار IPv4 الخاص بنا إلى 104.20.0.0/20 إلى 104.20.0.0/21 و 104.20.8.0/21. كما لو أن علامة بنسلفانيا قد تم استبدالها بشخصين آخرين: بيتسبرغ ، بنسلفانيا وفيلادلفيا ، بنسلفانيا. من خلال تقسيم كتل IP الكبيرة إلى كتل صغيرة ، تدير الشبكة حركة المرور داخلها ، لكن هذا الفصل لم يكن متاحًا للجمهور. خلاف ذلك ، تنشأ مثل هذه المشاكل.
لشرح ما حدث بعد ذلك ، دعونا أولاً نتذكر الطريقة التي تعمل بها الإنترنت. في جوهره ، الإنترنت عبارة عن شبكة تتكون من شبكات تسمى الأنظمة المستقلة. كل نظام مستقل له معرف فريد خاص به. جميع الشبكات متصلة ببعضها البعض باستخدام بروتوكول بوابة الحدود (BGP). تقوم BGP بتوصيل هذه الشبكات وتشكيل بنية إنترنت تمر فيها حركة المرور ، على سبيل المثال ، من مزود الإنترنت الخاص بك إلى موقع ويب مشهور في جزء آخر من العالم.
من خلال BGP ، تتبادل الشبكات المعلومات حول الطرق ، وهي: كيفية الوصول إليها من أي مكان. يمكن أن تكون هذه المسارات محددة (مثل مدينة معينة على الخريطة) أو عامة (مثل منطقة). ثم حدثت مشكلة.
استخدم أحد مزودي خدمة الإنترنت في ولاية بنسلفانيا ( AS33154 - DQE Communications) BGP Optimizer على شبكته ، مما يعني أن هناك العديد من الطرق المحددة على شبكتهم. الطرق المحددة لها الأسبقية على الطرق العامة (في نفس المستكشف ، على سبيل المثال ، سيكون الطريق إلى قصر باكنغهام أكثر تحديدًا من المسار إلى لندن).
قدمت DQE هذه الطرق المحددة لعملائها ( AS396531 - Allegheny Technologies Inc) ، ومن هناك وصلوا إلى مزود النقل ( AS701 - Verizon) ، الذي حمل هذه الطرق "المثالية" حول الإنترنت. تبدو مثالية لأنها تحتوي على مزيد من التفاصيل والتفاصيل.
وكل هذا لم يكن من المفترض أن يتجاوز فيريزون. على الرغم من وجود طرق فعالة للحماية من مثل هذه الإخفاقات ، إلا أن نقص مرشحات Verizon أدى إلى انهيار يؤثر على العديد من الخدمات مثل Amazon و Linode و Cloudflare .
نتيجة لذلك ، ضربت Verizon و Allegheny و DQE مجموعة من المستخدمين الذين يحاولون الوصول إلى هذه الخدمات من خلال شبكتهم. لم تكن مصممة لمثل هذه الحركة القوية ، مما أدى إلى انقطاع. وحتى إذا كانت هناك موارد كافية ، فلا ينبغي أن يكون كل من DQE و Allegheny و Verizon قد أخبروا الجميع بالطريق المثالي إلى Cloudflare و Amazon و Linode وما إلى ذلك.

عملية تسرب BGP مع BGP Optimizer.
في أسوأ لحظات الفشل ، لاحظنا خسارة ما يقرب من 15 ٪ من حركة المرور العالمية.

مستويات حركة Cloudflare أثناء وقوع حادث.
كيف يمكن منع حدوث تسرب؟
هناك عدة طرق.
بالنسبة لجلسة عمل BGP ، يمكنك تعيين حد ثابت للبادئات المقبولة ، وإذا تجاوز عدد البادئات العتبة ، فسيقوم جهاز التوجيه بإنهاء الجلسة. إذا كان لدى Verizon مثل هذا الحد على البادئات ، فلن يحدث شيء. بالنسبة لموفر مثل Verizon ، سيكون تثبيته بلا قيمة. لماذا لم تكن هناك حدود؟ لدي نسخة واحدة: الإهمال والكسل.
هناك طريقة أخرى لمنع هذه التسريبات وهي استخدام تصفية IRR. IRR (Internet Routing Registry) هي قاعدة بيانات موزعة لطرق الإنترنت التي تضيف إليها الشبكات إدخالات. يستخدم مشغلو الشبكات الآخرون إدخالات IRR لإنشاء قوائم بادئات محددة لجلسات BGP مع شبكات أخرى. إذا تم استخدام عوامل تصفية IRR ، فلن تقبل أي من هذه الشبكات طرقًا محددة خاطئة. بشكل لا يصدق ، لم يكن لدى Verizon هذا التصفية في جلسات BGP مع Allegheny Technologies على الإطلاق ، على الرغم من استخدام تصفية IRR (وتوثيقها بشكل جيد) لأكثر من 24 عامًا. مرشحات IRR لن تكلف Verizon أي شيء ولن تقيد خدمتهم بأي شكل من الأشكال. ومرة أخرى - الإهمال والكسل.
في العام الماضي ، قمنا بتطبيق ونشر منصة RPKI ، الأمر الذي يمنع مثل هذه التسريبات. يقوم بتعيين المرشحات وفقًا لشبكة المصدر وحجم البادئة. تعلن Cloudflare عن بادئات بحد أقصى للحجم 20. يشير RPKI إلى أنه لا يمكن قبول بادئات أكثر تحديدًا ، بغض النظر عن المسار. لكي تعمل هذه الآلية ، يجب تمكين التحقق من أصل BGP على الشبكة. العديد من مقدمي الخدمات ، على سبيل المثال ، يستخدم AT&T بالفعل RPKI بنجاح في شبكتهم.
إذا استخدمت Verizon RPKI ، فسترى أن الطرق المقترحة غير صالحة ، وأن جهاز التوجيه سيرفضها تلقائيًا.
تنصح Cloudflare جميع مشغلي الشبكات بنشر RPKI الآن!

منع تسرب الطريق باستخدام IRR و RPKI وحدود البادئة.
جميع هذه التوصيات موصوفة بشكل جيد في MANRS ( المعايير المتفق عليها بشكل متبادل لأمن التوجيه ).
كيفية حل المشكلة
اتصل فريق شبكة Cloudflare بالشبكات المتأثرة AS33154 (DQE Communications) و AS701 (Verizon). لم يكن الأمر سهلاً - ربما لأنه عندما بدأ كل شيء ، كان صباحًا مبكرًا على الساحل الشرقي للولايات المتحدة.

لقطة شاشة لرسالة إلى فيريزون.
اتصل أحد مهندسي شبكتنا بسرعة بـ DQE Communications ، وبعد مهلة قصيرة ، كنا على اتصال بالشخص الذي يمكنه حل المشكلة. بفضل الدعم عبر الهاتف ، تمكنت DQE من إيقاف إرسال طرق "محسّنة" إلى Allegheny Technologies Inc. نحن ممتنون لهم لمساعدتهم. استقر كل شيء وعاد إلى طبيعته.

لقطة شاشة لمحاولات الاتصال بـ DQE و Verizon Support Services
لسوء الحظ ، على الرغم من كل محاولاتنا للاتصال بشركة Verizon عبر الهاتف والبريد الإلكتروني ، في وقت كتابة هذا التقرير (مرت أكثر من 8 ساعات منذ وقوع الحادث) ، لم يرد علينا أحد ، ولا نعرف ما إذا كانوا يفعلون أي شيء .
نحن في Cloudflare لا نريد تكرار هذا ، لكن لسوء الحظ ، لم يتم فعل الكثير من أجل هذا. لقد حان الوقت للصناعة لاتخاذ تدابير أكثر فعالية لضمان أمان التوجيه ، على سبيل المثال مع أنظمة مثل RPKI. نأمل أن يتبع الموفرون الرئيسيون Cloudflare و Amazon و AT&T ويبدأوا في فحص الطرق . هذا صحيح بشكل خاص بالنسبة لك ، فيريزون. ما زلنا ننتظر جوابا.
وعلى الرغم من أننا لا نستطيع التأثير على ما حدث ، فإننا نعتذر عن انقطاع الخدمة. نحن نهتم بعملائنا ، وقد اتصل بنا مهندسون في الولايات المتحدة الأمريكية والمملكة المتحدة وأستراليا وسنغافورة بعد دقائق قليلة من اكتشاف المشكلة.
مقالات أخرى الموسومة ب BGP .