Wie Verizon und BGP Optimizer sich offline hervorragend einrichten


Ein großes Routenleck hat große Internetsektoren betroffen, einschließlich Cloudflare


Was ist passiert?


Am 24. Juni, um 10:30 UTC, brach das Internet zusammen: Ein kleines Unternehmen im Norden von Pennsylvania strömte einen Verkehrsstrom von vielen Strecken über einen großen Anbieter Verizon (AS701) - mit dem gleichen Erfolg konnte der Navigator einen Strom von Autos von einer mehrspurigen Autobahn auf eine schmale Straße schicken . Infolgedessen haben viele Websites auf Cloudflare und viele andere Anbieter Zugriffsprobleme. Dies hätte überhaupt nicht passieren dürfen, da Verizon diese Routen nicht an das gesamte Internet senden sollte. Lesen Sie weiter, um herauszufinden, wie es passiert ist.


Wir haben bereits zuvor über solche Vorfälle geschrieben , die von Zeit zu Zeit auftreten, aber diesmal haben wir die Konsequenzen auf der ganzen Welt gespürt. Das Problem wurde durch den BGP-Optimierer von Noction verschärft. Es hat eine Funktion, die die empfangenen IP-Präfixe in kleinere und spezifischere aufteilt. Beispielsweise wurde unsere IPv4-Route 104.20.0.0/20 in 104.20.0.0/21 und 104.20.8.0/21 unterteilt. Als ob der Wegweiser von Pennsylvania durch zwei andere ersetzt worden wäre: Pittsburgh, PA und Philadelphia, PA. Durch die Aufteilung großer IP-Blöcke in kleine verwaltet das Netzwerk den Datenverkehr in sich selbst. Diese Trennung sollte jedoch nicht öffentlich verfügbar sein. Andernfalls treten solche Probleme auf.


Um zu erklären, was als nächstes geschah, erinnern wir uns zunächst an die Funktionsweise des Internets. Im Wesentlichen ist das Internet ein Netzwerk, das aus Netzwerken besteht, die als autonome Systeme bezeichnet werden. Jedes autonome System hat eine eigene eindeutige Kennung. Alle Netzwerke sind über das Border Gateway Protocol (BGP) miteinander verbunden. BGP verbindet diese Netzwerke und bildet die Internetstruktur, in der der Datenverkehr beispielsweise von Ihrem Internetprovider zu einer beliebten Website in einem anderen Teil der Welt geleitet wird.


Über BGP tauschen Netzwerke Informationen über Routen aus, nämlich wie sie von überall zu ihnen gelangen. Diese Routen können spezifisch (wie eine bestimmte Stadt auf der Karte) oder allgemein (wie ein Gebiet) sein. Und dann passierte Ärger.


Ein Internetdienstanbieter in Pennsylvania ( AS33154 - DQE Communications) verwendete BGP Optimizer in seinem Netzwerk, was bedeutet, dass es in seinem Netzwerk viele spezifische Routen gab. Bestimmte Routen haben Vorrang vor allgemeinen Routen (im selben Navigator ist beispielsweise die Route zum Buckingham Palace spezifischer als die Route nach London).


DQE stellte diese spezifischen Routen seinem Kunden zur Verfügung ( AS396531 - Allegheny Technologies Inc), und von dort gelangten sie zum Transitanbieter ( AS701 - Verizon), der diese "optimalen" Routen über das Internet führte. Sie scheinen optimal zu sein, weil sie mehr Details und Besonderheiten haben.


Und das alles sollte nicht über Verizon hinausgehen. Obwohl es wirksame Möglichkeiten gibt, sich vor solchen Fehlern zu schützen, hat das Fehlen von Filtern bei Verizon zu einem Zusammenbruch geführt, der viele Dienste wie Amazon, Linode und Cloudflare betrifft.


Infolgedessen stießen Verizon, Allegheny und DQE auf eine Welle von Benutzern, die versuchten, über ihr Netzwerk auf diese Dienste zuzugreifen. Sie waren nicht für einen so starken Verkehr ausgelegt, der zu Unterbrechungen führte. Und selbst wenn genügend Ressourcen vorhanden wären, hätten DQE, Allegheny und Verizon nicht jedem von der idealen Route zu Cloudflare, Amazon, Linode usw. erzählen sollen.



BGP-Leckprozess mit BGP Optimizer.


In den schlimmsten Momenten des Ausfalls beobachteten wir einen Verlust von ungefähr 15% des weltweiten Verkehrs.



Cloudflare-Verkehrsaufkommen während eines Vorfalls.


Wie kann ein Leck verhindert werden?


Es gibt verschiedene Möglichkeiten.


Für eine BGP-Sitzung können Sie ein festes Limit für akzeptierte Präfixe festlegen. Wenn die Anzahl der Präfixe den Schwellenwert überschreitet, beendet der Router die Sitzung. Wenn Verizon eine solche Beschränkung für Präfixe hätte, wäre nichts passiert. Für einen Anbieter wie Verizon wäre die Installation wertlos. Warum gab es keine Grenzen? Ich habe eine Version: Nachlässigkeit und Faulheit.


Eine andere Möglichkeit, solche Lecks zu vermeiden, ist die Verwendung der IRR-Filterung. IRR (Internet Routing Registry) ist eine verteilte Datenbank von Internetrouten, zu denen Netzwerke Einträge hinzufügen. Andere Netzbetreiber verwenden diese IRR-Einträge, um Listen mit bestimmten Präfixen für BGP-Sitzungen mit anderen Netzen zu erstellen. Wenn IRR-Filter verwendet würden, würde keines dieser Netzwerke fehlerhafte spezifische Routen akzeptieren. Unglaublicherweise hatte Verizon diese Filterung in BGP-Sitzungen mit Allegheny Technologies überhaupt nicht, obwohl die IRR-Filterung seit mehr als 24 Jahren verwendet (und gut dokumentiert) wird. IRR-Filter würden Verizon nichts kosten und ihren Service in keiner Weise einschränken. Und wieder - Nachlässigkeit und Faulheit.


Letztes Jahr haben wir die RPKI-Plattform implementiert und bereitgestellt, die solche Lecks nur verhindert. Es setzt Filter entsprechend dem Quellnetzwerk und der Präfixgröße. Cloudflare kündigt Präfixe mit einer maximalen Größe von 20 an. RPKI gibt an, dass spezifischere Präfixe unabhängig vom Pfad nicht akzeptiert werden können. Damit dieser Mechanismus funktioniert, muss die BGP-Ursprungsvalidierung im Netzwerk aktiviert sein. Viele Anbieter, zum Beispiel AT & T, setzen RPKI bereits erfolgreich in ihrem Netzwerk ein.


Wenn Verizon RPKI verwendet, wird festgestellt, dass die vorgeschlagenen Routen nicht gültig sind, und der Router lehnt sie automatisch ab.


Cloudflare empfiehlt allen Netzbetreibern, RPKI sofort bereitzustellen !



Routenleckverhütung mithilfe von IRR-, RPKI- und Präfix-Grenzwerten.


Alle diese Empfehlungen sind in MANRS (einvernehmlich vereinbarte Normen für die Routing-Sicherheit ) ausführlich beschrieben.


So lösen Sie das Problem


Das Cloudflare-Netzwerkteam kontaktierte die betroffenen Netze AS33154 (DQE Communications) und AS701 (Verizon). Es war nicht einfach - vielleicht weil es zu Beginn ein früher Morgen an der Ostküste der Vereinigten Staaten war.



Screenshot eines Briefes an Verizon.


Einer unserer Netzwerktechniker setzte sich schnell mit DQE Communications in Verbindung, und nach einer kurzen Verzögerung wurden wir mit demjenigen verbunden, der das Problem lösen konnte. Dank unseres telefonischen Supports konnte DQE das Senden „optimierter“ Routen an Allegheny Technologies Inc. einstellen. Wir sind ihnen für ihre Hilfe dankbar. Alles stabilisierte sich und normalisierte sich wieder.



Screenshot der Versuche, DQE und Verizon Support Services zu kontaktieren


Leider hat uns trotz aller Versuche, Verizon per Telefon und E-Mail zu kontaktieren, zum Zeitpunkt des Schreibens (seit dem Vorfall sind mehr als 8 Stunden vergangen) niemand geantwortet, und wir wissen nicht, ob sie etwas unternehmen .


Wir bei Cloudflare möchten dies nicht wiederholen, aber leider wird sehr wenig dafür getan. Es ist an der Zeit, dass die Branche effektivere Maßnahmen ergreift, um die Routing-Sicherheit zu gewährleisten, beispielsweise bei Systemen wie RPKI. Wir hoffen, dass große Anbieter Cloudflare, Amazon und AT & T folgen und mit der Überprüfung der Routen beginnen. Dies gilt insbesondere für Sie, Verizon. Wir warten immer noch auf eine Antwort.


Und obwohl wir nicht beeinflussen konnten, was passiert ist, entschuldigen wir uns für die Betriebsunterbrechung. Wir kümmern uns um unsere Kunden, und Ingenieure in den USA, Großbritannien, Australien und Singapur haben uns einige Minuten nach der Entdeckung des Problems kontaktiert.


Andere Artikel mit dem Tag BGP .

Source: https://habr.com/ru/post/de457712/


All Articles