Comment Verizon et BGP Optimizer ont-ils mis en place d'excellents outils hors ligne


Une fuite de route majeure a affecté de grands secteurs Internet, y compris Cloudflare


Qu'est-il arrivé?


Le 24 juin, Ă  10 h 30 UTC, Internet s'est effondrĂ©: une petite entreprise du nord de la Pennsylvanie a dĂ©versĂ© un flux de trafic provenant de nombreuses routes passant par un grand fournisseur Verizon (AS701) - avec le mĂȘme succĂšs, le navigateur pourrait envoyer un flux de voitures d'une autoroute Ă  plusieurs voies vers une rue Ă©troite. . En consĂ©quence, de nombreux sites Web sur Cloudflare et de nombreux autres fournisseurs ont des problĂšmes d'accĂšs. Cela n'aurait pas dĂ» se produire du tout, car Verizon n'Ă©tait pas censĂ© envoyer ces routes Ă  l'ensemble d'Internet. Pour savoir comment cela s'est produit, lisez la suite.


Nous avons dĂ©jĂ  Ă©crit sur de tels incidents auparavant, ils se produisent de temps en temps, mais cette fois nous en avons ressenti les consĂ©quences partout dans le monde. Le problĂšme a Ă©tĂ© exacerbĂ© par BGP Optimizer de Noction . Il a une fonction qui divise les prĂ©fixes IP reçus en plus petits et plus spĂ©cifiques. Par exemple, notre route IPv4 104.20.0.0/20 a Ă©tĂ© divisĂ©e en 104.20.0.0/21 et 104.20.8.0/21. Comme si le panneau de Pennsylvanie avait Ă©tĂ© remplacĂ© par deux autres: Pittsburgh, Pennsylvanie et Philadelphie, Pennsylvanie. En divisant les grands blocs IP en petits blocs, le rĂ©seau gĂšre le trafic en lui-mĂȘme, mais cette sĂ©paration n'aurait pas dĂ» ĂȘtre rendue publique. Sinon, de tels problĂšmes surviennent.


Pour expliquer ce qui s'est passé ensuite, rappelons d'abord le fonctionnement d'Internet. Essentiellement, Internet est un réseau composé de réseaux appelés systÚmes autonomes. Chaque systÚme autonome a son propre identifiant unique. Tous les réseaux sont connectés les uns aux autres à l'aide du protocole BGP (Border Gateway Protocol). BGP connecte ces réseaux et forme la structure Internet dans laquelle le trafic passe, par exemple, de votre fournisseur Internet à un site Web populaire dans une autre partie du monde.


GrĂące Ă  BGP, les rĂ©seaux Ă©changent des informations sur les itinĂ©raires, Ă  savoir: comment s'y rendre de n'importe oĂč. Ces itinĂ©raires peuvent ĂȘtre spĂ©cifiques (comme une ville spĂ©cifique sur la carte) ou gĂ©nĂ©raux (comme une zone). Et puis des ennuis se sont produits.


Un fournisseur de services Internet en Pennsylvanie ( AS33154 - DQE Communications) a utilisĂ© BGP Optimizer sur son rĂ©seau, ce qui signifie qu'il y avait de nombreuses routes spĂ©cifiques sur leur rĂ©seau. Des itinĂ©raires spĂ©cifiques ont prioritĂ© sur les itinĂ©raires gĂ©nĂ©raux (dans le mĂȘme navigateur, par exemple, l'itinĂ©raire vers Buckingham Palace sera plus spĂ©cifique que l'itinĂ©raire vers Londres).


DQE a fourni ces itinéraires spécifiques à son client ( AS396531 - Allegheny Technologies Inc), et de là, ils sont arrivés au fournisseur de transport en commun ( AS701 - Verizon), qui a transporté ces itinéraires «optimaux» sur Internet. Ils semblent optimaux car ils ont plus de détails et de détails.


Et tout cela n'était pas censé dépasser Verizon. Bien qu'il existe des moyens efficaces de se protéger contre de telles défaillances, le manque de filtres de Verizon a conduit à un effondrement affectant de nombreux services comme Amazon, Linode et Cloudflare .


En consĂ©quence, Verizon, Allegheny et DQE ont frappĂ© un nombre d'utilisateurs essayant d'accĂ©der Ă  ces services via leur rĂ©seau. Ils n'ont pas Ă©tĂ© conçus pour un trafic aussi puissant, ce qui a entraĂźnĂ© des interruptions. Et mĂȘme s'il y avait suffisamment de ressources, DQE, Allegheny et Verizon n'auraient pas dĂ» parler Ă  tout le monde de l'itinĂ©raire idĂ©al vers Cloudflare, Amazon, Linode, etc.



Processus de fuite BGP avec BGP Optimizer.


Dans les pires moments de la panne, nous avons observé une perte d'environ 15% du trafic mondial.



Niveaux de trafic Cloudflare lors d'un incident.


Comment éviter une fuite?


Il y a plusieurs façons.


Pour une session BGP, vous pouvez définir une limite stricte pour les préfixes acceptés et si le nombre de préfixes dépasse le seuil, le routeur mettra fin à la session. Si Verizon avait une telle limite sur les préfixes, rien ne se serait produit. Pour un fournisseur comme Verizon, son installation serait sans valeur. Pourquoi n'y avait-il pas de limites? J'ai une version: négligence et paresse.


Une autre façon d'éviter de telles fuites est d'utiliser le filtrage IRR. IRR (Internet Routing Registry) est une base de données distribuée des routes Internet auxquelles les réseaux ajoutent des entrées. D'autres opérateurs de réseau utilisent ces entrées IRR pour créer des listes de préfixes spécifiques pour les sessions BGP avec d'autres réseaux. Si des filtres IRR étaient utilisés, aucun de ces réseaux n'accepterait des itinéraires spécifiques erronés. Incroyablement, Verizon n'avait pas du tout ce filtrage dans les sessions BGP avec Allegheny Technologies, bien que le filtrage IRR soit utilisé (et bien documenté) depuis plus de 24 ans. Les filtres IRR ne coûteraient rien à Verizon et ne limiteraient en rien leur service. Et encore une fois - la négligence et la paresse.


L'annĂ©e derniĂšre, nous avons implĂ©mentĂ© et dĂ©ployĂ© la plate-forme RPKI, qui empĂȘche simplement de telles fuites. Il dĂ©finit des filtres en fonction du rĂ©seau source et de la taille du prĂ©fixe. Cloudflare annonce des prĂ©fixes d'une taille maximale de 20. RPKI indique que des prĂ©fixes plus spĂ©cifiques ne peuvent pas ĂȘtre acceptĂ©s, quel que soit le chemin. Pour que ce mĂ©canisme fonctionne, la validation de l'origine BGP doit ĂȘtre activĂ©e sur le rĂ©seau. De nombreux fournisseurs, par exemple, AT&T utilisent dĂ©jĂ  avec succĂšs RPKI dans leur rĂ©seau.


Si Verizon utilisait RPKI, ils verraient que les itinéraires proposés ne sont pas valides et le routeur les rejetterait automatiquement.


Cloudflare conseille à tous les opérateurs de réseau de déployer RPKI dÚs maintenant!



Prévention des fuites de route à l'aide des limites IRR, RPKI et préfixe.


Toutes ces recommandations sont bien décrites dans MANRS (Mutually Agreed Norms for Routing Security ).


Comment résoudre le problÚme


L'Ă©quipe du rĂ©seau Cloudflare a contactĂ© les rĂ©seaux concernĂ©s AS33154 (DQE Communications) et AS701 (Verizon). Ce n'Ă©tait pas facile - peut-ĂȘtre parce que quand tout a commencĂ©, c'Ă©tait tĂŽt le matin sur la cĂŽte est des États-Unis.



Capture d'écran d'une lettre à Verizon.


L'un de nos ingĂ©nieurs rĂ©seau a rapidement contactĂ© DQE Communications et, aprĂšs un court dĂ©lai, nous avons Ă©tĂ© mis en relation avec celui qui pouvait rĂ©soudre le problĂšme. GrĂące Ă  notre assistance tĂ©lĂ©phonique, DQE a pu arrĂȘter d'envoyer des itinĂ©raires «optimisĂ©s» Ă  Allegheny Technologies Inc. Nous leur sommes reconnaissants de leur aide. Tout s'est stabilisĂ© et est revenu Ă  la normale.



Capture d'écran des tentatives de contact avec les services d'assistance DQE et Verizon


Malheureusement, malgré toutes nos tentatives pour contacter Verizon par téléphone et par e-mail, au moment de la rédaction (plus de 8 heures se sont écoulées depuis l'incident), personne ne nous a répondu, et nous ne savons pas s'ils font quoi que ce soit. .


Chez Cloudflare, nous ne voudrions pas que cela se répÚte, mais malheureusement trÚs peu est fait pour cela. Il est temps que l'industrie prenne des mesures plus efficaces pour garantir la sécurité du routage, par exemple avec des systÚmes tels que RPKI. Nous espérons que les principaux fournisseurs suivront Cloudflare, Amazon et AT&T et commenceront à vérifier les itinéraires . Cela est particuliÚrement vrai pour vous, Verizon. Nous attendons toujours une réponse.


Et bien que nous ne puissions pas influencer ce qui s'est passĂ©, nous nous excusons pour l'interruption du service. Nous nous soucions de nos clients et des ingĂ©nieurs aux États-Unis, au Royaume-Uni, en Australie et Ă  Singapour nous ont contactĂ©s quelques minutes aprĂšs avoir dĂ©couvert le problĂšme.


Autres articles taggés avec BGP .

Source: https://habr.com/ru/post/fr457712/


All Articles