Bagaimana Verizon dan BGP Optimizer diatur secara offline


Kebocoran rute utama telah mempengaruhi sektor Internet besar, termasuk Cloudflare


Apa yang terjadi


Pada 24 Juni, pukul 10:30 UTC, Internet runtuh: sebuah perusahaan kecil di utara Pennsylvania menuangkan arus lalu lintas dari banyak rute yang melewati penyedia besar Verizon (AS701) - dengan keberhasilan yang sama, navigator dapat mengirim aliran mobil dari jalan raya multi-jalur ke jalan sempit . Akibatnya, banyak situs web di Cloudflare dan banyak penyedia lainnya mengalami masalah akses. Ini seharusnya tidak terjadi sama sekali, karena Verizon tidak seharusnya mengirim rute ini ke seluruh Internet. Untuk mengetahui bagaimana itu terjadi, baca terus.


Kami sudah menulis tentang insiden seperti itu sebelumnya, mereka terjadi dari waktu ke waktu, tetapi kali ini kami merasakan akibatnya di seluruh dunia. Masalahnya diperburuk oleh Pengoptimal BGP Noction . Ini memiliki fungsi yang membagi awalan IP yang diterima menjadi yang lebih kecil dan lebih spesifik. Sebagai contoh, rute IPv4 kami 104.20.0.0/20 dibagi menjadi 104.20.0.0/21 dan 104.20.8.0/21. Seolah plang Pennsylvania telah diganti dengan dua lainnya: Pittsburgh, PA dan Philadelphia, PA. Dengan membagi blok IP besar menjadi yang kecil, jaringan mengatur lalu lintas di dalam dirinya sendiri, tetapi pemisahan ini seharusnya tidak tersedia untuk umum. Kalau tidak, masalah seperti itu muncul.


Untuk menjelaskan apa yang terjadi selanjutnya, mari kita mengingat kembali cara kerja Internet. Intinya, Internet adalah jaringan yang terdiri dari jaringan yang disebut sistem otonom. Setiap sistem otonom memiliki pengenal uniknya sendiri. Semua jaringan saling terhubung menggunakan Border Gateway Protocol (BGP). BGP menghubungkan jaringan-jaringan ini dan membentuk struktur Internet di mana lalu lintas berlalu, misalnya, dari penyedia Internet Anda ke situs web populer di bagian lain dunia.


Melalui BGP, jaringan bertukar informasi tentang rute, yaitu: cara mencapai mereka dari mana saja. Rute-rute ini dapat spesifik (seperti kota tertentu pada peta) atau umum (seperti area). Dan kemudian masalah terjadi.


Satu penyedia layanan Internet di Pennsylvania ( AS33154 - DQE Communications) menggunakan BGP Optimizer pada jaringannya, yang berarti ada banyak rute khusus di jaringan mereka. Rute tertentu lebih diutamakan daripada yang umum (dalam navigator yang sama, misalnya, rute ke Istana Buckingham akan lebih spesifik daripada rute ke London).


DQE memberikan rute khusus ini kepada kliennya ( AS396531 - Allegheny Technologies Inc), dan dari sana mereka sampai ke penyedia transit ( AS701 - Verizon), yang membawa rute "optimal" ini di Internet. Mereka tampak optimal karena mereka memiliki lebih banyak detail dan spesifik.


Dan semua ini seharusnya tidak melampaui Verizon. Meskipun ada cara efektif untuk melindungi dari kegagalan tersebut, kurangnya filter Verizon telah menyebabkan keruntuhan yang mempengaruhi banyak layanan seperti Amazon, Linode dan Cloudflare .


Akibatnya, Verizon, Allegheny dan DQE menabrak poros pengguna yang mencoba mengakses layanan ini melalui jaringan mereka. Mereka tidak dirancang untuk lalu lintas yang kuat, yang menyebabkan gangguan. Dan bahkan jika ada sumber daya yang cukup, DQE, Allegheny dan Verizon seharusnya tidak memberi tahu semua orang tentang rute ideal ke Cloudflare, Amazon, Linode, dll.



Proses kebocoran BGP dengan Pengoptimal BGP.


Pada saat-saat terburuk dari kegagalan, kami mengamati hilangnya sekitar 15% dari lalu lintas global.



Tingkat lalu lintas Cloudflare selama insiden.


Bagaimana kebocoran bisa dicegah?


Ada beberapa cara.


Untuk sesi BGP, Anda dapat menetapkan batas keras untuk awalan yang diterima, dan jika jumlah awalan melebihi ambang batas, router akan mengakhiri sesi. Jika Verizon memiliki batasan awalan seperti itu, tidak akan ada yang terjadi. Untuk penyedia seperti Verizon, menginstalnya akan sia-sia. Mengapa tidak ada batasan? Saya punya satu versi: kelalaian dan kemalasan.


Cara lain untuk mencegah kebocoran tersebut adalah dengan menggunakan penyaringan IRR. IRR (Internet Routing Registry) adalah basis data terdistribusi dari rute Internet di mana jaringan menambahkan entri. Operator jaringan lain menggunakan entri IRR ini untuk membuat daftar awalan spesifik untuk sesi BGP dengan jaringan lain. Jika filter IRR digunakan, tidak ada jaringan ini yang akan menerima rute spesifik yang salah. Luar biasanya, Verizon tidak memiliki penyaringan ini dalam sesi BGP dengan Allegheny Technologies sama sekali, meskipun penyaringan IRR telah digunakan (dan didokumentasikan dengan baik) selama lebih dari 24 tahun. Filter IRR tidak akan membebani Verizon apa pun dan tidak akan membatasi layanan mereka dengan cara apa pun. Dan lagi - kelalaian dan kemalasan.


Tahun lalu, kami menerapkan dan menggunakan platform RPKI, yang hanya mencegah kebocoran tersebut. Ini menetapkan filter sesuai dengan jaringan sumber dan ukuran awalan. Cloudflare mengumumkan awalan dengan ukuran maksimum 20. RPKI menunjukkan bahwa awalan yang lebih spesifik tidak dapat diterima, terlepas dari jalurnya. Agar mekanisme ini berfungsi, Validasi Asal BGP harus diaktifkan di jaringan. Banyak penyedia, misalnya, AT&T sudah berhasil menggunakan RPKI di jaringan mereka.


Jika Verizon menggunakan RPKI, mereka akan melihat bahwa rute yang diusulkan tidak valid, dan router akan secara otomatis menolaknya.


Cloudflare menyarankan semua operator jaringan untuk menggunakan RPKI sekarang!



Pencegahan kebocoran rute menggunakan IRR, RPKI, dan batas awalan.


Semua rekomendasi ini dijelaskan dengan baik dalam MANRS ( Norma yang disepakati bersama untuk Keamanan Routing ).


Bagaimana mengatasi masalah tersebut


Tim jaringan Cloudflare menghubungi jaringan yang terkena AS33154 (DQE Communications) dan AS701 (Verizon). Itu tidak mudah - mungkin karena ketika semuanya dimulai, itu adalah pagi hari di pantai timur Amerika Serikat.



Cuplikan layar surat ke Verizon.


Salah satu insinyur jaringan kami dengan cepat menghubungi DQE Communications, dan setelah penundaan singkat kami terhubung dengan orang yang dapat menyelesaikan masalah. Dengan dukungan telepon kami, DQE dapat menghentikan pengiriman rute "optimal" ke Allegheny Technologies Inc. Kami berterima kasih kepada mereka atas bantuan mereka. Semuanya stabil dan kembali normal.



Cuplikan layar upaya untuk menghubungi DQE dan Layanan Dukungan Verizon


Sayangnya, terlepas dari semua upaya kami untuk menghubungi Verizon melalui telepon dan email, pada saat penulisan (lebih dari 8 jam telah berlalu sejak kejadian itu), tidak ada yang menjawab kami, dan kami tidak tahu apakah mereka melakukan sesuatu .


Kami di Cloudflare tidak ingin pengulangan ini, tetapi sayangnya, sangat sedikit yang dilakukan untuk ini. Sudah waktunya bagi industri untuk mengambil langkah-langkah yang lebih efektif untuk memastikan keamanan perutean, misalnya dengan sistem seperti RPKI. Kami berharap bahwa penyedia utama akan mengikuti Cloudflare, Amazon, dan AT&T dan mulai memeriksa rute . Ini terutama berlaku untuk Anda, Verizon. Kami masih menunggu jawaban.


Dan meskipun kami tidak dapat memengaruhi apa yang terjadi, kami meminta maaf atas gangguan dalam layanan. Kami peduli dengan pelanggan kami, dan teknisi di AS, Inggris, Australia, dan Singapura menghubungi kami beberapa menit setelah kami menemukan masalah.


Artikel lainnya ditandai dengan BGP .

Source: https://habr.com/ru/post/id457712/


All Articles