Gangguan Penggunaan Perangkat Lunak Gangguan Layanan Cloudflare

Ini adalah artikel sementara yang kecil, yang nantinya akan diikuti oleh analisis lengkap dan informasi lengkap tentang apa yang terjadi hari ini.


Hari ini, selama sekitar 30 menit, pengunjung situs Cloudflare dapat melihat kesalahan 502 yang disebabkan oleh lonjakan tajam pada beban CPU jaringan kami. Ini karena penyebaran perangkat lunak yang gagal. Kami memutar kembali perubahan, dan sekarang layanan berfungsi seperti biasa, seperti sebelumnya, dan semua domain yang menggunakan Cloudflare telah kembali ke tingkat lalu lintas normal.


Kami meyakinkan Anda bahwa tidak ada serangan, dan kami menawarkan permintaan maaf terdalam kami atas apa yang terjadi. Pengembang kami sudah melakukan analisis terperinci atas kesalahan dan mencoba mencari tahu apa yang perlu dilakukan untuk menghindari insiden seperti itu di masa depan.


Diposting pada 20:09 UTC:


Hari ini pukul 13:42 UTC terdeteksi adanya kegagalan di jaringan kami, akibatnya pengunjung yang melihat domain Cloudflare melihat kesalahan 502 ("Bad Gateway"). Alasan kegagalan ini adalah penerapan aturan yang salah konfigurasi di Cloudflare Web Application Firewall (WAF) selama proses standar penerapan aturan CloudFare WAF yang dikelola baru.


Aturan baru ini dirancang untuk meningkatkan mekanisme pemblokiran JavaScript tertanam yang digunakan dalam serangan hacker. Aturan-aturan ini digunakan dalam mode simulasi, di mana kesalahan biasanya terdeteksi dan dicatat tanpa memblokir lalu lintas pengguna, yang memungkinkan kami untuk mengukur jumlah positif palsu dan memastikan bahwa aturan baru akan berfungsi dengan baik ketika digunakan dalam kerangka proyek ini.


Sayangnya, salah satu aturan ini berisi ekspresi reguler, yang menyebabkan lompatan beban CPU hingga 100% di komputer kita di mana-mana. Karena lompatan inilah pengguna layanan kami menyaksikan kesalahan 502, dan lalu lintas turun menjadi 82%.


Grafik di bawah ini menunjukkan lompatan beban CPU pada salah satu PoP kami:



Untuk pertama kalinya kami dihadapkan dengan masalah kehabisan sumber daya CPU, yang sangat tidak terduga bagi kami.


Kami terus-menerus menggunakan perangkat lunak di jaringan kami dan telah mengembangkan sistem otomatis untuk menjalankan tes dan prosedur penerapan bertahap untuk mencegah situasi yang tidak menyenangkan. Sayangnya, penerapan global aturan WAF adalah proses satu kali, yang menyebabkan kegagalan saat ini.


Pada pukul 14:02 UTC, kami menyadari apa yang terjadi dan memutuskan untuk sepenuhnya menonaktifkan set aturan WAF, yang segera menormalkan beban CPU dan memulihkan lalu lintas. Kami melakukannya pada pukul 14:09 UTC.


Setelah itu, kami menganalisis permintaan tarikan bermasalah, memutar kembali perubahan dalam aturan yang relevan, menguji tindakan kami untuk 100% yakin bahwa kesalahan ditemukan dengan benar, dan kemudian mengembalikan set aturan WAF pada 14:52.


Kami menyadari seberapa besar kerusakan yang disebabkan oleh insiden ini pada pengguna kami. Dalam hal ini, mekanisme pengujian kami tidak mengatasi tugas tersebut, dan kami sudah berupaya meningkatkannya dan mengoptimalkan proses penerapan untuk menghindari kesalahan serupa di masa mendatang.

Source: https://habr.com/ru/post/id458660/


All Articles