Kecelakaan besar di pusat data: sebab dan akibat

Pusat data modern dapat diandalkan, tetapi peralatan apa pun rusak dari waktu ke waktu. Dalam catatan singkat, kami mengumpulkan insiden paling signifikan di tahun 2018.



Dampak teknologi digital terhadap ekonomi semakin meningkat, volume informasi yang diproses meningkat, fasilitas baru sedang dibangun, dan ini bagus, sementara semuanya berfungsi. Sayangnya, dampak gangguan pada pusat data pada ekonomi juga meningkat sejak orang mulai menempatkan infrastruktur TI bisnis yang kritis di dalamnya - ini adalah konsekuensi tak terhindarkan dari digitalisasi. Kami menerbitkan sejumlah kecil kecelakaan yang paling nyata yang terjadi di berbagai negara tahun lalu.



Amerika Serikat


Negara ini adalah pemimpin yang diakui di bidang pembangunan pusat data. Amerika Serikat memiliki jumlah terbesar pusat data komersial dan perusahaan besar yang melayani layanan global, dan oleh karena itu konsekuensi dari insiden di dalamnya paling signifikan. Pada awal Maret, karena topan yang kuat, empat fasilitas operator Equinix menghadapi pemadaman listrik. Area tersebut digunakan untuk peralatan Amazon Web Services (AWS), kecelakaan itu menyebabkan tidak dapat diaksesnya banyak layanan populer: GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio dan mCapital One, serta asisten virtual Amazon Alexa terluka.


Pada bulan September, anomali cuaca menghantam pusat data Microsoft yang berlokasi di Texas, kemudian, karena badai petir, sistem pasokan daya seluruh wilayah terganggu, dan di pusat data beralih ke daya dari DGU, tidak diketahui mengapa pendinginan dimatikan. Butuh beberapa hari untuk menghilangkan konsekuensi dari kecelakaan itu, dan meskipun karena load balancing kegagalan ini tidak kritis, pengguna di seluruh dunia melihat sedikit perlambatan dalam layanan cloud Microsoft.


Rusia


Kecelakaan paling serius terjadi pada 20 Agustus di salah satu pusat data Rostelecom. Karena itu, server dari Unified State Register of Real Estate berhenti selama 66 jam, dan karena itu mereka harus ditransfer ke situs cadangan. Rosreestr tidak dapat memproses pemrosesan aplikasi yang diterima melalui semua saluran hanya pada 3 September - organisasi negara berusaha memulihkan sejumlah besar dari Rostelecom karena melanggar perjanjian tingkat layanan.


Pada 16 Februari, karena masalah dalam jaringan Lenenergo, sistem catu daya cadangan dihidupkan di pusat data perusahaan Xelnet (St. Petersburg). Gangguan sinusoid yang singkat menyebabkan gangguan dalam pekerjaan banyak layanan: khususnya, penyedia cloud besar 1cloud menderita, tetapi masalah yang paling nyata bagi pemirsa Internet Rusia adalah ketidakmampuan untuk mengakses situs jejaring sosial VKontakte. Yang paling menarik adalah butuh sekitar 12 jam untuk sepenuhnya menghilangkan konsekuensi dari kegagalan daya jangka pendek.


Uni Eropa


Di UE pada 2018, beberapa insiden serius dicatat. Pada bulan Maret, kegagalan terjadi di pusat data kapal udara KLM: catu daya terputus selama 10 menit, dan kapasitas set generator diesel tidak cukup untuk peralatan untuk beroperasi. Beberapa server terputus, dan maskapai harus membatalkan atau menunda beberapa lusin penerbangan.


Ini bukan satu-satunya kecelakaan yang terkait dengan transportasi udara - sudah pada bulan April, kegagalan terjadi pada sistem pasokan daya pusat data Eurocontrol. Organisasi mengendalikan pergerakan pesawat di Uni Eropa, dan sementara spesialis menghilangkan konsekuensi dari kecelakaan selama 5 jam, penumpang sekali lagi harus mengalami penundaan dan menjadwal ulang penerbangan.


Masalah yang sangat serius muncul karena kecelakaan di pusat data yang melayani sektor keuangan. Biaya interupsi dalam melakukan transaksi di sini biasanya tinggi, dan tingkat keandalan objek sesuai, tetapi ini tidak menyelamatkan dari insiden. Pada tanggal 18 April, Bursa Efek NASDAQ Nordic (Helsinki, Finlandia) tidak dapat mengajukan penawaran di seluruh Eropa Utara pada siang hari karena peluncuran yang tidak sah dari sistem pemadam kebakaran gas di pusat data komersial DigiPlex, yang secara tidak sengaja dihilangkan energi.


Pada 7 Juni, gangguan dalam pengoperasian pusat data memaksa London Stock Exchange (London Stock Exchange, LSE) untuk menunda dimulainya perdagangan satu jam. Selain itu, pada bulan Juni di Eropa, karena tidak berfungsinya pusat data, layanan sistem pembayaran internasional VISA terputus sepanjang hari, dan rincian insiden tidak diungkapkan.


Jepang


Pada musim panas 2018, kebakaran terjadi di tingkat bawah tanah pusat data Amazon yang sedang dibangun di Tokyo, di mana 5 pekerja meninggal dan sedikitnya 50 orang terluka. Investigasi menunjukkan bahwa faktor manusia menjadi penyebab kebakaran: karena penanganan pembakar asetilena yang ceroboh, insulasi terbakar.


Penyebab Kegagalan


Daftar insiden di atas masih jauh dari lengkap, karena kecelakaan di pusat data, pelanggan bank dan operator telekomunikasi menderita, pergi ke layanan offline penyedia cloud dan bahkan pekerjaan layanan darurat terganggu. Gangguan kecil dalam layanan dapat menyebabkan kerugian serius, sementara menurut Uptime Institute, sebagian besar kegagalan (39%) dikaitkan dengan sistem catu daya. Di tempat kedua (24%) adalah faktor manusia, dan di tempat ketiga (15%) adalah sistem pendingin udara. Hanya 12% kecelakaan di pusat data yang dapat dikaitkan dengan berbagi fenomena alam, dan hanya 10% di antaranya terjadi karena alasan selain yang terdaftar.


Terlepas dari standar keandalan dan keamanan yang ketat, tidak ada satu pun benda yang diasuransikan terhadap insiden. Kebanyakan dari mereka adalah karena kegagalan daya atau kesalahan personel. Kedua faktor ini pertama-tama harus diperhatikan oleh pemilik pusat data dan ruang server, dan pelanggan harus memahami: bahkan pemimpin pasar tidak dapat menjamin keandalan absolut. Jika peralatan atau layanan cloud melayani proses kritis bisnis, Anda harus mempertimbangkan situs cadangan.


Sumber foto: telecombloger.ru

Source: https://habr.com/ru/post/id451834/


All Articles