Penyebab utama kecelakaan di pusat data adalah peletakan antara komputer dan kursi

Topik kecelakaan besar di pusat data modern menimbulkan pertanyaan yang tidak dijawab dalam artikel pertama - kami memutuskan untuk mengembangkannya.




Menurut statistik Uptime Institute, sebagian besar insiden di pusat data terhubung dengan kegagalan sistem catu daya - mereka menyumbang 39% dari insiden. Mereka diikuti oleh faktor manusia - ini adalah 24% kecelakaan lainnya. Alasan terpenting ketiga (15%) adalah kegagalan sistem pendingin udara, dan tempat keempat (12%) adalah bencana alam. Pangsa total masalah lain hanya 10%. Tanpa mempertanyakan data organisasi yang memiliki reputasi baik, kami menyoroti sesuatu yang umum dalam kecelakaan yang berbeda dan mencoba memahami apakah mungkin untuk menghindarinya. Spoiler: mungkin dalam banyak kasus.


Ilmu Kontak


Secara sederhana, hanya ada dua masalah dengan catu daya: apakah tidak ada kontak di mana seharusnya, atau di mana seharusnya tidak ada kontak. Anda dapat berbicara lama tentang keandalan sistem catu daya modern yang tidak pernah terputus, tetapi tidak selalu hemat. Ambil contoh kasus sensasional dari pusat data yang digunakan oleh British Airways yang dimiliki oleh perusahaan induk International Airlines Group. Ada dua fasilitas seperti di dekat Bandara Heathrow - Boadicea House dan Comet House. Pada yang pertama, pada 27 Mei 2017, pemadaman listrik yang tidak disengaja terjadi, yang menyebabkan kelebihan dan kegagalan sistem UPS. Akibatnya, sebagian dari peralatan TI rusak secara fisik, dan butuh tiga hari untuk menyelesaikan kecelakaan terakhir.


Maskapai harus membatalkan atau menjadwal ulang lebih dari seribu penerbangan, sekitar 75 ribu penumpang tidak bisa terbang tepat waktu - $ 128 juta dihabiskan untuk kompensasi, tidak termasuk pusat data biaya yang diperlukan untuk mengembalikan fungsionalitas. Kisah tentang alasan pemadaman tidak dapat dipahami. Jika Anda yakin hasil penyelidikan internal, disuarakan oleh Direktur Jenderal International Airlines Group, Willie Walsh, itu terjadi karena kesalahan oleh para insinyur. Namun demikian, sistem catu daya yang tidak pernah terputus harus bertahan seperti shutdown - untuk ini sudah terpasang. Pusat data dikelola oleh spesialis dari perusahaan outsourcing CBRE Managed Services, sehingga British Airways berusaha memulihkan jumlah kerusakan melalui pengadilan London.



Pemadaman listrik terjadi sesuai dengan skenario yang sama: pertama, pemadaman listrik disebabkan oleh kesalahan pemasok listrik, kadang-kadang karena cuaca buruk atau masalah internal (termasuk kesalahan personel), dan kemudian sistem pasokan daya yang tidak terputus tidak dapat mengatasi beban atau gangguan singkat pada sinusoid yang menyebabkan banyak layanan gagal, pemulihan kesehatan yang meninggalkan terobosan waktu dan uang. Apakah mungkin untuk menghindari kecelakaan seperti itu? Tentu saja Namun, jika Anda merancang sistem dengan benar, bahkan pencipta pusat data besar tidak kebal dari kesalahan.


Faktor manusia


Ketika penyebab langsung dari suatu insiden adalah tindakan yang salah dari personel pusat data, masalah yang paling sering (tetapi tidak selalu) mempengaruhi bagian perangkat lunak dari infrastruktur TI. Kecelakaan semacam itu terjadi bahkan di perusahaan besar. Pada Februari 2017, karena salah ketik anggota tim pemeliharaan teknis salah satu tim pusat data, beberapa server Layanan Web Amazon terputus. Terjadi kesalahan saat men-debug proses penagihan untuk pelanggan cloud Amazon Simple Storage Service (S3). Karyawan itu mencoba untuk menghapus sejumlah server virtual yang digunakan oleh sistem penagihan, tetapi menyentuh sekelompok yang lebih besar.



Sebagai hasil dari kesalahan insinyur, server tempat modul perangkat lunak penyimpanan cloud Amazon yang penting dijalankan dihapus. Pertama-tama, subsistem pengindeksan rusak, berisi informasi tentang metadata dan lokasi semua objek S3 di wilayah AS US-EAST-1. Insiden juga mempengaruhi subsistem yang digunakan untuk menyimpan data dan mengelola ruang penyimpanan yang tersedia. Setelah penghapusan mesin virtual, dua subsistem ini membutuhkan restart penuh, dan kemudian insinyur Amazon terkejut oleh kenyataan bahwa untuk waktu yang lama penyimpanan cloud publik tidak dapat melayani permintaan pelanggan.


Efeknya meluas, karena banyak sumber daya besar menggunakan Amazon S3. Kerusakan mempengaruhi Trello, Coursera, IFTTT dan, apa yang paling tidak menyenangkan, layanan dari mitra Amazon besar dari daftar S&P 500. Kerusakan dalam kasus-kasus seperti itu tidak mudah untuk dihitung, tetapi pesanannya ada di wilayah ratusan juta dolar AS. Seperti yang Anda lihat, untuk menonaktifkan layanan platform cloud terbesar, cukup satu tim yang salah sudah cukup. Ini bukan kasus yang terisolasi, pada tanggal 16 Mei 2019, selama pekerjaan pemeliharaan, layanan Yandex. Cloud menghapus mesin virtual pengguna di zona ru-central1-c yang setidaknya sekali dalam status TERGANTUNG. Di sini, data pelanggan telah terpengaruh, beberapa di antaranya telah hilang. Tentu saja, orang tidak sempurna, tetapi sistem keamanan informasi modern telah lama mampu mengendalikan tindakan pengguna istimewa sebelum menjalankan perintah yang mereka masukkan. Jika Anda menerapkan solusi seperti itu di Yandex atau Amazon, insiden seperti itu dapat dihindari.



Pendinginan beku


Pada Januari 2017, kecelakaan besar terjadi di pusat data Dmitrov di Megafon. Kemudian suhu di wilayah Moskow turun menjadi -35 ° C, yang menyebabkan kegagalan sistem pendingin fasilitas. Layanan pers operator tidak secara khusus berbicara tentang penyebab insiden tersebut - perusahaan Rusia sangat enggan untuk berbicara tentang kecelakaan di fasilitas mereka, dalam hal publisitas, kami jauh di belakang Barat. Di jejaring sosial, ada versi tentang pembekuan pendingin di pipa yang diletakkan di sepanjang jalan dan kebocoran etilen glikol. Jika Anda mempercayainya, layanan operasi tidak dapat, karena liburan panjang, segera menerima 30 ton cairan pendingin dan keluar menggunakan sarana yang diimprovisasi, mengatur freecooling dadakan yang melanggar aturan untuk mengoperasikan sistem. Dingin yang parah memperburuk masalah - pada bulan Januari, musim dingin tiba-tiba terjadi di Rusia, meskipun tidak ada yang menunggu. Akibatnya, staf harus menghilangkan energi bagian dari rak server, karena beberapa layanan operator tidak tersedia selama dua hari.



Mungkin, di sini Anda dapat berbicara tentang anomali cuaca, tetapi cuaca beku seperti itu tidak biasa di wilayah ibu kota. Suhu musim dingin di Wilayah Moskow dapat turun ke tingkat yang lebih rendah, sehingga pusat data dibangun dengan harapan operasi yang stabil pada at42 ° . Paling sering, sistem pendingin dalam cuaca dingin gagal karena konsentrasi glikol yang tidak cukup tinggi dan kelebihan air dalam larutan pendingin. Ada masalah dengan pemasangan pipa atau kesalahan perhitungan dalam desain dan pengujian sistem, terutama terkait dengan keinginan untuk menyimpan. Akibatnya, kecelakaan serius terjadi tiba-tiba, yang bisa dicegah.


Bencana alam


Paling sering, badai petir dan / atau badai mengganggu pekerjaan infrastruktur rekayasa pusat data, yang mengarah pada penutupan layanan dan / atau kerusakan fisik pada peralatan. Insiden yang disebabkan oleh cuaca buruk terjadi cukup sering. Pada 2012, Badai Sandy menyapu sepanjang pantai barat AS dengan hujan lebat. Terletak di gedung bertingkat tinggi di Lower Manhattan, pusat data Peer 1 kehilangan catu daya eksternal setelah air asin membanjiri ruang bawah tanah. Generator darurat fasilitas terletak di lantai 18, dan pasokan bahan bakar mereka terbatas - peraturan yang diperkenalkan di New York setelah serangan 9/11 melarang penyimpanan sejumlah besar bahan bakar di lantai atas.




Pompa bahan bakar juga gagal, karena staf selama beberapa hari menyeret diesel untuk generator secara manual. Kepahlawanan tim menyelamatkan pusat data dari kecelakaan serius, tetapi apakah itu sangat diperlukan? Kita hidup di planet dengan atmosfer nitrogen-oksigen dan banyak air. Badai petir dan badai di sini biasa terjadi (terutama di daerah pesisir). Desainer mungkin harus mempertimbangkan risiko yang terkait dengan mereka dan membangun sistem catu daya yang tidak terputus yang sesuai. Atau setidaknya memilih tempat yang lebih cocok untuk pusat data daripada gedung tinggi di pulau itu.


Yang lainnya


The Uptime Institute membedakan berbagai insiden ke dalam kategori ini, di antaranya sulit untuk memilih yang khas. Pencurian kabel tembaga menabrak pusat data, menara transmisi daya, dan gardu induk transformator mobil, kebakaran, ekskavator merusak optik, tikus (tikus, kelinci, dan bahkan wombat, yang umumnya milik marsupial), serta amatir untuk berlatih menembak di kawat - menu sangat luas . Pemadaman listrik bahkan dapat disebabkan oleh penanaman ganja ilegal yang mencuri energi. Dalam kebanyakan kasus, pelaku insiden adalah orang-orang tertentu, yaitu, kita kembali berurusan dengan faktor manusia ketika masalahnya memiliki nama dan nama keluarga. Sekalipun pada awalnya kecelakaan itu dikaitkan dengan kerusakan teknis atau bencana alam, itu dapat dihindari jika fasilitas dirancang dengan baik dan dioperasikan dengan baik. Satu-satunya pengecualian adalah kasus kerusakan kritis pada infrastruktur pusat data atau kerusakan bangunan dan struktur akibat bencana alam. Ini benar-benar keadaan force majeure, dan semua masalah lain disebabkan oleh letak antara komputer dan kursi - mungkin ini adalah bagian yang paling tidak dapat diandalkan dari sistem yang kompleks.

Source: https://habr.com/ru/post/id452962/


All Articles