Saat ini, dalam infrastruktur TI, dengan meluasnya penggunaan virtualisasi, sistem penyimpanan adalah inti yang menyimpan semua mesin virtual. Kegagalan simpul ini dapat sepenuhnya menghentikan pekerjaan pusat data. Meskipun sebagian besar peralatan server memiliki toleransi kesalahan dalam satu bentuk atau yang lain "secara default", justru karena peran khusus dari sistem penyimpanan dalam pusat data bahwa mereka telah meningkatkan persyaratan dalam hal "kemampuan bertahan".
Metode yang paling efektif untuk memastikan toleransi kesalahan dalam TI adalah penggunaan beberapa contoh peralatan dan perangkat lunak (dalam kasus paling sederhana, duplikasi). Tentu saja, penyimpanan dapat digandakan seluruhnya. Dan untuk pemulihan bencana, inilah pendekatan yang tepat digunakan. Tetapi tidak semua perusahaan mampu membeli solusi seperti itu. Ini bukan hanya tentang melipatgandakan biaya peralatan, tetapi juga tentang biaya lain untuk mengatur solusi semacam itu dan dukungan lebih lanjutnya.
Namun, kemungkinan duplikasi peralatan tidak menghilangkan kebutuhan untuk memastikan toleransi kesalahan pada tingkat komponen. Secara khusus, redundansi diterapkan pada sistem penyimpanan untuk catu daya, modul pendingin, drive dan, tentu saja, pengontrol. Semua ini sudah lama menjadi hal biasa. Sulit untuk menemukan penyimpanan tanpa menggunakan desain serupa. Qsan di sini tidak terkecuali. Tetapi kami ingin berbicara dalam artikel ini tentang apa yang tidak segera terbukti, dan pada saat yang sama ditujukan terutama untuk meningkatkan toleransi kesalahan sistem secara keseluruhan.
Modul pendingin
Sangat sering dalam sistem penyimpanan dengan kasing 2U-3U, modul gabungan digunakan yang menggabungkan catu daya dan kipas. Di satu sisi, itu nyaman karena Hanya satu unit yang perlu diservis. Di sisi lain, jika sistem pendingin gagal, catu daya mungkin mati secara paksa untuk menghindari panas berlebih. Dan tampaknya bukan situasi yang paling kritis akan muncul, tetapi jelas tidak layak untuk menambahkan kerentanan penyimpanan.
Pendinginan dalam sistem penyimpanan Qsan diatur dalam bentuk modul terpisah dengan penggantian "panas", terlepas dari catu daya. Sebenarnya, catu daya memiliki penggemar sendiri, yang dirancang untuk meniup PSU itu sendiri. Modul pendingin mengakomodasi dua kipas independen yang saling mengasuransikan. Ada dua modul seperti itu dalam sistem penyimpanan: di sebelah kanan dan di sebelah kiri - untuk aliran udara yang efisien dari semua komponen. Jika salah satu kipas gagal, yang lain secara otomatis meningkatkan kecepatan mereka untuk mengimbangi kurangnya aliran udara yang dihasilkan. Itulah sebabnya kegagalan kipas tidak menyebabkan risiko overheating seluruh perangkat.
Topologi Koneksi Ekstensi Rak
Skema klasik untuk menghubungkan rak ekspansi ke penyimpanan berarti topologi yang disebut kaskade. Dalam hal ini, pengontrol rak dan penyimpanan yang terkait saling terhubung oleh kabel SAS tunggal. Secara total, 2 kabel untuk sistem dual-controller diperoleh. Jika Anda ingin menghubungkan yang kedua, maka itu terhubung dengan cara yang sama ke rak pertama. Dan sebagainya. Keuntungan dari topologi ini adalah kemudahan implementasi dalam peralatan. Dan minus akan ada beberapa kerentanan untuk istirahat tiba-tiba di sirkuit SAS karena kegagalan lintas pengontrol dan rak penyimpanan yang tidak terhubung atau karena pemadaman salah satu rak ekspansi di tengah rantai. Hasilnya akan kehilangan akses ke bagian dari drive dan kemungkinan jatuhnya kelompok RAID jika "tersebar" di beberapa kasus.
Dari kegagalan cross-controller, Qsan memiliki perlindungan dalam bentuk komunikasi logis internal antara pengontrol melalui backplane penyimpanan. Yaitu pengontrol penyimpanan tidak hanya melihat pengontrol JBOD yang terhubung langsung dengannya, tetapi juga pengontrol "tetangga" melalui tautan khusus di backplane. Akibatnya, jika situasi seperti itu terjadi dan tidak ada yang secara fisik menarik kabel SAS antara sistem penyimpanan dan rak, maka akses ke semua drive akan dipertahankan.
Untuk melindungi sirkuit SAS dari kerusakan, misalnya, karena de-energisasi rak ekspansi, topologi koneksi yang berbeda biasanya digunakan - kaskade terbalik. Dalam hal ini, sistem penyimpanan terhubung segera ke rak pertama dan terakhir dalam rantai, mendapatkan akses ke drive dari kedua sisi.
Jika Anda ingin perlindungan yang lebih kuat, maka Anda dapat membangun konfigurasi pada skala yang lebih besar, menggunakan, misalnya, topologi pohon. Atau menyulitkan melalui kombinasi topologi yang disebutkan. Ini dimungkinkan karena sejumlah besar konektor SAS pada perangkat (2 untuk setiap pengontrol penyimpanan dan 5 untuk setiap pengontrol JBOD) dengan deteksi otomatis mode operasi input / output. Yang utama adalah bahwa administrator sendiri tidak bingung. Dan sistem penyimpanan akan dapat mengkonfigurasi konfigurasi dengan benar.
Membangun kembali dengan cepat
Ketersediaan cadangan cadangan panas dalam sistem secara signifikan meningkatkan keandalan penyimpanan informasi. Namun, fakta bahwa disk tersebut dialokasikan tidak berarti perlindungan absolut. Faktanya adalah bahwa proses pemulihan (membangun kembali) cukup memakan waktu dan seringkali memakan waktu. Kompleksitas muncul dari akses yang berkelanjutan ke data master. Yaitu sistem, bersama dengan pekerjaan saat ini, juga harus menyalin data ke disk baru. Dan durasi pembangunan kembali secara langsung tergantung pada kapasitas drive dan karakteristik kecepatannya. Karena sistem tidak tahu apa-apa tentang ruang disk yang ditempati sebenarnya, dalam proses membangunnya kembali cukup menyalin semuanya: blok demi blok.
Akibatnya, pemulihan disk berkapasitas tinggi modern 10 + TB dengan beban serius pada sistem penyimpanan dapat dengan mudah menjadi satu minggu atau lebih. Anda juga harus ingat fakta bahwa selama pembangunan kembali, kemungkinan kegagalan drive lain meningkat secara signifikan karena meningkatnya beban pada drive tersebut. Dan ini sudah dapat menimbulkan bahaya serius jika menggunakan, misalnya, RAID5.
Sebagai solusi untuk masalah ini, banyak pengembang penyimpanan khawatir tentang mempercepat proses pemulihan. Berbagai pendekatan dapat digunakan untuk ini, tetapi esensinya sama - menyalin hanya blok yang benar-benar ditempati selama pembangunan kembali. Qsan tidak berdiri terpisah dari masalah ini. Dalam sistem penyimpanan vendor ini, ketika opsi Rebuild Cepat diaktifkan, sistem melacak blok yang digunakan untuk merekam, sehingga memiliki kemampuan untuk menyalin hanya mereka ke drive baru jika terjadi kegagalan disk.
Opsi Rebuild Cepat tidak diaktifkan secara default saat membuat volume baru, seperti penggunaannya berdampak pada kinerja, terutama dengan operasi penulisan acak, karena:
- Penting untuk melacak catatan dalam blok;
- Ketika membangun kembali, checksum tidak dihitung ulang untuk ruang yang tidak terisi, oleh karena itu, ketika entri baru dibuat untuk area ini, Anda harus terlebih dahulu "menginisialisasi" itu.
Oleh karena itu, tidak disarankan untuk menggunakan Fast Rebuild untuk volume, misalnya, dengan basis data yang sangat banyak atau dalam sistem pengawasan video, di mana volumenya akan tetap 100% penuh. Tetapi untuk server file atau mail, opsi ini akan sangat berguna.
Alih-alih sebuah kesimpulan
Setiap produsen penyimpanan menyiratkan bahwa perangkatnya dapat diandalkan. Dan jika tidak ada kesalahan perhitungan fatal dalam pengembangan perangkat dan kehausan yang luar biasa akan penghematan dalam proses produksi dan pengujian mereka, maka secara umum kita dapat setuju dengan vendor. Namun, Anda perlu memahami:
- toleransi kesalahan dasar sistem penyimpanan pertama-tama adalah cara untuk terus memiliki akses ke data jika terjadi kegagalan komponen apa pun;
- opsi tambahan mengenai toleransi kesalahan (seperti yang dijelaskan di atas) adalah penghapusan beberapa jenis kesalahan fungsi dan meningkatkan peluang Anda untuk memiliki akses ke data;
- Keandalan 100%, sayangnya, tidak terjadi. Tetapi, untuk sedekat mungkin dengan itu, sebagian besar vendor penyimpanan yang waras (dan Qsan di antara mereka) melakukan segala upaya untuk terus meningkatkan produk mereka baik dalam perangkat keras maupun perangkat lunak.
Pada saat yang sama, orang tidak boleh lupa bahwa tidak ada keandalan absolut dari sistem penyimpanan tidak membatalkan ketersediaan salinan cadangan, jelas dan dilatihkan rencana untuk pemulihan jika terjadi kecelakaan, dan dukungan teknis operasional untuk vendor.