Tugas: dalam Kerangka Acuan untuk sistem TI yang komprehensif ada klausa - “melakukan perhitungan koefisien ketersediaan sistem”.
Solusi: gunakan bahan dari GOST, minta data tambahan dari vendor untuk item peralatan dan gunakan matematika sederhana untuk melakukan perhitungan akhir.
Referensi normatif:
GOST R 27.002-2009 ("Keandalan dalam teknologi (SSTN). Istilah dan definisi")
GOST R 27.003-2011 Keandalan dalam teknologi (SSTN). Manajemen Keandalan. Panduan Spesifikasi Keandalan
GOST 27,002-89 Keandalan dalam teknologi (SSTN). Konsep dasar. Ketentuan dan definisi
Menurut GOST R 27.002-2009 ("Keandalan dalam teknologi (SSNT). Syarat dan definisi"),
faktor ketersediaan (dalam bidang keandalan dalam teknologi) adalah
probabilitas bahwa produk saat ini dalam keadaan dapat dioperasikan, ditentukan sesuai dengan proyek. dalam kondisi operasi dan pemeliharaan yang ditentukan .
Dengan demikian, kesiapan mencerminkan kemampuan sistem untuk terus melakukan fungsinya.
Dalam kasus umum, untuk perangkat informasi dan komputer, faktor ketersediaan adalah probabilitas bahwa sistem komputer akan berada dalam kondisi kerja pada setiap saat (sewenang-wenang) dalam waktu.
Faktor ketersediaan (K) ditentukan oleh rumus:
K = MTBF / (MTBF + MTTR) ,
dimana:
- MTBF (Mean Time Between Failure) - waktu rata-rata antara kegagalan (rata-rata waktu antara kegagalan);
- MTTR (Mean Time To Repair) - waktu pemulihan rata-rata (waktu rata-rata untuk pemulihan).
Tidak seperti keandalan, nilai yang hanya ditentukan oleh nilai MTBF, ketersediaan juga tergantung pada waktu yang diperlukan untuk mengembalikan sistem ke kondisi kerja.
Jadi, kami memiliki sistem IT tertentu (server rack-mount, server blade, sistem penyimpanan data).
Toleransi kesalahan pada tingkat peralatan sistem IT memungkinkan layanannya untuk terus bekerja jika terjadi kegagalan perangkat keras komponen individu dari peralatan server, sistem penyimpanan data atau infrastruktur.
Toleransi kesalahan fungsi komponen internal sistem TI dicapai dengan menerapkan teknologi berikut:
- redundansi catu daya untuk peralatan server, sistem penyimpanan data;
- adapter jaringan server yang berlebihan;
- redundansi adaptor server optik;
- redundansi jalur koneksi kabel switching server dan jaringan transmisi data dan jaringan penyimpanan data;
- duplikasi modul sasis blade: catu daya, modul kontrol, kipas, modul switching;
- menempatkan informasi pada sistem penyimpanan disk menggunakan grup disk yang gagal-aman (RAID).
Akibatnya, semua komponen utama peralatan sistem TI - server, catu daya, drive disk, adaptor jaringan, sakelar - memiliki kemampuan hot-swap yang berlebihan.
Catu daya peralatan sistem TI dilakukan dari dua sumber independen. Koneksi peralatan sistem TI ke jaringan data eksternal dan jaringan penyimpanan juga diduplikasi.
Semua subsistem sistem TI memiliki redundansi, jadi jika ada elemen yang gagal, peralatan sistem TI secara keseluruhan akan tetap dalam kondisi kerja. Selain itu, penggantian elemen yang gagal dimungkinkan tanpa menghentikan peralatan sistem TI.
Probabilitas (P) dari kegagalan satu komponen selama satu tahun adalah:
P = 1 / MTBF.Kegagalan komponen duplikat akan menyebabkan kegagalan peralatan hanya dengan ketentuan bahwa komponen cadangan juga akan gagal dalam waktu yang diperlukan untuk penggantian "panas" komponen yang gagal terlebih dahulu. Jika waktu penggantian komponen yang dijamin adalah 24 jam (1/365 tahun) (yang sesuai dengan praktik yang telah ditetapkan untuk melayani peralatan server), maka kemungkinan kejadian seperti itu selama tahun tersebut:

Setelah menghitung probabilitas kegagalan semua komponen N dari peralatan sistem TI, dimungkinkan untuk menghitung probabilitas kegagalan peralatan sistem TI dalam satu tahun dengan menjumlahkan setiap probabilitas kegagalan:

Karena kegagalan komponen biasanya terdistribusi secara merata dalam waktu, maka, mengetahui probabilitas kegagalan peralatan sistem TI selama tahun tersebut, kita dapat menentukan waktu antara kegagalan:
MTBFs = 1 / Mz.Faktor ketersediaan peralatan sistem TI akan sama dengan:
Kit = MTBFs / (MTBFs + MTTR).Kami akan menghitung faktor ketersediaan peralatan sistem TI dari 26 komponen (masing-masing komponen memiliki beberapa elemen).
Masalah utama dalam tabel di bawah adalah data MTBF aktual untuk setiap komponen. Data ini sangat enggan untuk menyediakan vendor. Seringkali Anda harus melakukan korespondensi dengan perwakilan vendor untuk meminta ketentuan dan penyempurnaan data ini.
Tabel di bawah ini telah melakukan perhitungan untuk sistem TI yang "ketinggalan zaman", tetapi sekarang telah berfungsi selama hampir lima tahun dalam mode pertempuran tanpa kegagalan komponen, tetapi Pelanggan sudah berencana untuk bermigrasi ke komponen baru tanpa menunggu tenggat waktu dari data akhir yang dihitung.




(*) - data awal tentang MTBF adalah perkiraan yang disediakan untuk item peralatan pabrik ini atau analognya.
Akibatnya, perkiraan data tentang peralatan sistem kami:
- probabilitas kegagalan peralatan sistem selama tahun: 0,0966;
- Sistem peralatan MTBF (tahun): 10,35 (90666 jam);
- waktu pemecahan masalah rata-rata (jam): 24;
- faktor ketersediaan peralatan sistem (%): 99,97;
- downtime rata-rata per tahun (jam): 2,61 (156 menit).
Dari baris terakhir dari tabel, Anda dapat melihat bahwa kami memiliki elemen penyimpanan yang tidak terduplikasi dan momen ini memiliki efek yang sangat kuat pada data yang dihitung. Jika memungkinkan, Anda perlu menduplikasi elemen-elemen ini (sebagai rekomendasi) atau menggunakan tata letak penyimpanan yang berbeda.
Perhitungan ini, tentu saja, sangat evaluatif. Tetapi pemahaman dasar bahwa sistem itu optimal atau perlu elemen tambahan dapat menyediakan.
Bahkan, tabel-tabel ini dengan perhitungan dimasukkan di bagian yang diinginkan dari dokumentasi proyek dan dikeluarkan untuk Pelanggan.
Sangat menarik untuk melakukan perhitungan seperti itu untuk satu set peralatan jaringan (dengan rincian maksimum menjadi elemen hingga modul SFP dan catu daya) dan membandingkan data yang dihasilkan dengan vendor yang berbeda.