
Halo semuanya! Dengan artikel ini, AERODISK membuka blog di Habré. Hore, kawan!
Dalam artikel sebelumnya tentang Habr, pertanyaan tentang arsitektur dan konfigurasi dasar sistem penyimpanan dipertimbangkan. Pada artikel ini, kami akan mempertimbangkan pertanyaan yang sebelumnya tidak dibahas, tetapi sering ditanyakan - tentang toleransi kesalahan sistem penyimpanan ENERGIN AERODISK. Tim kami akan melakukan segalanya sehingga sistem penyimpanan AERODISK berhenti berfungsi, mis. menghancurkannya.
Kebetulan artikel tentang sejarah perusahaan kami, tentang produk kami, serta contoh keberhasilan implementasi sudah menggantung di Habré, yang banyak terima kasih kepada mitra kami - TS Solution dan perusahaan Softline.
Karena itu, saya tidak akan melatih keterampilan manajemen salin-rekat di sini, tetapi cukup berikan tautan ke sumber asli artikel ini:
Saya juga ingin membagikan kabar baik. Tapi saya akan mulai, tentu saja, dengan masalahnya. Kami, sebagai vendor muda, di antara biaya-biaya lain, sepanjang waktu menghadapi kenyataan bahwa banyak insinyur dan administrator yang tidak tahu bagaimana mengoperasikan sistem penyimpanan kami dengan benar.
Jelas bahwa manajemen sebagian besar sistem penyimpanan terlihat kurang lebih sama dari sudut pandang administrator, tetapi masing-masing pabrikan memiliki karakteristiknya sendiri. Dan kami tidak terkecuali.
Oleh karena itu, untuk mempermudah tugas melatih para profesional TI, kami memutuskan untuk mencurahkan tahun ini untuk pendidikan gratis. Untuk melakukan ini, di banyak kota besar Rusia, kami membuka jaringan Pusat Kompetensi AERODISK di mana spesialis teknis yang berminat akan dapat mengambil kursus gratis dan menerima sertifikat administrasi penyimpanan mesin AERODISK ENGINE.
Di setiap Pusat Kompetensi, kami akan memasang demo penuh dari sistem penyimpanan AERODISK dan server fisik tempat guru kami akan melakukan pelatihan penuh waktu. Jadwal kerja Pusat Kompetensi akan dipublikasikan pada penampilan mereka, tetapi sekarang kami telah membuka pusat di Nizhny Novgorod dan kota Krasnodar adalah yang berikutnya. Anda dapat mendaftar untuk pelatihan menggunakan tautan di bawah ini. Saya membawa informasi terkini tentang kota dan tanggal:
- Nizhny Novgorod (SUDAH BEKERJA - Anda dapat mendaftar di sini https://aerodisk.promo/nn/ );
Hingga 16 April 2019, Anda dapat mengunjungi pusat itu kapan saja, dan pada 16 April 2019, kursus pelatihan besar akan diselenggarakan. - Krasnodar (DATANG SEGERA - daftar di sini https://aerodisk.promo/krsnd/ );
Dari 9 April hingga 25 April 2019, Anda dapat mengunjungi pusat pelatihan kapan saja, dan pada 25 April 2019, sebuah kursus pelatihan besar akan diselenggarakan. - Yekaterinburg (PEMBUKAAN SEGERA, ikuti informasi di situs web kami atau di Habré);
Mei-Juni 2019. - Novosibirsk (ikuti informasi di situs web kami atau di Habré);
Oktober 2019 - Krasnoyarsk (ikuti informasi di situs web kami atau di Habré);
November 2019
Dan, tentu saja, jika Moskow tidak jauh dari Anda, maka kapan saja Anda dapat mengunjungi kantor kami di Moskow dan menjalani pelatihan serupa.
Itu saja. Terikat dengan pemasaran, lanjutkan ke teknik!
Di Habré kami akan secara teratur menerbitkan artikel teknis tentang produk kami, stress test, perbandingan, fitur penggunaan dan implementasi yang menarik.
AERODISK ENGINE N2 Storage Crash Test, Strength Test
ACHTUNG! Setelah membaca artikel, Anda dapat mengatakan: yah, tentu saja, penjual akan memeriksa dirinya sendiri sehingga semuanya berjalan "dengan keras", kondisi rumah kaca, dll. Saya akan menjawab: tidak ada yang sejenis! Tidak seperti pesaing asing kami, kami ada di sini, dekat dengan Anda, dan Anda selalu dapat datang kepada kami (di Moskow atau Komite Sentral apa pun) dan menguji sistem penyimpanan kami dengan cara apa pun. Jadi, kami tidak masuk akal untuk menyesuaikan hasilnya dengan gambaran ideal dunia, karena kami sangat mudah untuk memeriksa. Bagi mereka yang terlalu malas untuk berjalan dan yang tidak punya waktu, kami dapat mengatur pengujian jarak jauh. Kami memiliki laboratorium khusus untuk ini. Kontak
ACHTUNG-2! Tes ini bukan tes beban karena di sini kita hanya memperhatikan toleransi kesalahan. Dalam beberapa minggu, kami akan menyiapkan dudukan yang lebih kuat dan melakukan pengujian beban sistem penyimpanan, menerbitkan hasilnya di sini (omong-omong, keinginan untuk pengujian diterima).
Jadi, mari kita istirahat.
Test stand
Stand kami terdiri dari besi berikut:
- 1 x penyimpanan Aerodisk Engine N2 (2 pengontrol, cache 64GB, port 8xFC 8Gb / s, port Ethernet 4x 10Gb / s SFP +, port Ethernet 4x 1Gb / s); Disk berikut dipasang di sistem penyimpanan:
- 4 x SAS SSD disk 900 GB;
- 12 x SAS 10k drive 1,2 TB;
- 1 x Server fisik dengan Windows Server 2016 (2xXeon E5 2667 v3, RAM 96GB, port 2xFC 8Gb / s, 2x port Ethernet 10Gb / s SFP +);
- 2 x SAN 8G switch;
- 2 x LAN 10G switch;
Kami menghubungkan server ke penyimpanan melalui sakelar melalui FC dan Ethernet 10G. Skema stand di bawah ini.

Komponen yang diperlukan, seperti inisiator MPIO dan iSCSI, diinstal pada Windows Server.
Zona dikonfigurasikan pada sakelar FC, VLAN yang sesuai dikonfigurasikan pada sakelar LAN dan MTU 9000 dipasang pada port penyimpanan, sakelar dan host (cara melakukan semua ini dijelaskan dalam dokumentasi kami, jadi kami tidak akan menjelaskan proses ini di sini).
Metodologi pengujian
Rencana pengujian kerusakan adalah sebagai berikut:
- Pemeriksaan kegagalan port FC dan Ethernet.
- Pemeriksaan kegagalan daya.
- Memeriksa kegagalan pengontrol.
- Periksa kegagalan disk dalam grup / kelompok.
Semua pengujian akan dilakukan dalam kondisi beban sintetis, yang akan kami hasilkan dengan IOMETER. Secara paralel, kami akan melakukan tes yang sama, tetapi dalam kondisi menyalin file besar ke sistem penyimpanan.
Konfigurasi IOmeter adalah sebagai berikut:
- Baca / Tulis - 70/30
- Blok - 128k (kami memutuskan untuk membasahi sistem penyimpanan dengan blok besar)
- Jumlah utas adalah 128 (yang sangat mirip dengan beban kerja)
- Acak penuh
- Jumlah Pekerja - 4 (2 untuk FC, 2 untuk iSCSI)

Tes memiliki tugas-tugas berikut:- Pastikan bahwa beban sintetis dan proses penyalinan tidak akan terganggu dan tidak akan menyebabkan kesalahan dengan berbagai mode kegagalan.
- Pastikan bahwa proses peralihan port, pengontrol, dll., Cukup terotomatisasi dan tidak memerlukan tindakan administrator jika terjadi kegagalan (yaitu, dengan failover, tentu saja, tidak ada pembicaraan tentang kegagalan).
- Pastikan informasi ditampilkan dengan benar di log.
Persiapan host dan penyimpanan
Kami mengkonfigurasi akses blok pada penyimpanan menggunakan FC dan port Ethernet (FC dan iSCSI, masing-masing). Cara melakukan ini, orang-orang dari TS Solution dijelaskan secara rinci dalam artikel sebelumnya ( https://habr.com/en/company/tssolution/blog/432876/ ). Yah dan, tentu saja, tidak ada yang membatalkan manual dan kursus.
Kami membuat grup hybrid menggunakan semua drive yang kami miliki. 2 disk SSD ditambahkan ke cache, 2 disk SSD ditambahkan sebagai level penyimpanan tambahan (Online-tier). Kami mengelompokkan 12 disk SAS10k ke dalam RAID-60P (triple parity) untuk memeriksa kegagalan tiga disk dalam satu grup sekaligus. Satu disk tersisa untuk AutoCorrect.

Kami menghubungkan dua LUN (satu di FC, satu di iSCSI).

Kedua LUN dimiliki oleh pengontrol Engine-0.

Mulai tes
Nyalakan IOMETER dengan konfigurasi di atas.

Kami memperbaiki bandwidth 1,8 GB / s dan penundaan 3 milidetik. Tidak ada kesalahan (Jumlah Kesalahan Total).
Pada saat yang sama, dari drive lokal "C" host kami, kami secara bersamaan mulai menyalin dua file 100GB besar ke FC dan LUN iSCSI dari sistem penyimpanan (disk E dan G di Windows) menggunakan antarmuka lain.
Di atas adalah proses menyalin ke LUN FC, di bawah ini adalah iSCSI.

Tes No. 1. Menonaktifkan Port I / O
Kami mendekati bagian belakang sistem penyimpanan))) dan dengan gerakan pergelangan tangan kami mencabut semua kabel FC dan Ethernet 10G dari pengontrol Engine-0. Seolah-olah seorang wanita pembersih dengan pel lewat dan memutuskan untuk mencuci lantai di mana saja berbohong ingus kabel tergeletak (mis. controller tetap bekerja, tetapi port I / O mati).

Kami melihat IOMETER dan menyalin file. Bandwidth turun menjadi 0,5 GB / s, tetapi cukup cepat kembali ke level sebelumnya (sekitar 4-5 detik). Tidak ada kesalahan.

Menyalin file tidak berhenti, ada drawdown dalam kecepatan, tetapi sama sekali tidak kritis (dari 840 MB / s turun menjadi 720 MB / s). Menyalin tidak berhenti.
Kami melihat log dari sistem penyimpanan dan kami melihat pesan tentang tidak tersedianya port dan pemindahan otomatis grup.

Juga, dasbor memberi tahu kita bahwa semuanya tidak begitu baik dengan porta FC.

Port I / O penyimpanan gagal berhasil.
Nomor tes 2. Menonaktifkan pengontrol penyimpanan
Hampir segera (setelah menghubungkan kabel kembali ke sistem penyimpanan), kami memutuskan untuk menyelesaikan penyimpanan dengan menarik controller keluar dari sasis.
Sekali lagi kami mendekati sistem penyimpanan dari belakang (kami menyukainya))) dan kali ini kami mengeluarkan pengontrol Engine-1, yang saat ini adalah pemilik RDG (tempat grup tersebut pindah).
Situasi di IOmeter adalah sebagai berikut. Output input berhenti sekitar 5 detik. Kesalahan tidak menumpuk.

Setelah 5 detik, I / O kembali, dengan laju throughput yang kira-kira sama, tetapi dengan keterlambatan 35 milidetik (penundaan diperbaiki setelah sekitar beberapa menit). Seperti dapat dilihat dari tangkapan layar, nilai Total jumlah kesalahan adalah 0, yaitu, tidak ada kesalahan tulis atau baca.

Kami melihat menyalin file kami. Seperti yang Anda lihat, itu tidak mengganggu, ada penurunan kecil dalam kinerja, tetapi secara umum, semuanya kembali ke yang sama ~ 800 MB / s.

Kami pergi ke sistem penyimpanan dan melihat penyalahgunaan di panel informasi bahwa pengontrol Engine-1 tidak tersedia (tentu saja, kami menggedornya).

Kami juga melihat entri serupa di log.

Kegagalan pengontrol penyimpanan juga berhasil bertahan .
Nomor tes 3. Melepaskan catu daya.
Untuk berjaga-jaga, kami mulai menyalin file lagi, tetapi IOMETER tidak berhenti.
Kami menarik BP-Schnick.

Lansiran lain ditambahkan ke penyimpanan di panel informasi.

Kita juga melihat di menu sensor bahwa sensor yang terkait dengan catu daya yang ditarik menjadi merah.

SHD terus bekerja. Kegagalan BP-Schnick tidak memengaruhi pengoperasian sistem penyimpanan dengan cara apa pun, dari sudut pandang tuan rumah, kecepatan penyalinan dan indikator IOMETER tetap tidak berubah.
Uji kegagalan daya berhasil diselesaikan .
Sebelum tes terakhir, kami memutuskan untuk menghidupkan kembali SHD sedikit, menghidupkan kembali controller dan BP-shnik, dan juga menertibkan kabel, yang dengan senang hati memberi tahu kami dengan ikon hijau di panel kesehatannya.

Tes nomor 4. Kegagalan tiga disk dalam grup
Sebelum tes ini, kami melakukan langkah persiapan tambahan. Faktanya adalah bahwa penyimpanan ENGINE memberikan hal yang sangat berguna - kebijakan yang berbeda membangun kembali (membangun kembali). Sebelumnya, TS Solution menulis tentang fitur ini, tetapi ingat esensinya. Administrator penyimpanan dapat menentukan prioritas alokasi sumber daya selama pembangunan kembali. Atau ke arah kinerja I / O, yaitu, membangun kembali lebih lama, tetapi tidak ada penurunan kinerja. Atau ke arah kecepatan membangun kembali, tetapi kinerjanya akan berkurang. Atau opsi yang seimbang. Karena kinerja penyimpanan selama pembangunan kembali grup disk selalu memusingkan bagi administrator, kami akan menguji kebijakan dengan bias terhadap kinerja I / O dan merusak kecepatan pembuatan kembali.

Sekarang periksa kegagalan drive. Kami juga mengaktifkan perekaman pada LUN (file dan IOMETER). Karena kita memiliki grup triple-parity (RAID-60P), itu berarti bahwa sistem harus tahan terhadap kegagalan tiga disk, dan setelah kegagalan itu harus bekerja penggantian otomatis, satu disk harus berdiri di RDG sebagai pengganti salah satu yang gagal, dan pembangunan kembali harus dimulai dari itu.
Kita mulai. Pertama, melalui antarmuka penyimpanan, sorot disk yang ingin kami tarik (agar tidak ketinggalan dan tidak menarik disk ganti otomatis).

Periksa indikasi pada setrika. Semuanya OK, kita melihat tiga drive yang disorot.

Dan cabut ketiga cakram ini.

Kami melihat tuan rumah. Dan di sana ... tidak ada yang istimewa terjadi.


Indikator penyalinan (mereka lebih tinggi daripada di awal, karena cache menghangat) dan IOMETER tidak banyak berubah ketika menarik disk dan memulai pembangunan kembali (dalam 5-10%).
Kami melihat penyimpanannya.

Dalam status kelompok kita melihat bahwa proses pembangunan kembali telah dimulai dan hampir selesai.

Kerangka RDG menunjukkan bahwa 2 disk berada dalam status merah, dan satu sudah diganti. Disk AutoCorrect sudah tidak ada lagi, ia menggantikan disk ke-3 yang gagal. Rebild dijalankan selama beberapa menit, perekaman file tidak terganggu ketika 3 disk gagal, kinerja I / O tidak banyak berubah.


Tes kegagalan drive pasti berhasil.
Kesimpulan
Tentang ini, kami memutuskan untuk menghentikan penyalahgunaan sistem penyimpanan. Untuk meringkas:
- Periksa Kegagalan Port FC - Berhasil
- Periksa Kegagalan Port Ethernet - Berhasil
- Pengecekan kegagalan pengontrol - berhasil
- Pemeriksaan Kegagalan Daya - Berhasil
- Periksa kegagalan disk di group \ pool - berhasil
Tidak ada kegagalan yang menghentikan rekaman dan tidak menyebabkan kesalahan muatan sintetis, penurunan kinerja, tentu saja, adalah (dan kami tahu cara mengalahkan ini, yang akan kami lakukan segera), tetapi, mengingat ini detik, itu cukup dapat diterima. Kesimpulan: toleransi kesalahan dari semua komponen penyimpanan AERODISK bekerja di tingkat, tidak ada titik kegagalan.
Jelas, dalam kerangka satu artikel, kami tidak dapat menguji semua skenario kegagalan, tetapi kami mencoba untuk membahas yang paling populer. Karena itu, silakan kirim komentar Anda, harapan untuk publikasi berikut dan, tentu saja, kritik yang memadai. Kami akan senang mendiskusikan (dan lebih baik datang ke pelatihan, untuk berjaga-jaga, duplikat jadwal)! Sampai tes baru!
- Nizhny Novgorod (SUDAH BEKERJA - Anda dapat mendaftar di sini https://aerodisk.promo/nn/ );
Hingga 16 April 2019, Anda dapat mengunjungi pusat itu kapan saja, dan pada 16 April 2019, kursus pelatihan besar akan diselenggarakan. - Krasnodar (DATANG SEGERA - daftar di sini https://aerodisk.promo/krsnd/ );
Dari 9 April hingga 25 April 2019, Anda dapat mengunjungi pusat pelatihan kapan saja, dan pada 25 April 2019, sebuah kursus pelatihan besar akan diselenggarakan. - Yekaterinburg (PEMBUKAAN SEGERA, ikuti informasi di situs web kami atau di Habré);
Mei-Juni 2019. - Novosibirsk (ikuti informasi di situs web kami atau di Habré);
Oktober 2019 - Krasnoyarsk (ikuti informasi di situs web kami atau di Habré);
November 2019