Pekerjaan administrator sistem didasarkan pada keyakinan bahwa para insinyur pusat data mengetahui pekerjaan mereka. Kami sedang membangun kluster failover, tetapi berapa biaya failover ini jika listrik padam? Apa bedanya seberapa cepat server memproses permintaan jika saluran dari pusat data turun ke titik pertukaran lalu lintas? Bagaimana cara menaikkan server jika secara fisik terlalu panas?
Dan saya ingin tidak percaya, tetapi untuk mengetahui bagaimana sebenarnya toleransi kesalahan dibuat pada tingkat besi. Dari mana datangnya keandalan peralatan "sembilan" itu, yang sedang kita bicarakan saat merumuskan SLA Kubernetesov. Apa yang terjadi ketika sebuah proyek terbakar dalam arti kata yang sebenarnya.
Kami beruntung berjalan di sekitar pusat data Selectel pada hari ketiga Slurm DevOps, untuk melihat ke tempat suci dan bahkan mengambil beberapa gambar untuk diingat. Kami juga bertanya tentang legenda perusahaan bahwa karyawan Selectel tidak pernah memberi tahu siapa pun. Dan ternyata, mereka sendiri tidak ingat.
Perusahaan Southbridge kami telah dikaitkan dengan Selectel untuk kemitraan lama. Sekarang kami mendukung 58 proyek yang dihosting di server penyedia. Ketika klien membutuhkan server yang berlokasi di Rusia, kami menyarankan Selectel, karena berdasarkan pengalaman, kami menganggapnya sebagai penyedia infrastruktur TI yang paling andal dan nyaman.
Ayo pergi!

Saat naik ke lantai empat - yang paling sulit naik lift, yang paling atletis naik ke atas - kolega dari Southbridge mengingatkan saya bahwa saya harus belajar tentang legenda Selectel: tentang manusia serigala, tentang roh gelisah yang berkeliaran dan melolong ketika membangun gedung pusat data baru. Saya selalu tertarik pada mitologi perusahaan besar, yang tetap dari tahap turbulen kelahiran dan pertumbuhan pertama.
Pada awalnya, perusahaan memiliki satu pusat data tentang Bunga 1 di St. Petersburg. Pusat data melayani perusahaan Vkontakte. Kami melihatnya dari jendela ketika kami naik ke lantai empat. Dia pernah berhenti pada modernisasi sembilan hingga sepuluh tahun yang lalu - dan sejak itu telah bekerja terus menerus. Dalam hal keandalan, itu milik Tier II.
Informasi untuk dipertimbangkan (c) "Seventeen Moments of Spring":
Indikator utama dari pusat data adalah toleransi kesalahan. Ada 4 kategori secara total - dari Tingkat I hingga Tingkat IV. Milik kategori tertentu menunjukkan tingkat redundansi, keamanan fisik, dan keandalan.
Tingkat I (Redundansi - N, toleransi kesalahan - 99.671%) - tidak ada lantai yang dinaikkan di pusat data, tidak ada sumber daya cadangan dan catu daya yang tidak pernah terputus, dan infrastruktur teknik tidak disediakan. Selama perbaikan terjadwal atau darurat, pusat data berhenti.
Tingkat II (Redundansi - (N + 1), toleransi kesalahan - 99,749%) - ada tingkat redundansi kecil, lantai yang ditinggikan, dan sumber daya cadangan dipasang di pusat data, pekerjaan perbaikan menyebabkan pusat data berhenti bekerja, seperti pada Tier I.
Tingkat III (Redundansi - 2N, toleransi kesalahan - 99,982%) - dimungkinkan untuk melakukan pekerjaan perbaikan (mengganti komponen sistem, menambah dan menghapus peralatan yang gagal) tanpa menghentikan pusat data. Semua sistem dicadangkan, ada beberapa distribusi daya dan saluran pendingin.
Diperlukan Tier IV (Redundansi - 2 (N + 1), toleransi kesalahan - 99.995%) - redundansi ganda dan redundansi dari sistem. Dimungkinkan untuk melakukan pekerjaan apa pun tanpa menghentikan pekerjaan pusat data. Sistem rekayasa dicadangkan ganda, yaitu, sistem primer dan sekunder diduplikasi.
Di depan kami ada kisi-kisi yang kuat, pintu dengan kunci elektronik dan roda kincir tinggi yang terbuat dari profil logam tebal. Dan di belakangnya adalah ruang pusat data itu sendiri.

Pusat data tempat kami berada lebih baru daripada pusat data di lingkungan tersebut - dibangun pada tahun 2015. Dan itu termasuk dalam kategori Tingkat III.
Sekarang Selectel memiliki dua pusat operasi di Tsvetochnaya, tiga lagi di Dubrovka, dua pusat data di Moskow, yang dianggap sebagai salah satu pusat data di perusahaan. Hanya enam.
Bangunan itu memiliki empat lantai. Kantor terletak di lantai pertama dan beberapa peralatan berada. Lantai empat sebagian dialokasikan untuk kantor, tetapi sebagian besar ditempati oleh tempat teknis.
Sebelum penyedia masuk ke sini, produksi berada di gedung. Karyawan pusat data sendiri tidak ingat produksi apa yang sebenarnya - film, atau pakaian. Perusahaan membeli bangunan untuk menghilangkan risiko hubungan properti yang kompleks jika bangunan tersebut dimiliki oleh pihak ketiga.
Terlepas dari kenyataan bahwa produksi dulu berlokasi di sini, ada peralatan mesin dan mesin berat lainnya, Selectel semakin memperkuat lantai. Bahkan di ruang konferensi di lantai dasar, tempat Slurm DevOps ( 1 , 2 , 3 ) yang intensif berlangsung, kami memperhatikan dukungan yang diperkuat.
Kami pergi ke pusat data hanya di penutup sepatu - aturan yang biasa untuk tempat tersebut. Untuk mengenakan onuchi plastik harganya "rak sepatu". Kami diilhami dengan tulus. Petugas itu menawari kami pilihan - untuk mengenakan sepatu sendiri atau mempercayakan ekstremitas ke peralatan rakus.

Pilihan kami sudah bisa ditebak. Igor Olemsky, Direktur Southbridge: "Kami untuk otomatisasi . " Anton Tarasov, administrator Southbridge: "Jika demikian halnya dengan kaus kaki, saya akan menjadi orang yang paling bahagia di planet ini . "

Sementara mereka mengenakan sepatu, pengembang Southbridge aktif bertanya-tanya persis di mana server VMware berada. Semua orang tertarik untuk melihat pada peralatan apa teknologi ini bekerja.
Segera setelah mereka memasuki area teknis, mereka segera mengumumkan aturan: “Kami tidak makan, kami tidak minum, kami tidak merokok. Kami tidak menempatkan tangan kami di mana pun, ke perisai apa pun, ke rak apa pun, AC, remote. Kami memegang tangan kami di depan kami, seperti tyrannosaurus. "
Di lantai empat ada tiga ruang server. Semua peralatan ada di lantai yang ditinggikan. Hal ini diperlukan agar udara dingin mengalir dari bawah, dan juga agar komunikasi dapat dilakukan yang tidak memerlukan akses konstan. Ini adalah saluran listrik dan pipa pendingin.

Segera setelah kami memasuki ruang server kecil, gebrakan menghantam kami. Karakter kartun terkenal dengan serbuk gergaji di kepalanya pasti akan berkata: "Ini baik, baik, baik, untuk alasan yang baik!" . Karena kami tidak terbiasa dengan itu, kami hampir tidak mendengar satu sama lain selama beberapa menit pertama. Penjelasan panduan ini, juga, hampir tidak bisa ditebak, aku harus lebih dekat.
Sekitar adalah rak, rak dan bahkan lebih banyak rak ... Mereka berbaris dalam barisan yang ketat. Di pusat data server, kami bertemu peringkat yang berbeda: sebanyak 10 rak, 12, 20, 30. Bergantung pada konfigurasi ruangan, area yang disewa oleh klien, dan tugas.


Di pusat data di semua ruang server dari sistem pendingin terlihat seperti ini: dari atas dan di samping ruang yang didinginkan dibatasi oleh struktur rak, bagian depan ditutup oleh pintu berlubang. Pendingin udara menggerakkan udara dingin di bawah lantai yang ditinggikan - dan udara naik di bawah tekanan ke dalam rak.

Sudah cukup untuk pergi di antara baris untuk merasakan bagaimana suhu udara turun tajam lima derajat, Anda bahkan dapat merasakan batas suhu. Sambungan di lantai yang ditinggikan dipasang sedemikian erat sehingga udara yang dikondisikan tidak memiliki tempat untuk pergi, kecuali jalur yang khusus disediakan untuk pendinginan.
Di server itu sendiri, suhu dipertahankan sekitar 22 ± 2 derajat Celcius. Di koridor "dingin", suhu bisa turun hingga 16-17 derajat. Ada dua koridor "dingin" di ruang server kecil. Dengan demikian, koridor di antara mereka disebut "panas." Mereka sedikit lebih hangat dari ruang server rata-rata - udara melewati rak dan memanas dari peralatan.

Ada rak untuk disewakan kepada pelanggan. Insinyur menghubungkan daya - klien memanggil peralatan dan melakukan apa yang diinginkannya, dalam kerangka peraturan dan perundang-undangan. Rak bisa disewa berbeda. Sebanyak 47 unit, setengah, empat bagian. Mereka dipisahkan secara fisik - kunci yang berbeda digunakan. Anda dapat menyewa hanya 10 unit. Yang memiliki peralatan sangat sedikit, ini akan cukup. Dengan demikian, lebih sedikit daya - ternyata lebih murah.
Jika klien menyewa, misalnya, "seperempat" di bagian bawah dan Anda perlu meletakkan kabel, ia akan ditarik melalui saluran logam khusus. Dan pelanggan di bagian atas rak tidak akan mendapatkan akses ke komunikasi orang lain dengan cara apa pun: tidak ke listrik, atau ke tembaga, atau ke optik.
Di ruang server ada AC dalam jumlah tiga buah. Hanya mereka berdua yang bekerja. Jika satu pendingin udara diambil untuk pemeliharaan atau jika kerusakan terjadi, insinyur akan menghidupkan cadangan. Cadangan cadangan ini merupakan persyaratan spesifikasi Tier III.
Misalnya, ada catu daya yang tidak pernah terputus. Ada sejumlah tertentu dari mereka, misalkan 12. Tetapi berfungsi 6. Ruang server dapat bekerja selama satu jam pada baterai jika listrik berhenti mengalir ke pusat data. Tetapi jika 6 UPS secara hipotesis rusak, maka para insinyur akan menghidupkan enam lagi. Selalu ada dua kali lebih banyak node di pusat data untuk keandalan.

Pusat data untuk proyek ini dapat menghabiskan hingga 10 MW. Namun sekarang hanya ada 1,5. Sejauh ini, hanya lantai empat yang digunakan untuk peralatan - lantai kedua dan ketiga pada tahap konstruksi. Dan yang keempat masih belum sepenuhnya terisi: dirancang untuk 250 rak, dan 200 ditempati. Ada ruang untuk tumbuh.
Secara total, Selectel menggunakan 14,4 MW di semua pusat data. Rak beroperasi 1.200.

Selain rak utama, yang digunakan untuk berbagai proyek, terutama untuk sewa bagi pelanggan, rak layanan terletak di rak server, di mana hanya peralatan Selectel yang dipasang. Ada rak silang untuk koneksi pasif. Mereka tanpa daya, hanya serat optik - untuk menghubungkan peralatan antar platform dan antar kamar. Setiap ruang server memiliki kabinet yang sama dengan salib. Cross dapat pergi ke ruangan lain, ke ruang server lain di lantai dasar, segera setelah dibangun, ia dapat pergi ke pusat data tetangga atau bahkan ke pusat data di Dubrovka.
Perusahaan memiliki beberapa serat seperti itu. Jika satu terputus, pusat data akan mulai bekerja pada yang lain tanpa jeda. Semua jalur yang diletakkan selalu disediakan.
Jika mereka membuat koneksi antara pusat data ini dan yang berdekatan, para insinyur akan memimpin satu tautan melalui salib melalui udara antara pusat data, dan tautan kedua akan mengarah melalui saluran pembuangan melalui salib lain. Dan apa pun yang terjadi, selalu ada saluran cadangan.
Karena ada banyak peralatan di pusat data, karyawan secara ketat memonitor keselamatan kebakaran. Pusat data memiliki beberapa skenario untuk menangani kebakaran. Selectel memiliki alat pemadam kebakaran di setiap kamar, baik kantor maupun teknis. Dan orang-orang secara khusus dilatih untuk bekerja dengan mereka. Jika api bersifat lokal, Anda dapat mengatasinya sendiri.

Tetapi jika sangat terbakar, misalnya, catu daya di server atau sirkuit kompresor dengan oli, maka alat pemadam kebakaran tidak selalu dapat mengatasinya. Untuk kasus seperti itu, pusat data memiliki stasiun pemadam kebakaran gas. Dari sana, pipa kuning mengalir ke langit-langit ke setiap kamar.
Dalam kebakaran serius, semua orang dikeluarkan dari ruang server. Di dekat setiap pintu ada tombol kuning. Pintu tertutup rapat, tombol ditekan, hitungan mundur 30 detik diberikan. Gas Hladon-125 disuplai - pentafluoroethane, rumus kimia C2F5H. Ini menghambat proses pembakaran - dan api segera berhenti. Saat memadamkan api di pusat data, cairan atau bubuk tidak digunakan karena akan merusak peralatan.
Di ruang server besar kami dilarang mengambil foto. Karena saya akan menceritakan dari ingatan apa yang mereka lihat. Secara total, pusat data ini memiliki satu server kecil dan dua yang besar.
Ruang server besar pertama memiliki satu koridor "dingin", yang dibuat untuk proyek-proyek Selectel dan untuk penyewaan pelanggan. Ini jauh lebih lama daripada di ruang server kecil. Pada beberapa rak ada langkah-langkah keamanan individu - di salah satu rak kami melihat kunci elektronik dengan kode pin dan kamera video di atas.
Kami melihat bagaimana layanan "sewa ruang yang dialokasikan" terlihat dari dalam. Anda dapat membeli quadrature di situs - tentu saja, dari yang tersedia. Dan klien di sana dapat menempatkan rak dan peralatan apa pun yang memenuhi standar.
Area yang sangat luas, milik satu klien, diperiksa melalui pagar terlampir. Ada rak-rak Jerman berdasarkan pesanan khusus. Ada juga gudang kecil yang terpisah.
Menurut cerita panduan kami, layanan ini belum tentu begitu besar. Anda bisa meletakkan dua rak dan mengelilingi kandang. Dan akses ke mereka hanya akan bersama Anda. Biasanya, persyaratan semacam itu muncul jika bank atau klien bekerja dengan lembaga keuangan.

Kami melihat ke lokasi stasiun pemadam api. Di sinilah silinder dengan "Freon-125" berada. Peralatan dikonfigurasikan sehingga, tergantung pada ukurannya, gas dari sejumlah silinder dikirim ke setiap ruangan.

Di sebelah kiri sepanjang koridor ada ruang panel listrik. Tetapi kami tidak memiliki akses di sana, kalau-kalau mereka tidak melakukan kunjungan - jika tidak maka akan menjadi tidak nyaman, dan baunya tidak akan hilang untuk waktu yang lama.
Ada catu daya dan panel yang tidak pernah terputus. Di ruangan inilah makanan untuk seluruh bangunan datang. Dan sudah dari sini ada kabel di semua kamar. Busbar pergi ke ruang server, yang dapat dilihat di bawah langit-langit di koridor.
Dua saluran bus dikirim ke setiap server. Satu di bawah langit-langit, satu di bawah lantai yang tinggi - ini adalah bagaimana kondisi reservasi terpenuhi. Seluruh bangunan ditenagai oleh dua sinar input dari pembangkit listrik. Jika satu input terputus, maka pusat data akan bekerja dari yang kedua.

Jika dua terputus sekaligus, maka semua peralatan beralih ke baterai isi ulang. 750 baterai terletak di ruang khusus. Sedikit lebih jauh ada ruangan lain dari jenis yang sama - dan ada banyak lagi. Pusat data akan dapat hidup selama 1-3 jam, tergantung pada bebannya, tetapi hanya perlu 2 menit untuk beralih ke diesel.
Di kamar yang terpisah terdapat genset diesel raksasa. Masing-masing berdiri di atas platform setinggi satu lutut - seperti yang saya mengerti dari penjelasan, ini adalah tangki terpisah dengan bahan bakar untuk setiap mesin diesel. Plus, di pusat data ada beberapa tangki yang terkubur di bawah tanah dan dirancang untuk beberapa ton bahan bakar.
Saat bahan bakar menurun, ia diganti secara berkala. Jika bahan bakar habis di tangki diesel, pompa akan memompa bahan bakar dari tangki. Jika tiba-tiba terjadi gangguan dan pompa rusak, masih ada cadangan.

Benar-benar semua sistem digandakan - saluran komunikasi Internet, pendingin, catu daya, sistem pemadam kebakaran darurat dan catu daya alternatif.
Kami bertanya tentang operator telekomunikasi. Insinyur perusahaan mengatakan bahwa mereka terus menggunakan 5-6 operator untuk uplink. Dan ada beberapa rute. Plus, penyedia memiliki koneksi dengan hampir semua titik pertukaran lalu lintas di St. Petersburg dan Moskow. Di Moskow, yang terbesar adalah M9. Dan di St. Petersburg - B18 dan Kantemirovskaya.
Jika bahan bakar di tangki bawah tanah berakhir, tangki lain dibawa. Selectel memiliki kontrak dengan perusahaan bahan bakar. Pusat data tanpa henti dapat hidup dengan diesel, hanya saja lebih mahal.
Kami bertanya bagaimana Selectel bekerja dengan faktor manusia - karena dialah yang merupakan bahaya terbesar, dan tidak ada reservasi yang akan membantu.
- Bagaimana Anda bekerja dengan kesalahan manusia?
- Kami mencoba untuk tidak mengulanginya. Kami memperkirakan kemungkinan kesalahan. Kami melakukan pelatihan, latihan. Misalnya, pelatihan tentang beralih ke generator diesel: kami menguji orang, beralih ke mesin diesel dalam proses, kadang-kadang kami mentransfer seluruh beban kepada mereka. Plus ada basis pengetahuan.
Kami sampai di VMware. Pada server cloud, hanya platform Intel yang digunakan, SSD 2 terabyte. Secara alami, reservasi hanya untuk segalanya. Sebagai contoh, kami melihat dekat: di setiap server dua kartu jaringan, dua tautan masing-masing macet. Satu tautan menuju sakelar yang ada di atas, tautan lainnya menuju sakelar rak berikutnya. Dua catu daya per modul digunakan.

Di pusat data, ada rak CMO terutama Rusia. Di meja klien di area sewaan ada solusi yang berbeda.
Sedikit lebih jauh di koridor dari ruang server besar kedua kami melihat lift. Ada dua lift untuk alat pengangkat - satu ton dan dua ton. Area pemuatan dibuat secara terpisah - terletak di sebelah ruang konferensi di lantai dasar.

Di ruang lift, kami melihat kotak "kecil" dengan router Juniper MX 2010. Impian setiap admin: tiga catu daya AC, 1 modul RE (mesin perutean): 1800x4 (CPU 1,8 GHz QuadCore, 16 GB RAM), 1 modul SFB (Ganti Papan Kain).
Kolega berdebat di mana harus meletakkannya. Kami memutuskan bahwa di rumah ia akan terlihat terbaik. Dimungkinkan untuk mendistribusikan wi-fi ke peralatan rumah tangga. Rumit dan kokoh - router yang serius untuk admin yang serius. Dan ketika Anda lelah, Anda dapat menjual dan membeli apartemen di kota besar.



Bahkan ada model yang lebih besar, lebih kuat, dan produktif - MX 2020.
Bagaimana cara kerja router? Modul, kartu garis dimasukkan ke dalamnya - mereka luar biasa tinggi dan sangat sempit.Dan kartu garis seperti itu sangat berbeda - mereka dapat memiliki 8, 24, 48 port. Port bisa berupa "puluhan" dan "seratus". Tergantung pada apa kebutuhan Anda dan peluang keuangan apa.
Di MX 2020 ada 32 slot untuk kartu garis: 16 di bagian atas dan 16 di bagian bawah. Dan relatif berbicara, jika Anda memasukkan 10 kartu garis, dan masing-masing memiliki 48 port, maka hasilnya adalah 480 port. Kami menggunakan transceiver "dua puluh lima" - dan kami mengalikan 480 port dengan 25 gigabit. Ini adalah salah satu opsi. Anda dapat menempatkan "ratusan".
Ketika mereka meninggalkan tempat teknis, mereka tinggal sedikit di "titik camilan", di mana insinyur Selectel mendapatkan kembali kekuatan di malam hari. Mereka bertanya apakah mesin kopi dalam kategori Tier III digandakan di pusat data. Dua mesin kopi di setiap titik - masing-masing memiliki dua catu daya ... dan seterusnya.

:
— -?
— . . , , , . . — , . - . , . — , , .
, DCIM (Data Center Infrastructure Management). , -, . , , , , .
, Selectel, — , , : " 6 - 40 000 " .
- — , . , , .

, . , , -. - , , .
. - , .


, , - . .
— - ?
— , — Selectel.
— - , .
— .
— .
.
. . , , , . , Selectel. -.

, Selectel , :
— , , ?
— . , — .
, - . , , , 8 . . - , Selectel , , , , , .
, . — . , - . . . , , . . .
Selectel, — , , , . , , -, : , , .
.
— ? , - ? , ?
— , — , . , .
, NDA. , , .