7 hari, 15 insinyur dan 600 server: Yandex.Money pindah ke pusat data baru



Baru-baru ini, sebuah peristiwa penting terjadi di Departemen Operasi Yandex.Money. Perusahaan kami berkembang pesat, dan ternyata bukan hanya hati kami, tetapi juga permintaan pusat data berubah. Lebih tepatnya, lokasi perlu diubah. Dan sekarang selama tiga bulan, karena salah satu pusat data tinggal di tempat baru.

Tentang bagaimana Yandex.Money pindah ke pusat data baru, saya akan memberitahu Anda, kepala departemen operasi, dan Ivan, kepala infrastruktur TI dan departemen sistem internal.

Di bawah cut - kronologi peristiwa, tonggak penting dari langkah ini, belokan tak terduga dan tanya jawab. Kami berbagi bagaimana kami selamat dari ini.

Prasyarat untuk relokasi


Sebelumnya, salah satu pusat data Yandex.Money terletak di pinggiran kota Moskow. Kenyataannya adalah bahwa di luar kota, tidak semua penyedia saluran komunikasi optik memiliki kemampuan untuk secara mandiri meletakkan rute kabel - harganya mahal. Dan alasan pertama keputusan kami untuk pindah adalah karena fakta bahwa di pusat data lama saluran komunikasi melewati rute yang sama, dan ini membawa risiko tambahan.
Di dalam Ring Road Moskow ada banyak penyedia, dan sistem kabel berkembang dengan baik. Anda dapat membeli saluran dari penyedia yang berbeda dengan cara yang berbeda dan tidak tumpang tindih. Ada peningkatan risiko di wilayah tersebut - misalnya, ekskavator akan datang dan menggali semua lintasan sekaligus.

Kedua, pusat data sebelumnya memiliki keterbatasan teknologi, termasuk secara berkala kami mengalami masalah pasokan daya.

Tetapi alasan utama (= rasa sakit) adalah ketidakmampuan untuk berkembang. Ini berarti bahwa bangunan kehabisan ruang untuk rak tambahan, di mana dimungkinkan untuk menempatkan peralatan baru. Ini berhubungan langsung dengan lingkungan produktif kita, karena Yandex.Money memiliki dua pusat data dan mereka harus simetris dalam hal kapasitas.

Perencanaan


Persiapan untuk langkah ini dibagi menjadi beberapa tahap:

  • Kompetisi: DC, saluran, jaringan, rak, PDU, kabel;
  • Mentransfer aplikasi dan basis data ke DC ke-2;
  • Ajaran - menonaktifkan DC;
  • Arsitektur baru jaringan inti, IX;
  • Menyiapkan inti jaringan baru di DC.


Seleksi Pemasok


Pusat data Yandex.Money pertama terletak di Moskow. Dan untuk menghindari keterlambatan jaringan yang besar, kami memutuskan untuk menempatkan pusat data kedua di dekat yang pertama.
Dalam MKAD untuk meminimalkan penundaan jaringan dan tidak lebih dekat dari 20 km ke fasilitas pertama untuk memastikan independensi kedua pusat data dari infrastruktur perkotaan yang sama dan kemungkinan bencana teknologi atau bencana alam.

Saat menganalisis pasar, kami dipandu oleh kriteria penting seperti sertifikasi pusat data dalam hal ketersediaan dan keandalan. Standar paling umum di Rusia dan dunia adalah standar yang dikembangkan oleh Uptime Institute, yang mengaudit pusat data di seluruh dunia. Perlu dicatat bahwa ada banyak pusat data yang hanya mensertifikasi dokumentasi proyek, tetapi ini tidak berarti bahwa pusat data itu sendiri dibangun, diuji, dan dioperasikan sesuai dengan standar.
Sebuah contoh dari praktik kami: satu penyedia layanan pusat data di Moskow mengumumkan kepada kami bahwa proyek pusat data memenuhi standar Tier III dan menawarkan untuk menyimpulkan perjanjian dengan janji ketersediaan 100%, yaitu, 0 menit downtime per tahun! Setelah secara pribadi mengunjungi situs, kami menyadari bahwa tidak ada sertifikasi resmi yang menjamin tingkat kualitas, dan infrastruktur jelas tidak mengacu pada Tier III. Pusat data terletak di lantai dasar sebuah bangunan tempat tinggal, dan satu-satunya trailer-generator berdiri di jalan tanpa perlindungan fisik.

Oleh karena itu, dalam persyaratan untuk kompetisi, kami memasukkan tidak hanya sertifikasi proyek, tetapi juga sertifikasi proses implementasi dan manajemen.

Selanjutnya, kami menentukan dengan pemasok saluran komunikasi optik antara DC kami dan saluran ke titik pertukaran lalu lintas (IX) di mana kami mengatur antarmuka dengan penyedia atau mitra kami. Kriteria utama adalah bahwa saluran komunikasi optik harus independen, mengikuti rute yang berbeda.

Dan, tentu saja, ada pembelian lain - terutama peralatan jaringan, rak (lemari khusus untuk memasang server), unit distribusi daya (unit distribusi daya cerdas), serta kabel dan kabel patch.

Perlu dicatat bahwa kami secara khusus memilih pemasok yang akan mengangkut peralatan. Penting bahwa perusahaan memiliki pengalaman dalam mengangkut server, dan pemindah mengerti bahwa ini bukan furnitur dan beban, dan Anda juga harus sangat berhati-hati saat mengemudi. Selain itu, kami mengasuransikan peralatan yang diangkut jika terjadi kerusakan selama transportasi.

Peningkatan Infrastruktur Jaringan


Mengenai infrastruktur jaringan, kami memiliki dua opsi. Yang pertama adalah untuk mengangkut peralatan jaringan lama "apa adanya". Yang kedua adalah pertama membangun infrastruktur jaringan baru di pusat data baru dan hanya kemudian mengangkut peralatan server.

Karena kami memahami bahwa kami telah "beristirahat" pada bandwidth jaringan di pusat data lama dan kami membutuhkan cadangan dan kemampuan untuk menskalakan setidaknya 3-5 tahun ke depan, diputuskan untuk membangun infrastruktur jaringan di pusat data baru dari awal dan meningkatkan ke generasi baru peralatan .

Kami berpegang pada model klasik ketika membangun jaringan di pusat data baru. Di setiap rak, server terhubung ke dua sakelar akses, yang, pada gilirannya, terhubung ke sakelar agregasi pusat (mereka juga merupakan inti dari jaringan).



Ajaran


Saat bergerak, kami memutuskan untuk benar-benar mematikan pusat data, pada suatu waktu untuk mengangkut semuanya dan menyalakannya di tempat baru. Untuk ini, perusahaan harus belajar bagaimana melakukannya tanpa salah satu dari dua pusat data. Untuk itu diperlukan partisipasi dari hampir semua administrator kami agar sistem informasi pada platform yang berbeda, pada sistem operasi yang berbeda, dengan basis data yang berbeda untuk bekerja tanpa gangguan di situs yang tersisa.
Untuk layanan paling kritis, disediakan cadangan yang tetap tersedia meskipun satu pusat data dimatikan.

Setelah melakukan pekerjaan reservasi, latihan dimulai. Pertama, kami memutuskan jaringan individual, segmen, dan hanya kemudian pusat data sepenuhnya. Pada tahun 2019, kami melakukan uji penutupan pusat data 10 kali - kami mengamati bagaimana 300 sistem informasi kami berperilaku. Berkali-kali memeriksa otonomi, kami yakin bahwa kami dapat dengan mudah memutus hubungan.

Dan kemudian ...

Minggu X


Salah satu hari Jumat dijadwalkan untuk mematikan semua peralatan di pusat data - rilis terbaru diluncurkan di pagi hari, dan kemudian moratorium diumumkan pada mereka.
Yandex.Money dapat memiliki 60 atau lebih rilis per hari, dan semuanya dilakukan di kedua pusat data.

Kami menghentikan rilis, memastikan bahwa sistem bekerja dengan stabil dan tidak ada perbaikan yang diperlukan dalam komponen kami. Mulai dari 15:00, mereka mulai secara bertahap memadamkan semua aplikasi, database, dan server. Pada malam hari dari Jumat hingga Sabtu, kami menunggu waktu, kami yakin bahwa tidak ada hal buruk yang terjadi, yang berarti kami dapat pergi. Pada Sabtu pagi, tim yang terdiri dari 15 orang mulai membongkar peralatan dan mengangkutnya ke pusat data baru.



Kami butuh sepanjang hari Sabtu untuk membongkar dan mengangkut peralatan. Selanjutnya, proses pemasangan peralatan, switching, menghubungkannya ke catu daya dimulai.



Pada Sabtu malam, kami memasang dan menghubungkan batch server pertama. Pekerjaan utama dimulai pada hari Minggu - menjelang malam akhir pekan hampir semua peralatan dipasang. Dan kami menyelesaikan pergantian hanya pada hari Senin malam.



Pada hari Selasa pagi, kami melakukan pengujian akhir jaringan, saluran komunikasi dan siap untuk meningkatkan sistem kami. Mereka mulai meningkatkan batch server pertama, tetapi ada yang salah ...

Kami mulai menerima keluhan massal dari administrator bahwa jaringan tidak berfungsi di server: baik sepenuhnya, atau salah satu dari dua antarmuka. Mereka mulai mencari masalah di sisi peralatan jaringan, dalam sistem operasi, dalam pengaturan sistem operasi.

Gejalanya mirip - mereka mulai melihat apa yang bisa menjadi alasannya. Kami perhatikan bahwa lebih baik memindahkan tali tambalan di sebelah port sakelar lebih keras dan beberapa tautan yang berfungsi keluar.



Setelah menemukan ini, kami menyadari bahwa sebagian besar dari kabel patch ini (sekitar 40% dari 2.000 keping) rusak. Kami memindahkan semua kabel patch yang tersedia dari pabrikan tepercaya lainnya ke pusat data baru dan segera mulai menyambung kembali server yang paling kritis. Butuh satu hari lagi.

Dari Rabu malam pada Kamis pagi, tim mulai mengangkat blok utama sistem informasi.

Setelah kami meningkatkan layanan kritis dan meluncurkan cadangan sistem pembayaran, kami memasukkan bagian dari tribun uji pusat data baru dan cadangan sistem backoffice sehingga semua sistem internal kami bekerja dengan dua pusat data. Pada akhir minggu, hampir seluruh infrastruktur TI dari pusat data yang diangkut diluncurkan.

Awalnya, ada rencana selama 5 hari, tetapi dengan situasi darurat terkait dengan kabel patch yang rusak, ternyata menjadi seminggu. Di bawah ini kami telah dengan jelas menggambarkan garis waktu tindakan kami.

Rencana Relokasi - Tertunda:

  • Jumat - kami memadamkan jaringan dan aplikasi;
  • Sabtu - kami membawa dan memulai perakitan;
  • Minggu - instalasi server, peluncuran jaringan;
  • Senin - kami menyelesaikan jaringan, meluncurkan aplikasi;
  • Selasa - nyalakan semuanya.


Realitas:

  • Jumat - kami memadamkan jaringan dan aplikasi;
  • Sabtu - kami membawa dan memulai perakitan;
  • Minggu - instalasi server, peluncuran jaringan;
  • Senin - pemasangan kabel, peluncuran jaringan;
  • Selasa - nyalakan server, 100+ tidak berfungsi;
  • Rabu - perkawinan kabel, penggantian , peluncuran Aplikasi dan DB;
  • Kamis - selesai penggantian untuk PS, luncurkan Aplikasi.


Kehidupan setelah bergerak


Apa yang kita dapat dari bergerak?
Pertama-tama, kedua pusat data kami sekarang adalah tingkat Lembaga Uptime Tier III. Pemasok pusat data menjamin tingkat ketersediaan Waktu Kerja 99.982%, yang berarti 1,6 jam waktu henti per tahun. Kami yakin dengan keandalan saluran komunikasi antara situs kami. Juga sekarang tidak ada batasan untuk memperluas infrastruktur IT kami.

Gagasan untuk pindah memberi kami peluang besar untuk meningkatkan peralatan jaringan dalam hal bandwidth. Kami juga refactored catu daya di rak - diinstal "smart PDUs", server daya cadangan.

Dan ketika kami bergerak, kami dapat "menyisir" switching, dan sekarang terlihat lebih rapi.



Oleh karena itu, secara umum, sistem mulai bekerja lebih stabil, dan pelanggan kami menerima layanan yang lebih baik.

Kesimpulan apa yang telah Anda buat untuk diri Anda sendiri?
Saat melakukan proyek besar, Anda perlu memikirkan risiko, bayangkan jebakan apa yang bisa terjadi. Contoh kami dengan kabel Ethernet menunjukkan bahwa tidak cukup untuk melakukan tes pembelian dan menguji produk kabel dari produsen yang dipilih. Untuk mengurangi risiko, perlu dilakukan pengujian acak terhadap 2.000 kabel.

Perlu juga dipertimbangkan bahwa beberapa server mungkin tidak dapat bertahan dan hanya tidak aktif karena berbagai alasan. Dengan satu atau lain cara, jalannya bergetar dan tekanan mekanis. Dari 600 unit peralatan yang diangkut, 6 blok rusak. Dari jumlah server yang cukup besar, hanya 1% yang menderita, tidak satu disk pun mengalami crash - kami percaya ini adalah hasil yang sangat baik.



Begitulah pusat data Yandex.Money pindah ke tempat baru. Kami berharap pengalaman kami akan membantu Anda menghindari kemungkinan kesalahan dan, mungkin, akan mengarahkan Anda ke solusi menarik lainnya.

Source: https://habr.com/ru/post/id481340/


All Articles