Google dan DevOps: dua buku tentang SRE

Selama sepuluh tahun pertama di Google, saya bekerja sebagai insinyur biasa: Saya meluncurkan transportasi umum di peta, meningkatkan pencarian dan menangkap spam di YouTube. Pada titik tertentu, ternyata di lingkungan tim SWE (Insinyur Perangkat Lunak) terdapat beberapa SRE (Insinyur Keandalan Situs) yang misterius yang hidup dalam produksi dan mengetahui segala sesuatu tentang infrastruktur, konfigurasi, dan pemantauan. Biasanya mereka mendatangi kami dengan jadwal yang tidak bisa dipahami dan sangat disarankan untuk menulis ulang sesuatu di layanan kami sehingga meledak dengan rapi dan berkeping-keping, dan tidak secara keseluruhan dengan semua tetangganya. Atau mereka membangun beberapa infrastruktur yang secara ajaib menyelesaikan semua masalah kita untuk selamanya. Atau dilaporkan bahwa tidak akan ada rilis kedua minggu ini, karena satu pusat data tersapu badai, dan seekor kuda dimakamkan di sebelah yang lain dan kabel trunkus terputus. Setelah beberapa waktu, menjadi jelas bahwa Anda dapat mendatangi orang-orang ini dengan berbagai masalah dan pergi dengan solusi yang ditemukan oleh beberapa tingkat abstraksi yang lebih rendah dari yang Anda harapkan dari produk Anda sendiri (β€œAnda, tentu saja, membayar jumlah lalu lintas yang diperlukan, tetapi di sini dia tidak dengan bodohnya masuk ke sakelar di bagian atas rak ”).

Akibatnya, saya menjadi tertarik pada bagaimana semua SRE ini terlihat dari dalam, dan saya pergi ke Mission Control , program rotasi yang memungkinkan saya menghabiskan setengah tahun dalam peran SRE, mendapatkan pengalaman produksi yang berharga dan, jika diinginkan, kembali ke tim saya sebelumnya untuk berbagi pengetahuan yang didapat. Sebaliknya, saya tetap, seperti dua pertiga dari rekan SRE Pemrosesan Video saya saat ini, juga dilatih ulang dari insinyur reguler. Sekarang saya sendiri menakut-nakuti SWE dengan grafik yang tidak dapat dipahami dan mengevakuasi video YouTube dari pusat data yang terbakar, dengan istirahat untuk pengkodean kreatif yang damai. Ternyata selama lima belas tahun, organisasi SRE yang sehat dan efektif telah tumbuh di dalam Google dengan praktik, prinsip, dan metode - tetapi tidak ada yang tahu tentang mereka, karena mereka yang sampai di sana, belum ada yang kembali.

Solusi untuk masalah hilangnya informasi yang sedang bertugas, SLO dan post-mortem di lubang hitam Google SRE adalah buku "Rekayasa Keandalan Situs" , yang menjelaskan secara rinci bagaimana sebenarnya SRE kami bekerja. Sebenarnya, seluruh posting ini dimulai demi dua berita:

  1. Dua minggu yang lalu , terjemahan bahasa Rusia dari buku SRE tersebut dirilis. Jika Anda ingin tahu bagaimana mendapatkan praktik DevOps yang sehat di perusahaan Anda, buku ini cocok untuk Anda. Jika Anda mencurigai kecenderungan SRE, maka buku ini bahkan lebih cocok untuk Anda.
  2. Dalam mengejar buku pertama, Buku Kerja Keandalan Situs dengan contoh-contoh praktis dari kehidupan Google Cloud Platform baru saja diterbitkan (sejauh ini hanya dalam bahasa Inggris) - Saya juga sangat merekomendasikannya.

Source: https://habr.com/ru/post/id421603/


All Articles