💩 🚆 📫 "Harapan adalah strategi yang buruk." SRE intensif di Moskow, 3-5 Februari 🤑 🕠 👊🏻

Kami mengumumkan kursus praktis SRE pertama di Rusia: Slurm SRE .

Intensitasnya, kami akan membangun, menghancurkan, memperbaiki, dan meningkatkan situs-agregator untuk penjualan tiket film selama tiga hari.

Kami memilih agregator tiket karena memiliki banyak skenario penolakan: masuknya pengunjung dan serangan DDoS, jatuhnya salah satu dari banyak layanan microsoft kritis (otorisasi, reservasi, pemrosesan pembayaran), tidak dapat diaksesnya salah satu dari banyak bioskop (pertukaran data tentang kursi dan reservasi yang tersedia), dan lebih jauh ke bawah daftar.

Kami akan merumuskan konsep Keandalan situs agregator kami, yang akan kami lanjutkan di bidang Teknik, kami akan menganalisis desain dari sudut pandang SRE, kami akan memilih metrik, kami akan mengatur pemantauan mereka, kami akan menghilangkan insiden yang mungkin terjadi, kami akan melakukan pelatihan untuk kerja tim dengan insiden dalam kondisi yang dekat dengan pertempuran, kami akan mengatur debriefing .

Program ini dijalankan oleh Booking.com dan Google.
Kali ini tidak akan ada partisipasi jarak jauh: kursus dibangun di atas interaksi pribadi dan kerja tim.

Detail di bawah potongan

Pembicara

Ivan Kruglov
Pengembang Utama di Booking.com (Belanda)
Sejak bergabung dengan Booking.com pada tahun 2013, ia telah mengerjakan proyek infrastruktur seperti pengiriman dan pemrosesan pesan yang didistribusikan, BigData dan web-stack, pencarian.
Sekarang dia terlibat dalam masalah membangun cloud internal dan Service Mesh.

Ben tyler
Pengembang Utama di Booking.com (AS)
Terlibat dalam pengembangan internal platform Booking.com.
Spesialisasi dalam service mesh / layanan penemuan, penjadwalan pekerjaan batch, respon insiden dan proses postmortem.
Berbicara dan mengajar dalam bahasa Rusia.

Evgeny Varavva
Google Wide Profile Developer (San Francisco).
Pengalaman kerja dari proyek web yang sangat sarat dengan penelitian dalam visi komputer dan robotika.
Sejak 2011, ia telah terlibat dalam pengembangan dan pengoperasian sistem terdistribusi di Google, berpartisipasi dalam siklus hidup penuh proyek: konseptualisasi, desain dan arsitektur, meluncurkan, meminimalkan, dan semua tahap perantara.

Eduard Medvedev
CTO di Tungsten Labs (Jerman)
Dia bekerja sebagai seorang insinyur di StackStorm, bertanggung jawab atas fungsionalitas ChatOps platform. Mengembangkan dan mengimplementasikan ChatOps dalam otomatisasi pusat data. Pembicara di konferensi Rusia dan internasional.

Programnya

Program ini sedang dikembangkan secara aktif. Sekarang kelihatannya seperti ini, pada bulan Februari dapat meningkat dan berkembang.

Tema # 1: Prinsip dasar dan metode SRE

Apa yang diperlukan untuk menjadi SRE?
DevOps vs SRE
Mengapa pengembang menghargai SRE dan sangat sedih ketika mereka tidak ada dalam proyek
SLI, SLO dan SLA
Kesalahan anggaran dan perannya dalam SRE

Tema nomor 2: Desain sistem terdistribusi

Arsitektur Aplikasi dan Fungsionalitas
Desain Sistem Besar Non-Abstrak
Operabilitas / Desain untuk kegagalan
gRPC atau REST
Versi dan Kompatibilitas Mundur

Tema №3: Cara menerima proyek SRE

Praktik Terbaik dari SRE
Daftar Periksa Penerimaan Proyek
Logging, metrik, tracing
Ambil CI / CD ke tangan kita sendiri

Tema №4: Desain dan peluncuran sistem terdistribusi

Reverse engineering - bagaimana cara kerja sistem?
Kami mengoordinasikan SLI dan SLO
Praktek perencanaan kapasitas
Meluncurkan traffic ke aplikasi, pengguna kami mulai "menggunakannya"
Luncurkan Prometheus, Grafana, Elastic

Topik # 5: Pemantauan, Pengamatan dan Peringatan

Pemantauan vs Observabilitas
Atur pemantauan dan peringatan dengan Prometheus
Pemantauan praktis SLI dan SLO
Gejala vs Penyebab
Black-Box vs. Pemantauan kotak putih
Aplikasi terdistribusi dan pemantauan ketersediaan server
4 sinyal emas (deteksi anomali)

Tema №6: Praktik menguji keandalan sistem

Bekerja di bawah tekanan
Injeksi gagal
Monyet kekacauan

Tema # 7: Praktikkan respons insiden

Algoritma manajemen stres
Interaksi antara peserta insiden
Post mortem
Berbagi pengetahuan
Formasi budaya
Pemantauan kesalahan
Melakukan tanya jawab tanpa cela

Topik # 8: Praktek Manajemen Beban

Load balancing
Toleransi Kesalahan Aplikasi: coba lagi, batas waktu, injeksi gagal, pemutus sirkuit
DDoS (buat beban) + Kegagalan Cascading

Topik # 9: Respons Insiden

Tanya jawab
Praktek Panggilan
Berbagai jenis kegagalan (pengujian, perubahan konfigurasi, kegagalan perangkat keras)
Protokol Manajemen Insiden

Tema №10: Diagnosis dan penyelesaian masalah

Penebangan
Debugging
Analisis dan praktik debugging pada aplikasi kita

Tema №11: Menguji keandalan sistem

Uji beban
Pengujian konfigurasi
Pengujian kinerja
Canary release

Tema №12: Pekerjaan dan ulasan independen

Rekomendasi dan persyaratan untuk peserta

SRE - kerja tim. Kami sangat menyarankan agar seluruh tim mengikuti kursus. Karena itu, kami memberikan diskon besar untuk tim yang sudah jadi.

Harga kursus adalah 60 000 ₽ per orang.
Jika perusahaan mengirim sekelompok 5+ orang - 40.000 ₽.

Kursus ini dibangun di atas Kubernetes. Untuk lulus, Anda perlu tahu Kubernetes di tingkat dasar. Jika Anda tidak bekerja dengannya, Anda dapat mengunjungi Slurm Basic ( online atau intensif 18-20 November ).
Selain itu, Anda harus memiliki perintah Linux yang baik, kenal Gitlab dan Prometheus.

Pendaftaran

Jika Anda memiliki ide yang sulit untuk berpartisipasi, misalnya, untuk CEO, direktur teknis dan tim pengembangan untuk datang ke kursus, dan mereka akan berlatih berdasarkan vertikal manajerial, tulis kepada saya di PM.

"Harapan adalah strategi yang buruk." SRE intensif di Moskow, 3-5 Februari

Pembicara

Programnya

Rekomendasi dan persyaratan untuk peserta

Pendaftaran

More articles: