"Harapan adalah strategi yang buruk." SRE intensif di Moskow, 3-5 Februari

Kami mengumumkan kursus praktis SRE pertama di Rusia: Slurm SRE .


Intensitasnya, kami akan membangun, menghancurkan, memperbaiki, dan meningkatkan situs-agregator untuk penjualan tiket film selama tiga hari.



Kami memilih agregator tiket karena memiliki banyak skenario penolakan: masuknya pengunjung dan serangan DDoS, jatuhnya salah satu dari banyak layanan microsoft kritis (otorisasi, reservasi, pemrosesan pembayaran), tidak dapat diaksesnya salah satu dari banyak bioskop (pertukaran data tentang kursi dan reservasi yang tersedia), dan lebih jauh ke bawah daftar.


Kami akan merumuskan konsep Keandalan situs agregator kami, yang akan kami lanjutkan di bidang Teknik, kami akan menganalisis desain dari sudut pandang SRE, kami akan memilih metrik, kami akan mengatur pemantauan mereka, kami akan menghilangkan insiden yang mungkin terjadi, kami akan melakukan pelatihan untuk kerja tim dengan insiden dalam kondisi yang dekat dengan pertempuran, kami akan mengatur debriefing .


Program ini dijalankan oleh Booking.com dan Google.
Kali ini tidak akan ada partisipasi jarak jauh: kursus dibangun di atas interaksi pribadi dan kerja tim.


Detail di bawah potongan


Pembicara


Ivan Kruglov
Pengembang Utama di Booking.com (Belanda)
Sejak bergabung dengan Booking.com pada tahun 2013, ia telah mengerjakan proyek infrastruktur seperti pengiriman dan pemrosesan pesan yang didistribusikan, BigData dan web-stack, pencarian.
Sekarang dia terlibat dalam masalah membangun cloud internal dan Service Mesh.


Ben tyler
Pengembang Utama di Booking.com (AS)
Terlibat dalam pengembangan internal platform Booking.com.
Spesialisasi dalam service mesh / layanan penemuan, penjadwalan pekerjaan batch, respon insiden dan proses postmortem.
Berbicara dan mengajar dalam bahasa Rusia.


Evgeny Varavva
Google Wide Profile Developer (San Francisco).
Pengalaman kerja dari proyek web yang sangat sarat dengan penelitian dalam visi komputer dan robotika.
Sejak 2011, ia telah terlibat dalam pengembangan dan pengoperasian sistem terdistribusi di Google, berpartisipasi dalam siklus hidup penuh proyek: konseptualisasi, desain dan arsitektur, meluncurkan, meminimalkan, dan semua tahap perantara.


Eduard Medvedev
CTO di Tungsten Labs (Jerman)
Dia bekerja sebagai seorang insinyur di StackStorm, bertanggung jawab atas fungsionalitas ChatOps platform. Mengembangkan dan mengimplementasikan ChatOps dalam otomatisasi pusat data. Pembicara di konferensi Rusia dan internasional.


Programnya


Program ini sedang dikembangkan secara aktif. Sekarang kelihatannya seperti ini, pada bulan Februari dapat meningkat dan berkembang.


Tema # 1: Prinsip dasar dan metode SRE


  • Apa yang diperlukan untuk menjadi SRE?
  • DevOps vs SRE
  • Mengapa pengembang menghargai SRE dan sangat sedih ketika mereka tidak ada dalam proyek
  • SLI, SLO dan SLA
  • Kesalahan anggaran dan perannya dalam SRE

Tema nomor 2: Desain sistem terdistribusi


  • Arsitektur Aplikasi dan Fungsionalitas
  • Desain Sistem Besar Non-Abstrak
  • Operabilitas / Desain untuk kegagalan
  • gRPC atau REST
  • Versi dan Kompatibilitas Mundur

Tema №3: Cara menerima proyek SRE


  • Praktik Terbaik dari SRE
  • Daftar Periksa Penerimaan Proyek
  • Logging, metrik, tracing
  • Ambil CI / CD ke tangan kita sendiri

Tema №4: Desain dan peluncuran sistem terdistribusi


  • Reverse engineering - bagaimana cara kerja sistem?
  • Kami mengoordinasikan SLI dan SLO
  • Praktek perencanaan kapasitas
  • Meluncurkan traffic ke aplikasi, pengguna kami mulai "menggunakannya"
  • Luncurkan Prometheus, Grafana, Elastic

Topik # 5: Pemantauan, Pengamatan dan Peringatan


  • Pemantauan vs Observabilitas
  • Atur pemantauan dan peringatan dengan Prometheus
  • Pemantauan praktis SLI dan SLO
  • Gejala vs Penyebab
  • Black-Box vs. Pemantauan kotak putih
  • Aplikasi terdistribusi dan pemantauan ketersediaan server
  • 4 sinyal emas (deteksi anomali)

Tema №6: Praktik menguji keandalan sistem


  • Bekerja di bawah tekanan
  • Injeksi gagal
  • Monyet kekacauan

Tema # 7: Praktikkan respons insiden


  • Algoritma manajemen stres
  • Interaksi antara peserta insiden
  • Post mortem
  • Berbagi pengetahuan
  • Formasi budaya
  • Pemantauan kesalahan
  • Melakukan tanya jawab tanpa cela

Topik # 8: Praktek Manajemen Beban


  • Load balancing
  • Toleransi Kesalahan Aplikasi: coba lagi, batas waktu, injeksi gagal, pemutus sirkuit
  • DDoS (buat beban) + Kegagalan Cascading

Topik # 9: Respons Insiden


  • Tanya jawab
  • Praktek Panggilan
  • Berbagai jenis kegagalan (pengujian, perubahan konfigurasi, kegagalan perangkat keras)
  • Protokol Manajemen Insiden

Tema №10: Diagnosis dan penyelesaian masalah


  • Penebangan
  • Debugging
  • Analisis dan praktik debugging pada aplikasi kita

Tema №11: Menguji keandalan sistem


  • Uji beban
  • Pengujian konfigurasi
  • Pengujian kinerja
  • Canary release

Tema №12: Pekerjaan dan ulasan independen


Rekomendasi dan persyaratan untuk peserta


SRE - kerja tim. Kami sangat menyarankan agar seluruh tim mengikuti kursus. Karena itu, kami memberikan diskon besar untuk tim yang sudah jadi.


Harga kursus adalah 60 000 ₽ per orang.
Jika perusahaan mengirim sekelompok 5+ orang - 40.000 ₽.


Kursus ini dibangun di atas Kubernetes. Untuk lulus, Anda perlu tahu Kubernetes di tingkat dasar. Jika Anda tidak bekerja dengannya, Anda dapat mengunjungi Slurm Basic ( online atau intensif 18-20 November ).
Selain itu, Anda harus memiliki perintah Linux yang baik, kenal Gitlab dan Prometheus.


Pendaftaran


Jika Anda memiliki ide yang sulit untuk berpartisipasi, misalnya, untuk CEO, direktur teknis dan tim pengembangan untuk datang ke kursus, dan mereka akan berlatih berdasarkan vertikal manajerial, tulis kepada saya di PM.

Source: https://habr.com/ru/post/id473032/


All Articles