🕺🏾 👨🏻‍⚖️ 🧘🏻 "L'espoir est une mauvaise stratégie." SRE intensif à Moscou, 3-5 février 🏆 🎀 🍀

Nous annonçons le premier cours pratique SRE en Russie: Slurm SRE .

À l'intensité, nous allons construire, casser, réparer et améliorer l'agrégateur de site pour la vente de billets de cinéma pendant trois jours.

Nous avons choisi l'agrégateur de billets car il présente de nombreux scénarios de refus: afflux de visiteurs et attaques DDoS, chute d'un des nombreux microservices critiques (autorisation, réservation, traitement des paiements), inaccessibilité d'un des nombreux cinémas (échange de données sur les places disponibles et réservation), et plus bas dans la liste.

Nous formulerons le concept de Fiabilité de notre site d'agrégateur, que nous poursuivrons en Ingénierie, nous analyserons la conception du point de vue de SRE, nous sélectionnerons des métriques, nous mettrons en place leur suivi, nous éliminerons les incidents qui pourraient survenir, nous organiserons des formations pour le travail en équipe avec des incidents dans des conditions proches du combat, nous organiserons un débriefing .

Le programme est géré par Booking.com et Google.
Cette fois, il n'y aura pas de participation à distance: le cours est construit sur l'interaction personnelle et le travail d'équipe.

Détails sous la coupe

Conférenciers

Ivan Kruglov
Développeur principal chez Booking.com (Pays-Bas)
Depuis qu'il a rejoint Booking.com en 2013, il a travaillé sur des projets d'infrastructure tels que la distribution distribuée et le traitement des messages, BigData et web-stack, la recherche.
Maintenant, il est engagé dans les problèmes de construction d'un cloud interne et d'un service Mesh.

Ben tyler
Développeur principal chez Booking.com (USA)
Engagé dans le développement interne de la plateforme Booking.com.
Spécialisé dans le maillage de service / découverte de service, la planification de travaux par lots, la réponse aux incidents et le processus post-mortem.
Parle et enseigne en russe.

Evgeny Varavva
Développeur Google Wide Profile (San Francisco).
Expérience de travail de projets Web très chargés à la recherche en vision par ordinateur et en robotique.
Depuis 2011, il est engagé dans le développement et l'exploitation de systèmes distribués chez Google, participant au cycle de vie complet du projet: conceptualisation, conception et architecture, lancement, minimisation et toutes les étapes intermédiaires.

Eduard Medvedev
CTO chez Tungsten Labs (Allemagne)
Il a travaillé comme ingénieur chez StackStorm, était responsable de la fonctionnalité ChatOps de la plateforme. Développer et implémenter ChatOps dans l'automatisation des centres de données. Conférencier lors de conférences russes et internationales.

Le programme

Le programme est activement développé. Maintenant, cela ressemble à ceci, en février, il peut s'améliorer et s'étendre.

Thème # 1: Principes et méthodes de base du SRE

Que faut-il pour devenir un SRE?
DevOps vs SRE
Pourquoi les développeurs apprécient SRE et sont très tristes lorsqu'ils ne sont pas dans le projet
SLI, SLO et SLA
Budget d'erreur et son rôle dans le SRE

Thème numéro 2: Conception de systèmes distribués

Architecture et fonctionnalité des applications
Conception de grands systèmes non abstraits
Opérabilité / conception pour l'échec
gRPC ou REST
Versioning et compatibilité descendante

Thème №3: Comment accepter le projet SRE

Meilleures pratiques de SRE
Liste de contrôle d'admission au projet
Journalisation, métriques, traçage
Prenez CI / CD en main

Thème №4: Conception et lancement d'un système distribué

Rétroingénierie - comment fonctionne le système?
Nous coordonnons SLI et SLO
Pratique de planification des capacités
En lançant du trafic vers l'application, nos utilisateurs commencent à "l'utiliser"
Lancez Prometheus, Grafana, Elastic

Sujet n ° 5: Surveillance, observabilité et alerte

Surveillance vs Observabilité
Configurer la surveillance et les alertes avec Prometheus
Suivi pratique de SLI et SLO
Symptômes vs Les causes
Black-Box contre Surveillance de la boîte blanche
Surveillance de la disponibilité des applications et des serveurs distribués
4 signaux or (détection d'anomalies)

Thème №6: La pratique du test de la fiabilité des systèmes

Travailler sous pression
Injection d'échec
Singe du chaos

Thème 7: Pratiquer la réponse aux incidents

Algorithme de gestion du stress
Interaction entre les participants à l'incident
Post mortem
Partage de connaissances
Formation culturelle
Surveillance des défauts
Mener un débriefing irréprochable

Sujet n ° 8: Pratique de gestion de la charge

Équilibrage de charge
Tolérance aux pannes d'application: nouvelle tentative, temporisation, échec d'injection, disjoncteur
DDoS (créer une charge) + échecs en cascade

Sujet n ° 9: Réponse aux incidents

Débriefing
Pratique sur appel
Différents types de pannes (tests, changements de configuration, pannes matérielles)
Protocoles de gestion des incidents

Thème №10: Diagnostic et résolution de problèmes

Journalisation
Débogage
Pratique d'analyse et de débogage sur notre application

Thème №11: tester la fiabilité des systèmes

Test de charge
Test de configuration
Test de performance
Sortie des Canaries

Thème №12: Travail indépendant et revue

Recommandations et exigences pour les participants

SRE - travail d'équipe. Nous recommandons fortement à toute l'équipe de suivre le cours. Par conséquent, nous accordons de grandes remises aux équipes prêtes à l'emploi.

Le prix du cours est de 60 000 ₽ par personne.
Si l'entreprise envoie un groupe de 5+ personnes - 40 000 ₽.

Le cours est construit sur Kubernetes. Pour réussir, vous devez connaître Kubernetes au niveau de base. Si vous ne travaillez pas avec lui, vous pouvez passer par Slurm Basic (en ligne ou intensif du 18 au 20 novembre ).
De plus, vous devez avoir une bonne maîtrise de Linux, connaître Gitlab et Prometheus.

Inscription

Si vous avez une idée difficile de participer, par exemple, pour que le PDG, le directeur technique et l'équipe de développement viennent au cours, et qu'ils pratiqueront sur la base de la direction, écrivez-moi en PM.

"L'espoir est une mauvaise stratégie." SRE intensif à Moscou, 3-5 février

Conférenciers

Le programme

Recommandations et exigences pour les participants

Inscription

More articles: