"L'espoir est une mauvaise stratégie." SRE intensif à Moscou, 3-5 février

Nous annonçons le premier cours pratique SRE en Russie: Slurm SRE .


À l'intensité, nous allons construire, casser, réparer et améliorer l'agrégateur de site pour la vente de billets de cinéma pendant trois jours.



Nous avons choisi l'agrégateur de billets car il présente de nombreux scénarios de refus: afflux de visiteurs et attaques DDoS, chute d'un des nombreux microservices critiques (autorisation, réservation, traitement des paiements), inaccessibilité d'un des nombreux cinémas (échange de données sur les places disponibles et réservation), et plus bas dans la liste.


Nous formulerons le concept de Fiabilité de notre site d'agrégateur, que nous poursuivrons en Ingénierie, nous analyserons la conception du point de vue de SRE, nous sélectionnerons des métriques, nous mettrons en place leur suivi, nous éliminerons les incidents qui pourraient survenir, nous organiserons des formations pour le travail en équipe avec des incidents dans des conditions proches du combat, nous organiserons un débriefing .


Le programme est géré par Booking.com et Google.
Cette fois, il n'y aura pas de participation à distance: le cours est construit sur l'interaction personnelle et le travail d'équipe.


Détails sous la coupe


Conférenciers


Ivan Kruglov
Développeur principal chez Booking.com (Pays-Bas)
Depuis qu'il a rejoint Booking.com en 2013, il a travaillé sur des projets d'infrastructure tels que la distribution distribuée et le traitement des messages, BigData et web-stack, la recherche.
Maintenant, il est engagé dans les problèmes de construction d'un cloud interne et d'un service Mesh.


Ben tyler
Développeur principal chez Booking.com (USA)
Engagé dans le développement interne de la plateforme Booking.com.
Spécialisé dans le maillage de service / découverte de service, la planification de travaux par lots, la réponse aux incidents et le processus post-mortem.
Parle et enseigne en russe.


Evgeny Varavva
Développeur Google Wide Profile (San Francisco).
Expérience de travail de projets Web très chargés à la recherche en vision par ordinateur et en robotique.
Depuis 2011, il est engagé dans le développement et l'exploitation de systèmes distribués chez Google, participant au cycle de vie complet du projet: conceptualisation, conception et architecture, lancement, minimisation et toutes les étapes intermédiaires.


Eduard Medvedev
CTO chez Tungsten Labs (Allemagne)
Il a travaillé comme ingénieur chez StackStorm, était responsable de la fonctionnalité ChatOps de la plateforme. Développer et implémenter ChatOps dans l'automatisation des centres de données. Conférencier lors de conférences russes et internationales.


Le programme


Le programme est activement développé. Maintenant, cela ressemble à ceci, en février, il peut s'améliorer et s'étendre.


Thème # 1: Principes et méthodes de base du SRE


  • Que faut-il pour devenir un SRE?
  • DevOps vs SRE
  • Pourquoi les développeurs apprécient SRE et sont très tristes lorsqu'ils ne sont pas dans le projet
  • SLI, SLO et SLA
  • Budget d'erreur et son rôle dans le SRE

Thème numéro 2: Conception de systèmes distribués


  • Architecture et fonctionnalité des applications
  • Conception de grands systèmes non abstraits
  • Opérabilité / conception pour l'échec
  • gRPC ou REST
  • Versioning et compatibilité descendante

Thème №3: Comment accepter le projet SRE


  • Meilleures pratiques de SRE
  • Liste de contrôle d'admission au projet
  • Journalisation, métriques, traçage
  • Prenez CI / CD en main

Thème №4: Conception et lancement d'un système distribué


  • Rétroingénierie - comment fonctionne le système?
  • Nous coordonnons SLI et SLO
  • Pratique de planification des capacités
  • En lançant du trafic vers l'application, nos utilisateurs commencent à "l'utiliser"
  • Lancez Prometheus, Grafana, Elastic

Sujet n ° 5: Surveillance, observabilité et alerte


  • Surveillance vs Observabilité
  • Configurer la surveillance et les alertes avec Prometheus
  • Suivi pratique de SLI et SLO
  • Symptômes vs Les causes
  • Black-Box contre Surveillance de la boîte blanche
  • Surveillance de la disponibilité des applications et des serveurs distribués
  • 4 signaux or (détection d'anomalies)

Thème №6: La pratique du test de la fiabilité des systèmes


  • Travailler sous pression
  • Injection d'échec
  • Singe du chaos

Thème 7: Pratiquer la réponse aux incidents


  • Algorithme de gestion du stress
  • Interaction entre les participants à l'incident
  • Post mortem
  • Partage de connaissances
  • Formation culturelle
  • Surveillance des défauts
  • Mener un débriefing irréprochable

Sujet n ° 8: Pratique de gestion de la charge


  • Équilibrage de charge
  • Tolérance aux pannes d'application: nouvelle tentative, temporisation, échec d'injection, disjoncteur
  • DDoS (créer une charge) + échecs en cascade

Sujet n ° 9: Réponse aux incidents


  • Débriefing
  • Pratique sur appel
  • Différents types de pannes (tests, changements de configuration, pannes matérielles)
  • Protocoles de gestion des incidents

Thème №10: Diagnostic et résolution de problèmes


  • Journalisation
  • Débogage
  • Pratique d'analyse et de débogage sur notre application

Thème №11: tester la fiabilité des systèmes


  • Test de charge
  • Test de configuration
  • Test de performance
  • Sortie des Canaries

Thème №12: Travail indépendant et revue


Recommandations et exigences pour les participants


SRE - travail d'équipe. Nous recommandons fortement à toute l'équipe de suivre le cours. Par conséquent, nous accordons de grandes remises aux équipes prêtes à l'emploi.


Le prix du cours est de 60 000 ₽ par personne.
Si l'entreprise envoie un groupe de 5+ personnes - 40 000 ₽.


Le cours est construit sur Kubernetes. Pour réussir, vous devez connaître Kubernetes au niveau de base. Si vous ne travaillez pas avec lui, vous pouvez passer par Slurm Basic (en ligne ou intensif du 18 au 20 novembre ).
De plus, vous devez avoir une bonne maîtrise de Linux, connaître Gitlab et Prometheus.


Inscription


Si vous avez une idée difficile de participer, par exemple, pour que le PDG, le directeur technique et l'équipe de développement viennent au cours, et qu'ils pratiqueront sur la base de la direction, écrivez-moi en PM.

Source: https://habr.com/ru/post/fr473032/


All Articles