Wir kündigen den ersten SRE-Praktikumskurs in Russland an: Slurm SRE .
In dieser Intensität werden wir den Site-Aggregator für den Verkauf von Kinokarten für drei Tage bauen, brechen, reparieren und verbessern.

Wir haben uns für den Ticketaggregator entschieden, weil er viele Ablehnungsszenarien aufweist: Zustrom von Besuchern und DDoS-Angriffen, Sturz eines der vielen kritischen Microservices (Autorisierung, Reservierung, Zahlungsabwicklung), Unzugänglichkeit eines der vielen Kinos (Datenaustausch über verfügbare Plätze und Reservierung), und weiter unten in der Liste.
Wir werden das Zuverlässigkeitskonzept unserer Aggregator-Site formulieren, das wir im Engineering fortsetzen werden, wir werden das Design aus Sicht von SRE analysieren, wir werden Metriken auswählen, wir werden deren Überwachung einrichten, wir werden mögliche Vorfälle beseitigen, wir werden Schulungen für die Teamarbeit mit Vorfällen unter kampfnahen Bedingungen durchführen, wir werden Nachbesprechungen organisieren .
Das Programm wird von Booking.com und Google ausgeführt.
Dieses Mal findet keine Fernbeteiligung statt: Der Kurs basiert auf persönlicher Interaktion und Teamarbeit.
Details unter dem Schnitt
Lautsprecher
Ivan Kruglov
Hauptentwickler bei Booking.com (Niederlande)
Seit seinem Eintritt bei Booking.com im Jahr 2013 hat er an Infrastrukturprojekten wie verteilter Zustellung und Nachrichtenverarbeitung, BigData und Web-Stack-Suche gearbeitet.
Jetzt beschäftigt er sich mit Fragen des Aufbaus einer internen Cloud und eines Service Mesh.
Ben Tyler
Hauptentwickler bei Booking.com (USA)
Beteiligt an der internen Entwicklung der Booking.com-Plattform.
Spezialisiert auf Service Mesh / Service Discovery, Batch Job Scheduling, Incident Response und Postmortem-Prozess.
Spricht und unterrichtet auf Russisch.
Evgeny Varavva
Google Wide Profile Developer (San Francisco).
Arbeitserfahrung von hoch geladenen Webprojekten bis hin zu Forschungen in den Bereichen Computer Vision und Robotik.
Seit 2011 ist er bei Google an der Entwicklung und dem Betrieb verteilter Systeme beteiligt und nimmt am gesamten Lebenszyklus des Projekts teil: Konzeption, Design und Architektur, Start, Minimierung und alle Zwischenstufen.
Eduard Medwedew
CTO bei Tungsten Labs (Deutschland)
Er arbeitete als Ingenieur bei StackStorm und war für die ChatOps-Funktionalität der Plattform verantwortlich. Entwicklung und Implementierung von ChatOps zur Automatisierung von Rechenzentren. Referent bei russischen und internationalen Konferenzen.
Das Programm
Das Programm wird aktiv weiterentwickelt. Jetzt sieht es so aus, bis Februar kann es sich verbessern und erweitern.
Thema 1: Grundprinzipien und Methoden von SRE
- Was braucht es, um ein SRE zu werden?
- DevOps gegen SRE
- Warum schätzen Entwickler SRE und sind sehr traurig, wenn sie nicht im Projekt sind?
- SLI, SLO und SLA
- Fehlerbudget und seine Rolle in SRE
Thema Nummer 2: Entwurf verteilter Systeme
- Anwendungsarchitektur und Funktionalität
- Nicht abstraktes Design großer Systeme
- Bedienbarkeit / Design für Fehler
- gRPC oder REST
- Versionierung und Abwärtskompatibilität
Thema №3: Akzeptieren des SRE-Projekts
- Best Practices von SRE
- Checkliste für die Projektzulassung
- Protokollierung, Metriken, Ablaufverfolgung
- Nehmen Sie CI / CD selbst in die Hand
Thema №4: Entwurf und Start eines verteilten Systems
- Reverse Engineering - wie funktioniert das System?
- Wir koordinieren SLI und SLO
- Kapazitätsplanungspraxis
- Wenn unsere Benutzer den Datenverkehr zur Anwendung starten, beginnen sie, ihn zu "verwenden".
- Starten Sie Prometheus, Grafana, Elastic
Thema Nr. 5: Überwachung, Beobachtbarkeit und Alarmierung
- Überwachung vs. Beobachtbarkeit
- Richten Sie mit Prometheus Überwachung und Warnungen ein
- Praktische Überwachung von SLI und SLO
- Symptome vs. Ursachen
- Black-Box vs. White-Box-Überwachung
- Überwachung der verteilten Anwendungs- und Serververfügbarkeit
- 4 Goldsignale (Anomalieerkennung)
Thema №6: Die Praxis, die Zuverlässigkeit von Systemen zu testen
- Unter Druck arbeiten
- Fehlerinjektion
- Chaosaffe
Thema Nr. 7: Reaktion auf Vorfälle üben
- Stressmanagement-Algorithmus
- Interaktion zwischen Vorfallteilnehmern
- Post mortem
- Wissensaustausch
- Kulturbildung
- Fehlerüberwachung
- Durchführung einer tadellosen Nachbesprechung
Thema Nr. 8: Lastmanagementpraxis
- Lastenausgleich
- Anwendungsfehlertoleranz: Wiederholung, Zeitüberschreitung, Fehlerinjektion, Leistungsschalter
- DDoS (Last erstellen) + Kaskadierungsfehler
Thema Nr. 9: Reaktion auf Vorfälle
- Nachbesprechung
- Bereitschaftspraxis
- Verschiedene Arten von Fehlern (Tests, Konfigurationsänderungen, Hardwarefehler)
- Incident Management-Protokolle
Thema Nr. 10: Diagnose und Problemlösung
- Protokollierung
- Debuggen
- Analyse- und Debugging-Praxis für unsere Anwendung
Thema №11: Testen der Zuverlässigkeit von Systemen
- Lasttest
- Konfigurationstest
- Leistungstests
- Kanarische Befreiung
Thema №12: Unabhängige Arbeit und Überprüfung
Empfehlungen und Anforderungen an die Teilnehmer
SRE - Teamwork. Wir empfehlen dringend, dass das gesamte Team den Kurs besucht. Daher gewähren wir große Rabatte für fertige Teams.
Der Kurspreis beträgt 60 000 ₽ pro Person.
Wenn das Unternehmen eine Gruppe von mehr als 5 Personen entsendet - 40 000 ₽.
Der Kurs basiert auf Kubernetes. Um zu bestehen, müssen Sie Kubernetes auf einer grundlegenden Ebene kennen. Wenn Sie nicht mit ihm arbeiten, können Sie Slurm Basic ( online oder intensiv vom 18. bis 20. November ) durchgehen.
Darüber hinaus müssen Sie über gute Linux-Kenntnisse verfügen und Gitlab und Prometheus kennen.
Wenn Sie eine schwierige Idee haben, sich zu beteiligen, z. B. wenn der CEO, der technische Direktor und das Entwicklungsteam zu dem Kurs kommen und sie unter Berücksichtigung der Management-Vertikale üben, schreiben Sie mir in PM.