🤪 💃 ◻️ "Hoffnung ist eine schlechte Strategie." SRE intensiv in Moskau, 3.-5. Februar ⏮️ 🙏🏽 👅

Wir kündigen den ersten SRE-Praktikumskurs in Russland an: Slurm SRE .

In dieser Intensität werden wir den Site-Aggregator für den Verkauf von Kinokarten für drei Tage bauen, brechen, reparieren und verbessern.

Wir haben uns für den Ticketaggregator entschieden, weil er viele Ablehnungsszenarien aufweist: Zustrom von Besuchern und DDoS-Angriffen, Sturz eines der vielen kritischen Microservices (Autorisierung, Reservierung, Zahlungsabwicklung), Unzugänglichkeit eines der vielen Kinos (Datenaustausch über verfügbare Plätze und Reservierung), und weiter unten in der Liste.

Wir werden das Zuverlässigkeitskonzept unserer Aggregator-Site formulieren, das wir im Engineering fortsetzen werden, wir werden das Design aus Sicht von SRE analysieren, wir werden Metriken auswählen, wir werden deren Überwachung einrichten, wir werden mögliche Vorfälle beseitigen, wir werden Schulungen für die Teamarbeit mit Vorfällen unter kampfnahen Bedingungen durchführen, wir werden Nachbesprechungen organisieren .

Das Programm wird von Booking.com und Google ausgeführt.
Dieses Mal findet keine Fernbeteiligung statt: Der Kurs basiert auf persönlicher Interaktion und Teamarbeit.

Details unter dem Schnitt

Lautsprecher

Ivan Kruglov
Hauptentwickler bei Booking.com (Niederlande)
Seit seinem Eintritt bei Booking.com im Jahr 2013 hat er an Infrastrukturprojekten wie verteilter Zustellung und Nachrichtenverarbeitung, BigData und Web-Stack-Suche gearbeitet.
Jetzt beschäftigt er sich mit Fragen des Aufbaus einer internen Cloud und eines Service Mesh.

Ben Tyler
Hauptentwickler bei Booking.com (USA)
Beteiligt an der internen Entwicklung der Booking.com-Plattform.
Spezialisiert auf Service Mesh / Service Discovery, Batch Job Scheduling, Incident Response und Postmortem-Prozess.
Spricht und unterrichtet auf Russisch.

Evgeny Varavva
Google Wide Profile Developer (San Francisco).
Arbeitserfahrung von hoch geladenen Webprojekten bis hin zu Forschungen in den Bereichen Computer Vision und Robotik.
Seit 2011 ist er bei Google an der Entwicklung und dem Betrieb verteilter Systeme beteiligt und nimmt am gesamten Lebenszyklus des Projekts teil: Konzeption, Design und Architektur, Start, Minimierung und alle Zwischenstufen.

Eduard Medwedew
CTO bei Tungsten Labs (Deutschland)
Er arbeitete als Ingenieur bei StackStorm und war für die ChatOps-Funktionalität der Plattform verantwortlich. Entwicklung und Implementierung von ChatOps zur Automatisierung von Rechenzentren. Referent bei russischen und internationalen Konferenzen.

Das Programm

Das Programm wird aktiv weiterentwickelt. Jetzt sieht es so aus, bis Februar kann es sich verbessern und erweitern.

Thema 1: Grundprinzipien und Methoden von SRE

Was braucht es, um ein SRE zu werden?
DevOps gegen SRE
Warum schätzen Entwickler SRE und sind sehr traurig, wenn sie nicht im Projekt sind?
SLI, SLO und SLA
Fehlerbudget und seine Rolle in SRE

Thema Nummer 2: Entwurf verteilter Systeme

Anwendungsarchitektur und Funktionalität
Nicht abstraktes Design großer Systeme
Bedienbarkeit / Design für Fehler
gRPC oder REST
Versionierung und Abwärtskompatibilität

Thema №3: Akzeptieren des SRE-Projekts

Best Practices von SRE
Checkliste für die Projektzulassung
Protokollierung, Metriken, Ablaufverfolgung
Nehmen Sie CI / CD selbst in die Hand

Thema №4: Entwurf und Start eines verteilten Systems

Reverse Engineering - wie funktioniert das System?
Wir koordinieren SLI und SLO
Kapazitätsplanungspraxis
Wenn unsere Benutzer den Datenverkehr zur Anwendung starten, beginnen sie, ihn zu "verwenden".
Starten Sie Prometheus, Grafana, Elastic

Thema Nr. 5: Überwachung, Beobachtbarkeit und Alarmierung

Überwachung vs. Beobachtbarkeit
Richten Sie mit Prometheus Überwachung und Warnungen ein
Praktische Überwachung von SLI und SLO
Symptome vs. Ursachen
Black-Box vs. White-Box-Überwachung
Überwachung der verteilten Anwendungs- und Serververfügbarkeit
4 Goldsignale (Anomalieerkennung)

Thema №6: Die Praxis, die Zuverlässigkeit von Systemen zu testen

Unter Druck arbeiten
Fehlerinjektion
Chaosaffe

Thema Nr. 7: Reaktion auf Vorfälle üben

Stressmanagement-Algorithmus
Interaktion zwischen Vorfallteilnehmern
Post mortem
Wissensaustausch
Kulturbildung
Fehlerüberwachung
Durchführung einer tadellosen Nachbesprechung

Thema Nr. 8: Lastmanagementpraxis

Lastenausgleich
Anwendungsfehlertoleranz: Wiederholung, Zeitüberschreitung, Fehlerinjektion, Leistungsschalter
DDoS (Last erstellen) + Kaskadierungsfehler

Thema Nr. 9: Reaktion auf Vorfälle

Nachbesprechung
Bereitschaftspraxis
Verschiedene Arten von Fehlern (Tests, Konfigurationsänderungen, Hardwarefehler)
Incident Management-Protokolle

Thema Nr. 10: Diagnose und Problemlösung

Protokollierung
Debuggen
Analyse- und Debugging-Praxis für unsere Anwendung

Thema №11: Testen der Zuverlässigkeit von Systemen

Lasttest
Konfigurationstest
Leistungstests
Kanarische Befreiung

Thema №12: Unabhängige Arbeit und Überprüfung

Empfehlungen und Anforderungen an die Teilnehmer

SRE - Teamwork. Wir empfehlen dringend, dass das gesamte Team den Kurs besucht. Daher gewähren wir große Rabatte für fertige Teams.

Der Kurspreis beträgt 60 000 ₽ pro Person.
Wenn das Unternehmen eine Gruppe von mehr als 5 Personen entsendet - 40 000 ₽.

Der Kurs basiert auf Kubernetes. Um zu bestehen, müssen Sie Kubernetes auf einer grundlegenden Ebene kennen. Wenn Sie nicht mit ihm arbeiten, können Sie Slurm Basic ( online oder intensiv vom 18. bis 20. November ) durchgehen.
Darüber hinaus müssen Sie über gute Linux-Kenntnisse verfügen und Gitlab und Prometheus kennen.

Registrierung

Wenn Sie eine schwierige Idee haben, sich zu beteiligen, z. B. wenn der CEO, der technische Direktor und das Entwicklungsteam zu dem Kurs kommen und sie unter Berücksichtigung der Management-Vertikale üben, schreiben Sie mir in PM.

"Hoffnung ist eine schlechte Strategie." SRE intensiv in Moskau, 3.-5. Februar

Lautsprecher

Das Programm

Empfehlungen und Anforderungen an die Teilnehmer

Registrierung

More articles: