👩🏾‍🏭 🦄 🤚🏾 "La esperanza es una mala estrategia". SRE intensivo en Moscú, 3-5 de febrero 🛑 🤳 😅

Estamos anunciando el primer curso práctico de SRE en Rusia: Slurm SRE .

A la intensidad, construiremos, romperemos, repararemos y mejoraremos el agregador del sitio para la venta de entradas para el cine durante tres días.

Elegimos el agregador de entradas porque tiene muchos escenarios de rechazo: una afluencia de visitantes y ataques DDoS, la caída de uno de los muchos microservicios críticos (autorización, reserva, procesamiento de pagos), la inaccesibilidad de uno de los muchos cines (intercambio de datos sobre asientos disponibles y reserva), y más abajo en la lista.

Formularemos el concepto de Confiabilidad de nuestro sitio agregador, que continuaremos en Ingeniería, analizaremos el diseño desde el punto de vista de SRE, seleccionaremos métricas, configuraremos su monitoreo, eliminaremos los incidentes que puedan surgir, realizaremos capacitación para el trabajo en equipo con incidentes en condiciones cercanas al combate, organizaremos un informe .

El programa está dirigido por Booking.com y Google.
Esta vez no habrá participación remota: el curso se basa en la interacción personal y el trabajo en equipo.

Detalles debajo del corte

Oradores

Ivan Kruglov
Desarrollador principal en Booking.com (Países Bajos)
Desde que se unió a Booking.com en 2013, ha trabajado en proyectos de infraestructura como entrega distribuida y procesamiento de mensajes, BigData y web-stack, búsqueda.
Ahora está involucrado en temas de construcción de una nube interna y Service Mesh.

Ben tyler
Desarrollador principal en Booking.com (EE. UU.)
Comprometido en el desarrollo interno de la plataforma Booking.com.
Se especializa en servicio de malla / descubrimiento de servicio, programación de trabajos por lotes, respuesta a incidentes y proceso post mortem.
Habla y enseña en ruso.

Evgeny Varavva
Desarrollador de perfiles anchos de Google (San Francisco).
Experiencia laboral desde proyectos web altamente cargados hasta investigación en visión por computadora y robótica.
Desde 2011, se ha dedicado al desarrollo y operación de sistemas distribuidos en Google, participando en el ciclo de vida completo del proyecto: conceptualización, diseño y arquitectura, lanzamiento, minimización y todas las etapas intermedias.

Eduard Medvedev
CTO en Tungsten Labs (Alemania)
Trabajó como ingeniero en StackStorm, fue responsable de la funcionalidad ChatOps de la plataforma. Desarrollé e implementé ChatOps en la automatización de centros de datos. Ponente en conferencias rusas e internacionales.

El programa

El programa se está desarrollando activamente. Ahora se ve así, para febrero puede mejorar y expandirse.

Tema # 1: Principios básicos y métodos de SRE

¿Qué se necesita para convertirse en un SRE?
DevOps vs SRE
¿Por qué los desarrolladores aprecian SRE y están tan tristes cuando no están en el proyecto?
SLI, SLO y SLA
Error de presupuesto y su papel en SRE

Tema número 2: Diseño de sistemas distribuidos.

Arquitectura de aplicación y funcionalidad
Diseño de sistema grande no abstracto
Operabilidad / Diseño para fallas
gRPC o REST
Versiones y compatibilidad con versiones anteriores

Tema №3: Cómo aceptar el proyecto SRE

Mejores prácticas de SRE
Lista de verificación de admisión al proyecto
Registro, métricas, rastreo
Tome CI / CD en nuestras propias manos

Tema №4: Diseño y lanzamiento de un sistema distribuido

Ingeniería inversa: ¿cómo funciona el sistema?
Coordinamos SLI y SLO
Práctica de planificación de capacidad
Al iniciar el tráfico a la aplicación, nuestros usuarios comienzan a "usarla"
Lanzamiento Prometheus, Grafana, Elastic

Tema # 5: Monitoreo, Observabilidad y Alertas

Monitoreo vs. Observabilidad
Configure monitoreo y alertas con Prometheus
Monitoreo práctico de SLI y SLO
Síntomas vs. Causas
Black-Box vs. Monitoreo de caja blanca
Aplicación distribuida y monitoreo de disponibilidad del servidor
4 señales de oro (detección de anomalías)

Tema №6: La práctica de probar la confiabilidad del sistema

Trabajar bajo presión
Inyección de falla
Mono caos

Tema 7: Practique la respuesta a incidentes.

Algoritmo de manejo del estrés
Interacción entre los participantes del incidente.
Post mortem
Intercambio de conocimientos
Formación cultural
Monitoreo de fallas
Realización de informes sin culpa

Tema # 8: Práctica de gestión de carga

Balanceo de carga
Aplicación Tolerancia a fallas: reintento, tiempo de espera, inyección de falla, disyuntor
DDoS (crear carga) + fallas en cascada

Tema # 9: Respuesta a incidentes

Debriefing
Práctica de guardia
Diferentes tipos de fallas (pruebas, cambios de configuración, fallas de hardware)
Protocolos de gestión de incidentes

Tema №10: Diagnóstico y resolución de problemas.

Registro
Depuración
Análisis y práctica de depuración en nuestra aplicación.

Tema №11: Prueba de la confiabilidad de los sistemas

Prueba de carga
Prueba de configuración
Pruebas de rendimiento
Lanzamiento canario

Tema №12: Trabajo independiente y revisión

Recomendaciones y requisitos para los participantes.

SRE - trabajo en equipo. Recomendamos encarecidamente que todo el equipo tome el curso. Por lo tanto, ofrecemos grandes descuentos para equipos confeccionados.

El precio del curso es de 60 000 ₽ por persona.
Si la empresa envía un grupo de más de 5 personas: 40 000 ₽.

El curso está construido sobre Kubernetes. Para aprobar, debes conocer Kubernetes en un nivel básico. Si no trabaja con él, puede pasar por Slurm Basic (en línea o intensivo del 18 al 20 de noviembre ).
Además, debe tener un buen dominio de Linux, conocer Gitlab y Prometheus.

Registro

Si tiene una idea difícil de participar, por ejemplo, para que el CEO, el director técnico y el equipo de desarrollo asistan al curso y practiquen teniendo en cuenta la vertical de gestión, escríbame en PM.

"La esperanza es una mala estrategia". SRE intensivo en Moscú, 3-5 de febrero

Oradores

El programa

Recomendaciones y requisitos para los participantes.

Registro

More articles: