"La esperanza es una mala estrategia". SRE intensivo en Moscú, 3-5 de febrero

Estamos anunciando el primer curso práctico de SRE en Rusia: Slurm SRE .


A la intensidad, construiremos, romperemos, repararemos y mejoraremos el agregador del sitio para la venta de entradas para el cine durante tres días.



Elegimos el agregador de entradas porque tiene muchos escenarios de rechazo: una afluencia de visitantes y ataques DDoS, la caída de uno de los muchos microservicios críticos (autorización, reserva, procesamiento de pagos), la inaccesibilidad de uno de los muchos cines (intercambio de datos sobre asientos disponibles y reserva), y más abajo en la lista.


Formularemos el concepto de Confiabilidad de nuestro sitio agregador, que continuaremos en Ingeniería, analizaremos el diseño desde el punto de vista de SRE, seleccionaremos métricas, configuraremos su monitoreo, eliminaremos los incidentes que puedan surgir, realizaremos capacitación para el trabajo en equipo con incidentes en condiciones cercanas al combate, organizaremos un informe .


El programa está dirigido por Booking.com y Google.
Esta vez no habrá participación remota: el curso se basa en la interacción personal y el trabajo en equipo.


Detalles debajo del corte


Oradores


Ivan Kruglov
Desarrollador principal en Booking.com (Países Bajos)
Desde que se unió a Booking.com en 2013, ha trabajado en proyectos de infraestructura como entrega distribuida y procesamiento de mensajes, BigData y web-stack, búsqueda.
Ahora está involucrado en temas de construcción de una nube interna y Service Mesh.


Ben tyler
Desarrollador principal en Booking.com (EE. UU.)
Comprometido en el desarrollo interno de la plataforma Booking.com.
Se especializa en servicio de malla / descubrimiento de servicio, programación de trabajos por lotes, respuesta a incidentes y proceso post mortem.
Habla y enseña en ruso.


Evgeny Varavva
Desarrollador de perfiles anchos de Google (San Francisco).
Experiencia laboral desde proyectos web altamente cargados hasta investigación en visión por computadora y robótica.
Desde 2011, se ha dedicado al desarrollo y operación de sistemas distribuidos en Google, participando en el ciclo de vida completo del proyecto: conceptualización, diseño y arquitectura, lanzamiento, minimización y todas las etapas intermedias.


Eduard Medvedev
CTO en Tungsten Labs (Alemania)
Trabajó como ingeniero en StackStorm, fue responsable de la funcionalidad ChatOps de la plataforma. Desarrollé e implementé ChatOps en la automatización de centros de datos. Ponente en conferencias rusas e internacionales.


El programa


El programa se está desarrollando activamente. Ahora se ve así, para febrero puede mejorar y expandirse.


Tema # 1: Principios básicos y métodos de SRE


  • ¿Qué se necesita para convertirse en un SRE?
  • DevOps vs SRE
  • ¿Por qué los desarrolladores aprecian SRE y están tan tristes cuando no están en el proyecto?
  • SLI, SLO y SLA
  • Error de presupuesto y su papel en SRE

Tema número 2: Diseño de sistemas distribuidos.


  • Arquitectura de aplicación y funcionalidad
  • Diseño de sistema grande no abstracto
  • Operabilidad / Diseño para fallas
  • gRPC o REST
  • Versiones y compatibilidad con versiones anteriores

Tema №3: Cómo aceptar el proyecto SRE


  • Mejores prácticas de SRE
  • Lista de verificación de admisión al proyecto
  • Registro, métricas, rastreo
  • Tome CI / CD en nuestras propias manos

Tema №4: Diseño y lanzamiento de un sistema distribuido


  • Ingeniería inversa: ¿cómo funciona el sistema?
  • Coordinamos SLI y SLO
  • Práctica de planificación de capacidad
  • Al iniciar el tráfico a la aplicación, nuestros usuarios comienzan a "usarla"
  • Lanzamiento Prometheus, Grafana, Elastic

Tema # 5: Monitoreo, Observabilidad y Alertas


  • Monitoreo vs. Observabilidad
  • Configure monitoreo y alertas con Prometheus
  • Monitoreo práctico de SLI y SLO
  • Síntomas vs. Causas
  • Black-Box vs. Monitoreo de caja blanca
  • Aplicación distribuida y monitoreo de disponibilidad del servidor
  • 4 señales de oro (detección de anomalías)

Tema №6: La práctica de probar la confiabilidad del sistema


  • Trabajar bajo presión
  • Inyección de falla
  • Mono caos

Tema 7: Practique la respuesta a incidentes.


  • Algoritmo de manejo del estrés
  • Interacción entre los participantes del incidente.
  • Post mortem
  • Intercambio de conocimientos
  • Formación cultural
  • Monitoreo de fallas
  • Realización de informes sin culpa

Tema # 8: Práctica de gestión de carga


  • Balanceo de carga
  • Aplicación Tolerancia a fallas: reintento, tiempo de espera, inyección de falla, disyuntor
  • DDoS (crear carga) + fallas en cascada

Tema # 9: Respuesta a incidentes


  • Debriefing
  • Práctica de guardia
  • Diferentes tipos de fallas (pruebas, cambios de configuración, fallas de hardware)
  • Protocolos de gestión de incidentes

Tema №10: Diagnóstico y resolución de problemas.


  • Registro
  • Depuración
  • Análisis y práctica de depuración en nuestra aplicación.

Tema №11: Prueba de la confiabilidad de los sistemas


  • Prueba de carga
  • Prueba de configuración
  • Pruebas de rendimiento
  • Lanzamiento canario

Tema №12: Trabajo independiente y revisión


Recomendaciones y requisitos para los participantes.


SRE - trabajo en equipo. Recomendamos encarecidamente que todo el equipo tome el curso. Por lo tanto, ofrecemos grandes descuentos para equipos confeccionados.


El precio del curso es de 60 000 ₽ por persona.
Si la empresa envía un grupo de más de 5 personas: 40 000 ₽.


El curso está construido sobre Kubernetes. Para aprobar, debes conocer Kubernetes en un nivel básico. Si no trabaja con él, puede pasar por Slurm Basic (en línea o intensivo del 18 al 20 de noviembre ).
Además, debe tener un buen dominio de Linux, conocer Gitlab y Prometheus.


Registro


Si tiene una idea difícil de participar, por ejemplo, para que el CEO, el director técnico y el equipo de desarrollo asistan al curso y practiquen teniendo en cuenta la vertical de gestión, escríbame en PM.

Source: https://habr.com/ru/post/473032/


All Articles