Estamos anunciando o primeiro curso prático de SRE na Rússia: Slurm SRE .
Na intensidade, construiremos, interromperemos, repararemos e melhoraremos o agregador de sites para a venda de ingressos de cinema por três dias.

Escolhemos o agregador de tickets porque possui muitos cenários de recusa: um afluxo de visitantes e ataques DDoS, a queda de um dos muitos microsserviços críticos (autorização, reserva, processamento de pagamentos), a inacessibilidade de um dos muitos cinemas (troca de dados sobre assentos e reservas disponíveis), e mais abaixo na lista.
Formularemos o conceito de Confiabilidade do nosso site agregador, que continuaremos na Engenharia, analisaremos o design do ponto de vista da SRE, selecionaremos métricas, definiremos seu monitoramento, eliminaremos os incidentes que possam surgir, realizaremos treinamento para o trabalho em equipe com incidentes em condições próximas ao combate, organizaremos a análise. .
O programa é executado pela Booking.com e Google.
Desta vez, não haverá participação remota: o curso é construído sobre interação pessoal e trabalho em equipe.
Detalhes sob o corte
Alto-falantes
Ivan Kruglov
Principal Developer em Booking.com (Holanda)
Desde que ingressou na Booking.com em 2013, ele trabalhou em projetos de infraestrutura como entrega distribuída e processamento de mensagens, BigData e web-stack, pesquisa.
Agora ele está envolvido em questões de construção de uma nuvem interna e Service Mesh.
Ben tyler
Principal Developer na Booking.com (EUA)
Envolvido no desenvolvimento interno da plataforma Booking.com.
Especializado em serviço de malha / descoberta de serviço, agendamento de tarefas em lote, resposta a incidentes e processo post-mortem.
Fala e ensina em russo.
Evgeny Varavva
Desenvolvedor de perfil amplo do Google (San Francisco).
Experiência de trabalho em projetos web altamente carregados para pesquisas em visão computacional e robótica.
Desde 2011, ele se dedica ao desenvolvimento e operação de sistemas distribuídos no Google, participando de todo o ciclo de vida do projeto: conceitualização, design e arquitetura, lançamento, minimização e todas as etapas intermediárias.
Eduard Medvedev
CTO no Tungsten Labs (Alemanha)
Ele trabalhou como engenheiro na StackStorm, foi responsável pela funcionalidade ChatOps da plataforma. Desenvolvi e implementei ChatOps na automação de data centers. Palestrante em conferências russas e internacionais.
O programa
O programa está sendo desenvolvido ativamente. Agora, parece que em fevereiro pode melhorar e expandir.
Tema # 1: Princípios e métodos básicos de SRE
- O que é preciso para se tornar um SRE?
- DevOps vs SRE
- Por que os desenvolvedores apreciam o SRE e ficam muito tristes quando não estão no projeto
- SLI, SLO e SLA
- Orçamento de erro e seu papel no SRE
Tema número 2: Design de sistemas distribuídos
- Arquitetura e funcionalidade de aplicativos
- Projeto de sistema grande não abstrato
- Operabilidade / Projeto para falha
- gRPC ou REST
- Controle de versão e compatibilidade com versões anteriores
Tema №3: Como aceitar o projeto SRE
- Melhores práticas do SRE
- Checklist de admissão do projeto
- Log, métricas, rastreamento
- Leve o CI / CD em nossas próprias mãos
Tema №4: Projeto e lançamento de um sistema distribuído
- Engenharia reversa - como o sistema funciona?
- Coordenamos SLI e SLO
- Prática de planejamento de capacidade
- Lançando tráfego para o aplicativo, nossos usuários começam a "usá-lo"
- Lançamento Prometheus, Grafana, Elastic
Tópico # 5: Monitoramento, Observabilidade e Alerta
- Monitoramento vs. Observabilidade
- Configurar monitoramento e alertas com o Prometheus
- Monitoramento prático de SLI e SLO
- Sintomas vs. Causas
- Black Box vs. Monitoramento de caixa branca
- Monitoramento de disponibilidade distribuída de aplicativos e servidores
- 4 sinais de ouro (detecção de anomalias)
Tema №6: A prática de testar a confiabilidade do sistema
- Trabalhar sob pressão
- Injeção de falha
- Macaco do caos
Tema # 7: Pratique a resposta a incidentes
- Algoritmo de gerenciamento de estresse
- Interação entre participantes do incidente
- Post mortem
- Partilha de conhecimento
- Formação cultural
- Monitoramento de falhas
- Condução de interrogatórios sem culpa
Tópico 8: Prática de gerenciamento de carga
- Balanceamento de carga
- Tolerância a Falhas de Aplicação: nova tentativa, timeout, injeção de falha, disjuntor
- DDoS (criar carga) + falhas em cascata
Tópico # 9: Resposta a Incidentes
- Debriefing
- Prática de plantão
- Diferentes tipos de falhas (teste, alterações de configuração, falhas de hardware)
- Protocolos de gerenciamento de incidentes
Tema №10: Diagnóstico e resolução de problemas
- Registo
- Depuração
- Prática de análise e depuração em nosso aplicativo
Tema №11: Testando a confiabilidade dos sistemas
- Teste de carga
- Teste de configuração
- Teste de desempenho
- Liberação de canário
Tema №12: trabalho independente e revisão
Recomendações e requisitos para os participantes
SRE - trabalho em equipe. É altamente recomendável que toda a equipe faça o curso. Portanto, oferecemos grandes descontos para equipes prontas.
O preço do curso é de 60 000 ₽ por pessoa.
Se a empresa envia um grupo de 5 ou mais pessoas - 40 000 ₽.
O curso é construído no Kubernetes. Para passar, você precisa conhecer o Kubernetes em um nível básico. Se você não trabalha com ele, pode acessar o Slurm Basic ( on - line ou intensivo de 18 a 20 de novembro ).
Além disso, você precisa ter um bom domínio do Linux, conhecer o Gitlab e o Prometheus.
Se você tiver uma ideia difícil de participar, por exemplo, para que o CEO, o diretor técnico e a equipe de desenvolvimento participem do curso, e eles praticarão levando em consideração a vertical da gerência, escreva-me para PM.