"A esperança é uma péssima estratégia." SRE intensivo em Moscou, 3-5 de fevereiro

Estamos anunciando o primeiro curso prático de SRE na Rússia: Slurm SRE .


Na intensidade, construiremos, interromperemos, repararemos e melhoraremos o agregador de sites para a venda de ingressos de cinema por três dias.



Escolhemos o agregador de tickets porque possui muitos cenários de recusa: um afluxo de visitantes e ataques DDoS, a queda de um dos muitos microsserviços críticos (autorização, reserva, processamento de pagamentos), a inacessibilidade de um dos muitos cinemas (troca de dados sobre assentos e reservas disponíveis), e mais abaixo na lista.


Formularemos o conceito de Confiabilidade do nosso site agregador, que continuaremos na Engenharia, analisaremos o design do ponto de vista da SRE, selecionaremos métricas, definiremos seu monitoramento, eliminaremos os incidentes que possam surgir, realizaremos treinamento para o trabalho em equipe com incidentes em condições próximas ao combate, organizaremos a análise. .


O programa é executado pela Booking.com e Google.
Desta vez, não haverá participação remota: o curso é construído sobre interação pessoal e trabalho em equipe.


Detalhes sob o corte


Alto-falantes


Ivan Kruglov
Principal Developer em Booking.com (Holanda)
Desde que ingressou na Booking.com em 2013, ele trabalhou em projetos de infraestrutura como entrega distribuída e processamento de mensagens, BigData e web-stack, pesquisa.
Agora ele está envolvido em questões de construção de uma nuvem interna e Service Mesh.


Ben tyler
Principal Developer na Booking.com (EUA)
Envolvido no desenvolvimento interno da plataforma Booking.com.
Especializado em serviço de malha / descoberta de serviço, agendamento de tarefas em lote, resposta a incidentes e processo post-mortem.
Fala e ensina em russo.


Evgeny Varavva
Desenvolvedor de perfil amplo do Google (San Francisco).
Experiência de trabalho em projetos web altamente carregados para pesquisas em visão computacional e robótica.
Desde 2011, ele se dedica ao desenvolvimento e operação de sistemas distribuídos no Google, participando de todo o ciclo de vida do projeto: conceitualização, design e arquitetura, lançamento, minimização e todas as etapas intermediárias.


Eduard Medvedev
CTO no Tungsten Labs (Alemanha)
Ele trabalhou como engenheiro na StackStorm, foi responsável pela funcionalidade ChatOps da plataforma. Desenvolvi e implementei ChatOps na automação de data centers. Palestrante em conferências russas e internacionais.


O programa


O programa está sendo desenvolvido ativamente. Agora, parece que em fevereiro pode melhorar e expandir.


Tema # 1: Princípios e métodos básicos de SRE


  • O que é preciso para se tornar um SRE?
  • DevOps vs SRE
  • Por que os desenvolvedores apreciam o SRE e ficam muito tristes quando não estão no projeto
  • SLI, SLO e SLA
  • Orçamento de erro e seu papel no SRE

Tema número 2: Design de sistemas distribuídos


  • Arquitetura e funcionalidade de aplicativos
  • Projeto de sistema grande não abstrato
  • Operabilidade / Projeto para falha
  • gRPC ou REST
  • Controle de versão e compatibilidade com versões anteriores

Tema №3: Como aceitar o projeto SRE


  • Melhores práticas do SRE
  • Checklist de admissão do projeto
  • Log, métricas, rastreamento
  • Leve o CI / CD em nossas próprias mãos

Tema №4: Projeto e lançamento de um sistema distribuído


  • Engenharia reversa - como o sistema funciona?
  • Coordenamos SLI e SLO
  • Prática de planejamento de capacidade
  • Lançando tráfego para o aplicativo, nossos usuários começam a "usá-lo"
  • Lançamento Prometheus, Grafana, Elastic

Tópico # 5: Monitoramento, Observabilidade e Alerta


  • Monitoramento vs. Observabilidade
  • Configurar monitoramento e alertas com o Prometheus
  • Monitoramento prático de SLI e SLO
  • Sintomas vs. Causas
  • Black Box vs. Monitoramento de caixa branca
  • Monitoramento de disponibilidade distribuída de aplicativos e servidores
  • 4 sinais de ouro (detecção de anomalias)

Tema №6: A prática de testar a confiabilidade do sistema


  • Trabalhar sob pressão
  • Injeção de falha
  • Macaco do caos

Tema # 7: Pratique a resposta a incidentes


  • Algoritmo de gerenciamento de estresse
  • Interação entre participantes do incidente
  • Post mortem
  • Partilha de conhecimento
  • Formação cultural
  • Monitoramento de falhas
  • Condução de interrogatórios sem culpa

Tópico 8: Prática de gerenciamento de carga


  • Balanceamento de carga
  • Tolerância a Falhas de Aplicação: nova tentativa, timeout, injeção de falha, disjuntor
  • DDoS (criar carga) + falhas em cascata

Tópico # 9: Resposta a Incidentes


  • Debriefing
  • Prática de plantão
  • Diferentes tipos de falhas (teste, alterações de configuração, falhas de hardware)
  • Protocolos de gerenciamento de incidentes

Tema №10: Diagnóstico e resolução de problemas


  • Registo
  • Depuração
  • Prática de análise e depuração em nosso aplicativo

Tema №11: Testando a confiabilidade dos sistemas


  • Teste de carga
  • Teste de configuração
  • Teste de desempenho
  • Liberação de canário

Tema №12: trabalho independente e revisão


Recomendações e requisitos para os participantes


SRE - trabalho em equipe. É altamente recomendável que toda a equipe faça o curso. Portanto, oferecemos grandes descontos para equipes prontas.


O preço do curso é de 60 000 ₽ por pessoa.
Se a empresa envia um grupo de 5 ou mais pessoas - 40 000 ₽.


O curso é construído no Kubernetes. Para passar, você precisa conhecer o Kubernetes em um nível básico. Se você não trabalha com ele, pode acessar o Slurm Basic ( on - line ou intensivo de 18 a 20 de novembro ).
Além disso, você precisa ter um bom domínio do Linux, conhecer o Gitlab e o Prometheus.


Registo


Se você tiver uma ideia difícil de participar, por exemplo, para que o CEO, o diretor técnico e a equipe de desenvolvimento participem do curso, e eles praticarão levando em consideração a vertical da gerência, escreva-me para PM.

Source: https://habr.com/ru/post/pt473032/


All Articles