🏕️ ♣️ 🕋 "A esperança é uma péssima estratégia." SRE intensivo em Moscou, 3-5 de fevereiro 👩‍🔧 🚲 👌🏼

Estamos anunciando o primeiro curso prático de SRE na Rússia: Slurm SRE .

Na intensidade, construiremos, interromperemos, repararemos e melhoraremos o agregador de sites para a venda de ingressos de cinema por três dias.

Escolhemos o agregador de tickets porque possui muitos cenários de recusa: um afluxo de visitantes e ataques DDoS, a queda de um dos muitos microsserviços críticos (autorização, reserva, processamento de pagamentos), a inacessibilidade de um dos muitos cinemas (troca de dados sobre assentos e reservas disponíveis), e mais abaixo na lista.

Formularemos o conceito de Confiabilidade do nosso site agregador, que continuaremos na Engenharia, analisaremos o design do ponto de vista da SRE, selecionaremos métricas, definiremos seu monitoramento, eliminaremos os incidentes que possam surgir, realizaremos treinamento para o trabalho em equipe com incidentes em condições próximas ao combate, organizaremos a análise. .

O programa é executado pela Booking.com e Google.
Desta vez, não haverá participação remota: o curso é construído sobre interação pessoal e trabalho em equipe.

Detalhes sob o corte

Alto-falantes

Ivan Kruglov
Principal Developer em Booking.com (Holanda)
Desde que ingressou na Booking.com em 2013, ele trabalhou em projetos de infraestrutura como entrega distribuída e processamento de mensagens, BigData e web-stack, pesquisa.
Agora ele está envolvido em questões de construção de uma nuvem interna e Service Mesh.

Ben tyler
Principal Developer na Booking.com (EUA)
Envolvido no desenvolvimento interno da plataforma Booking.com.
Especializado em serviço de malha / descoberta de serviço, agendamento de tarefas em lote, resposta a incidentes e processo post-mortem.
Fala e ensina em russo.

Evgeny Varavva
Desenvolvedor de perfil amplo do Google (San Francisco).
Experiência de trabalho em projetos web altamente carregados para pesquisas em visão computacional e robótica.
Desde 2011, ele se dedica ao desenvolvimento e operação de sistemas distribuídos no Google, participando de todo o ciclo de vida do projeto: conceitualização, design e arquitetura, lançamento, minimização e todas as etapas intermediárias.

Eduard Medvedev
CTO no Tungsten Labs (Alemanha)
Ele trabalhou como engenheiro na StackStorm, foi responsável pela funcionalidade ChatOps da plataforma. Desenvolvi e implementei ChatOps na automação de data centers. Palestrante em conferências russas e internacionais.

O programa

O programa está sendo desenvolvido ativamente. Agora, parece que em fevereiro pode melhorar e expandir.

Tema # 1: Princípios e métodos básicos de SRE

O que é preciso para se tornar um SRE?
DevOps vs SRE
Por que os desenvolvedores apreciam o SRE e ficam muito tristes quando não estão no projeto
SLI, SLO e SLA
Orçamento de erro e seu papel no SRE

Tema número 2: Design de sistemas distribuídos

Arquitetura e funcionalidade de aplicativos
Projeto de sistema grande não abstrato
Operabilidade / Projeto para falha
gRPC ou REST
Controle de versão e compatibilidade com versões anteriores

Tema №3: Como aceitar o projeto SRE

Melhores práticas do SRE
Checklist de admissão do projeto
Log, métricas, rastreamento
Leve o CI / CD em nossas próprias mãos

Tema №4: Projeto e lançamento de um sistema distribuído

Engenharia reversa - como o sistema funciona?
Coordenamos SLI e SLO
Prática de planejamento de capacidade
Lançando tráfego para o aplicativo, nossos usuários começam a "usá-lo"
Lançamento Prometheus, Grafana, Elastic

Tópico # 5: Monitoramento, Observabilidade e Alerta

Monitoramento vs. Observabilidade
Configurar monitoramento e alertas com o Prometheus
Monitoramento prático de SLI e SLO
Sintomas vs. Causas
Black Box vs. Monitoramento de caixa branca
Monitoramento de disponibilidade distribuída de aplicativos e servidores
4 sinais de ouro (detecção de anomalias)

Tema №6: A prática de testar a confiabilidade do sistema

Trabalhar sob pressão
Injeção de falha
Macaco do caos

Tema # 7: Pratique a resposta a incidentes

Algoritmo de gerenciamento de estresse
Interação entre participantes do incidente
Post mortem
Partilha de conhecimento
Formação cultural
Monitoramento de falhas
Condução de interrogatórios sem culpa

Tópico 8: Prática de gerenciamento de carga

Balanceamento de carga
Tolerância a Falhas de Aplicação: nova tentativa, timeout, injeção de falha, disjuntor
DDoS (criar carga) + falhas em cascata

Tópico # 9: Resposta a Incidentes

Debriefing
Prática de plantão
Diferentes tipos de falhas (teste, alterações de configuração, falhas de hardware)
Protocolos de gerenciamento de incidentes

Tema №10: Diagnóstico e resolução de problemas

Registo
Depuração
Prática de análise e depuração em nosso aplicativo

Tema №11: Testando a confiabilidade dos sistemas

Teste de carga
Teste de configuração
Teste de desempenho
Liberação de canário

Tema №12: trabalho independente e revisão

Recomendações e requisitos para os participantes

SRE - trabalho em equipe. É altamente recomendável que toda a equipe faça o curso. Portanto, oferecemos grandes descontos para equipes prontas.

O preço do curso é de 60 000 ₽ por pessoa.
Se a empresa envia um grupo de 5 ou mais pessoas - 40 000 ₽.

O curso é construído no Kubernetes. Para passar, você precisa conhecer o Kubernetes em um nível básico. Se você não trabalha com ele, pode acessar o Slurm Basic ( on - line ou intensivo de 18 a 20 de novembro ).
Além disso, você precisa ter um bom domínio do Linux, conhecer o Gitlab e o Prometheus.

Registo

Se você tiver uma ideia difícil de participar, por exemplo, para que o CEO, o diretor técnico e a equipe de desenvolvimento participem do curso, e eles praticarão levando em consideração a vertical da gerência, escreva-me para PM.

"A esperança é uma péssima estratégia." SRE intensivo em Moscou, 3-5 de fevereiro

Alto-falantes

O programa

Recomendações e requisitos para os participantes

Registo

More articles: