Nas críticas de Slurm, Kubernetes tocou a frase: "Kubernetes acabou sendo mais fácil do que eu pensava". Agora não soa mais, o mito da complexidade dos k8s não existe mais. Ele passou para a categoria de ferramentas fáceis de aprender, difíceis de dominar.
Queremos repetir o mesmo com o SRE. Mostre que o SRE é mais fácil e compreensível do que parece. Mude o paradigma: permita que as pessoas vejam o projeto através dos olhos de um engenheiro da SRE.
Como sempre, no início, há muitas incógnitas na equação. E, como sempre, no início, o mais interessante será o primeiro.

De 3 a 5 de fevereiro, sediaremos o Slurm SRE em Moscou. Um ingresso intensivo de três dias custa 60 mil. O que o participante receberá pelo seu dinheiro?
Quando digo a amigos e colegas sobre SRE, me deparo com um ceticismo saudável:
- Pela primeira vez que ouvi falar sobre SRE, é algum tipo de alquimia.
- A implementação do SRE é difícil para gigantes como o Google.
- É caro e longo, eles não dão tempo, não alocam um orçamento.
- O que você descreve é bom demais para ser verdade.
Eu quero fazer essas perguntas.
É hora de descobrir o que é SRE.
No nível do slogan: SRE é uma das implementações do DevOps. Ele apareceu há mais de 10 anos no Google, mas só recentemente começou a penetrar no mercado "regular", principalmente graças ao livro Site Reliability Engeneering, lançado pelo Google em 2016.
A conexão entre SRE e DevOps está bem descrita neste vídeo:
O ruim é que slogans são sobre nada. Bem DevOps, bem, implementação, o próximo "para todos os bons versus todos os ruins".
Você pode ler o livro (e vale a pena). Mas o leitor se encontrará na posição de uma pessoa que estuda karatê a partir de desenhos. O livro descreve o conceito sem aplicação à realidade. O professor conduz a mão por um caminho específico e aponta erros no processo.
O preço inclui uma análise rápida e aprofundada da abordagem e ferramentas SRE.
Implementar o SRE é mais fácil do que parece
No Slurm, tocaremos no SRE com nossas mãos: selecionaremos métricas, configuraremos suas medições, alertas, encontraremos incidentes, resolveremos e analisá-los, reconstruiremos o projeto de acordo com todos os cânones do SRE.
Ou seja, forneceremos instruções passo a passo que você pode implementar por conta própria ao retornar do intensivo.
Eu estou mentindo. De fato, não daremos instruções, mas uma amostra a partir da qual você pode tirar um monte de idéias e soluções.
O preço inclui uma amostra para implementação.
O principal problema é que você precisa convencer aqueles que não estiveram em Slurm. Portanto, idealmente, vale a pena vir intensivamente como uma equipe inteira. Portanto, damos grandes descontos para grupos.
Seria bom chegar a Slerm, liderado pela estação de serviço. E o CEO também é útil, e sobre esta seção ...
... como convencer a alta gerência de que o SRE é útil e necessário.
Geralmente, há um conflito de tarefas entre CEO (alta gerência), STO (gerenciamento de TI), desenvolvedores e operação.
Eu intencionalmente não digo "conflito de interesses", é precisamente um conflito de tarefas.
O CEO precisa de desempenho financeiro. STO - uma situação compreensível, gerenciável e o mais confortável possível. Ou seja, tarefas compreensíveis com valor comercial compreensível, cumprimento de prazos, uma pilha normal, mais recursos e menos fakaps. Os desenvolvedores precisam implementar mais recursos e exploração - para garantir a acessibilidade (que claramente entra em conflito com "mais recursos").
O SRE diz que todos os participantes do processo têm uma única tarefa: a felicidade do usuário. O usuário está satisfeito com um equilíbrio saudável entre novos recursos e a confiabilidade do serviço. Usuário feliz paga mais dinheiro. Para gerenciar a felicidade do usuário, você precisa de ferramentas especializadas.
Além disso, o SRE, baseado em métricas, permite converter indicadores financeiros em indicadores-alvo de várias métricas e, por sua vez, em tarefas das equipes de DevOps.
Permite que você traduza - eu exagerei. A presença dessas métricas permite encontrar o relacionamento entre o estado das métricas e os indicadores financeiros. Essa é uma tarefa grande, mas compreensível, separada.
Existe um projeto DORA, DevOps Research & Assessments , que libera estudos anuais sobre o valor para os negócios e o ROI DevOps e sua subclasse SRE. Agora, estamos traduzindo o relatório atual para o russo. Existem fórmulas de avaliação que podem ser aplicadas à sua empresa com um certo grau de precisão.
Resumo: O SRE oferece às empresas a capacidade de gerenciar o desempenho financeiro, definindo metas de métricas, e a equipe do DevOps, observando as métricas atuais, entende claramente o que precisa ser feito para o benefício máximo do desempenho financeiro. Qual CEO recusará tal ferramenta?
É bem possível obter recursos para a implementação do SRE.
O preço do curso inclui um conjunto de argumentos a favor da mudança para SRE e DevOps.
E mesmo em pequenas empresas, existe um lugar para a SRE.
O SRE é dividido em ferramentas, cultura e estrutura organizacional.
Algumas ferramentas, por exemplo, Service Mesh, são necessárias para projetos grandes e complexos. Mas a mesma tentativa, retirada, injeção de falha e degradação graciosa pode ser implementada em pequenos projetos, e eles oferecem um retorno enorme.
A cultura também é útil em qualquer empresa. O administrador clássico, configurando o Prometheus, agirá de acordo com o padrão: incluirá o monitoramento do consumo de memória e disco e outro monitoramento familiar. O engenheiro do SRE primeiro discutirá os principais indicadores dos processos de negócios com a empresa e, em seguida, configurará seu monitoramento. É imediatamente óbvio que a cultura de engenharia de SRE é útil mesmo em micro-startups.
Mas a estrutura organizacional em pequenas empresas provavelmente não é necessária nem prejudicial. Quando todos os funcionários são generalistas, não há necessidade de alocar à força comandos do SRE.
Tudo o que descrevemos já está funcionando
O curso foi criado por aqueles que há muito implementam o SRE em suas equipes e vivem há muito tempo nesse paradigma. Ivan Kruglov e Ben Tyler, ambos são desenvolvedores principais da Booking.com. Eugene Varavva, desenvolvedor de perfil amplo no Google. Eduard Medvedev, CTO da Tungsten Labs, que cresceu com um engenheiro da SRE.
Edward realiza um webinar "SRE - HYIP ou o futuro?" , 12 de dezembro às 11:00.
Sobre o programa
Quanto ao programa. Já estou recebendo feedback de especialistas de que o programa não está lutando: é muito amplo e às vezes ilógico. É mesmo.
De fato, temos uma estrutura para o programa, um conjunto de idéias que queremos revelar. Temos dois meses de trabalho árduo pela frente, enquanto nos preparamos, o programa será esclarecido: removemos o desnecessário e especificamos o restante.
Mas já em sua forma atual, o programa mostra claramente a direção em que estamos trabalhando.
Programa Slurm SRETema # 1: Princípios e métodos básicos de SRE
- O que é preciso para se tornar um SRE?
- DevOps vs SRE
- Por que os desenvolvedores apreciam o SRE e ficam muito tristes quando não estão no projeto
- SLI, SLO e SLA
- Orçamento de erro e seu papel no SRE
Tema número 2: Design de sistemas distribuídos
- Arquitetura e funcionalidade de aplicativos
- Projeto de sistema grande não abstrato
- Operabilidade / Projeto para falha
- gRPC ou REST
- Controle de versão e compatibilidade com versões anteriores
Tema №3: Como aceitar o projeto SRE
- Melhores práticas do SRE
- Checklist de admissão do projeto
- Log, métricas, rastreamento
- Leve o CI / CD em nossas próprias mãos
Tema №4: Projeto e lançamento de um sistema distribuído
- Engenharia reversa - como o sistema funciona?
- Coordenamos SLI e SLO
- Prática de planejamento de capacidade
- Lançando tráfego para o aplicativo, nossos usuários começam a "usá-lo"
- Lançamento Prometheus, Grafana, Elastic
Tópico # 5: Monitoramento, Observabilidade e Alerta
- Monitoramento vs. Observabilidade
- Configurar monitoramento e alertas com o Prometheus
- Monitoramento prático de SLI e SLO
- Sintomas vs. Causas
- Black Box vs. Monitoramento de caixa branca
- Monitoramento de disponibilidade distribuída de aplicativos e servidores
- 4 sinais de ouro (detecção de anomalias)
Tema №6: A prática de testar a confiabilidade dos sistemas
- Trabalhar sob pressão
- Injeção de falha
- Macaco do caos
Tema # 7: Pratique a resposta a incidentes
- Algoritmo de gerenciamento de estresse
- Interação entre participantes do incidente
- Post mortem
- Partilha de conhecimento
- Formação cultural
- Monitoramento de falhas
- Condução de interrogatórios sem culpa
Tópico 8: Prática de gerenciamento de carga
- Balanceamento de carga
- Tolerância a Falhas de Aplicação: nova tentativa, timeout, injeção de falha, disjuntor
- DDoS (criar carga) + falhas em cascata
Tópico # 9: Resposta a Incidentes
- Debriefing
- Prática de plantão
- Diferentes tipos de falhas (teste, alterações de configuração, falhas de hardware)
- Protocolos de gerenciamento de incidentes
Tema №10: Diagnóstico e resolução de problemas
- Registo
- Depuração
- Prática de análise e depuração em nosso aplicativo
Tema №11: Testando a confiabilidade dos sistemas
- Teste de carga
- Teste de configuração
- Teste de desempenho
- Liberação de canário
Tema №12: trabalho independente e revisão
Todos os itens acima valem o dinheiro?
PS. O que o hub Kubernetes tem a ver com isso
Toda a prática é realizada no Kubernetes. Aqueles que possuem Kubernetes têm um caminho direto para os engenheiros da SRE. Para quem não possui, vá para os cursos do Kubernetes .