Google e DevOps: dois livros sobre SRE

Nos primeiros dez anos no Google, trabalhei como engenheiro comum: lancei o transporte público em mapas, aprimorei a pesquisa e peguei spam no YouTube. Em algum momento, descobriu-se que na vizinhança com as equipes da SWE (Software Engineers) havia alguns misteriosos SRE (Site Reliability Engineers) que vivem em produção e sabem tudo sobre infraestrutura, configurações e monitoramento. Geralmente eles vinham até nós com agendas incompreensíveis e recomendavam fortemente reescrever algo em nosso serviço, para que ele explodisse ordenadamente e em pedaços, e não em sua totalidade com todos os vizinhos. Ou eles construíram uma infraestrutura que resolve magicamente todos os nossos problemas de uma vez por todas. Ou foi relatado que não haveria segunda liberação nesta semana, porque um data center foi arrastado por um furacão, e um cavalo foi enterrado ao lado de outro e o cabo do tronco foi cortado. Depois de algum tempo, ficou claro que você pode encontrar essas pessoas com uma ampla variedade de problemas e sair com soluções encontradas por alguns níveis de abstração menores do que o esperado em seu próprio produto (“você, é claro, pagou pela quantidade de tráfego necessária, mas aqui ele não se encaixa estupidamente no interruptor na parte superior do rack ").

Como resultado, fiquei interessado em como todo esse SRE é visto de dentro e fui para o Mission Control , um programa de rotação que me permite passar meio ano no papel de SRE, ganhar uma valiosa experiência de produção e, se desejado, retornar à minha equipe anterior para compartilhar o conhecimento adquirido. Em vez disso, fiquei como dois terços dos meus colegas atuais de Video Processing SRE, também treinados novamente com os engenheiros regulares. Agora, eu mesmo assusto a SWE com gráficos incompreensíveis e evacuo os vídeos do YouTube dos data centers em chamas, com intervalos para codificação criativa pacífica. Aconteceu que, ao longo de quinze anos, uma organização de SRE saudável e eficaz cresceu dentro do Google com suas práticas, princípios e métodos - mas ninguém sabe sobre eles, por causa daqueles que chegaram lá, ninguém voltou ainda.

A solução para o problema do desaparecimento de informações de serviço, SLO e post-mortem no buraco negro do Google SRE foi o livro “Site Reliability Engineering” , que descreve em detalhes como nosso SRE realmente funciona. Na verdade, todo esse post é iniciado com duas notícias:

  1. Há duas semanas , uma tradução para o russo do livro SRE acima mencionado foi lançada. Se você está curioso para saber como obter práticas saudáveis ​​de DevOps em sua empresa, este livro é para você. Se você se suspeita das inclinações da SRE, este livro é ainda mais para você.
  2. Em busca do primeiro livro, o Manual de Confiabilidade do Site, com exemplos práticos da vida do Google Cloud Platform, acaba de ser publicado (até agora apenas em inglês) - eu também o recomendo.

Source: https://habr.com/ru/post/pt421603/


All Articles