Sobre o monitoramento

introdução


O monitoramento é a parte mais importante da sua infraestrutura. Monitorar é o básico dos engenheiros de sistema. No entanto, todo mundo tem seu próprio jeito de entender. Meu caminho consiste em negação. raiva e aceitação.


Negação


Negação


É difícil de acreditar, mas há uma sala de servidores na foto.


Era 2007. Eu estava estudando na CSU (Universidade Estadual de Chelyabinsk), no departamento de segurança da informação, no segundo ano. Decidi me inscrever na CSU como assistente no laboratório de segurança da informação. Era um trabalho temporário de meio período. Depois disso, em 2009, consegui mais um emprego permanente em meio período em uma organização comercial de produção como administrador de sistemas. Naquela época, eu não sabia sobre o monitoramento, estava molhado atrás das orelhas e pensava que era possível ser um herói e resolver qualquer problema enfrentado. Felizmente, foi um curto período da minha vida, senti que estava errado.


Raiva


Raiva


2010 foi um dos anos mais exaustivos. Eu trabalhei para 2 empregadores; cursos realizados; estava preparando dissertação de mestrado; além disso, eu era prefeito. Sob pressão da experiência, minha visão sobre o monitoramento estava mudando. Esse processo colidiu com a minha demissão. Antes de me formar, decidi me demitir e procurei um novo emprego. A grande maioria dos entrevistadores ficou confusa porque eu era estudante. No entanto, um deles concordou em me contratar, eu tinha um emprego permanente em tempo integral em uma empresa multinacional internacional. Eu me formei; Eu estava melhorando minhas habilidades e experiência, trabalhei para empresas de terceirização. A grande maioria de nossos projetos foram startups incríveis e interessantes. Nivelei extremamente minha qualificação, porque não havia outras maneiras no caso de 400 servidores para uma única pessoa. Eu havia trabalhado como DevOps antes de ser popular. Eu me queimei no trabalho e decidi mudar de trabalho.


Naquela época, pensei, tivemos que monitorar tudo. Foi realmente importante. Todos devem receber notificações de monitoramento. Além disso, o conjunto de ferramentas de monitoramento estava mudando e melhorando. Uma das primeiras implementações foram os scripts bash / PowerShell (espaço livre, contagem de atualizações disponíveis, status dos backups, etc.) e serviços externos Red Alert, Lazy farmer (ferramenta interna para verificação do site). Foi bom o suficiente em 2010-2011, no entanto, enfrentamos muitos problemas diferentes:


  • E-mail inferno.
  • Atrasos imprevisíveis.
  • Utilização de recursos desconhecidos.

Decidimos facilitar um pouco nossa vida e escolher o Zabbix. Monitoramos tudo:


  • Contagem de usuários conectados ao wifi.
  • Contagem de páginas impressas.
  • Contar túneis VPN alived.
  • Temperatura dos servidores.
  • Carga na rede.
  • etc ...

Além disso, gostaria de compartilhar alguns dos problemas enfrentados:


  1. Havia infraestruturas cruzadas distribuídas em DC e muitas métricas. Enfrentamos que, às vezes, as métricas estavam ausentes. Nós o corrigimos via proxy Zabbix.
  2. Se o túnel da VPN falhar, receberemos uma tonelada de mensagens. Configuramos dependências de infraestrutura.
  3. Automatizamos tarefas recorrentes. ou seja, no caso de pouco espaço livre, tentamos limpá-lo automaticamente.
  4. Entendemos que era uma má idéia notificar alguém se a métrica média de carga da CPU seria superior a 95% durante 30 segundos; como resultado, adicionamos algo como período limite.
  5. Verificamos cenários críticos para os negócios (por exemplo, login na web, pesquisa etc.).
  6. Adicionamos o Zabbix às integrações do skype, por causa das operações de bate-papo.
  7. Quis custodiet ipsos custodes?
  8. etc ...

Aceitação


Aceitação


Um pouco mais tarde, entendi que, por um lado, os executivos não se importam com RAM / CPU / IOPS. Eles têm interesse no TTM (time to market) e nas métricas de negócios, mas, por outro lado, o instinto de TI deve ser capaz de rastrear qualquer tipo de problema.


Para viagem


  • Negação . Você não deve monitorar nada, porque seus usuários sinalizam se algo estranho ocorrerá.
  • Raiva Você tem que monitorar tudo. Você tem permissão para notificar o CTO / CEO se a métrica média de carga da CPU for superior a 95% durante 30 segundos.
  • Aceitação Os executivos não se importam com RAM / CPU / IOPS. Seu interesse pela TTM (time to market) e métricas de negócios.

Zabbix tinha sido bom o suficiente, mas o mundo estava mudando. Havia muitas abordagens modernas para o monitoramento.


  • É possível dividir o aplicativo de monitoramento monolítico em diferentes níveis: coletar, armazenar e apresentar.
  • Negócios e TI devem operar exatamente os mesmos dados, mas devem considerar os dados de diferentes pontos de vista.
  • Não existe uma bala de prata, significa que você deve personalizar suas soluções.

PS


Source: https://habr.com/ru/post/pt437190/


All Articles