À propos de la surveillance

intro


La surveillance est la partie la plus importante de votre infrastructure. La surveillance est la base des ingénieurs système. Cependant, chacun a sa propre façon de le comprendre. Ma voie consiste en un déni. colère et acceptation.


Déni


Déni


C'est difficile à croire, mais il y a une salle des serveurs sur la photo.


C'était en 2007. J'étudiais à la CSU (Université d'État de Tcheliabinsk) au département de la sécurité de l'information en deuxième année. J'ai décidé de postuler pour CSU en tant qu'assistant au laboratoire de sécurité de l'information. C'était un travail temporaire à temps partiel. Après cela, en 2009, j'ai obtenu un autre emploi permanent à temps partiel dans une organisation de production commerciale en tant qu'administrateur système. Cette fois-là, je ne connaissais pas la surveillance, j'étais mouillé derrière les oreilles et je pensais qu'il était possible d'être un héros et de résoudre n'importe quel problème. J'espère que ce fut une courte période de ma vie, je sentais que c'était mal.


La colère


La colère


2010 a été l'une des années les plus épuisantes. J'ai travaillé pour 2 employeurs; dispensé des cours; préparait un mémoire de maîtrise; d'ailleurs j'étais préfet. Sous la pression de l'expérience, ma vision de la surveillance changeait. Ce processus s'est heurté à ma démission. Avant d'obtenir mon diplôme, j'ai décidé de démissionner et j'ai cherché un nouvel emploi. La grande majorité des enquêteurs étaient confus parce que j'étais étudiant. Cependant, l'un d'eux avait accepté de m'engager, j'avais un emploi permanent à plein temps pour une multinationale internationale. J'ai obtenu mon diplôme; J'améliorais mes compétences et mon expérience, je travaillais pour des entreprises en sous-effectif. La grande majorité de nos projets étaient des startups incroyables et intéressantes. J'ai extrêmement nivelé ma qualification, car il n'y avait pas d'autre moyen dans le cas de 400 serveurs pour une seule personne. J'avais travaillé en tant que DevOps avant qu'il ne soit courant. Je me suis épuisé au travail et j'ai décidé de changer de travail.


Cette fois, je pensais que nous devions tout surveiller. C'était vraiment important. Tout le monde devrait recevoir des notifications de surveillance. De plus, le jeu d'outils de surveillance évoluait et s'améliorait. L'une des premières implémentations a été les scripts bash / PowerShell (espace libre, nombre de mises à jour disponibles, état des sauvegardes, etc.) et les services externes Red Alert, Lazy farmer (outil interne pour la vérification du site). C'était assez bon en 2010-2011, cependant, nous avons été confrontés à de nombreux problèmes différents:


  • Courriel de l'enfer.
  • Retards imprévisibles.
  • Utilisation des ressources inconnue.

Nous avions décidé de nous simplifier la vie et de choisir Zabbix. Nous avons tout surveillé:


  • Nombre d'utilisateurs connectés au wifi.
  • Nombre de pages imprimées.
  • Comptez les tunnels VPN vivants.
  • Température des serveurs.
  • Charge réseau.
  • etc ...

Je voudrais également partager certains des problèmes rencontrés:


  1. Il y avait des infrastructures distribuées DC croisées et beaucoup de métriques. Nous avons constaté que parfois les paramètres étaient absents. Nous l'avons corrigé via le proxy Zabbix.
  2. Si le tunnel VPN échoue, nous recevrons une tonne de messages. Nous avons configuré les dépendances d'infrastructure.
  3. Nous avons automatisé les tâches récurrentes. c'est-à-dire qu'en cas d'espace libre faible, nous avons essayé de le nettoyer automatiquement.
  4. Nous avons compris que c'était une mauvaise idée d'avertir quelqu'un si la métrique moyenne de charge CPU serait supérieure à 95% pendant 30 secondes, par conséquent, nous avons ajouté quelque chose comme la période de seuil.
  5. Nous avons vérifié les scénarios critiques (c.-à-d. Connexion Web, recherche, etc.).
  6. Nous avons ajouté Zabbix aux intégrations skype, à cause des discussions en ligne.
  7. Quis custodiet ipsos custodes?.
  8. etc ...

Acceptation


Acceptation


Un peu plus tard, j'ai compris que d'une part, les hommes d'affaires ne se soucient pas de la RAM / CPU / IOPS. Leur intérêt pour le TTM (time to market) et les métriques commerciales, mais d'un autre côté, l'informatique devrait être en mesure de tracer tout type de problème.


À emporter


  • Déni . Vous ne devez rien surveiller, car vos utilisateurs vous signalent si quelque chose d'étrange se produit.
  • La colère Vous devez tout surveiller. Vous êtes autorisé à informer le CTO / CEO si la métrique moyenne de charge CPU sera supérieure à 95% pendant 30 secondes.
  • Acceptation Les hommes d'affaires ne se soucient pas de la RAM / CPU / IOPS. Leur intérêt pour les métriques TTM (time to market) et commerciales.

Zabbix avait été assez bon, mais le monde changeait. Il y avait beaucoup d'approches modernes de surveillance.


  • Il est possible de diviser l'application de surveillance de monolithes à différents niveaux: collecter, stocker, présenter.
  • Les entreprises et l'informatique doivent exploiter exactement les mêmes données, mais elles doivent examiner les données de différents points de vue.
  • Il n'y a pas de solution miracle, cela signifie que vous devez personnaliser vos solutions.

PS


Source: https://habr.com/ru/post/fr437190/


All Articles