La surveillance en tant que processus de gestion d'événements

Bonjour, Habr! Aujourd'hui, nous voulons partager avec vous un article du chef du support technique IT-GRAD, Alik Fakhrutdinova, dans lequel nous parlerons de la manière dont nous avons construit un nouveau système de surveillance dans le cadre d'une collaboration avec MTS PJSC. Cette fois, nous omettons les détails techniques et les nuances et nous concentrons sur la complexité administrative du processus. Sous la coupe, nous parlerons des événements qui nous ont poussés à construire un tout nouveau système de surveillance (au lieu de "foutre" l'ancien), parler de nouvelles puces de surveillance en tant que service pour les clients et des difficultés que nous avons rencontrées dans le processus.



Comme vous le savez peut-être, le concept d'un fournisseur de cloud unifié est actuellement représenté par trois marques collaboratrices:

  • #CloudMTS, créé par le Centre d'innovation MTS;
  • IT-GRAD Company, un fournisseur IaaS basé sur le cloud;
  • 1cloud service.

Maintenant, toutes les marques de ce concept travaillent ensemble et se complètent mutuellement, essayant de clore les demandes de divers segments de notre public. Cependant, lors de la fusion, nous avons rencontré quelques difficultés dont l'une a conduit au développement d'un nouveau système de suivi.

Après la transaction, le processus de séparation de l'infrastructure informatique cloud d'IT-GRAD en un segment distinct a été lancé. Ce fut un moment de transition difficile, au cours duquel un grand nombre d'équipements et de centres de données ont été déconnectés, qui n'étaient pas inclus dans le plan de transaction. Le routage des réseaux internes et externes a changé. Dans le même temps, les délais étaient serrés et les déclencheurs du système de surveillance n'ont pas toujours réussi à se mettre à jour à temps. Cela a conduit à la génération de nombreux faux incidents à partir d'équipements inexistants.

Dans le processus de reconfiguration globale, les employés de ceux-ci ont également eu du mal. soutien - ils ont été confrontés à un si grand flux de fausses alertes qu'il était extrêmement difficile de traiter tous les événements correctement et en temps opportun. Il était nécessaire de reconfigurer complètement le système de surveillance, de le mettre à jour pour les tâches actuelles et de le transformer en un nouveau service à la fois pour un usage interne et pour nos clients.

En conséquence, il a été décidé de créer une unité de gestion des événements dédiée, qui mettra en place le système de surveillance dans IT-GRAD et deviendra par la suite un centre unique pour surveiller l'état de l'infrastructure du fournisseur de cloud intégré.

À la suite de la transformation, les principales exigences sont les suivantes:

  • Le système de surveillance devrait fonctionner non seulement sur IT-GRAD, mais aussi devenir un service interne pour le fournisseur de cloud unifié et un service pour les clients.
  • Il fallait une solution qui collecterait des statistiques sur l'ensemble de l'infrastructure informatique.
  • Comme il existe de nombreux systèmes, tous les événements de surveillance doivent converger dans un seul agrégateur de données, où les événements et les déclencheurs sont vérifiés par rapport à une seule CMDB et, si nécessaire, les utilisateurs sont automatiquement informés.

Après avoir collecté et analysé toutes les données disponibles à l'époque, nous avons divisé la mise en œuvre du projet en plusieurs étapes:

  1. Déterminer les exigences d'un système de surveillance.
  2. Préparation de modèles de services «composantes santé».
  3. Analyse des exigences de fiabilité et de tolérance aux pannes du système de surveillance.
  4. Test et implémentation cohérente du système.
  5. Organisation de la surveillance en tant que service pour les clients.

Pour plus de clarté, nous présentons ce processus sous la forme d'un organigramme.





Difficultés de croissance


Bien sûr, l'introduction d'un système aussi complexe n'a pas pu se dérouler parfaitement et nous avons rencontré quelques difficultés.

  • Le premier point est la formation d'un nouveau département. Il s'est avéré que trouver des spécialistes hautement spécialisés qui connaissent et ont une expérience pratique de travail avec divers systèmes de surveillance n'est pas si simple. L'une de nos exigences était de comprendre la surveillance en tant que service, et pas seulement en tant que composante de l'infrastructure informatique.
  • Délais de résolution du problème.
  • Une infrastructure informatique géographiquement fragmentée qui devait être mise à un standard unique.
  • Un grand nombre de systèmes de surveillance disparates qui devaient être combinés en un seul système.

Surveillance et rapports dans le système de surveillance




Socialisme: l' infrastructure informatique est la comptabilité et le contrôle. Pas un seul événement, même le plus insignifiant, ne devrait être laissé sans attention. Pour le moment, nous avons réussi à construire un processus de reporting et de contrôle, comprenant:

  • rapports et suivi des statistiques sur les composants de nos clients;
  • Mener une analyse de gestion du «statut opérationnel» de notre infrastructure interne;
  • planification des améliorations des services sur la base des rapports collectés.

La CMDB unique créée nous permet de suivre l'état et l'historique des événements à la fois dans l'ensemble de l'infrastructure et pour chaque composant individuellement.
De plus, nous avons commencé à surveiller l'état des services individuels, par exemple les sauvegardes, à savoir l'exactitude des tâches de sauvegarde. Si, pour une raison quelconque, la tâche échoue, le système enregistre l'incident. Il indique le serveur de sauvegarde, la tâche elle-même et la machine virtuelle - sachant cela, nous pouvons le corriger rapidement. De plus, en surveillant les services, nous pouvons fournir des rapports à nos clients.



Ci-dessous, nous fournissons une capture d'écran des rapports de Live Technologies.



Ci-dessous, vous pouvez voir un rapport récapitulatif sur le nombre d'incidents regroupés par classe d'unités de configuration (KE) en termes de degré d'influence sur l'infrastructure.



Surveillance des résultats du système


Le nouveau système de surveillance fonctionne déjà activement et nous sommes prêts à partager avec vous les résultats de ses travaux et nos propres observations.

À l'heure actuelle, nous avons réussi à restaurer complètement la surveillance de l'infrastructure IT-GRAD et à nous débarrasser de la génération de faux incidents. Le service pour les clients est en cours de test et sera bientôt disponible. À l'avenir, nous prévoyons de terminer l'intégration des infrastructures en connectant 1cloud et #CloudMTS à un seul système de surveillance IT-GRAD.



Auparavant, lorsqu'un déclencheur d'alerte était déclenché, un incident sur le support 1 ligne était généré. L'officier de garde l'a traitée et a informé le client par appel ou par e-mail.

Maintenant, tout fonctionne de manière autonome: lorsque le déclencheur est déclenché pendant 2 minutes, si nécessaire, le client est automatiquement averti.

Nous ferons un peu attention au fonctionnement des alertes.



En cas de modification de l'état du composant informatique, le système de surveillance enregistre l'événement dans l'agrégateur de données, qui traite l'événement à travers le corps de la lettre et, selon le degré de criticité de l'état du composant spécifié dans l'alerte, génère une demande, une notification ou un incident avec la priorité souhaitée. De plus, le système, via CMDB, détermine à quel client KE appartient, et conformément au modèle de santé, il alerte par e-mail ou SMS. De plus, à l'heure actuelle, un robot télégramme spécial pour les alertes est en cours de finalisation et sera bientôt disponible pour tous nos clients.



Maintenant, dans le cadre du processus de surveillance et de contrôle des services, nous surveillons «l'état de santé» de l'environnement informatique en temps réel, en informant automatiquement les utilisateurs externes et internes. La surveillance de l'état de l'infrastructure et des services informatiques, ainsi que des données collectées, vous permet de prendre des mesures proactives avant que quelque chose ne tourne mal.

Comme vous pouvez le voir, le processus de construction d'un système de surveillance est semé d'embûches. Néanmoins, nous sommes sûrs que grâce au travail conjoint de nos ingénieurs et analystes, nous avons obtenu un excellent produit qui résout deux problèmes commerciaux à la fois: il nous offre un suivi de haute qualité et nous permet de mettre en œuvre le suivi en tant que service pour les clients.

Source: https://habr.com/ru/post/fr479058/


All Articles