👲🏻 👨🏻‍🏭 👨🏻‍🏫 Pourquoi surveiller les systèmes de stockage? 👩‍🎤 ◽️ ☝🏼

Quelqu'un va bientôt tomber

Parce que SHD stocke le saint des saints - les données. Si les données ne sont plus disponibles, elles sentiront très vite frites. Ou si soudainement l'endroit est fini - aussi une mauvaise surprise. Par conséquent, la surveillance devrait être obligatoire et couvrir les systèmes de stockage.

Il existe deux approches principales pour surveiller le stockage . Soit utiliser un système de surveillance universel comme Nagios, Icinga, qui collectera des informations via SNMP, soit acheter des logiciels hautement spécialisés auprès des fabricants des systèmes de stockage eux-mêmes. Bien sûr, la deuxième option fournit une analyse plus approfondie de l'état du fer, montre des éléments spécifiques comme l'état du cache, les iops, le taux de réussite, le chargement du contrôleur, etc. C'est l'option la plus souvent choisie par nos clients, qui ont des baies volumineuses et coûteuses en service. .

Mais au fait, tout n'est pas si fluide avec un logiciel de surveillance commercial. Plus en détail, je dirai plus loin. Ce sera, pour ainsi dire, une expérience de première main. À un moment donné, pendant près de 2 ans, je finissais un tel système pour plusieurs milliers de morceaux de papier vert d'un fournisseur célèbre. Et il l'a ramassé pour que même le support du vendeur commence à me consulter. Mais certains problèmes logiciels ont été remplacés par d'autres, tout comme certains Indiens du support ont été remplacés par de nouveaux Indiens - et c'est alors que j'ai eu l'idée, sinon d'agir radicalement du tout ... En général, tout a commencé avec cela.

Quel est le problème avec le logiciel du fournisseur?

Comme je l'ai dit, la surveillance du fabricant surveille parfaitement les systèmes de stockage du même fabricant. C'est son principal avantage. Les inconvénients se développent à partir d'ici: les tableaux d'autres fabricants sont pris en charge de manière limitée ou pas du tout. Il s'avère que si vous disposez de plusieurs baies différentes sur la batterie, vous avez besoin de plusieurs outils de surveillance différents. Oui, et n'oubliez pas lequel de quoi et quand vous devrez le regarder la prochaine fois. Idéalement, généralement par l'administrateur pour chaque baie.

Ce n'est un secret pour personne que les outils des fabricants fournisseurs coûtent cher et sont assez volumineux. Et l'extension du support coûte alors un joli sou. Et certains éditeurs ont maîtrisé un nouvel objectif: ils annoncent la fin du cycle de vie de leurs logiciels et proposent simplement d'acheter un autre produit, sans migration de licences. C'était une telle configuration qui vient de se produire il y a quelques mois avec l'un de nos clients. Il n'y a pas d'options: si vous souhaitez continuer à surveiller le matériel - faites un nouvel achat.

Si vous approfondissez le logiciel du fournisseur, d'autres fonctionnalités désagréables apparaissent. Par exemple, dans un certain nombre de produits, vous pouvez voir le statut actuel, mais vous ne pouvez pas voir l'historique de la période précédente. Ou l'histoire est limitée: le journal est réécrit une fois tous les 3 jours. Il n'est tout simplement pas nécessaire de parler de l'accumulation de statistiques. Et souvent, l'historique des événements est requis pour les prévisions, par exemple, l'achat de pièces de rechange, pour les rapports et pour enquêter sur les incidents. Par exemple, les freins d'un système d'entreprise peuvent être enfoncés dans le système de stockage et, s'il n'y a pas de données réelles, il n'y a rien derrière quoi se cacher.

Et enfin, on ne peut que se plaindre de la vitesse des mises à jour et des changements dans les logiciels des fournisseurs. Oh, combien de fois j'ai rencontré ce problème pour ma longue pratique! De nouveaux modèles de baies sortent, de nouveaux firmwares sortent, de nouveaux paramètres apparaissent. Tout cela rompt facilement la surveillance de travail: soit une sorte d'infa cesse d'être collectée, soit les tableaux tombent généralement. Dans un nouveau microcode, un fabricant a désactivé la prise en charge des anciennes versions de SSL et le logiciel de surveillance ne prend pas encore en charge le protocole TLS. Et au début, personne ne pouvait trouver de raison. Après ma propre enquête, j'ai envoyé ces entrées au fabricant, et ils ont déjà mis à jour les anciennes bibliothèques. Cependant, toutes ces formalités administratives ont duré indéfiniment.

Et une fois que nous avons échoué le pilote chez le client. Il a été proposé d'utiliser le logiciel du fournisseur, et le client a tout aimé en termes de fonctionnalité et d'interface. Mais malheureusement, leurs principaux systèmes de production n'ont pas été pris en charge. Ils étaient même prêts à attendre un mois ou deux, mais le vendeur a déclaré qu'il n'était pas prévu d'inclure ces systèmes dans le support dans un proche avenir (et ce n'était qu'une mise à jour de la ligne Hitachi AMS sur HUS).

En général, beaucoup d'inconvénients et pour une raison quelconque, beaucoup d'argent.

Il y a longtemps, je n'ai pas pris de pions ...

Frustré par cet état de choses, j'ai souvent réfléchi à la façon de mettre en œuvre ma propre surveillance pour le stockage. Si vous connaissez bien la baie et que vous possédez sa CLI, vous pouvez obtenir rapidement les informations dont vous avez besoin sur l'état ou aller au fond des problèmes. Bien sûr, avant cela, il est nécessaire de pelleter beaucoup de quais, des forums de fumée et des bases de connaissances des vendeurs, des informations différentes au coup par coup. Mais quand vous savez quelle commande taper avec quelle clé et ce que signifie chaque colonne de sortie, vous êtes déjà un gourou. Il restait à intégrer ces connaissances dans une interface pratique, qui continuera à tout faire pour vous.

J'avoue qu'au début, j'avais prévu d'écrire l'interface à partir de zéro aussi, mais ensuite je suis tombé sur Zabbix - un outil mature avec une grande communauté, qui est également facile à étendre. Il avait tout ce dont j'avais besoin: une interface, un modèle de rôle, des notifications, un système de déclenchement, des agents clients proxy. Il ne restait plus qu'à cette moissonneuse-batteuse à fournir correctement des informations sur les systèmes de stockage et les valeurs de seuil de divers paramètres. L'affaire a commencé à bouillir. Nous avons une équipe de spécialistes en matrices. Bien sûr, il est impossible de connaître tous les tableaux par une seule personne, nous sommes donc divisés par modèle et fabricant.

Une autre difficulté pour développer votre propre surveillance est la possibilité d'accéder aux morceaux de fer eux-mêmes et de ne pas avoir peur de charger, de casser et de mener toutes sortes d'expériences. Heureusement, les ressources de notre laboratoire ont permis tout cela.

La première chose à surveiller est la santé de tous les composants matériels. Quelque chose peut être pris via SNMP, mais dans la plupart des cas, il s'agit d'une enquête utilisant un protocole spécial (SMI-S, API REST, API SOAP et autres). Je dois dire que les tableaux eux-mêmes vous permettent de configurer des notifications sur les pannes sur eux. Et tous les clients l'utilisent à tout le moins. Mais que se passe-t-il si la notification elle-même sur la baie se brise? Cela s'est produit, et plus d'une fois, lorsque le réseau est resté silencieux pendant des semaines et il a semblé à tout le monde que tout était en ordre, il était silencieux. Et puis il est soudain devenu clair qu'un nombre critique de disques ont volé dessus, mais il était déjà trop tard.

Le deuxième point important à surveiller est la performance. Parce que lorsqu'une performance s'appuie sur un système de stockage avec un délai d'enregistrement de quelques secondes, Oracle peut simplement monter et descendre. Aucune idée. C'est la performance dans les grandes infrastructures avec de nombreux systèmes de stockage qui est la pire contrôlée. Et Zabbix dispose d'une analyse prédictive extrêmement pratique: sur la base des prévisions, vous pouvez définir la valeur de la métrique, qu'elle deviendra à l'avenir. Par exemple, nous avons créé un déclencheur qui fonctionnera s'il est prévu qu'il ne restera que 3 mois pour l'élimination actuelle. Ou, par exemple, que le temps de réponse selon les prévisions dans 2 semaines sera supérieur de 50 millisecondes. La surveillance nous donne le temps de se renseigner à l'avance sur les problèmes à venir et de faire déjà quelque chose.

À un moment donné, nous avons réalisé qu'il est bon de connaître l'état du stockage, bien sûr, mais il est beaucoup mieux de comprendre ce qui se passe d'autre sur le réseau et sur le côté serveur. En conséquence, après plusieurs mois de travail, il est devenu possible de voir les serveurs, le réseau et les systèmes de stockage dans une seule interface. Non seulement des plug-ins et des connecteurs pour le stockage sont apparus, mais également une liaison utile sous la forme de cartes de topologie réseau. Jusqu'à présent, bien sûr, le plugin prend en compte notre expérience et nos besoins, mais si vous nous dites ce que vous devez y voir, nous le tordons.

Topologie de bout en bout pour le cluster VMware: de la machine virtuelle au volume de stockage

Performances

Sur le graphique des performances de la baie, nous voyons que le système est très fortement surchargé. Une utilisation élevée des groupes de disques indique que les disques sont surchargés. Il y a beaucoup d'opérations d'E / S sur les ports de stockage, ce qui signifie que les systèmes informatiques chargent la baie de leur côté. Eh bien, le graphique caractéristique du temps de réponse, ainsi que l'utilisation de processeurs au-dessus des valeurs recommandées. Verdict - trop de tâches ont été placées sur la baie; certaines d'entre elles doivent être migrées.

Carte du réseau de stockage: recherche de goulots d'étranglement

Résumé

Qu'avons-nous obtenu? Nous avons équipé le système de surveillance Zabbix populaire et très commun de nouvelles fonctionnalités, notamment:

Collecte d'informations sur l'état de tous les composants matériels et logiques des baies de disques et des commutateurs du réseau de stockage.
Statistiques de performances pour absolument tous les systèmes pour lesquels nous avons créé des plugins (les fournisseurs ont des lacunes à cet égard).
Cartes topologiques d'un réseau de stockage partagé et de bout en bout des machines virtuelles aux volumes sur les systèmes de stockage (jusqu'à présent uniquement pour VMware).
Collecte de toutes les informations d'inventaire.
La quantité d'espace disque.

Zabbix lui-même vous permet de créer des notifications très intéressantes, de définir des seuils, d'envoyer des lettres informatives sur le problème. Par exemple, si le port du commutateur est tombé (ou si le trafic sur le port est devenu très important), le message contiendra non seulement le nom du commutateur avec le numéro de port, mais également des informations sur le périphérique connecté.

Quels systèmes supportons-nous actuellement? Beaucoup différents:

Toutes les baies Hitachi (AMS, HUS, VSP, VSP G).
Baies Dell-EMC CLARiiON, VNX, Unity, ISILON, Compellent.
Baies HPE 3PAR, P9500, XP7.
Matrices d'IBM Storwize, DS5000.
Baies NetApp FAS (7 modes, mode c).
HPE StoreOnce, bibliothèques de disques EMC DataDomain.
Commutateurs Brocade Silkworm, Cisco MDS.

Nous avons également des extensions pour certains systèmes d'exploitation (Windows, ESX), avec lesquels nous collectons des données sur FC HBA afin de dessiner des cartes topologiques à l'avenir. Développement actif de plugins pour OpenStack et les systèmes de virtualisation.

Lors du développement de plug-ins, l'expertise de nos ingénieurs est prise en compte, derrière laquelle il existe de nombreux cas pour résoudre les problèmes sur les baies - à la fois le matériel et les performances. De nouveaux plugins sont développés sur demande en peu de temps en raison du grand nombre de bibliothèques prêtes à l'emploi.

Certains de nos clients configurent le système comme suit: les notifications avec le numéro du contrat, les personnes de contact et tous les paramètres du composant défectueux sont automatiquement envoyées à notre courrier. Cela réduit le temps de réaction et la commande des pièces de rechange nécessaires, car l'ingénieur de service n'a pas besoin d'appeler et de clarifier beaucoup d'informations, même la nuit. L'application se met immédiatement au travail.

Comment résolvez-vous les problèmes de surveillance de votre infrastructure, en particulier du stockage? Dites-le nous dans les commentaires ou dans la lettre à la poste VRyzhevsky@croc.ru

Pourquoi surveiller les systèmes de stockage?

Quel est le problème avec le logiciel du fournisseur?

Il y a longtemps, je n'ai pas pris de pions ...

Résumé

More articles: