Acceptation du centre de données indépendant



Bonjour à tous! Je m'appelle Cyril Shadsky, je suis le chef du département de gestion des data centers externes de DataLine.

Cet article est consacré aux aspects les plus importants des tests d'acceptation, ainsi qu'aux problèmes et pièges possibles qui peuvent gâcher beaucoup de nerfs aux "testeurs" novices.

Alors, imaginez: un entrepreneur satisfait nous fera part du plan quinquennal dans quatre ans qu'il n'y a pas de problème et que l'installation (centre de données ou salle séparée) est prête à fonctionner. Il semblerait que le moment soit venu de commencer les tests, mais ... en fait, nous sommes déjà en retard. Les tests d'acceptation doivent être planifiés au moins au stade de la conception.

La toute première question est de savoir à qui confier les tests? Bien sûr, les constructeurs! Après tout, c'est beaucoup plus facile que de vérifier indépendamment chaque nœud ou d'embaucher une commission indépendante. Au cas où, je précise: c'est une blague. Si tout était si simple, cet article n'aurait pas été écrit.

Tout entrepreneur se fera un plaisir de vérifier ce qu'il a construit. Il est très bon de chercher des jambages en soi et de les cacher ailleurs.

N'oubliez pas: même le meilleur entrepreneur et le plus fiable est une personne intéressée et tout ce qu'il cache peut devenir un problème à l'avenir. Par conséquent, effectuez toujours vous-même les tests d'acceptation ou contactez une organisation indépendante.

Si vous êtes expérimenté et que les tests ne vous font pas peur, vous pouvez les réaliser vous-même. Je vais essayer de vous expliquer en détail comment les tests d'acceptation sont organisés avec nous et quels problèmes nous rencontrons à différentes étapes.

À Data Line, il existe une Direction de la construction des immobilisations, qui s'occupe de la construction de nouveaux halls et centres de données. Après la construction, tout cela devient la responsabilité du service de maintenance. Il est important pour elle que tout soit construit de haute qualité. Notre directeur technique Sergey Mishchuk est une sorte de «juge mondial» entre ces deux divisions de l'entreprise.

Malgré toute notre expérience, à chaque fois pendant les tests nous trouvons une variété d'écoles: sérieuses et petites. C'est tout à fait normal. Vous devez les attraper pendant le test, plutôt que d'attendre qu'ils se transforment en problèmes. Voici quelques exemples.

Dans 99% des cas, il y a des plaintes concernant la fermeture des trous entre les murs ou les pièces. Cette situation est compréhensible: vous devez d'abord poser des SCS, des câbles d'alimentation, des pipelines de fréon et d'autres tuyaux, et le scellage est reporté au dernier moment. Par conséquent, assurez-vous qu'il est terminé avant le début des tests.

Nous faisons obligatoirement un déversement dans la zone germinale. Tous les locaux du centre de données sont situés dans des zones sous pression distinctes, «maison en maison».


Vue de dessus de l'hermozone

Si votre centre de données possède des zones de confinement, celles-ci doivent être éliminées avec de l'eau du tuyau et assurez-vous que rien ne fuit.

Il n'y a aucune échappatoire à la poubelle. Sous le plancher surélevé, il y aura inévitablement des coupures de câbles, des pignons, des boulons et d'autres limes oubliées par les travailleurs. Quel que soit le nombre de contrôles que j'effectue, il y a toujours des commentaires.

Si vous ne forcez pas les travailleurs à nettoyer immédiatement, tout restera couché lorsqu'ils apporteront et installeront l'équipement. Que pensez-vous est plus facile? Éliminer en place ou transpirer avec une lampe de poche sous les supports de travail et nettoyer les débris de construction?

Et tout cela n'est que la pointe de l'iceberg, les problèmes posés pour une compréhension générale de l'image. Nous allons maintenant analyser chaque étape des tests en détail et commencer par un «point zéro», à savoir la planification.

Préparation au test




Dans presque tous les articles, nous parlons de l’importance de la planification préalable et, aujourd’hui aussi, nous n’interrompons pas cette glorieuse tradition. De plus, la planification devrait être votre première (sinon "zéro") étape dans la réalisation des tests.

Uptime Institute vous recommande de commencer à planifier et à créer une commission d'acceptation au stade de la conception préliminaire du centre de données, et le début des travaux de vérification est déjà au stade de la conception.

On commence par l'acceptation du projet, il n'y a aucun moyen de s'en passer. Il est préférable d'accepter avant la construction, au stade de la conception. N'oubliez pas: il est toujours plus facile de fixer ce qui est «sur papier» qu'un objet déjà construit. Dans certains cas, «peaufiner légèrement» le centre de données fini n'est généralement pas possible.

Les points suivants doivent également être inclus dans votre plan de test:

  • Quels tests seront effectués?
  • Quand les tests seront-ils effectués?
  • Qui sera testé?
  • Quels employés de l'entreprise seront impliqués?
  • Quels outils et équipements seront nécessaires (pinces de courant, vibromètres, imageurs thermiques, anémomètres et bien d'autres choses obscures mais nécessaires)?

Pour chaque test, nous établissons une liste de systèmes à tester, car dans différents centres de données chaque unité est responsable de son équipement. En un seul endroit, nous vérifierons uniquement l'électricité et les climatiseurs. Dans un autre, d'autres systèmes peuvent leur être ajoutés, par exemple AUGPT, vidéosurveillance, ACS (comme convenu avec le personnel de sécurité).

Nous accordons une attention particulière au bâtiment lui-même. En règle générale, la marque de béton et la façon dont les planchers sont coulés ne sont pas notre patrimoine et notre spécialisation, mais nous devons vérifier le plancher surélevé, les portes, l'alimentation en eau et le système d'égouts .

En d'autres termes, avant de commencer le test, vous devez savoir clairement quoi et où nous allons tester afin d'éviter les superpositions et la confusion.

Remarque importante: lorsque vous vérifiez tel ou tel système, celui qui l'a construit ou une autre personne responsable doit être près de chez vous. S'applique à toutes les étapes.

En général, les tests d'acceptation comprennent les étapes suivantes:

  • Vérification du projet
  • Vérification de la documentation
  • Tests autonomes
  • Contrôles complets

Nous examinerons séparément chacun d'eux.

Vérification des documents




En aucun cas, vous ne devez sauter cette étape et encore plus la mener en parallèle avec des tests autonomes. Même si le temps presse, vous devez vous assurer que chaque équipement et chaque système correspondent à ceux déclarés dans le projet. Sans vérification de la documentation, vous ne pourrez plus effectuer de tests qualitatifs, sans parler du côté juridique du problème.

Une liste complète des documents à vérifier est individuelle et dépend de votre configuration.

Je donne un exemple de documents à vérifier lors des tests:

  • documentation exécutive pour chaque système;
  • passeport pour l'équipement;
  • acte de démarrage technologique;
  • acte de mesures et d'essais;
  • actes de test du système de sertissage;
  • rapport de laboratoire sur la mesure de la résistance de la boucle de masse et d'autres communications par câble;
  • instructions d'installation de l'équipement.

Il existe toujours une documentation opérationnelle. Ce n'est pas toujours indiqué dans le contrat de construction, et si ce n'est pas le cas, demandez à l'entrepreneur un accord supplémentaire. La documentation opérationnelle doit contenir des instructions et des algorithmes de commutation de base, mais nous y reviendrons dans la section sur les tests complexes.

En plus de tout ce qui précède, il est hautement souhaitable, je dirais même, de compiler des tables de charge. Malheureusement, ils ne sont pas toujours réalisés, mais il s'agit d'un document important et pratique.

Pourquoi est-il nécessaire?

En règle générale, la redondance dans le centre de données est organisée par deux chemins d'alimentation, et vous devez comprendre quelle charge ira à un faisceau en raison d'une panne de courant complète de l'autre.

Il semblerait qu'un schéma commun pour cela soit tout à fait suffisant. Mais il sera beaucoup plus pratique pour vos spécialistes de travailler avec des tables. Moins susceptibles de manquer ou d'être confus.

Bien sûr, nous ne pouvons pas réconcilier chaque acte avec la réalité, mais il faut s’assurer que tous les actes existent.

Vérifications hors ligne




Les contrôles autonomes sont la prochaine étape des tests d'acceptation du centre de données. Ici, il est nécessaire de vérifier manuellement chaque équipement: fonctionnement, réglages, fonctionnement à charge maximale et, bien sûr, marquage - où sans lui :) Il est important que le marquage corresponde à la conception. Mais il est tout aussi important qu'elle coïncide avec la réalité.


Exemple de marquage de circuit de glycol

Par exemple, pour un système de distribution d'énergie, nous appliquons une charge de test et allumons / éteignons physiquement chaque machine du tableau. Et, en commençant par l'équipement informatique, nous parcourons chaque rack tour à tour, faisons une table et nous assurons que lorsque la machine est éteinte, le matériel correspondant est également éteint.

Bien sûr, parfois dans les standards apparaissent comme par magie des machines qui n'étaient pas dans le projet. C'est bon, l'essentiel est que la charge ne dépasse pas la norme, et cela a été noté dans la documentation.


Tableau droit

Pour les équipements tels que les climatiseurs, les groupes électrogènes diesel et les onduleurs, nous effectuons de simples vérifications autonomes: marche / arrêt, modes de fonctionnement, réglages, etc. Curieusement, il est important de vérifier si l'équipement est bien fixé. Nous avons eu des cas où des noix importantes pouvaient être dévissées avec presque un doigt.

Le premier tour est terminé, et nous donnons le temps aux installateurs de corriger les défauts, après quoi nous revenons, et tout se passe au deuxième tour.

Ils disent qu'entre eux, les travailleurs les appellent des cercles d'enfer croissant - très souvent, lors de la deuxième inspection, nous trouvons des montants que nous n'avions pas remarqués auparavant. Et ça commence: "Qu'est-ce que tu n'as pas dit tout de suite?"

Vous pouvez comprendre les gens, mais avec nous, c'est presque comme dans le film "Attention à la voiture": vous rattrapez votre retard et je m'enfuis. Au contraire: vous éliminez, mais je trouve.

Sous le spoiler se trouve une liste des tests autonomes les plus importants que nous effectuons.
Refroidissement:
  • inspection visuelle de l'équipement pour vérifier sa conformité aux exigences du manuel d'installation;
  • vérifier la fiabilité de la fixation des pipelines, de l'isolement des pipelines et de leur jonction;
  • vérification de la fiabilité de la fixation des équipements électriques dans le panneau électrique (machines automatiques, démarreurs magnétiques, blocs de contact);
  • vérifier l'opérabilité du panneau de commande;
  • vérification de l'algorithme de fonctionnement du logiciel matériel: passage du travail à la sauvegarde après simulation d'un accident; vérification de la rotation par le temps (le cas échéant).

Alimentation:
  • inspection visuelle de l'équipement, vérification de la conformité aux exigences du manuel d'installation;
  • vérifier la conformité du système et de ses composants avec un schéma unifilaire;
  • mesures sélectives sans contact de la température (avec indication des lieux de contrôle).

DGU:
  • vérification du panneau de commande;
  • vérifier le bon fonctionnement de l'indication lumineuse et sonore;
  • vérification des problèmes lors du démarrage du test des groupes électrogènes diesel en modes automatique et manuel;
  • vérifier les performances des groupes électrogènes diesel pendant 6 heures à 30% de la charge nominale.

UPS:
  • vérifier le démarrage automatique de l'onduleur lorsque les batteries sont déchargées au niveau maximum autorisé, vérifier la durée de vie de la batterie (lorsque vous travaillez à 100% de la charge nominale);
  • vérification des principaux paramètres de l'onduleur en fonctionnement à 100% de charge;
  • vérification de la sortie de l'onduleur en dérivation en mode automatique et manuel lors d'un fonctionnement à 100% de la charge nominale.


Lorsque tout fonctionne comme il se doit, les tests autonomes sont terminés et la partie la plus drôle commence: des tests complets.

Tests complets




Permettez-moi de faire une digression ici et de parler de ce qu'est un centre de données et de ce qui est important pour son fonctionnement.

Tout d'abord, le centre de données est un système unique, un organisme presque vivant. Et sa «santé» dans son ensemble dépend de la façon dont tous ses organes interagissent.

Par exemple, les climatiseurs nous disent souvent: «Qu'est-ce qui vous déplaît? Regardez, ça souffle et refroidit! Tout est comme il se doit! ”

Les spécialistes de la DGU leur font écho: «Regardez, tout démarre et donne même de l'électricité!» En général, chaque équipement fonctionne bien (nous l'avons vérifié sur des tests autonomes), mais uniquement seul. Cela vaut la peine de tout démarrer ensemble, et le système s'effondre. Il s'agit d'identifier les problèmes liés au fonctionnement conjoint de l'équipement, des contrôles complets sont utilisés.

La portée des tests peut varier en fonction du niveau de redondance: plus il y a de systèmes interconnectés, plus vous avez besoin d'options de travail pour vérifier et déboguer.

Par exemple, si nous construisons un centre de données de niveau III, il est nécessaire que chaque élément de l'infrastructure, y compris les câbles et les itinéraires de distribution, puisse être arrêté en toute sécurité pour être remplacé ou réparé. En conséquence, le nombre de tests nécessaires augmente. Nous éteignons / désactivons systématiquement divers équipements lorsque le centre de données fonctionne sous charge. Les changements dans un système ne doivent en aucun cas conduire à des défaillances dans les systèmes adjacents.

Précision importante n ° 1: tous les tests complets sont effectués sous charge. Dans 99% des cas, les pistolets à air chaud sont placés directement dans la salle des machines et le centre de données est «brûlé» - c'est ainsi que nous vérifions la qualité des systèmes d'ingénierie.

Précision importante n ° 2: les DGU sont l'alimentation principale du datacenter. La ville est une source alternative «bon marché», nous effectuons donc tous les contrôles complexes du diesel.

L'un des systèmes clés de tout centre de données est l'automatisation du tableau principal et du groupe électrogène diesel. Ce système doit être vérifié très attentivement. Montant standard - il n'y a pas de transition vers DGU si l'entrée de la ville est désactivée. En effet, certaines personnes montent la DGU, tandis que d'autres installent l'automatisation et l'équipement ne s'assemble pas.

Lorsque le système est débogué, il vaut la peine de préparer un tableau de paramètres et de prescrire les algorithmes de l'ATS. Si vous rencontrez un très bon entrepreneur responsable (concepteur, constructeur) qui documente indépendamment tout, mieux c'est. Sinon, ne soyez pas paresseux et notez vous-même les points suivants:

  1. après combien de secondes la commande de démarrage du générateur diesel arrive;
  2. après combien de secondes il y a une transition vers DGU;
  3. paragraphe 1 et paragraphe 2 dans l'ordre inverse.

Sous le spoiler, un exemple d'algorithme de l'un des contrôles utilisés par nous et l'Uptime Institute.
  1. Nous effectuons la transition du réseau de la ville au groupe DGU, mesurons les indicateurs.
  2. Nous revenons.
  3. Éteignez complètement l'un des groupes électrogènes diesel (désactivez les communications, les machines automatiques) et regardez comment le système démarre sans moteur diesel de secours. Cela peut entraîner des problèmes associés à des paramètres d'automatisation incorrects.
  4. Lorsque les générateurs diesel sont contrôlés, nous continuons à travailler dessus et à effectuer les tests de puissance restants.
  5. Nous éteignons un onduleur et observons comment la charge passe à un autre faisceau. On se traduit par bypass et vice versa, décharge les batteries.
  6. Nous continuons à suivre systématiquement le schéma et à désactiver les standards.


Ensuite, le système de climatisation est vérifié. Nous éteignons les climatiseurs à leur tour et, s'ils ont un système ABP intégré, nous le vérifions également.

Si les climatiseurs sont configurés pour fonctionner en groupe et passer automatiquement de la sauvegarde au primaire, assurez-vous de vérifier comment cela fonctionne.

  • supprimer toutes les connexions;
  • redémarrer le contrôleur responsable de la commutation;
  • éteignez l'interrupteur de distribution qui relie les climatiseurs;
  • tester l'automatisation - plante trop souvent ici;
  • nous faisons tout ce qui pourrait être écrit dans le roman «50 Shades of the Data Center».

Pour un système au glycol, il est impératif de vérifier l'hydraulique en éteignant les pompes et en arrêtant l'un des échangeurs de chaleur et une ou plusieurs sections du parcours.


Ici, vous pouvez voir que chaque bouclier est marqué et fourni avec une brève instruction

Important: si le changement se fait manuellement, il est impératif que l'entrepreneur fournisse un algorithme. Les marquages ​​des vannes et verrous doivent indiquer les positions de fonctionnement (ouverture normale, fermeture normale).

Souvent, les entrepreneurs disent: ce n'était pas dans le plan de test fourni. Vous pouvez répondre à ceci: les plans d'accident ne fournissent pas :)

Des situations occasionnelles se produisent également. Par exemple, lors du test d'un onduleur, un mauvais climatiseur peut se mettre en marche pour se décharger:

"Que faites-vous Hérode?!" Pourquoi avez-vous éteint les pompes?
- Nous n'avons rien éteint, nous testons l'onduleur.
- Et pourquoi violer les refroidisseurs? Ils peuvent se casser!
- C'est pourquoi nous testons pour trouver des moments aussi étroits.

Un autre test fréquent consiste à vérifier le système d'extinction d'incendie. Pour ce faire, nous déconnectons toute l'automatisation des cylindres et testons le fonctionnement des directions. Il arrive que les directions soient confuses, l'ouverture / fermeture ne fonctionne pas.

N'oubliez pas le système de surveillance (nous en avons écrit plus ici et ici ). Dès que nous activons ou désactivons quelque chose, cette modification doit apparaître sur le panneau. Nous vérifions également si la surveillance commence à "stupide" avec un grand nombre d'alarmes.

Assurez-vous de tester la puissance de surveillance. Vous ne devez en aucun cas perdre le contrôle du centre de données en cas d'urgence.

Nous faisons tout avec les mains d'un constructeur


Au début, j'ai écrit que les tests d'acceptation devaient être effectués par des spécialistes externes. Mais il y a des choses qui devraient être facturées directement à l'entrepreneur. Il s'agit d'une démonstration sur et hors de l'équipement (ainsi que d'autres travaux). Le destinataire reçoit une liste de contrôle et note les résultats. Quelque chose comme ça:

  • Le côté récepteur dit: «Nous devons éteindre le climatiseur n ° 34. Chers collègues, désactivez-le, montrez-nous comment vous le faites. »
  • Le constructeur montre et explique.
  • Le côté récepteur enregistre.

C'est une règle de bonne forme.


Une question de temps




Comme vous pouvez déjà le comprendre, les tests d'acceptation sont un long processus. Leur durée dépend fortement de la taille du centre de données et de la quantité d'équipement, donc ci-dessous je donnerai les indicateurs moyens (centre de données pour 50-100 racks).

  • Vérification de la documentation - 3-5 jours ouvrables de concepteurs solides.
  • Contrôles autonomes - 3-5 jours pour l'itération, car vous devez vérifier chaque élément du centre de données et donner au contractant le temps de corriger les erreurs. , .
  • 2-3 , .

, . , 2-3 . .

, — . , — . . , , .

,




.

. , . , , — . , 10 .

: « , , !». , , . . .

, , , . .

, ? , . , .

, , . — , .

: , , , . « », , IT-, . — , .

- , .

Source: https://habr.com/ru/post/fr421547/


All Articles