Trois histoires de modernisation dans le centre de données

Bonjour, Habr! Cette année marque le 10e anniversaire du lancement de notre premier centre de données OST-1 . Pendant ce temps, mes collègues des services d'exploitation et de construction d'immobilisations ont réussi à réaliser plus d'une modernisation de l'infrastructure d'ingénierie du centre de données. Aujourd'hui, je vais vous parler des cas les plus intéressants.



Une grue de 200 tonnes installe le nouveau refroidisseur Stulz sur le châssis. Modernisation du système de refroidissement du système de centre de données OST-1 en 2015.

Le data center est un organisme vivant, il grandit, change, tombe en panne :) Tout ce qui peut être attribué à la modernisation, je partage conditionnellement sur:

  • remplacements et réparations prévus. L'équipement devient obsolète, sa durée de vie expire. Nous budgétisons, planifions et faisons ce travail sans hâte, quand cela nous convient (par exemple, une mise à niveau complète de «l'intérieur» de l'onduleur ou le remplacement des batteries épuisées).
  • erreurs de conception . Selon les préceptes d'Uptime, tout doit être dépensé et terminé en même temps. En raison d'une conception incorrecte, l'équilibre «froid - électricité - lieu» peut être violé, par exemple: il y a des endroits pour mettre des supports, mais le hall n'est plus tiré par l'électricité ou la climatisation. La chose la plus désagréable avec ces erreurs est qu'elles n'apparaissent pas immédiatement, mais lorsque le centre de données approche de sa capacité de conception.
  • accident. Il arrive que l'équipement soit complètement endommagé, de manière irrévocable et inattendue, et il doit être changé.

Je ne m'attarderai pas sur les remplacements / réparations prévus. Là, presque tout est en notre pouvoir. Je vais vous raconter trois histoires sur les erreurs de conception et les mises à niveau post-crash.

Historique 1. La salle des machines n'avait pas assez de froid


Voici l'histoire d'une de nos premières salles à Borovaya. Il travaille toujours. Un hall d'une capacité nominale de 80 racks de 5 kW.

Au fur et à mesure que la salle se remplissait, le froid cessait d'être suffisant: la température dans les couloirs froids était plus élevée que nécessaire, une surchauffe locale apparaissait constamment. Ce n'est que plus tard, à la hauteur de notre expérience, que nous avons réalisé que nous avions fait des erreurs de conception et que la climatisation en souffrait.

Erreur
Le problème
Une longue rangée de racks - plus de 20 d'affilée
L'air chaud stagne au milieu du rang
Plafonds bas - jusqu'à 3 mètres
Il n'y a pas assez d'espace pour un bon échange d'air. Il y avait des zones de surchauffe locale
Plancher bas surélevé avec de nombreuses communications en dessous
Interférence pour la circulation de l'air froid sous le plancher surélevé



La rangée est si longue que les climatiseurs à l'extrémité opposée sont à peine visibles. Photo de 2009.

Nous n'avons pas vu de «pilule magique» de ces problèmes alors, nous avons donc décidé d'agir par étapes et sur tous les fronts.

Tout d'abord, nous avons vérifié si tous les équipements étaient correctement installés et si les fiches étaient en unités libres. Nous avons également revérifié la disposition des tuiles perforées et enlevé celles en excès, installé des guides d'air supplémentaires sous le plancher surélevé. Nous avons essayé de trouver et de sceller tous les trous où l'air froid pouvait s'échapper. Je vous conseille également de vérifier ce que vous avez entre le climatiseur et le mur. Un dégagement de 5-7 cm, c'est déjà beaucoup.


Voici le résultat qui nous a été donné un placement simple des talons dans des unités libres.

Ça s'est amélioré, mais pas assez bien. Puis nous avons décidé d'isoler les couloirs froids. Ils ont construit un toit, des portes en polycarbonate. Il s'est avéré bon marché et gai. En conséquence, nous nous sommes débarrassés du mélange parasite d'air chaud et froid et avons augmenté l'efficacité du système d'alimentation en froid.


Un couloir froid isolé de la même salle.

Nous avons compris que cela suffirait pendant un certain temps. Avec l'augmentation de la charge de travail informatique, le manque de puissance se fera de nouveau sentir.

Ils ont essayé de résoudre ce problème en ajoutant un climatiseur au fréon, bien que le hall ait travaillé sur le refroidissement au glycol. Nous étions très préoccupés par les dimensions du climatiseur (passera-t-il par la porte, y aura-t-il suffisamment d'angle de braquage), nous avons donc choisi un modèle avec possibilité de démontage partiel. Le climatiseur a été installé non pas du côté du couloir chaud, comme ils le font habituellement, mais où ils pouvaient le serrer. Cela nous a ajouté 80 kilowatts de refroidissement.


Voici le même climatiseur "gutta-percha" Emerson.

Toute cette histoire s'est avérée compliquée: il a fallu trouver comment apporter des pistes de fréon à des unités extérieures, comment apporter de l'électricité à ces climatiseurs, où placer les unités extérieures du climatiseur. Tout cela dans la salle de travail.


Juste pour comprendre le peu d'espace qu'il y a.

Après toutes ces manipulations, nous nous sommes débarrassés de la surchauffe locale, la température était répartie uniformément dans les couloirs froids et chauds. Il s'est avéré augmenter la capacité de la salle et y placer les grilles déclarées de cinq kilowatts.

La morale de cette histoire est que vous ne devriez pas avoir peur de résoudre le problème par petites étapes. En soi, chacune des actions peut sembler (et il nous a semblé alors) inefficace, mais au total cela donne un résultat.

Historique 2. La climatisation et l'alimentation électrique sont épuisées dans la salle des machines


Une salle client a été conçue pour 100 racks de 5 kW chacun. Largeur de rack design 800 mm, dans chaque rangée 10 racks. Ensuite, le client a changé d'avis pour appeler, et la salle a été louée sur une base commune. Dans la vie, des racks d'une largeur de 800 mm sont principalement nécessaires pour l'équipement réseau, pour tout le reste, six centièmes sont nécessaires. En conséquence, au lieu de 10 racks d'affilée, nous en avons eu 13, et il y avait encore de la place. Mais l'électricité et le froid ne suffisaient pas.

Pendant la modernisation, une nouvelle salle a été allouée pour deux onduleurs supplémentaires de 300 kW.



Des tableaux de distribution supplémentaires sont apparus dans le hall.



Le nouveau pouvoir devait être réparti uniformément. Pour séparer les poutres neuves et anciennes, des chemins de câbles séparés ont été posés sous le plancher surélevé. Une partie de l'équipement informatique en état de marche a été transférée vers de nouveaux tableaux de distribution en commutant alternativement chaque faisceau de puissance.

Pour résoudre le problème du manque de froid, nous avons mis 1 climatiseur supplémentaire pour 100 kW de froid.



Pendant le montage, l'installation et la mise en service de tous les équipements, le hall a continué de fonctionner normalement. Ce fut le moment le plus difficile du projet.

Suite à la modernisation, nous avons ajouté un hall électrique et froid pour 30 autres racks de 5 kW chacun.


La capacité de conception et la capacité de la salle ont augmenté de 30%.

Historique 3. À propos du remplacement des refroidisseurs


Un peu d'histoire. Tout a commencé en 2010, lorsque 3 refroidisseurs du centre de données OST ont été gravement endommagés lors de l'ouragan. Ensuite, pour survivre, il a fallu conduire des refroidisseurs sans protection pendant plusieurs jours, et les compresseurs se sont rapidement pliés. Au début, ils ont été modifiés.

La charge informatique a augmenté à mesure que le centre de données était plein et que les refroidisseurs Emicon n'ont pas atteint la capacité de réfrigération déclarée. En 2012, ils ont installé un refroidisseur Hiref supplémentaire dans le même circuit hydraulique. Nous avons donc vécu encore trois ans.

Au fil du temps, les refroidisseurs Emicon ont exacerbé les problèmes opérationnels. Leur puissance n'était pas suffisante, donc dans la chaleur a dû verser de l'eau du Karcher. Au fil des ans, les échangeurs de chaleur sont envahis de dépôts calcaires. Les peluches de peuplier et autres débris qui n'ont pas pu être éliminés en raison de la structure spécifique des échangeurs de chaleur ont comblé l'écart entre l'échangeur de chaleur à refroidissement libre et le condenseur à fréon. Une véritable botte en feutre s'y est formée, qui ne laissait pas passer l'air normalement.

En 2015, nous venons d'acheter un lot de refroidisseurs Stulz pour NORD-4 . Nous avons décidé de remplacer deux des trois refroidisseurs Emicon de cette activité. Maintenant pour les détails.

Installation d'un refroidisseur Hiref supplémentaire sans réinstaller les pompes. La charge informatique augmentait et l'efficacité des refroidisseurs touchés par l'ouragan diminuait. En été, la réserve était à peine suffisante. Nous avons décidé d'ajouter un autre refroidisseur pour augmenter leur capacité totale. Pendant la durée des travaux, le système de refroidissement aurait dû continuer de fonctionner. La partie la plus difficile de cette opération est l'organisation du circuit glycol. Nous avons fait un cerclage au glycol: à partir de chaque refroidisseur, un anneau de glycol a été attribué à un nouveau refroidisseur. Les refroidisseurs ont été mis hors service un par un et un tuyau de glycol a été apporté au nouveau refroidisseur.


Fragment du concept d'hydraulique. Il montre que de chacune des trois branches de refroidisseurs ont été faites pour le nouveau refroidisseur.

La tâche principale de ce refroidisseur est de soutenir le système de refroidissement en été. Grâce à Hiref, nous avons une réserve garantie de N + 1 dans les mois chauds. Mais les refroidisseurs endommagés par l'ouragan ont lentement commencé à sécher, et nous avons dû penser à les remplacer.


Le même refroidisseur Hiref "d'été".

Remplacement d'Emicon par Stulz. Ces remplacements sont mieux effectués à l'automne ou au printemps: en été sans réserve, c'est complètement effrayant, et en hiver, il est tout simplement désagréable d'effectuer le travail. L'opération était prévue pour février / mars, mais les préparatifs ont commencé en octobre.

Au cours de ces mois préparatoires, nous avons posé de nouveaux câbles, préparé des sections du pipeline, élaboré un plan pour approcher la machine avec du matériel (nous avons une arrière-cour étroite) et dégagé la zone d'entrée de la grue. Les refroidisseurs ont dû être changés dans un centre de données opérationnel et pendant environ 1,5 jour, il s'est retrouvé sans refroidisseur de secours. Au stade de la préparation, nous avons effectué des tests pour comprendre comment le centre de données se sentirait sans réserve, inventé diverses situations où quelque chose pourrait mal tourner pendant le travail (par exemple, une longue panne de courant pendant le remplacement des refroidisseurs) et élaboré un plan d'action . Voici une brève chronique de ces travaux.
Un refroidisseur est arrivé la nuit. Après un enregistrement réussi de la grue sur le territoire du centre de données, il a été possible de commencer à éteindre l'ancien refroidisseur.


Le vieux refroidisseur est toujours en place pendant les travaux préparatoires. Nous cuisinons le cadre du nouveau refroidisseur.

Ensuite, une voiture avec un refroidisseur devait se rendre au lieu de travail immédiat. Nous avons, pour le moins, un peu de monde là-bas. J'ai dû transpirer pour m'intégrer dans tous ces virages complexes dans un espace limité.





Le refroidisseur démonté et scié en deux a été démonté.



L'ancien et le nouveau refroidisseur diffèrent en taille. Il a fallu un peu plus de temps pour préparer le cadre métallique. Il reste à soulever et installer le refroidisseur.



En arrière-plan, la photo montre que des sections du circuit de glycol pour le nouveau refroidisseur sont ajoutées en parallèle.





Après l'installation, tous les systèmes hydrauliques sont montés sur le châssis, le refroidisseur est connecté à l'alimentation. Le sertissage se fait la nuit. Le lendemain, la mise en service et la connexion au système de surveillance ont lieu.

Il a fallu moins de deux jours pour achever l'opération: le matin, l'ancien refroidisseur a été éteint et, à la fin du lendemain, le nouveau refroidisseur a été allumé.

Deux semaines plus tard, le deuxième refroidisseur a été changé. Il semblerait que vous deviez tout faire selon le schéma éprouvé, mais quelque chose s'est mal passé. Il neige toute la nuit. Tout d'abord, j'ai dû passer du temps à nettoyer le territoire pour que la grue puisse appeler. Nous avons commencé à démonter l'ancien refroidisseur, car à deux cents mètres de nous, une voiture tombe en panne avec un nouveau refroidisseur. Le point de non-retour a déjà été franchi et le mécanisme de la remorque des roues de la remorque (le panneau de commande de celui-ci) est cassé.

Cela n'a pas fonctionné sur place, nous sommes allés chercher une télécommande supplémentaire, qui s'est retrouvée miraculeusement samedi dans les bureaux de cette société. Avec la télécommande, j'ai réussi à faire tourner la voiture. En conséquence, il nous a fallu plus de 3 heures pour effectuer un tour. Avec toutes les superpositions logistiques, le travail a duré jusqu'à la nuit. Il est bon que nous ayons pensé à l'éclairage pour travailler dans l'obscurité. Le travail restant s'est déroulé comme d'habitude, et à partir de lundi dans le centre de données, un autre nouveau refroidisseur a commencé à fonctionner.

En mars de cette année, mes collègues ont remplacé le troisième refroidisseur, le dernier des survivants de l'ouragan. Maintenant Borova a trois refroidisseurs Stulz et un Hiref. Grâce à une telle modernisation progressive, nous avons maintenant une grande quantité de froid, et nous n'avons pas peur des conditions météorologiques les plus chaudes et des peluches de peuplier. Les nouveaux refroidisseurs prennent en charge le mode de congélation sur une plage de températures plus large, consomment moins d'énergie et fonctionnent très silencieusement. Ils sont également très pratiques à entretenir en raison des compartiments de compresseur séparés: les réparations peuvent être effectuées sans arrêt complet du refroidisseur.

Source: https://habr.com/ru/post/fr431434/


All Articles