Puissance des équipements informatiques: sécurité ou disponibilité? partie 2

Nous continuons l'article, dont le but est de partager l'expérience et de montrer les principales caractéristiques et les erreurs courantes qui se produisent lors de la conception et de l'organisation des sous-systèmes d'alimentation de l'infrastructure informatique et du centre de données dans son ensemble. Mais je voudrais élargir un peu l'audience et consacrer plusieurs sections aux éléments de base de la sécurité électrique et de la protection des équipements et des personnes.

Ceux qui ont raté la première partie ou veulent se souvenir de la première partie peuvent aller ici .

Pour ceux qui comprennent ce qu'est un automate et un RCD, pourquoi ils sont nécessaires, de quoi ils protègent et pourquoi, allez à la section Les RCD sont-ils nécessaires pour l'équipement informatique, le serveur, les centres de données? .

Deuxième partie


Nous verrons quelle est la relation entre l'énergie et l'équipement informatique final, nous comprendrons la question, dans quels cas de coupures de courant, le système d'exploitation doit être garanti pour fonctionner sans défaillance.



Problèmes de commutation de secours

L'alimentation des équipements d'information est organisée avec redondance. Considérons l'organisation de l'alimentation dans la partie de -- (carte d'alimentation sans coupure-unité de distribution d'alimentation-alimentation). Les types de réservation sont des types suivants:

  1. Redondance des câbles vers le rack, l'équipement, à l'aide d'unités de distribution d'alimentation distinctes, PDU (figure 1)
  2. Redondance du bus d'alimentation dans le panneau d'alimentation, à l'aide d'unités de distribution d'alimentation distinctes, PDU (figure 2)

Redondance au niveau des alimentations directement dans le serveur, commutateur, équipement informatique (Fig.3)
Redondance à l'aide d'un interrupteur de charge monté en rack, ABP monté en rack (SPN, alias ATS) (Fig.4)



Pour basculer entre l'entrée principale et l'entrée de sauvegarde, vous pouvez utiliser:

  • dans le domaine des systèmes d'information: armoires ABP / STS (Static Transfer Swith) pour les systèmes haute puissance, pour passer à l'alimentation d'un UPS de secours au moment du fonctionnement d'un système 2N à part entière ou de combinaisons de systèmes N + 1;
  • dans le domaine des systèmes d'alimentation électrique de différents types de schémas ABP (sur contacteurs, sur contrôleurs);
  • au niveau du rack de serveur: ABP \ ATS (rack de transfert automatique) haute vitesse automatique monté en rack;
  • au niveau des équipements d'information spécifiques: alimentations dupliquées.

Comme nous l'avons mentionné ci-dessus pour les équipements informatiques, "une interruption de l'alimentation est inacceptable". Et qu'est-ce qui se cache sous cette phrase? Qu'est-ce qu'une «coupure» dans la puissance des équipements d'information? Voyons maintenant un exemple vivant.

Le client met en place une salle de serveurs locale ainsi que l'infrastructure informatique de deux étages pour le bureau de l'entreprise. Au stade de la discussion sur le système d'alimentation, il souhaite placer tous les équipements d'information avec une seule unité d'alimentation (PSU), laisser le deuxième emplacement pour les PSU du serveur libre et monter un seul ATS monté en rack sur l'ensemble du rack. (Fig.4, diagramme).

Apparence de l'arrière du serveur avec des blocs d'alimentation dupliqués
Comment le client a fait valoir son désir :

  • Économies (500 à 800 $ par périphérique en rack)
  • Vous pouvez mettre les deux PDU les plus simples et les appliquer déjà pour la distribution d'énergie après ATS
  • Absolument le même niveau de fiabilité du système par rapport à la méthode de distribution classique

Nous avons pris un temps mort, examiné en détail la volonté du Client sous différents points de vue, la fiabilité des services en général, dans la période de garantie et de post-garantie, ainsi que:

  • coût (économies) des coûts d'investissement lors de la mise en œuvre (CAPEX)
  • coût des amortissements, maintenance des pièces détachées, coûts de main-d'œuvre du personnel client ( OPEX )
  • comparer les algorithmes de fonctionnement et le temps de commutation à la ligne de sauvegarde dans les deux cas, vérifier les «points de défaillance uniques»
  • le niveau de risques de gel et / ou de redémarrage des systèmes d'exploitation des équipements d'information, la chute des services d'information qui s'exécutent sur eux.

Et c'est ce qui s'est avéré:

Selon le cadre réglementaire GOST 32144-2013 (Énergie électrique. Compatibilité électromagnétique des équipements techniques. Normes de qualité de l'électricité dans les réseaux à usage général. Date d'introduction - 1er juillet 2014), la principale cause de dysfonctionnements des équipements d'information peut être les creux de tension, qui
se produisent généralement en raison de dysfonctionnements dans les réseaux électriques ou dans les installations électriques des consommateurs, ainsi que lors de la connexion d'une charge puissante

Lisez la suite:
la durée des creux de tension peut aller jusqu'à 1 minute
Cette phrase nous dit que l'équipement d'information devrait être fourni par des onduleurs et / ou des ATS à haute vitesse, car les creux de tension de cette durée sont acceptables et normaux du point de vue des grandes énergies, mais seront fatals pour les équipements et services informatiques.

Soit dit en passant, il convient de noter qu'il existe actuellement des contradictions dans le cadre réglementaire actuel de la Fédération de Russie en termes de mesure des valeurs liées à la qualité de l'électricité, plus de détails peuvent être trouvés dans l'article de Victor Cherdak, directeur technique de notre société, (source digitalsubstation.com )

Quelques extraits de l'article

Au cours des dernières années, les normes nationales dans le domaine des mesures des paramètres d'énergie électrique liés au CE ont été activement développées et ont été révisées à plusieurs reprises.

"
Un changement important a été le remplacement du GOST 13109-97 «Énergie électrique. Compatibilité électromagnétique. Normes de qualité pour l'énergie électrique dans les systèmes d'alimentation à usage général »[16] conformément à GOST 32144-2013. Ces normes définissent une gamme différente d'indicateurs de qualité de l'énergie.


Mais à quelle vitesse? Comment déterminer la durée en millisecondes pendant laquelle le service client (et le serveur) ne tombera pas et le système d'exploitation ne tombera pas dans une «erreur critique»?


Il existe une norme CBEMA (Computer and Business Equipment Manufacturers Association), qui, après quelques ajustements, est désormais connue sous le nom de «ITIC Curves» (Information Technology Industry Council), et ses variantes sont incluses dans les normes IEEE 446 ANSI. Selon ces normes, les circuits électroniques des alimentations doivent rester opérationnels pendant 20 ms (ou 0,02 seconde, soit une période).


Ces mêmes courbes ITIC

Selon les exigences d'alimentation des systèmes serveurs et informatiques de la Server System Infrastructure, on peut dire que le paramètre du bloc d'alimentation Tvout_holdup lors de la panne de la tension d'alimentation assure le fonctionnement des équipements d'information pendant au moins 21 ms. C'est-à-dire que la période complète du réseau est le temps de fonctionnement normal garanti du serveur ou du commutateur. Le paramètre Tpwok_holdup est défini pendant au moins 20 ms.

quelques détails sur les paramètres SSI peuvent être trouvés ici
Aide: Le temps de maintien est la période pendant laquelle l'alimentation peut maintenir les tensions de sortie dans certaines limites après la disparition de la tension d'alimentation à son entrée. Dans la plupart des alimentations informatiques, le temps de maintien caractérise également la durée pendant laquelle le signal de bonne alimentation (PWR_OK) indique au système que les tensions générées par l'alimentation sont instables (pour les alimentations informatiques, ce paramètre est généralement supérieur à 16 ms).



Voici l'un des tableaux du document



Et ceci est un diagramme chronologique avec des algorithmes de fonctionnement BP régulés.

Voyons maintenant quel temps de commutation APC déclare, par exemple, pour un commutateur de chargement en rack de la marque AP7721 . Nous voyons qu'ici, nous avons généralement 8-12 ms, mais 18 ms est le temps de commutation maximum.

Nous pouvons conclure que le temps de commutation sur l'entrée de secours pour le commutateur de charge de rack correspond à la spécification de l'unité d'alimentation de l'équipement serveur. Il s'avère qu'il n'y aura pas de défaillances dans le fonctionnement des équipements d'information.

Tableau récapitulatif des horaires des éléments du système


Et qu'en est-il de la composante économique et laquelle des options est la plus rentable et tolérante aux pannes?


Supposons que nous ayons trois petits serveurs dans le rack, dans lesquels vous pouvez mettre deux alimentations et trois appareils avec des alimentations redondantes. Tout est critique et la défaillance de l'un des appareils entraînera la défaillance de l'ensemble du système client dans son ensemble. Dans tous les cas, nous avons besoin d'un interrupteur de charge monté en rack. C'est environ 18 mille roubles.

Le client déclare qu'il n'a pas besoin de PDU (PDU), ce qui signifie que le budget ne coûtera que ATS - les mêmes 18 000 roubles. En remplacement des unités de distribution d'alimentation (PDU), le client suggère d'utiliser la distribution d'alimentation «à bord» du commutateur de charge monté en rack. Le Client prévoit également d'acheter un serveur avec deux emplacements pour alimentations, mais dans une configuration avec un seul bloc d'alimentation pour des raisons d'économie. (figure 4)

La version classique (figure 3) implique un ensemble de 2 PDU - environ 32 000 roubles, 3 alimentations supplémentaires par serveur pour 500 $ chacune pour 84 000 roubles au total. ATS pour les mêmes 18 mille roubles. Dans l'ensemble, nous comprenons que la solution classique coûtera au client environ 134 000 roubles.

Cela semble vrai, le client a raison, l'argent est complètement différent. Mais regardons du point de vue de la tolérance aux pannes et de la facilité de maintenance des deux options:
Option client: point de défaillance unique - interrupteur de charge monté en rack. Si quelque chose lui arrive, nous perdons tout le rack. Donc, vous devez avoir des pièces de rechange directement sur le site, ce qui ajoute à l'estimation de 18 000 roubles. Les alimentations dans les serveurs sont une à la fois, ce sont aussi des points de défaillance. Il est donc souhaitable d'avoir au moins une, et de préférence les trois alimentations en réserve sur le site. Supposons que nous ayons besoin de trois blocs d'alimentation dans une pièce de rechange, ce qui représente un autre plus 36 000 roubles. Vous devez vérifier l'alimentation que l'ATS monté en rack peut commuter. Nous partons maintenant du fait que 3 kW ou 16A suffisent pour tout l'équipement du rack. Si nous avons besoin d'ATS pour 32A (7 kW), alors ce sera beaucoup plus cher (plus de 100 mille roubles). Autrement dit, le budget de l'option du client, avec une considération détaillée de la fiabilité, atteint 160 000 roubles . Dans ce cas, en cas d'urgence, malgré le fait que les pièces de rechange seront sur place, un temps d'arrêt sera nécessaire pour remplacer l'appareil.
Point de défaillance unique (SPOF) - un nœud, une ligne de communication ou un objet d'un système de disponibilité des données, dont la défaillance peut endommager l'ensemble du système ou entraîner l'inaccessibilité des données
Option de technologie ouverte : comme le montre la figure 3 , mais si nécessaire, l'ATS est ajouté pour les petits équipements réseau avec une seule alimentation.

Le point de défaillance est le même ATS. Si quelque chose lui arrive, nous perdons tout le rack. Nous convenons que vous devez avoir des pièces de rechange directement sur le site. Mais dans notre cas, si seul l'ATS échoue, cela ne peut affecter que le fonctionnement des commutateurs et des équipements auxiliaires. Les serveurs eux-mêmes continueront de fonctionner sans bruit. Les alimentations en pièces détachées ne sont pas nécessaires. Étant donné que si l'un des blocs d'alimentation dupliqués tombe en panne, le serveur continuera de fonctionner sur l'autre, et il attendra probablement un nouveau bloc d'alimentation du fournisseur, quelle que soit la distance du site.

Interprétation du terme SPOF pour les systèmes informatiques
Point de défaillance unique (SPOF) - un nœud, un périphérique ou un point de circuit, dont la défaillance peut désactiver l'ensemble du système, entraîner l'indisponibilité des données et des services. Considéré dans le développement et la conception de tout système critique. L'absence totale de points de défaillance uniques entraîne une augmentation significative des coûts d'investissement lors de la mise en œuvre, de sorte que la criticité d'un système ou d'un service particulier est déterminée au stade de la conception en fonction du budget du projet, ainsi que des souhaits et des exigences du client. Nous trouvons toujours la solution idéale pour chaque client, identifiant plusieurs options pour la mise en œuvre du projet et les offrant au client. De ce fait, au stade de la livraison du projet, le client reçoit exactement la solution qu'il souhaitait voir en termes de prix / qualité / fiabilité.

Ainsi, il est possible, mais non rationnel, de connecter tous les équipements de rack à un seul ATS, car dans ce cas, nous obtenons un seul point de panne de courant. L'achat de serveurs avec des alimentations dupliquées est préférable dans tous les cas, car la tolérance aux pannes au niveau des équipements d'information augmente considérablement.

Le commutateur de charge monté en rack garantit une commutation correcte et presque instantanée vers l'entrée de sauvegarde, l'équipement d'information ne le ressentira même pas, les produits logiciels et les systèmes d'exploitation continueront de fonctionner correctement. Dans tous les cas, des unités de distribution d'alimentation montées en rack sont nécessaires et il n'est pas nécessaire de les économiser. Les économies apparentes sur les coûts d'investissement pour la distribution d'énergie peuvent entraîner des problèmes opérationnels insolubles, par exemple, la nécessité d '«éteindre» le rack entier juste pour déplacer l'ATS vers une autre unité ou pour auditer le commutateur de charge du rack. Dans tous les cas, pour les alimentations dupliquées, il devrait y avoir des pièces de rechange, mais ce n'est pas toujours possible ou disponible.

Apparence d'une alimentation de serveur amovible:



L'utilisation de l'ABP monté en rack a ses propres caractéristiques
Par exemple, la puissance d'un tel ATS est limitée et il peut être commuté par un ensemble de charges relativement faibles en termes de consommation d'énergie. Il y a des questions sur le nombre de connecteurs d'alimentation de sortie. Par exemple, l'ATS AP7721 susmentionné est équipé de connecteurs d'entrée de type C14, ce qui signifie une puissance de commutation maximale de 2,5 kW. Pour une plus grande puissance de charge, il existe un modèle 2U AP7724 , qui est équipé d'un connecteur 32 A en entrée, c'est-à-dire que la puissance maximale de l'équipement peut aller jusqu'à 7 kW. Cela signifie qu'un rack d'équipement typique peut être entièrement connecté à cet ATS. Cependant, le prix d'une telle décision sera de plus de 100 mille roubles.

Le travail de l'équipement d'information avec deux alimentations a été bien décrit dans un article de Vadim Sinitsky @dimskiy . Comme vous pouvez le voir, il y a des avantages et des inconvénients. Et la disponibilité d'alimentations redondantes pour les équipements d'information est en tout cas nécessaire, surtout si l'objet se trouve en dehors de la zone d'alimentation rapide de l'alimentation du vendeur. De plus, nous voulons noter que les calculateurs en ligne pour calculer la puissance des nouveaux serveurs des fournisseurs ne peuvent être utilisés que comme guide pour les administrateurs système et le personnel client.

Les réelles possibilités de connexion d'un nouveau serveur puissant à un rack existant doivent être évaluées en tenant compte du projet initial d'alimentation, de l'état actuel et de la charge du rack, du serveur, de l'onduleur, du générateur ... Du point de vue de la connexion dans un rack, il convient également de considérer:

  • les capacités actuelles des PDU, telles que les emplacements libres qu'elles contiennent
  • valeurs nominales des machines dans les blindages et les sections et la phase de la ligne de câble vers le rack.

La fiabilité du système d'alimentation du serveur mérite une attention particulière, s'il est construit selon le système illustré à la figure 2 (avec deux systèmes de bus), la présence d'un nouveau serveur puissant peut entraîner une surcharge de l'ensemble du système d'alimentation en cas de travaux de réparation et réduire la durée de vie des onduleurs sur batteries , faites passer l'onduleur en bypass pour surcharge et plus encore ...

Et comment construisez-vous un système de distribution en rack?
Quelle est la ressource BP pour les équipements informatiques et l'algorithme pour leur redondance logicielle?
Quelle PDU préférez-vous utiliser: de base, surveillée? Quelle est l'utilité de la fonction PDU / PDU dans la pratique et vous a-t-elle déjà aidé?

Auteur: Oleg Kulikov
Ingénieur de conception en chef
Département des solutions d'intégration
"Technologies ouvertes"
okulikov@ot.ru
Inscription au registre national des spécialistes "NOPRIZ" P-045870

Source: https://habr.com/ru/post/fr423801/


All Articles