Voyager à travers le centre de données Selectel. Dinosaure en feu, VMware, C2F5H et le loup-garou invisible

Le travail de l'administrateur système est basé sur la conviction que les ingénieurs du centre de données connaissent leur travail. Nous construisons des clusters de basculement, mais combien coûtera ce basculement en cas de coupure de courant? Quelle différence cela fait-il à quelle vitesse le serveur traite la demande si le canal du centre de données tombe au point d'échange de trafic? Comment élever le serveur s'il est physiquement surchauffé?


Et je ne voudrais pas y croire, mais savoir comment exactement la tolérance aux fautes est créée au niveau du fer. D'où viennent ces «neuf» fiabilité d'équipement, dont nous parlons lors de la formulation du SLA Kubernetesov. Que se passe-t-il lorsqu'un projet brûle dans le vrai sens du mot.


Nous avons eu la chance de nous promener dans le centre de données Selectel le troisième jour de Slurm DevOps, pour regarder dans le saint des saints et même prendre des photos pour la mémoire. Nous avons également posé des questions sur les légendes de l'entreprise que les employés de Selectel ne racontent à personne. Et il s'est avéré qu'ils ne se souviennent pas eux-mêmes.


Notre entreprise de Southbridge est associée à Selectel depuis longtemps. Nous prenons désormais en charge 58 projets hébergés sur les serveurs du fournisseur. Lorsqu'un client a besoin d'un serveur situé en Russie, nous recommandons Selectel, car par expérience, nous le considérons comme le fournisseur d'infrastructure informatique le plus fiable et le plus pratique.


C'est parti!



En montant au quatrième étage - les plus délicats ont pris l'ascenseur, les plus sportifs sont montés à l'étage - des collègues de Southbridge m'ont rappelé que je devrais certainement en apprendre davantage sur les légendes Selectel: sur le loup-garou, sur l'esprit agité qui errait et hurlait lors de la construction d'un nouveau bâtiment de centre de données. J'ai toujours été intéressé par la mythologie des grandes entreprises, qui est restée du stade turbulent de la naissance et de la première croissance.


Au tout début, la société disposait d'un centre de données sur Flower 1 à Saint-Pétersbourg. Le centre de données desservait la société Vkontakte. Nous l'avons vu de la fenêtre lorsque nous sommes montés au quatrième étage. Il s'est arrêté une fois sur la modernisation il y a neuf à dix ans - et depuis, il travaille sans relâche. En termes de fiabilité, il appartient au Tier II.


Informations à prendre en considération (c) "Dix-sept moments du printemps":

Le principal indicateur du centre de données est la tolérance aux pannes. Il y a 4 catégories au total - du niveau I au niveau IV. L'appartenance à une certaine catégorie indique le niveau de redondance, de sécurité physique et de fiabilité.

Niveau I (redondance - N, tolérance aux pannes - 99,671%) - il n'y a pas de planchers surélevés dans le centre de données, pas de sources d'alimentation de secours et d'alimentations sans coupure, et l'infrastructure d'ingénierie n'est pas réservée. Lors d'une réparation planifiée ou d'urgence, le centre de données s'arrête.

Niveau II (redondance - (N + 1), tolérance aux pannes - 99,749%) - il y a un petit niveau de redondance, des planchers surélevés et des sources d'alimentation de secours sont montés dans le centre de données, les travaux de réparation entraînent l'arrêt du centre de données, comme dans le niveau I.

Niveau III (redondance - 2N, tolérance aux pannes - 99,982%) - il est possible d'effectuer des travaux de réparation (remplacement des composants du système, ajout et suppression d'équipements défectueux) sans arrêter le centre de données. Tous les systèmes sont réservés, il existe plusieurs canaux de distribution et de refroidissement.

Niveau IV (redondance - 2 (N + 1), tolérance aux pannes - 99,995%) - une double redondance et une redondance du système sont requises. Il est possible d'effectuer n'importe quel travail sans arrêter le travail du centre de données. Les systèmes d'ingénierie sont réservés deux fois, c'est-à-dire que les systèmes primaire et secondaire sont dupliqués.

Devant nous, une puissante calandre, une porte avec serrure électronique et un moulinet pleine hauteur en profilés métalliques épais. Et derrière, il y a l'espace du centre de données lui-même.



Le centre de données dans lequel nous étions situés est plus récent que le centre de données du quartier - il a été construit en 2015. Et il appartient à la catégorie de niveau III.


Désormais, Selectel possède deux centres d'exploitation à Tsvetochnaya, trois autres à Dubrovka, deux centres de données à Moscou, qui sont considérés comme un seul centre de données dans l'entreprise. Seulement six.


Le bâtiment a quatre étages. Les bureaux sont situés au premier étage et certains équipements sont situés. Le quatrième étage est partiellement réservé aux bureaux, mais la majeure partie est occupée par des locaux techniques.


Avant l'entrée du fournisseur ici, la production était située dans le bâtiment. Les employés du centre de données eux-mêmes ne se souviennent pas de la production de quoi exactement - ni film, ni vêtements. L'entreprise a acheté l'immeuble afin d'éliminer les risques de relations immobilières complexes si l'immeuble appartient à un tiers.


Malgré le fait que la production était située ici, il y avait des machines-outils et d'autres machines lourdes, Selectel a encore renforcé les sols. Même dans la salle de conférence du rez-de-chaussée, où les Slurm DevOps intensifs ( 1 , 2 , 3 ) ont eu lieu, nous avons fait attention aux supports renforcés.


Nous allons au centre de données uniquement dans des couvre-chaussures - la règle habituelle pour de tels locaux. Pour mettre du plastique onuchi coûte un «étagère à chaussures». Nous sommes sincèrement imprégnés. Le préposé nous a offert un choix - mettre des chaussures nous-mêmes ou confier les extrémités à l'appareil gourmand.



Notre choix était prévisible. Igor Olemsky, directeur de Southbridge: «Nous sommes pour l'automatisation . » Anton Tarasov, administrateur de Southbridge: "S'il en était ainsi avec des chaussettes, je serais la personne la plus heureuse de la planète . "



Pendant qu'ils portaient des chaussures, les développeurs de Southbridge se demandaient activement où étaient les serveurs VMware. Tout le monde était intéressé de voir sur quel équipement cette technologie fonctionne.


Dès qu’ils sont entrés dans la zone technique, ils ont immédiatement annoncé les règles: «On ne mange pas, on ne boit pas, on ne fume pas. Nous ne mettons nos mains nulle part, dans aucun bouclier, aucun support, aucun climatiseur, aucune télécommande. Nous tenons nos mains devant nous, comme un tyrannosaure. "


Au quatrième étage, il y a trois salles de serveurs. Tout l'équipement se trouve sur le plancher surélevé. Il est nécessaire pour que l'air froid coule par le bas, et aussi que des communications puissent être établies qui n'ont pas besoin d'un accès constant. Ce sont des lignes électriques et des pipelines de refroidissement.



Dès que nous sommes entrés dans la petite salle des serveurs, un buzz nous a frappé. Le personnage du célèbre dessin animé avec de la sciure dans sa tête dirait sûrement: "C'est bien, bien, bien, pour une bonne raison!" . Comme nous n'étions pas habitués, nous nous entendions à peine les premières minutes. Les explications du guide, aussi, à peine devinées, j'ai dû me serrer plus près.


Autour sont des racks, des racks et encore plus de racks ... Ils sont alignés en rangées strictes. Dans les datacenters serveurs, nous avons rencontré différents rangs: par 10 racks, 12, 20, 30. Selon la configuration de la salle, la zone louée par le client et les tâches.




Dans le centre de données de toutes les salles de serveurs du système de refroidissement, cela ressemble à ceci: par le haut et sur les côtés, l'espace refroidi est limité par la structure du rack, la partie avant est fermée par des portes perforées. Les climatiseurs conduisent de l'air froid sous le plancher surélevé - et l'air monte sous pression dans les racks.



Il suffit d'aller entre les rangées pour sentir comment la température de l'air baisse fortement de cinq degrés, vous pouvez même sentir la température limite. Les joints du plancher surélevé sont si serrés que l'air conditionné n'a nulle part où aller, à l'exception du chemin spécialement prévu pour le refroidissement.


Dans le serveur lui-même, la température est maintenue quelque part autour de 22 ± 2 degrés Celsius. Dans le couloir "froid", la température peut descendre à 16-17 degrés. Il y avait deux couloirs «froids» dans la petite salle des serveurs. En conséquence, les couloirs entre eux sont appelés «chauds». Ils sont légèrement plus chauds que la salle des serveurs moyenne - l'air passe à travers les racks et se réchauffe de l'équipement.



Il y a des supports à louer aux clients. Les ingénieurs connectent la puissance - le client appelle avec l'équipement et fait ce qu'il veut, dans le cadre de la réglementation et de la législation. Les supports peuvent être loués différemment. Jusqu'à 47 unités, moitié, quatre sections. Ils sont physiquement séparés - différentes serrures sont utilisées. Vous ne pouvez louer que 10 unités. Qui a très peu d'équipement, ce sera bien suffisant. En conséquence, moins de puissance - il s'avère moins cher.


Si le client loue, par exemple, un «quart» dans la section inférieure et que vous devez poser le câble, il sera tiré par un canal métallique spécial. Et les clients dans les parties supérieures du rack n'auront en aucun cas accès aux communications des autres: ni à l'alimentation, ni au cuivre, ni à l'optique.


Dans la salle des serveurs se trouvent des climatiseurs au montant de trois pièces. Seuls deux d'entre eux fonctionnent. Si un climatiseur est retiré pour maintenance ou en cas de panne, les ingénieurs allument la pièce de rechange. Ce stock de réserve est une exigence de spécification de niveau III.


Par exemple, il existe des alimentations sans coupure. Il y en a un certain nombre, supposons 12. Mais ça marche 6. La salle des serveurs peut fonctionner pendant une heure sur piles si l'électricité cesse de circuler vers le centre de données. Mais si 6 onduleurs tombent en panne, les ingénieurs en activeront six de plus. Il y a toujours deux fois plus de nœuds dans le centre de données pour plus de fiabilité.



Ce centre de données pour le projet peut consommer jusqu'à 10 MW. Mais maintenant il n'y en a plus que 1,5. Jusqu'à présent, seul le quatrième étage est utilisé pour l'équipement - les deuxième et troisième au stade de la construction. Et le quatrième n'est pas encore complètement rempli: il est conçu pour 250 racks, et 200 sont occupés.


Au total, Selectel utilise 14,4 MW dans tous les centres de données. Un rack en fonctionnement 1200.



En plus des racks principaux, qui sont utilisés pour divers projets, principalement pour la location pour les clients, des racks de service sont situés dans les racks de serveurs, où seul l'équipement Selectel est installé. Il existe des racks croisés pour une connexion passive. Ils sont sans alimentation, uniquement en fibre optique - pour connecter des équipements entre les plates-formes et entre les pièces. Chaque salle de serveurs a la même armoire avec des croix. Cross peut aller dans une autre pièce, dans une autre salle de serveurs au rez-de-chaussée, dès qu'il est construit, il peut aller dans un centre de données voisin ou même dans un centre de données sur Dubrovka.


L'entreprise possède plusieurs de ces fibres. Si l'un est interrompu, le centre de données commencera à travailler sur l'autre sans pause. Tous les chemins tracés sont toujours réservés.


S'ils établissent une connexion entre ce centre de données et le voisin, les ingénieurs mèneront un lien à travers la croix dans l'air entre les centres de données, et le deuxième lien mènera à travers l'égout à travers un autre croisement. Et quoi qu'il arrive, il y aura toujours un canal de sauvegarde.


Puisqu'il y a beaucoup d'équipement dans le centre de données, les employés surveillent strictement la sécurité incendie. Le centre de données dispose de plusieurs scénarios pour gérer les incendies. Selectel a des extincteurs dans chaque pièce, à la fois bureau et technique. Et les gens sont spécialement formés pour travailler avec eux. Si le feu est local, vous pouvez le gérer vous-même.



Mais s'il brûle fortement, par exemple, l'alimentation du serveur ou du circuit du compresseur avec de l'huile, alors les extincteurs ne peuvent pas toujours faire face. Dans de tels cas, le centre de données dispose d'une station d'extinction d'incendie au gaz. De là, des tuyaux jaunes descendent le plafond dans chaque pièce.


Dans un incendie grave, toutes les personnes sont emmenées hors de la salle des serveurs. Près de chaque porte se trouve un bouton jaune. La porte se ferme hermétiquement, un bouton est enfoncé, un compte à rebours de 30 secondes est donné. Le gaz Hladon-125 est fourni - pentafluoroéthane, formule chimique C2F5H. Il inhibe le processus de combustion - et le feu s'arrête immédiatement. Lors de l'extinction d'un incendie dans un centre de données, ni liquides ni poudre ne sont utilisés car ils endommageraient l'équipement.


Dans une grande salle de serveurs, il nous était interdit de prendre des photos. Parce que je raconterai de mémoire ce qu'ils ont vu. Au total, ce centre de données possède un petit serveur et deux grands.


La première grande salle de serveurs possède un couloir «froid», destiné aux projets Selectel et à la location client. C'est beaucoup plus long que dans une petite salle de serveurs. Sur certains racks, il y a des mesures de sécurité individuelles - sur l'un des racks, nous avons remarqué une serrure électronique avec un code PIN et une caméra vidéo sur le dessus.


Nous avons examiné à quoi ressemble le service de «location d'espace alloué» de l'intérieur. Vous pouvez acheter n'importe quelle quadrature sur le site - bien sûr, de celle qui est disponible. Et le client peut y placer tous les supports et équipements répondant aux normes.


Une très grande zone, qui appartient à un client, a été examinée à travers la clôture. Il y avait des racks allemands sur commande spéciale. Il y a aussi un petit entrepôt séparé.


Selon les histoires de notre guide, ce service n'est pas forcément si important. Vous pouvez mettre deux racks et entourer la cage. Et l'accès à eux ne sera qu'avec vous. En règle générale, ces exigences se posent s'il s'agit d'une banque ou si un client travaille avec des institutions financières.



Nous avons examiné les locaux de la station d'extinction d'incendie. C'est là que se trouvent les cylindres avec "Freon-125". L'équipement est configuré pour que, selon la taille, du gaz provenant d'un certain nombre de bouteilles soit envoyé dans chaque pièce.



Sur la gauche, le long du couloir, il y a une salle de panneaux électriques. Mais nous n'y avons pas accès, juste au cas où ils ne feraient pas d'excursions - sinon ce sera inconfortable, et l'odeur ne disparaîtra pas longtemps.


Il existe des blocs d'alimentation et des panneaux sans coupure. C'est dans cette salle que vient la nourriture pour tout le bâtiment. Et déjà d'ici il y a un câblage dans toutes les chambres. Les jeux de barres se dirigent vers les salles des serveurs, visibles sous le plafond du couloir.


Deux conduits de bus sont envoyés à chaque serveur. On passe sous le plafond, on passe sous le faux-plancher - c'est ainsi que la condition de réservation est remplie. L'ensemble du bâtiment est alimenté par deux rayons d'entrée de la centrale électrique. Si une entrée est déconnectée, le centre de données fonctionnera à partir de la seconde.



Si deux sont déconnectés en même temps, tout l'équipement passe aux batteries rechargeables. 750 batteries sont situées dans une salle spéciale. Un peu plus loin, il y a une autre pièce du même genre - et il y en a beaucoup plus. Le centre de données pourra y vivre pendant 1 à 3 heures, selon la charge, mais il ne faut que 2 minutes pour passer à un moteur diesel.


Dans des pièces séparées se trouvent des groupes électrogènes diesel géants. Chacun se tient sur une plate-forme à environ un genou - comme je l'ai compris dans les explications, il s'agit d'un réservoir séparé avec du carburant pour chaque moteur diesel. De plus, dans le centre de données, il y a plusieurs réservoirs enterrés sous terre et conçus pour plusieurs dizaines de tonnes de carburant.


À mesure que le carburant se dégrade, il est périodiquement remplacé. Si le carburant s'épuise dans le réservoir diesel, la pompe pompe le carburant des réservoirs. Si soudainement une nuisance se produit et que la pompe se casse, il y a encore une pièce de rechange.



Absolument tous les systèmes sont dupliqués - canaux de communication Internet, refroidissement, alimentation, systèmes d'extinction d'urgence et alimentation alternative.


Nous avons posé une question sur les opérateurs télécoms. L'ingénieur de l'entreprise a déclaré qu'ils utilisaient constamment 5-6 opérateurs pour les liaisons montantes. Et il y a pas mal d'itinéraires. De plus, le fournisseur a des connexions avec presque tous les points d'échange de trafic à Saint-Pétersbourg et à Moscou. À Moscou, le plus grand est le M9. Et à Saint-Pétersbourg - B18 et Kantemirovskaya.


Si le carburant dans les réservoirs souterrains arrive à son terme, un autre réservoir est amené. Selectel a un contrat avec une compagnie de carburant. Le centre de données peut vivre à l'infini avec du diesel, c'est juste plus cher.


Nous avons demandé comment Selectel fonctionne avec le facteur humain - car c'est lui qui est le plus grand danger, et aucune réserve n'aidera.


- Comment travaillez-vous avec les erreurs humaines?


- Nous essayons de ne pas les répéter. Nous prédisons les erreurs possibles. Nous réalisons des formations, des exercices. Par exemple, une formation sur le passage à un générateur diesel: nous testons les gens, passons aux moteurs diesel dans le processus, parfois nous leur transférons toute la charge. De plus, il existe une base de connaissances.


Nous sommes arrivés à VMware. Sur les serveurs cloud, seules les plates-formes Intel sont utilisées, 2 téraoctets SSD. Naturellement, la réservation est juste pour tout. Par exemple, nous avons vu fermer: dans chaque serveur deux cartes réseau, deux liens sont coincés dans chacune. Un lien va au commutateur qui est en haut, un autre lien va au commutateur du rack suivant. Deux alimentations par module sont utilisées.



Dans le centre de données, il y a principalement des racks CMO russes. Dans les bureaux des clients sur la zone louée, il existe différentes solutions.


Un peu plus loin dans le couloir de la deuxième grande salle des serveurs, nous avons vu un ascenseur. Il y a deux ascenseurs pour l'équipement de levage - une tonne et deux tonnes. La zone de chargement est faite séparément - elle est située à côté de la salle de conférence au rez-de-chaussée.



Dans la salle des ascenseurs, nous avons vu une «petite» boîte avec un routeur Juniper MX 2010. Le rêve de tout administrateur: trois alimentations AC, 1 module RE (moteur de routage): 1800x4 (CPU QuadCore 1,8 GHz, 16 Go de RAM), 1 module SFB (Switch Fabric Board).


Des collègues se sont demandé où le mettre. Nous avons décidé qu'à la maison, il serait le plus beau. Il sera possible de distribuer le wi-fi aux appareils électroménagers. Lourd et solide - un routeur sérieux pour les administrateurs sérieux. Et lorsque vous êtes fatigué, vous pouvez vendre et acheter un appartement dans une grande ville.





Il existe un modèle encore plus grand, plus puissant et plus productif - le MX 2020.


Comment fonctionne le routeur? Des modules, des linecards y sont insérés - ils sont inhabituellement hauts et très étroits. Et ces cartes de ligne sont très différentes - elles peuvent avoir 8, 24, 48 ports. Les ports peuvent être à la fois «dizaines» et «cent». En fonction de vos besoins et de vos opportunités financières.


Dans le MX 2020, il y a 32 emplacements pour les linecards: 16 en haut et 16 en bas. Et relativement parlant, si vous insérez 10 linecards, et chacun a 48 ports, le résultat est 480 ports. Nous conservons «vingt-cinq» émetteurs-récepteurs - et nous multiplions 480 ports par 25 gigabits. C'est l'une des options. Vous pouvez mettre des "centaines".


En quittant les locaux techniques, ils se sont un peu attardés au «snack point», où les ingénieurs de Selectel ont repris des forces la nuit. Ils ont demandé si les machines à café de la catégorie Tier III étaient dupliquées dans le centre de données. Deux machines à café à chaque point - chacune a deux alimentations ... et ainsi de suite.



Igor Olemsky a demandé:


— -?


— . . , , , . . — , . - . , . — , , .


, DCIM (Data Center Infrastructure Management). , -, . , , , , .


, Selectel, — , , : " 6 - 40 000 " .


- — , . , , .



, . , , -. - , , .


. - , .




, , - . .


— - ?
— , — Selectel.
— - , .
— .
— .


.


. . , , , . , Selectel. -.



, Selectel , :


— , , ?
— . , — .


, - . , , , 8 . . - , Selectel , , , , , .


, . — . , - . . . , , . . .


Selectel, — , , , . , , -, : , , .


.


— ? , - ? , ?


— , — , . , .


À en juger par les réponses évasives, le sujet du loup-garou Seltekelovsky est couvert dans l'obscurité de la NDA. Nous n'avons jamais découvert s'il existait, mais nous avons examiné le centre de données de l'intérieur.

Source: https://habr.com/ru/post/fr467595/


All Articles