El trabajo del administrador del sistema se basa en la creencia de que los ingenieros del centro de datos conocen su trabajo. Estamos construyendo clústeres de conmutación por error, pero ¿cuánto costará esta conmutación por error si se corta la luz? ¿Qué diferencia hace qué tan rápido el servidor procesa la solicitud si el canal del centro de datos cae al punto de intercambio de tráfico? ¿Cómo elevar el servidor si está sobrecalentado físicamente?
Y me gustaría no creer, sino saber cómo se crea exactamente la tolerancia a fallas a nivel de hierro. ¿De dónde provienen esos "nueve" equipos confiabilidad, de lo que estamos hablando al formular el SLA Kubernetesov. Lo que sucede cuando un proyecto se quema en el verdadero sentido de la palabra.
Tuvimos la suerte de caminar por el centro de datos Selectel en el tercer día de Slurm DevOps, para ver el lugar santísimo e incluso tomar algunas fotos para recordar. También preguntamos sobre las leyendas de la compañía que los empleados de Selectel nunca le cuentan a nadie. Y resultó que ellos mismos no lo recuerdan.
Nuestra compañía de Southbridge ha estado asociada con Selectel por una asociación de mucho tiempo. Ahora apoyamos 58 proyectos alojados en los servidores del proveedor. Cuando un cliente necesita un servidor ubicado en Rusia, recomendamos Selectel, porque por experiencia lo consideramos el proveedor más confiable y conveniente de infraestructura de TI.
Vamos!

Mientras subían al cuarto piso, los más difíciles tomaron el elevador, los más atléticos subieron las escaleras, mis colegas de Southbridge me recordaron que definitivamente debería aprender sobre las leyendas de Selectel: sobre el hombre lobo, sobre el espíritu inquieto que deambulaba y aullaba cuando construía un nuevo centro de datos. Siempre me ha interesado la mitología de las grandes empresas, que permanecieron desde la etapa turbulenta del nacimiento y el primer crecimiento.
Al principio, la compañía tenía un centro de datos en Flower 1 en San Petersburgo. El centro de datos sirvió a la empresa Vkontakte. Lo vimos desde la ventana cuando subimos al cuarto piso. Una vez se detuvo en la modernización hace nueve o diez años, y desde entonces ha estado trabajando continuamente. En términos de confiabilidad, pertenece al Nivel II.
Información para consideración (c) "Diecisiete momentos de la primavera":
El indicador principal del centro de datos es la tolerancia a fallas. Hay 4 categorías en total, desde el Nivel I hasta el Nivel IV. Pertenecer a una determinada categoría indica el nivel de redundancia, seguridad física y fiabilidad.
Nivel I (Redundancia - N, tolerancia a fallas - 99.671%): no hay pisos elevados en el centro de datos, no hay fuentes de alimentación de respaldo y fuentes de alimentación ininterrumpida, y la infraestructura de ingeniería no está reservada. Durante una reparación programada o de emergencia, el centro de datos se detiene.
Nivel II (Redundancia - (N + 1), tolerancia a fallas - 99.749%) - hay un pequeño nivel de redundancia, los pisos elevados y las fuentes de energía de respaldo están montados en el centro de datos, el trabajo de reparación hace que el centro de datos deje de funcionar, como en el Nivel I.
Nivel III (Redundancia - 2N, tolerancia a fallas - 99.982%) - es posible realizar trabajos de reparación (reemplazo de componentes del sistema, adición y eliminación de equipos defectuosos) sin detener el centro de datos. Todos los sistemas están reservados, hay varios canales de distribución de energía y enfriamiento.
Nivel IV (Redundancia - 2 (N + 1), tolerancia a fallas - 99,995%) - se requiere doble redundancia y redundancia del sistema. Es posible llevar a cabo cualquier trabajo sin detener el trabajo del centro de datos. Los sistemas de ingeniería tienen doble reserva, es decir, tanto el sistema primario como el secundario están duplicados.
Delante de nosotros había una rejilla potente, una puerta con cerradura electrónica y un molinete de altura completa hecho de gruesos perfiles de metal. Y detrás está el espacio del centro de datos en sí.

El centro de datos en el que nos ubicamos es más nuevo que el centro de datos del vecindario: fue construido en 2015. Y pertenece a la categoría de Nivel III.
Ahora Selectel tiene dos centros operativos en Tsvetochnaya, tres más en Dubrovka, dos centros de datos en Moscú, que se consideran como un centro de datos en la empresa. Solo seis.
El edificio tiene cuatro pisos. Las oficinas están ubicadas en el primer piso y algunos equipos están ubicados. El cuarto piso está parcialmente destinado a oficinas, pero la mayor parte está ocupado por locales técnicos.
Antes de que el proveedor ingresara aquí, la producción se ubicaba en el edificio. Los empleados del centro de datos por sí mismos no recuerdan la producción de qué exactamente: película o ropa. La compañía compró el edificio para eliminar los riesgos de relaciones de propiedad complejas si el edificio es propiedad de un tercero.
A pesar de que la producción solía ubicarse aquí, había máquinas herramientas y otra maquinaria pesada, Selectel fortaleció aún más los pisos. Incluso en la sala de conferencias en la planta baja, donde se llevaron a cabo los intensos Slurm DevOps ( 1 , 2 , 3 ), prestamos atención a los soportes reforzados.
Vamos al centro de datos solo en fundas de zapatos, la regla habitual para tales locales. Para ponerse plástico onuchi cuesta un "zapatero". Estamos sinceramente imbuidos. El asistente nos ofreció una opción: ponernos los zapatos nosotros mismos o confiar las extremidades al aparato glotón.

Nuestra elección fue predecible. Igor Olemsky, Director de Southbridge: "Estamos a favor de la automatización" . Anton Tarasov, administrador de Southbridge: "Si fuera así con los calcetines, sería la persona más feliz del planeta" .

Mientras usaban zapatos, los desarrolladores de Southbridge se preguntaban activamente dónde están los servidores VMware. Todos estaban interesados en ver en qué equipo funciona esta tecnología.
Tan pronto como ingresaron al área técnica, inmediatamente anunciaron las reglas: "No comemos, no bebemos, no fumamos". No ponemos nuestras manos en ningún lado, en ningún escudo, en ningún estante, aire acondicionado, control remoto. Mantenemos nuestras manos frente a nosotros, como un tiranosaurio ".
En el cuarto piso hay tres salas de servidores. Todo el equipo está en el piso elevado. Es necesario para que el aire frío fluya desde abajo, y también que se puedan establecer comunicaciones que no necesiten acceso constante. Estas son líneas eléctricas y tuberías de enfriamiento.

Tan pronto como entramos en la pequeña sala de servidores, nos llegó un zumbido. El personaje de la famosa caricatura con aserrín en su cabeza seguramente diría: "¡Esto está bien, bien, bien, por una buena razón!" . Como no estábamos acostumbrados, apenas nos escuchamos durante los primeros minutos. Explicaciones de la guía, también, apenas adivinado, tuve que acercarme.
Alrededor hay bastidores, bastidores e incluso más bastidores ... Están alineados en filas estrictas. En los centros de datos del servidor, nos encontramos con diferentes rangos: por 10 bastidores, 12, 20, 30. Dependiendo de la configuración de la sala, el área alquilada por el cliente y las tareas.


En el centro de datos en todas las salas de servidores del sistema de enfriamiento se ve así: desde arriba y a los lados, el espacio refrigerado está limitado por la estructura del bastidor, la parte delantera está cerrada por puertas perforadas. Los acondicionadores de aire conducen aire frío debajo del piso elevado, y el aire sube bajo presión a los estantes.

Es suficiente ir entre las filas para sentir cómo la temperatura del aire cae bruscamente en cinco grados, incluso puede sentir el límite de temperatura. Las juntas en el piso elevado están tan ajustadas que el aire acondicionado no tiene a dónde ir, excepto por el camino especialmente provisto para el enfriamiento.
En el propio servidor, la temperatura se mantiene en algún lugar alrededor de 22 ± 2 grados centígrados. En el corredor "frío", la temperatura puede bajar a 16-17 grados. Había dos corredores "fríos" en la pequeña sala de servidores. En consecuencia, los corredores entre ellos se llaman "calientes". Son un poco más cálidos que la sala de servidores promedio: el aire pasa a través de los bastidores y se calienta desde el equipo.

Hay bastidores para alquilar a los clientes. Los ingenieros conectan la energía: el cliente llama con el equipo y hace lo que quiere, en el marco de las reglamentaciones y la legislación. Se pueden alquilar bastidores diferentes. Hasta 47 unidades, mitad, cuatro secciones. Están físicamente separados: se utilizan diferentes cerraduras. Puedes alquilar solo 10 unidades. Quién tiene muy poco equipo, esto será suficiente. En consecuencia, menos potencia, resulta más barato.
Si el cliente alquila, por ejemplo, un "cuarto" en la sección inferior y usted necesita tender el cable, será atravesado por un canal de metal especial. Y los clientes en las partes superiores del rack no tendrán acceso a las comunicaciones de otras personas de ninguna manera: ni a la alimentación, ni al cobre, ni a la óptica.
En la sala de servidores hay aires acondicionados en la cantidad de tres piezas. Solo dos de ellos trabajan. Si se saca un acondicionador de aire para mantenimiento o si ocurre una falla, los ingenieros encenderán el repuesto. Este stock de reserva es un requisito de especificación de Nivel III.
Por ejemplo, hay fuentes de alimentación ininterrumpida. Hay un cierto número de ellos, supongamos 12. Pero funciona 6. La sala de servidores puede funcionar durante una hora con baterías si la electricidad deja de fluir al centro de datos. Pero si 6 UPS se descomponen hipotéticamente, entonces los ingenieros encenderán seis más. Siempre hay el doble de nodos en el centro de datos para mayor confiabilidad.

Este centro de datos para el proyecto puede consumir hasta 10 MW. Pero ahora solo hay 1.5. Hasta el momento, solo el cuarto piso se utiliza para equipos: el segundo y el tercero en la etapa de construcción. Y el cuarto todavía no está completamente lleno: está diseñado para 250 bastidores y 200 están ocupados. Hay espacio para crecer.
En total, Selectel utiliza 14,4 MW en todos los centros de datos. Un bastidor en funcionamiento 1.200.

Además de los bastidores principales, que se utilizan para diversos proyectos, principalmente para alquiler para clientes, los bastidores de servicio se encuentran en los bastidores del servidor, donde solo se instala el equipo Selectel. Hay bastidores transversales para la conexión pasiva. No tienen energía, solo fibra óptica, para conectar equipos entre plataformas y entre habitaciones. Cada sala de servidores tiene el mismo gabinete con cruces. Cross puede ir a otra habitación, a otra sala de servidores en la planta baja, tan pronto como se construye, puede ir a un centro de datos vecino o incluso a un centro de datos en Dubrovka.
La compañía tiene varias de esas fibras. Si se interrumpe uno, el centro de datos comenzará a funcionar en el otro sin pausa. Todos los caminos que se trazan siempre están reservados.
Si van a hacer una conexión entre este centro de datos y el vecino, los ingenieros conducirán un enlace a través del cruce a través del aire entre los centros de datos, y el segundo enlace conducirá a través de la alcantarilla a través de otro cruce. Y pase lo que pase, siempre habrá un canal de respaldo.
Como hay muchos equipos en el centro de datos, los empleados controlan estrictamente la seguridad contra incendios. El centro de datos tiene varios escenarios para lidiar con incendios. Selectel tiene extintores en todas las habitaciones, tanto de oficina como técnicas. Y las personas están específicamente capacitadas para trabajar con ellas. Si el incendio es local, puede solucionarlo usted mismo.

Pero si se quema fuertemente, por ejemplo, la fuente de alimentación en el servidor o el circuito del compresor con aceite, los extintores no siempre pueden hacer frente. Para tales casos, el centro de datos tiene una estación de extinción de incendios de gas. Desde allí, tuberías amarillas corren por el techo hacia cada habitación.
En un incendio grave, todas las personas son sacadas de la sala de servidores. Cerca de cada puerta hay un botón amarillo. La puerta se cierra herméticamente, se presiona un botón y se realiza una cuenta regresiva de 30 segundos. Se suministra gas Hladon-125 - pentafluoroetano, fórmula química C2F5H. Inhibe el proceso de combustión, y el fuego se detiene inmediatamente. Al extinguir un incendio en un centro de datos, no se utilizan líquidos ni polvos porque arruinarán el equipo.
En una gran sala de servidores se nos prohibió tomar fotos. Porque diré de memoria lo que vieron. En total, este centro de datos tiene un servidor pequeño y dos grandes.
La primera sala grande de servidores tiene un corredor "frío", que está hecho para proyectos Selectel y para alquiler de clientes. Es mucho más largo que en una pequeña sala de servidores. En algunos bastidores hay medidas de seguridad individuales: en uno de los bastidores notamos una cerradura electrónica con un código PIN y una cámara de video en la parte superior.
Observamos cómo se ve el servicio de "arrendamiento de espacio asignado" desde el interior. Puede comprar cualquier cuadratura en el sitio, por supuesto, de la que está disponible. Y el cliente allí puede colocar cualquier bastidor y equipo que cumpla con los estándares.
Se examinó un área muy grande, que pertenece a un cliente, a través de la cerca. Había bastidores alemanes por pedido especial. También hay un pequeño almacén separado.
Según las historias de nuestra guía, este servicio no es necesariamente tan grande. Puedes poner dos bastidores y rodear la jaula. Y el acceso a ellos solo estará contigo. Por lo general, tales requisitos surgen si se trata de un banco o un cliente que trabaja con instituciones financieras.

Buscamos en los locales de la estación de extinción de incendios. Aquí es donde están los cilindros con "Freón-125". El equipo está configurado para que, dependiendo del tamaño, se envíe gas de un cierto número de cilindros a cada habitación.

A la izquierda, a lo largo del corredor, hay una sala de paneles eléctricos. Pero no tenemos acceso allí, en caso de que no realicen excursiones; de lo contrario, será incómodo y el olor no desaparecerá durante mucho tiempo.
Hay fuentes de alimentación ininterrumpida y paneles. Es en esta sala donde llega la comida para todo el edificio. Y ya desde aquí hay un cableado en todas las habitaciones. Las barras colectoras van a las salas de servidores, que se pueden ver debajo del techo en el pasillo.
Se envían dos conductos de bus a cada servidor. Uno va debajo del techo, otro va debajo del piso elevado: así es como se cumple la condición de reserva. Todo el edificio está alimentado por dos rayos de entrada de la planta de energía. Si se desconecta una entrada, el centro de datos funcionará desde la segunda.

Si se desconectan dos a la vez, todo el equipo pasa a baterías recargables. 750 baterías están ubicadas en una habitación especial. Un poco más allá hay otra habitación del mismo tipo, y hay muchas más. El centro de datos podrá vivir en ellos durante 1-3 horas, dependiendo de la carga, pero solo toma 2 minutos cambiar a un motor diesel.
En habitaciones separadas hay grupos electrógenos diesel gigantes. Cada uno se encuentra en una plataforma de aproximadamente una rodilla de altura, como entendí por las explicaciones, este es un tanque separado con combustible para cada motor diesel. Además, en el centro de datos hay varios tanques que están enterrados bajo tierra y están diseñados para varias decenas de toneladas de combustible.
A medida que el combustible se degrada, se reemplaza periódicamente. Si el combustible se acaba en el tanque de diesel, la bomba bombea combustible desde los tanques. Si de repente ocurre una molestia y la bomba se rompe, todavía queda un repuesto.

Absolutamente todos los sistemas están duplicados: canales de comunicación de Internet, refrigeración, suministro de energía, sistemas de extinción de incendios de emergencia y suministro de energía alternativo.
Hicimos una pregunta sobre los operadores de telecomunicaciones. El ingeniero de la compañía dijo que constantemente usan 5-6 operadores para enlaces ascendentes. Y hay bastantes rutas. Además, el proveedor tiene conexiones con casi todos los puntos de intercambio de tráfico en San Petersburgo y Moscú. En Moscú, el más grande es el M9. Y en San Petersburgo - B18 y Kantemirovskaya.
Si el combustible en los tanques subterráneos llega a su fin, se trae otro tanque. Selectel tiene un contrato con una compañía de combustible. El centro de datos puede vivir infinitamente con diesel, es simplemente más caro.
Preguntamos cómo funciona Selectel con el factor humano, porque es él el mayor peligro, y ninguna reserva ayudará.
- ¿Cómo trabajas con errores humanos?
- Intentamos no repetirlos. Predecimos posibles errores. Realizamos entrenamientos, ejercicios. Por ejemplo, capacitación para cambiar a un generador diesel: probamos personas, cambiamos a motores diesel en el proceso, a veces les transferimos toda la carga. Además hay una base de conocimiento.
Llegamos a VMware. En los servidores en la nube, solo se utilizan plataformas Intel, SSD de 2 terabytes. Naturalmente, la reserva es para todo. Por ejemplo, vimos de cerca: en cada servidor dos tarjetas de red, dos enlaces están atascados en cada uno. Un enlace va al interruptor que está en la parte superior, otro enlace va al interruptor del siguiente rack. Se utilizan dos fuentes de alimentación por módulo.

En el centro de datos, hay principalmente racks CMO rusos. En los escritorios de los clientes en el área alquilada hay diferentes soluciones.
Un poco más abajo, en el pasillo, desde la segunda gran sala de servidores vimos un ascensor. Hay dos ascensores para equipos de elevación: una tonelada y dos toneladas. El área de carga se realiza por separado: se encuentra al lado de la sala de conferencias en la planta baja.

En la sala del ascensor vimos una caja "pequeña" con un enrutador Juniper MX 2010. El sueño de cualquier administrador: tres fuentes de alimentación de CA, 1 módulo RE (motor de enrutamiento): 1800x4 (CPU 1.8 GHz QuadCore, 16 GB RAM), 1 módulo SFB (Switch Fabric Board).
Los colegas discutieron dónde ponerlo. Decidimos que en casa se vería mejor. Será posible distribuir wi-fi a los electrodomésticos. Incómodo y sólido: un enrutador serio para administradores serios. Y cuando te canses, puedes vender y comprar un apartamento en una gran ciudad.



Existe un modelo aún más grande, más potente y productivo: el MX 2020.
¿Cómo funciona el enrutador? Los módulos, las tarjetas de línea se insertan en él, son inusualmente altos y muy estrechos. Y estas tarjetas de línea son muy diferentes: pueden tener 8, 24, 48 puertos. Los puertos pueden ser tanto "decenas" como "cien". Dependiendo de cuáles sean sus necesidades y qué oportunidades financieras.
En el MX 2020 hay 32 ranuras para tarjetas de línea: 16 en la parte superior y 16 en la parte inferior. Y, en términos relativos, si inserta 10 tarjetas de línea y cada una tiene 48 puertos, el resultado es 480 puertos. Instalamos transceptores “veinticinco” y multiplicamos 480 puertos por 25 gigabits. Esta es una de las opciones. Puedes poner "cientos".
Cuando salieron de las instalaciones técnicas, se demoraron un poco en el "punto de merienda", donde los ingenieros de Selectel recuperaron fuerzas por la noche. Preguntaron si las cafeteras de la categoría Tier III estaban duplicadas en el centro de datos. Dos cafeteras en cada punto: cada una tiene dos fuentes de alimentación ... y así sucesivamente.

Igor Olemsky preguntó:
— -?
— . . , , , . . — , . - . , . — , , .
, DCIM (Data Center Infrastructure Management). , -, . , , , , .
, Selectel, — , , : " 6 - 40 000 " .
- — , . , , .

, . , , -. - , , .
. - , .


, , - . .
— - ?
— , — Selectel.
— - , .
— .
— .
.
. . , , , . , Selectel. -.

, Selectel , :
— , , ?
— . , — .
, - . , , , 8 . . - , Selectel , , , , , .
, . — . , - . . . , , . . .
Selectel, — , , , . , , -, : , , .
.
— ? , - ? , ?
— , — , . , .
A juzgar por las respuestas evasivas, el tema del hombre lobo Seltekelovsky está cubierto en la oscuridad de la NDA. Nunca descubrimos si existe, pero miramos el centro de datos desde adentro.