Tres historias de modernización en el centro de datos.

Hola Habr! Este año es el décimo aniversario del lanzamiento de nuestro primer centro de datos OST-1 . Durante este tiempo, mis colegas de los servicios de operación y construcción de capital lograron llevar a cabo más de una modernización de la infraestructura de ingeniería del centro de datos. Hoy te contaré sobre los casos más interesantes.



Una grúa de 200 toneladas instala el nuevo enfriador Stulz en el marco. Modernización del sistema de enfriamiento del sistema de centro de datos OST-1 en 2015.

El centro de datos es un organismo vivo, crece, cambia, se descompone :) Todo lo que se puede atribuir a la modernización, comparto condicionalmente lo siguiente:

  • reemplazos y reparaciones programadas. El equipo se vuelve obsoleto, su vida útil expira. Presupuestamos, planificamos y realizamos dicho trabajo sin prisas, cuando es conveniente para nosotros (por ejemplo, una actualización completa del "interior" del UPS o el reemplazo de baterías agotadas).
  • errores de diseño De acuerdo con los preceptos de Uptime, todo se debe gastar y terminar al mismo tiempo. Debido a un diseño incorrecto, se puede violar el equilibrio del "lugar frío - electricidad -", por ejemplo: hay lugares para colocar bastidores, pero el pasillo ya no es arrastrado por la electricidad o el aire acondicionado. Lo más desagradable de estos errores es que no aparecen de inmediato, sino cuando el centro de datos se acerca a su capacidad de diseño.
  • accidente Sucede que el equipo está dañado por completo, de forma irrevocable e inesperada, y debe cambiarse.

No me detendré en reemplazos / reparaciones planificadas. Allí, casi todo está en nuestro poder. Te contaré tres historias sobre errores de diseño y actualizaciones posteriores al bloqueo.

Historia 1. La sala de máquinas no tenía suficiente frío


Esta es una historia sobre uno de nuestros primeros pasillos en Borovaya. El sigue trabajando. Una sala con una capacidad de diseño de 80 racks de 5 kW.

A medida que el salón se llenaba, el frío dejó de ser suficiente: la temperatura en los pasillos fríos era más alta de lo necesario, aparecía constantemente un sobrecalentamiento local. Fue solo más tarde, desde el punto más alto de nuestra experiencia, que nos dimos cuenta de que habíamos cometido errores en el diseño y que el aire acondicionado sufría debido a esto.

Error
El problema
Una larga fila de bastidores: más de 20 seguidos
El aire caliente se estancó en el medio de la fila.
Techos bajos - hasta 3 metros
No hay suficiente espacio para un intercambio de aire adecuado. Había zonas de sobrecalentamiento local.
Piso bajo elevado con muchas comunicaciones debajo
Interferencia por la circulación de aire frío debajo del piso elevado



La fila es tan larga que los aires acondicionados en el extremo opuesto son apenas visibles. Foto de 2009.

No vimos ninguna "píldora mágica" de estos problemas entonces, así que decidimos actuar por etapas y en todos los frentes.

Primero, verificamos si todo el equipo estaba instalado correctamente y si los enchufes estaban en unidades libres. También verificamos dos veces el diseño de las baldosas perforadas y eliminamos el exceso, instalamos guías de aire adicionales debajo del piso elevado. Intentamos encontrar y sellar todos los agujeros por donde podía escapar el aire frío. También le aconsejo que compruebe lo que tiene entre el aire acondicionado y la pared. Un espacio libre de 5-7 cm ya es mucho.


Aquí está el resultado, nos dieron una colocación simple de talones en unidades libres.

Se puso mejor, pero no lo suficientemente bueno. Luego decidimos aislar los pasillos fríos. Construyeron un techo, puertas de policarbonato. Resultó barato y alegre. Como resultado, eliminamos la mezcla parasitaria de aire frío y caliente y aumentamos la eficiencia del sistema de suministro de frío.


Un pasillo frío y aislado del mismo salón.

Entendimos que esto sería suficiente por un tiempo. Con el aumento en la carga de trabajo de TI, la falta de energía se hará sentir nuevamente.

Intentaron resolver este problema agregando un aire acondicionado de freón, aunque la sala trabajó en enfriamiento con glicol. Estábamos muy preocupados por las dimensiones del aire acondicionado (pasará por la puerta, habrá suficiente ángulo de giro), por lo que seleccionamos un modelo con la posibilidad de un desmontaje parcial. El aire acondicionado se instaló no desde el lado del corredor caliente, como suelen hacer, sino donde podían apretarlo. Esto nos agregó 80 kilovatios de enfriamiento.


Aquí está el mismo aire acondicionado "gutapercha" Emerson.

Toda esta historia resultó ser complicada: era necesario descubrir cómo llevar las pistas de freón a las unidades externas, cómo llevar la electricidad a estos acondicionadores de aire, dónde colocar las unidades externas del aire acondicionado. Todo esto en la sala de trabajo.


Solo para entender cuán poco espacio hay.

Después de todas estas manipulaciones, nos deshicimos del sobrecalentamiento local, la temperatura se distribuyó uniformemente en los pasillos fríos y calientes. Resultó aumentar la capacidad de la sala y colocar los bastidores de cinco kilovatios declarados en ella.

La moraleja de esta historia es que no debes tener miedo de resolver el problema en pequeños pasos. En sí mismo, cada una de las acciones puede parecer (y nos pareció entonces) ineficaz, pero en total esto da un resultado.

Historia 2. El aire acondicionado y la fuente de alimentación se han agotado en la sala de máquinas.


Se diseñó una sala de clientes para 100 racks de 5 kW cada uno. Diseño de ancho de rack 800 mm, en cada fila 10 racks. Luego, el cliente cambió de opinión para llamar, y el salón fue alquilado de manera común. En la vida, los bastidores con un ancho de 800 mm se necesitan principalmente para equipos de red, para todo lo demás se necesitan seis centésimas. Como resultado, en lugar de 10 bastidores seguidos, obtuvimos 13, y todavía había espacio. Pero la electricidad y el frío no fueron suficientes.

Durante la modernización, se asignó una nueva sala para dos UPS adicionales de 300 kW.



Tableros de distribución adicionales aparecieron en el pasillo.



El nuevo poder necesitaba ser distribuido de manera uniforme. Para separar las vigas nuevas y viejas, se colocaron bandejas de cables separadas debajo del piso elevado. Parte del equipo de trabajo de TI se cambió a nuevas centrales conmutando alternadamente cada haz de energía.

Para resolver el problema de la falta de frío, colocamos 1 aire acondicionado adicional por cada 100 kW de frío.



Durante la instalación, instalación y puesta en marcha de todos los equipos, la sala continuó funcionando normalmente. Este fue el momento más difícil del proyecto.

Como resultado de la modernización, agregamos una sala de electricidad y frío para otros 30 racks de 5 kW cada uno.


La capacidad de diseño y la capacidad de la sala aumentaron en un 30%.

Historia 3. Acerca del reemplazo de enfriadores


Un poco de trasfondo. Todo comenzó en 2010, cuando 3 enfriadores del centro de datos OST sufrieron graves daños durante el huracán. Luego, para sobrevivir, fue necesario conducir enfriadores sin protección durante varios días, y los compresores se doblaron rápidamente. Al principio fueron cambiados.

La carga de TI aumentó a medida que el centro de datos se llenó y las enfriadoras Emicon no alcanzaron la capacidad de refrigeración declarada. En 2012, instalaron una enfriadora Hiref adicional en el mismo circuito hidráulico. Entonces vivimos otros tres años.

Con el tiempo, los enfriadores Emicon han exacerbado los problemas operativos. Su poder no era suficiente, por lo que en el calor tuvo que verter agua del Karcher. Con los años, los intercambiadores de calor están cubiertos de depósitos calcáreos. La pelusa de álamo y otros desechos que no pudieron eliminarse debido a la estructura específica de los intercambiadores de calor llenaron el espacio entre el intercambiador de calor de enfriamiento libre y el condensador de freón. Allí se formó una bota de fieltro real, que no dejaba pasar el aire normalmente.

En 2015, acabamos de comprar un lote de enfriadores Stulz para NORD-4 . Decidimos reemplazar dos de los tres enfriadores Emicon en este negocio. Ahora para los detalles.

Instalación de una enfriadora Hiref adicional sin reinstalar las bombas. La carga de TI estaba creciendo y la eficiencia de los enfriadores afectados por el huracán estaba disminuyendo. En verano, la reserva apenas era suficiente. Decidimos agregar otro enfriador para aumentar su capacidad total. Durante la duración del trabajo, el sistema de enfriamiento debería haber seguido funcionando. La parte más difícil de esta operación es la organización del circuito de glicol. Hicimos un flejado de glicol: de cada enfriador se asignó un anillo de glicol a un nuevo enfriador. Los enfriadores se retiraron del servicio uno por uno y se trajo una tubería de glicol al nuevo enfriador.


Fragmento del concepto de hidráulica. Muestra que de cada una de las tres enfriadoras se hicieron ramas al nuevo enfriador.

La tarea principal de este enfriador es soportar el sistema de enfriamiento en el verano. Gracias a Hiref, tenemos una reserva garantizada de N + 1 en los meses calurosos. Pero los enfriadores dañados por el huracán comenzaron a secarse lentamente, y tuvimos que pensar en reemplazarlos.


El mismo enfriador "verano" de Hiref.

Reemplazando Emicon con Stulz. Tales reemplazos se realizan mejor en otoño o primavera: en el verano sin reserva es completamente aterrador, y en el invierno es simplemente desagradable realizar el trabajo. La operación fue planeada para febrero / marzo, pero los preparativos comenzaron en octubre.

Durante estos meses preparatorios, tendimos nuevos cables, cocinamos secciones de la tubería, desarrollamos un plan para acercarnos a la máquina con el equipo (tenemos un patio trasero estrecho) y despejamos el área para que ingrese la grúa. Los enfriadores tuvieron que cambiarse en un centro de datos en funcionamiento, y durante aproximadamente 1,5 días se quedó sin un enfriador de respaldo. En la etapa de preparación, realizamos pruebas para comprender cómo se sentirá el centro de datos sin una reserva, inventamos varias situaciones en las que algo podría salir mal durante el trabajo (por ejemplo, un apagón prolongado durante el reemplazo de enfriadores) y desarrollamos un plan de acción . Aquí hay una breve crónica de esas obras.
Un enfriador llegó por la noche. Después de un registro exitoso de la grúa en el territorio del centro de datos, fue posible comenzar a apagar el viejo enfriador.


El viejo enfriador todavía está en su lugar mientras se realizan los trabajos preparatorios. Cocinamos el marco para la nueva enfriadora.

Luego, se suponía que un automóvil con enfriador debía conducir hasta el lugar de trabajo inmediato. Tenemos, por decirlo suavemente, un poco abarrotado allí. Tuve que sudar para encajar en todos estos giros complejos en un espacio limitado.





El enfriador desmantelado y aserrado por la mitad fue desmantelado.



El refrigerador antiguo y el nuevo difieren en tamaño. Tomó más tiempo preparar el marco de metal. Queda por levantar e instalar la enfriadora.



En el fondo, la foto muestra que se están agregando secciones del circuito de glicol para el nuevo enfriador en paralelo.





Después de la instalación, todos los sistemas hidráulicos están montados en el marco, el enfriador está conectado a la fuente de alimentación. El prensado se realiza por la noche. Al día siguiente, se realiza la puesta en marcha y la conexión al sistema de monitoreo.

La operación tardó menos de dos días en completarse: por la mañana se apagó el viejo enfriador y al final del día siguiente se encendió el nuevo enfriador.

Dos semanas después, se cambió el segundo enfriador. Parece que solo tenía que hacer todo de acuerdo con el esquema probado, pero algo salió mal. Nevó toda la noche. Primero, tuve que pasar tiempo limpiando el territorio para que la grúa pudiera llamar. Comenzamos a desmantelar el viejo enfriador, ya que a doscientos metros de nosotros un automóvil se descompone con un enfriador nuevo. El punto de no retorno ya ha pasado, y el vagón de las ruedas del remolque (panel de control) se ha roto en el vagón.

No funcionó en el sitio, fuimos por un control remoto adicional, que el sábado terminó milagrosamente en la oficina de esta compañía. Con el control remoto, logré hacer girar el auto. Como resultado, nos llevó más de 3 horas completar un turno. Con todas las superposiciones logísticas, el trabajo duró hasta la noche. Es bueno que hayamos pensado en la iluminación para trabajar en la oscuridad. El trabajo restante fue como de costumbre, y desde el lunes en el centro de datos, otro nuevo enfriador comenzó a funcionar.

En marzo de este año, mis colegas reemplazaron al tercer enfriador, el último de los sobrevivientes del huracán. Ahora Borova tiene tres enfriadoras Stulz y una Hiref. Gracias a una modernización tan gradual, ahora tenemos un gran suministro de frío, y no tenemos miedo del clima más cálido y la pelusa de álamo. Los nuevos enfriadores admiten el modo de congelación en un rango de temperatura más amplio, consumen menos energía y funcionan de manera muy silenciosa. También son muy convenientes de mantener debido a los compartimientos separados del compresor: las reparaciones pueden llevarse a cabo sin una parada completa del enfriador.

Source: https://habr.com/ru/post/es431434/


All Articles