🤾🏼 ❗️ 😺 Energía del equipo de TI: ¿seguridad o tiempo de actividad? parte 2 👆 🤙🏻 👩‍❤️‍💋‍👩

Continuamos el artículo, cuyo propósito es compartir experiencias y mostrar características clave y errores comunes que ocurren durante el diseño y la organización de los subsistemas de suministro de energía de la infraestructura de TI y el centro de datos en su conjunto. Pero me gustaría ampliar un poco la audiencia y dedicar varias secciones a los elementos básicos para garantizar la seguridad eléctrica y proteger los equipos y las personas.

Los que se perdieron la primera parte o quieren recordar la primera parte pueden ir aquí .

Para aquellos que entienden qué son un autómata y un RCD, por qué se necesitan, de qué se protegen y qué: vaya a la sección ¿Se necesitan los RCD para equipos de TI, servidores y centros de datos? .

Parte dos

Veremos cuál es la relación entre la energía y el equipo final de TI, entenderemos la pregunta, en qué casos de cortes de energía, se debe garantizar que el sistema operativo funcione sin fallas.

Problemas de conmutación en espera

El suministro de energía del equipo de información se organiza con redundancia. Considere la organización del suministro de energía en la parte de -- (tablero de suministro de energía ininterrumpible, unidad de distribución de energía, suministro de energía). Los tipos de reserva son de los siguientes tipos:

Redundancia de cables al bastidor, equipo, utilizando unidades de distribución de energía separadas, PDU (Figura 1)
Redundancia del bus de energía en el panel de la fuente de alimentación, utilizando unidades de distribución de energía separadas, PDU (Figura 2)

Redundancia a nivel de fuentes de alimentación directamente en el servidor, conmutador, dispositivo de TI (Fig. 3)
Redundancia utilizando un interruptor de carga montado en bastidor, ABP montado en bastidor (SPN, también conocido como ATS) (Fig. 4)

Para cambiar entre entrada principal y de respaldo, puede usar:

en el campo de los sistemas de información: gabinetes ABP / STS (Static Transfer Swith) para sistemas de alta potencia, para cambiar a alimentación desde un UPS de respaldo en el momento de la operación de un sistema 2N completo o combinaciones de sistemas N + 1;
en el campo de los sistemas de suministro de energía de varios tipos de esquemas ABP (en contactores, en controladores);
en el nivel de rack del servidor: ABP \ ATS (Switch de transferencia automática) de montaje en rack automático de alta velocidad;
a nivel de equipos de información específicos: fuentes de alimentación duplicadas.

Como citamos anteriormente para el equipo de TI, "una interrupción en el suministro de energía es inaceptable". ¿Y qué se esconde debajo de esta frase? ¿Qué es una "interrupción" en el poder del equipo de información? Ahora veamos un ejemplo vivo.

El cliente implementa una sala de servidores local junto con la infraestructura de TI de dos pisos para la oficina de la empresa. En la etapa de discusión del sistema de fuente de alimentación, quiere colocar todo el equipo de información con una unidad de fuente de alimentación (PSU), y dejar libre la segunda ranura para las PSU del servidor, y montar un ATS de montaje en rack único en todo el rack. (Fig. 4, diagrama).

Apariencia de la parte posterior del servidor con fuentes de alimentación duplicadas

Cómo el cliente argumentó su deseo :

Ahorro de costos ($ 500-800 por dispositivo de rack)
Puede colocar las dos PDU más simples y aplicarlas para la distribución de energía después de ATS
Absolutamente el mismo nivel de confiabilidad del sistema en comparación con el método de distribución clásico

Tomamos un tiempo de espera, investigamos en detalle el deseo del Cliente desde varios puntos de vista, la confiabilidad de los servicios en general, en la garantía y el período posterior a la garantía, así como:

costo (ahorro) de costos de capital durante la implementación (CAPEX)
costo de costos de depreciación, mantenimiento de repuestos, costos laborales del personal del cliente ( OPEX )
comparando los algoritmos de operación y el tiempo de conmutación con la línea de respaldo en ambos casos, buscando "puntos únicos de falla"
el nivel de riesgos de congelación y / o reinicio de los sistemas operativos de los equipos de información, la caída de los servicios de información que se ejecutan en ellos.

Y esto es lo que resultó:

De acuerdo con el marco regulatorio GOST 32144-2013 (Energía eléctrica. Compatibilidad electromagnética de equipos técnicos. Normas de calidad de la electricidad en redes de uso general. Fecha de introducción - 1 de julio de 2014), la principal causa de mal funcionamiento de los equipos de información puede ser la caída de voltaje, que

Por lo general, se producen debido a un mal funcionamiento en las redes eléctricas o en las instalaciones eléctricas de los consumidores, así como al conectar una carga potente

Sigue leyendo:

la duración de las caídas de voltaje puede ser de hasta 1 minuto

Esta frase nos dice que los UPS y / o ATS de alta velocidad deben proporcionar el equipo de información, ya que las caídas de voltaje de esta duración son aceptables y normales desde el punto de vista de gran energía, pero serán fatales para los equipos y servicios de TI.

Por cierto, vale la pena señalar que en este momento hay contradicciones en el marco regulatorio actual de la Federación de Rusia en términos de medición de valores relacionados con la calidad de la electricidad, más detalles se pueden encontrar en el artículo de Victor Cherdak, director técnico de nuestra empresa, (fuente digitalsubstation.com )

Algunos extractos del artículo

En los últimos años, las normas estatales en el campo de las mediciones de los parámetros de energía eléctrica relacionados con la CE se han desarrollado activamente y se han revisado repetidamente.

Un cambio importante fue el reemplazo de GOST 13109-97 “Energía eléctrica. Compatibilidad electromagnética. Normas de calidad para la energía eléctrica en sistemas de suministro de energía de uso general ”[16] de acuerdo con GOST 32144-2013. Estas normas definen una gama diferente de indicadores de calidad de energía.

¿Pero qué tan rápido? ¿Cómo determinar el tiempo en milisegundos durante el cual el servicio del cliente (y el servidor) no caerá y el sistema operativo no entrará en un "error crítico"?

Existe un estándar CBEMA (Computer and Business Equipment Manufacturers Association), que, después de algunos ajustes, ahora se conoce como “Curvas ITIC” (Consejo de la Industria de Tecnología de la Información), y sus variantes están incluidas en los estándares ANSI IEEE 446. Según estas normas, los circuitos electrónicos de las fuentes de alimentación deben permanecer operativos durante 20 ms (o 0,02 segundos, es decir, un período).

Esas mismas curvas ITIC

De acuerdo con los requisitos para las fuentes de alimentación para el servidor y los sistemas informáticos de la Infraestructura del sistema del servidor, podemos decir que el parámetro de la unidad de fuente de alimentación Tvout_holdup durante el fallo de la tensión de alimentación garantiza el funcionamiento del equipo de información durante al menos 21 ms. Es decir, el período completo de la red es el tiempo de funcionamiento normal garantizado del servidor o conmutador. El parámetro Tpwok_holdup se define por al menos 20 ms.

algunos detalles sobre los parámetros SSI se pueden encontrar aquí

Ayuda: El tiempo de retención es el período de tiempo durante el cual la fuente de alimentación puede mantener los voltajes de salida dentro de ciertos límites después de que el voltaje de suministro desaparece en su entrada. En la mayoría de las fuentes de alimentación de la computadora, el tiempo de espera también caracteriza cuánto tiempo la señal de buena alimentación (PWR_OK) le dice al sistema que los voltajes generados por la fuente de alimentación son inestables (para las fuentes de alimentación de la computadora, este parámetro suele ser más de 16 ms).

Aquí está una de las tablas del documento.

Y este es un diagrama de línea de tiempo con algoritmos de operación BP regulados.

Ahora veamos qué tiempo de conmutación declara APC, por ejemplo, para un interruptor de carga montado en bastidor de la marca AP7721 . Vemos que aquí generalmente tenemos 8-12 ms, pero 18 ms es el tiempo de conmutación máximo.

Podemos concluir que el tiempo para cambiar a la entrada de respaldo para el interruptor de carga del rack corresponde a la especificación de la unidad de fuente de alimentación del equipo del servidor. Resulta que no habrá fallas en la operación del equipo de información.

Tabla resumen de tiempos de elementos del sistema

¿Y qué pasa con el componente económico y cuál de las opciones es más rentable y tolerante a fallas?

Supongamos que tenemos tres servidores pequeños en el rack, en los que puede colocar dos fuentes de alimentación y tres dispositivos con fuentes de alimentación redundantes. Todo es crítico y la falla de cualquiera de los dispositivos conducirá a la falla de todo el sistema del cliente en su conjunto. En cualquier caso, necesitamos un interruptor de carga montado en bastidor. Esto es alrededor de 18 mil rublos.

El cliente declara que no necesita PDU (PDU), lo que significa que el presupuesto solo costará ATS, los mismos 18 mil rublos. Como sustituto de las Unidades de distribución de energía (PDU), el Cliente sugiere utilizar la distribución de energía "a bordo" del interruptor de carga montado en bastidor. El cliente también planea comprar un servidor con dos ranuras para fuentes de alimentación, pero en una configuración con una fuente de alimentación por el bien de la economía. (figura 4)

La versión clásica (Figura 3) involucra un conjunto de 2 PDU: aproximadamente 32,000 rublos, 3 fuentes de alimentación adicionales por servidor por $ 500 cada una por 84 mil rublos en total. ATS por los mismos 18 mil rublos. En conjunto, entendemos que la solución clásica le costará al cliente alrededor de 134 mil rublos.

Parece ser cierto, el cliente tiene razón, el dinero es completamente diferente. Pero veamos desde el punto de vista de la tolerancia a fallas y la capacidad de servicio de ambas opciones:
Opción del cliente: Punto único de falla : interruptor de carga montado en bastidor. Si algo le sucede, perdemos todo el estante. Por lo tanto, debe tener piezas de repuesto en el sitio, lo que se suma a la estimación de 18,000 rublos. Las fuentes de alimentación en los servidores son de una en una, también son puntos de falla. Por lo tanto, es deseable tener al menos una, y preferiblemente las tres fuentes de alimentación en reserva en el sitio. Supongamos que necesitamos tres unidades de suministro de energía en una pieza de repuesto, que es otra más 36 mil rublos. Debe verificar la potencia que puede cambiar el ATS de montaje en bastidor. Ahora procedemos del hecho de que 3 kW o 16A son suficientes para todos los equipos del bastidor. Si necesitamos ATS para 32A (7 kW), será mucho más costoso (más de 100 mil rublos). Es decir, el presupuesto de la opción del Cliente, con una consideración detallada de confiabilidad, crece a 160 mil rublos . En este caso, en caso de emergencia, a pesar del hecho de que habrá piezas de repuesto en el sitio, se necesitará tiempo de inactividad para reemplazar el dispositivo.

Punto único de falla (SPOF): un nodo, línea de comunicación o un objeto de un sistema de disponibilidad de datos, cuya falla puede dañar todo el sistema o causar inaccesibilidad de datos

Opción de tecnología abierta : como se muestra en la Figura 3 , pero si es necesario, se agrega ATS para equipos de red pequeños con una sola fuente de alimentación.

El punto de falla es el mismo ATS. Si algo le sucede, perdemos todo el estante. Estamos de acuerdo en que necesita tener piezas de repuesto en el sitio. Pero en nuestro caso, si solo falla el ATS, entonces esto solo puede afectar el funcionamiento de los interruptores y equipos auxiliares. Los servidores mismos continuarán trabajando en silencio. No se necesitan fuentes de alimentación en repuestos. Dado que, si falla una de las fuentes de alimentación duplicadas, el servidor continuará trabajando en la fuente restante, y lo más probable es que espere una nueva fuente de alimentación del proveedor, independientemente de la lejanía del sitio.

Interpretación del término SPOF para sistemas de TI

Punto único de falla (SPOF): un nodo, dispositivo o punto de circuito, cuya falla puede deshabilitar todo el sistema y causar la falta de disponibilidad de datos y servicios. Considerado en el desarrollo y diseño de cualquier sistema crítico. La ausencia total de puntos únicos de falla conduce a un aumento significativo en los costos de capital durante la implementación, por lo que la criticidad de un sistema o servicio en particular se determina en la etapa de diseño en función del presupuesto del proyecto, así como los deseos y requisitos del Cliente. Siempre encontramos la solución ideal para cada cliente, identificando varias opciones para implementar el proyecto y ofreciéndolas al cliente. Como resultado, en la etapa de entrega del proyecto, el cliente recibe exactamente la solución que quería ver en términos de precio / calidad / confiabilidad.

Por lo tanto, es posible, pero no racional, conectar todos los equipos de rack a un solo ATS, ya que en este caso tenemos un solo punto de falla de energía. En cualquier caso, es preferible comprar servidores con fuentes de alimentación duplicadas, ya que la tolerancia a fallas en el nivel del equipo de información aumenta significativamente.

El interruptor de carga montado en bastidor garantiza un cambio correcto y casi instantáneo a la entrada de respaldo, el equipo de información ni siquiera lo sentirá, los productos de software y los sistemas operativos continuarán funcionando correctamente. En cualquier caso, se necesitan unidades de distribución de energía de montaje en bastidor y no hay necesidad de ahorrar en ellas. Los ahorros aparentes en los costos de capital para la distribución de energía pueden ocasionar problemas operativos insolubles, por ejemplo, la necesidad de "extinguir" todo el bastidor solo para mover el ATS a otra unidad o para auditar el interruptor de carga del bastidor. En cualquier caso, para fuentes de alimentación duplicadas debe haber piezas de repuesto, pero no siempre es posible o no está disponible.

Apariencia de una fuente de alimentación de servidor extraíble:

El uso de ABP de montaje en bastidor tiene sus propias características

Por ejemplo, la potencia de un ATS de este tipo es limitada, y puede ser conmutada por un conjunto de cargas relativamente débiles en términos de consumo de energía. Hay preguntas sobre la cantidad de conectores de alimentación de salida. Por ejemplo, el ATS AP7721 mencionado anteriormente está equipado con conectores de entrada tipo C14, lo que significa una potencia de conmutación máxima de 2.5 kW. Para una mayor potencia de carga, hay un modelo AP7724 de 2U, que está equipado con un conector de 32 A en la entrada, es decir, la potencia máxima del equipo puede ser de hasta 7 kW. Esto significa que un bastidor de equipo típico se puede conectar completamente a este ATS. Sin embargo, el precio de tal decisión será de más de 100 mil rublos.

El trabajo del equipo de información con dos fuentes de alimentación se describió bien en un artículo de Vadim Sinitsky @dimskiy . Como puede ver, hay ventajas y desventajas. Y, en cualquier caso, la disponibilidad de fuentes de alimentación redundantes para equipos de información es necesaria, especialmente si el objeto está fuera de la zona de suministro rápido de la fuente de alimentación del proveedor. Además, queremos señalar que las calculadoras en línea para calcular la potencia de los nuevos servidores de los proveedores solo pueden usarse como una guía para los administradores del sistema y el personal del cliente.

Las posibilidades reales de conectar un nuevo servidor potente a un rack existente deben evaluarse teniendo en cuenta el proyecto inicial de la fuente de alimentación, el estado actual y la carga de la red del rack, servidor, UPS, generador ... Desde el punto de vista de la conexión en un rack, también vale la pena considerar:

capacidades actuales de PDU, como ranuras libres en ellas
clasificaciones de máquinas en escudos y secciones transversales y la fase de la línea de cable al bastidor.

La confiabilidad del sistema de suministro de energía del servidor merece atención especial, si está construido de acuerdo con el sistema que se muestra en la Fig. 2 (con dos sistemas de bus), la presencia de un nuevo servidor potente puede provocar la sobrecarga de todo el sistema de suministro de energía en caso de trabajos de reparación y reducir la vida útil de la batería de los UPS en baterías , haga que el UPS cambie a bypass por sobrecarga y más ...

¿Y cómo se construye un sistema de distribución en rack?
¿Cuál es el recurso de BP para equipos de TI y el algoritmo para su redundancia de software?
¿Qué PDU prefiere usar: básico, monitoreado? ¿Qué tan útil es la función PDU / PDU en la práctica, y alguna vez te ha ayudado?

Autor: Oleg Kulikov
Ingeniero de diseño principal
Departamento de Soluciones de Integración
"Tecnologías abiertas"
okulikov@ot.ru
Inscripción en el Registro Nacional de Especialistas "NOPRIZ" P-045870

Energía del equipo de TI: ¿seguridad o tiempo de actividad? parte 2

Parte dos

¿Y qué pasa con el componente económico y cuál de las opciones es más rentable y tolerante a fallas?

More articles: