Hoy, en la infraestructura de TI, con el uso generalizado de la virtualización, los sistemas de almacenamiento son el núcleo que almacena todas las máquinas virtuales. La falla de este nodo puede detener completamente el trabajo del centro de datos. Aunque una parte considerable del equipo del servidor tiene tolerancia a fallas de una forma u otra "por defecto", es precisamente debido a la función especial de los sistemas de almacenamiento dentro del centro de datos que tienen mayores requisitos en términos de "capacidad de supervivencia".

El método más efectivo para garantizar la tolerancia a fallas en TI es el uso de varias instancias de equipos y software (en el caso más simple, duplicación). Por supuesto, el almacenamiento se puede duplicar por completo. Y para la recuperación ante desastres, este es exactamente el enfoque que se utiliza. Pero no todas las empresas pueden permitirse esa solución. No se trata solo del doble del costo del equipo, sino también de otros costos para organizar dicha solución y su apoyo adicional.
Sin embargo, la posibilidad de duplicación de equipos no elimina la necesidad de garantizar la tolerancia a fallas a nivel de componente. En particular, la redundancia se aplica a los sistemas de almacenamiento para fuentes de alimentación, módulos de refrigeración, unidades y, por supuesto, controladores. Todo esto se ha convertido en un lugar común durante mucho tiempo. Es difícil encontrar almacenamiento sin usar un diseño similar. Qsan aquí no es una excepción. Pero queremos hablar en este artículo sobre lo que no es inmediatamente evidente y, al mismo tiempo, está dirigido principalmente a aumentar la tolerancia a fallas del sistema en su conjunto.
Módulos de enfriamiento
Muy a menudo en sistemas de almacenamiento con cajas 2U-3U, se utilizan módulos combinados que combinan fuentes de alimentación y ventiladores. Por un lado, es conveniente porque Solo una unidad necesita servicio. Por otro lado, si el sistema de enfriamiento falla, la fuente de alimentación puede apagarse por la fuerza para evitar el sobrecalentamiento. Y parece que no surgirá la situación más crítica, pero obviamente no vale la pena agregar vulnerabilidades de almacenamiento.
La refrigeración en los sistemas de almacenamiento Qsan se organiza en forma de módulos separados con un reemplazo "en caliente", independiente de las fuentes de alimentación. En realidad, las fuentes de alimentación tienen sus propios ventiladores, diseñados para explotar la propia fuente de alimentación. El módulo de enfriamiento acomoda dos ventiladores independientes que se aseguran entre sí. Hay dos módulos de este tipo en el sistema de almacenamiento: a la derecha y a la izquierda, para un flujo de aire eficiente de todos los componentes. Si uno de los ventiladores falla, todos los demás aumentan automáticamente su velocidad para compensar la falta de flujo de aire resultante. Es por eso que un mal funcionamiento del ventilador no conlleva el riesgo de sobrecalentamiento de todo el dispositivo.
Topología de conexión de estante de extensión
El esquema clásico para conectar los estantes de expansión al almacenamiento significa una topología llamada cascada. En este caso, los controladores de estante y almacenamiento correspondientes están interconectados por un solo cable SAS. En total, se obtienen 2 cables para un sistema de controlador dual. Si desea conectar el segundo, entonces está conectado de la misma manera al primer estante. Y así sucesivamente. La ventaja de esta topología es la facilidad de implementación en los equipos. Y la desventaja será cierta vulnerabilidad a una interrupción repentina en el circuito SAS debido a la falla cruzada de los controladores y estantes de almacenamiento no conectados o debido a un apagón de uno de los estantes de expansión en el medio de la cadena. El resultado será la pérdida de acceso a parte de las unidades y un posible colapso del grupo RAID si se "distribuye" en varios casos.
En caso de fallo de controlador cruzado, Qsan tiene protección en forma de comunicación lógica interna entre controladores a través del plano posterior de almacenamiento. Es decir el controlador de almacenamiento ve no solo el controlador JBOD directamente conectado a él, sino también el controlador "vecino" a través de un enlace especial en el plano posterior. Como resultado, si ocurre tal situación y nadie extrae físicamente los cables SAS entre el sistema de almacenamiento y el estante, se preservará el acceso a todas las unidades.
Para proteger el circuito SAS de la rotura, por ejemplo, debido a la desenergización del estante de expansión, generalmente se usa una topología de conexión diferente: la cascada inversa. En este caso, el sistema de almacenamiento se conecta inmediatamente al primer y último estante de la cadena, obteniendo acceso a las unidades desde ambos lados.
Si desea una protección más fuerte, puede crear configuraciones a mayor escala, utilizando, por ejemplo, la topología del árbol. O bien, complicar a través de una combinación de las topologías mencionadas. Esto es posible debido a la gran cantidad de conectores SAS en los dispositivos (2 para cada controlador de almacenamiento y 5 para cada controlador JBOD) con detección automática de modos operativos de entrada / salida. Lo principal es que el administrador mismo no está confundido. Y el sistema de almacenamiento podrá configurar correctamente la configuración.
Reconstrucción rápida
La disponibilidad de discos de repuesto de repuesto dinámico en el sistema aumenta significativamente la confiabilidad del almacenamiento de información. Sin embargo, solo el hecho de que tales discos estén asignados no significa protección absoluta. El hecho es que el proceso de recuperación (reconstrucción) lleva bastante tiempo y, a menudo, mucho tiempo. La complejidad surge del acceso continuo a los datos maestros. Es decir El sistema, junto con el trabajo actual, también debe copiar los datos en un nuevo disco. Y la duración de la reconstrucción depende directamente de la capacidad del disco y sus características de velocidad. Dado que el sistema no sabe nada sobre el espacio de disco ocupado real, en el proceso de reconstrucción simplemente copia todo: bloque por bloque.
Como resultado, la restauración de un disco moderno de alta capacidad de 10 + TB con una carga importante en los sistemas de almacenamiento puede ser fácilmente una semana o más. También debe tener en cuenta el hecho de que durante la reconstrucción, la probabilidad de falla de otras unidades aumenta significativamente debido a la mayor carga en ellas. Y esto ya puede representar un grave peligro en el caso de utilizar, por ejemplo, RAID5.
Como solución a este problema, muchos desarrolladores de almacenamiento están preocupados por acelerar el proceso de recuperación. Se pueden usar diferentes enfoques para esto, pero la esencia es la misma: copiar solo bloques realmente ocupados durante la reconstrucción. Qsan no se mantuvo al margen de este problema. En el sistema de almacenamiento de este proveedor, cuando la opción Reconstrucción rápida está activada, el sistema realiza un seguimiento de los bloques utilizados para la grabación y, por lo tanto, tiene la capacidad de copiarlos solo en una nueva unidad en caso de falla del disco.
La opción Reconstrucción rápida no está habilitada de manera predeterminada al crear nuevos volúmenes, ya que su uso tiene un impacto en el rendimiento, especialmente con operaciones de escritura aleatorias, porque:
- Es necesario rastrear registros en bloques;
- Al reconstruir, las sumas de verificación no se vuelven a calcular para el espacio no asignado, por lo tanto, cuando se realiza una nueva entrada en esta área, primero es necesario "inicializarla".
Por lo tanto, no se recomienda usar Fast Rebuild para volúmenes, por ejemplo, con bases de datos altamente cargadas o en sistemas de videovigilancia, donde el volumen aún estará 100% lleno. Pero para los servidores de archivos o correo, esta opción será muy útil.
En lugar de una conclusión
Cada fabricante de almacenamiento implica que sus dispositivos son confiables. Y si no hay errores de cálculo fatales en el desarrollo de dispositivos y una sed increíble de ahorro en el proceso de producción y prueba, entonces, en general, podemos estar de acuerdo con el proveedor. Sin embargo, debes entender:
- La tolerancia básica a fallas de los sistemas de almacenamiento es, en primer lugar, una forma de continuar teniendo acceso a los datos en caso de falla de cualquiera de los componentes;
- opciones adicionales con respecto a la tolerancia a fallas (como las descritas anteriormente) son la eliminación de ciertos tipos de mal funcionamiento y el aumento de sus posibilidades de tener acceso a los datos;
- 100% de fiabilidad, por desgracia, no sucede. Pero, para acercarse lo más posible, la mayoría de los vendedores de almacenamiento cuerdos (y Qsan entre ellos) hacen todo lo posible para mejorar continuamente sus productos tanto en hardware como en software.
Al mismo tiempo, no se debe olvidar que ninguna fiabilidad absoluta de los sistemas de almacenamiento no cancela la disponibilidad de copias de seguridad, planes claros y ensayados para la recuperación en caso de accidente, y soporte técnico operativo para el proveedor.