Tecnologías WDM: combine centros de datos en grupos a prueba de desastres

A pesar de la confiabilidad de los centros de datos modernos, se requiere otro nivel crítico de redundancia para las instalaciones críticas, porque toda la infraestructura de TI puede fallar debido a un desastre natural o provocado por el hombre. Para garantizar la tolerancia a desastres, es necesario construir centros de datos de respaldo. Debajo del corte, nuestra historia sobre los problemas derivados de su combinación (DCI - Interconexión de centros de datos).




Los volúmenes de datos procesados ​​por la humanidad han crecido a valores increíbles, y el papel de la infraestructura de TI en los procesos comerciales es tan grande que incluso las fallas a corto plazo pueden paralizar por completo a la empresa. Las tecnologías digitales se están introduciendo en todas partes, y el sector financiero, las telecomunicaciones o, por ejemplo, el gran comercio minorista de Internet, dependen especialmente de ellas. La confiabilidad de los centros de datos no es suficiente para un gran proveedor de la nube, un banco o un gran operador de telecomunicaciones: las pérdidas por un pequeño tiempo de inactividad se pueden calcular en cantidades astronómicas y, para evitarlas, se necesita una infraestructura resistente a los desastres. Puede crearlo solo aumentando la redundancia: debe crear centros de datos de respaldo.

Separar la alta disponibilidad de la recuperación ante desastres


Los centros de datos corporativos o equipos instalados en locales alquilados se pueden combinar. La tolerancia a fallas de las soluciones distribuidas geográficamente se logra a través de la arquitectura de software, y los propietarios pueden ahorrar en sus propias instalaciones: no tienen que construir un centro de datos, por ejemplo, un nivel de Nivel III o incluso de Nivel II. Puede abandonar los generadores diesel, usar servidores de marco abierto, jugar con condiciones de temperatura extrema y hacer otros trucos interesantes. Hay menos grados de libertad en las áreas alquiladas, aquí el proveedor determina las reglas del juego, pero los principios de unificación son los mismos. Antes de hablar sobre servicios de TI resistentes a desastres, vale la pena recordar tres abreviaturas mágicas: RTO, RPO y RCO. Estos indicadores clave de rendimiento determinan la capacidad de la infraestructura de TI para soportar interrupciones.

RTO (objetivo de tiempo de recuperación): tiempo permitido para recuperar un sistema de TI después de un incidente;
RPO (objetivo del punto de recuperación): pérdida de datos aceptable durante la recuperación ante desastres. Por lo general, se mide como el período máximo durante el cual se pueden perder datos;
El RCO (objetivo de capacidad de recuperación) es parte de la carga de TI que el sistema de respaldo puede asumir. El último indicador se puede medir en porcentajes, transacciones y otros "loros".

Es importante distinguir entre las soluciones de alta disponibilidad (HA) y recuperación ante desastres (DR). La diferencia entre ellos se puede visualizar en forma de diagrama con RPO y RTO como ejes de coordenadas:


Idealmente, no perdemos datos y no perdemos tiempo recuperándonos de una falla, y el sitio de respaldo garantizará la funcionalidad completa de los servicios, incluso si se destruye el principal. Cero RTO y RPO se pueden lograr solo con la operación sincrónica de los centros de datos: de hecho, es un clúster a prueba de fallas distribuido geográficamente con replicación de datos en tiempo real y otras alegrías. En el modo asíncrono, la integridad de los datos ya no está garantizada: dado que la replicación se realiza a intervalos regulares, se puede perder parte de la información. El tiempo para cambiar al sitio de respaldo en este caso es de varios minutos a varias horas, cuando se trata del llamado reserva fría, cuando la mayoría del equipo de respaldo está apagado y no consume electricidad.


Detalles técnicos


Las dificultades técnicas que surgen al combinar dos o más centros de datos se dividen en tres categorías: demoras en la transmisión de datos, ancho de banda insuficiente de los canales de comunicación y problemas de seguridad de la información. La comunicación entre los centros de datos generalmente es proporcionada por líneas de comunicación de fibra óptica propias o arrendadas, por lo que hablaremos de ellas más adelante. Para los DPC que funcionan en modo síncrono, el principal problema son los retrasos. Para garantizar la replicación de datos en tiempo real, no deben exceder los 20 milisegundos y, a veces, 10 milisegundos; depende del tipo de aplicación o servicio.

De lo contrario, por ejemplo, la familia de protocolos Fibre Channel no funcionará, lo cual es casi imposible sin los sistemas de almacenamiento modernos. Allí, cuanto mayor sea la velocidad, menor será el retraso. Existen, por supuesto, protocolos que le permiten trabajar con redes de almacenamiento a través de Ethernet, pero aquí mucho depende de las aplicaciones y los equipos instalados utilizados en el centro de datos. Los siguientes son ejemplos de requisitos de latencia para aplicaciones comunes de Oracle y VMware:

Requisitos de retraso de Oracle Extended Distance Cluster:


De los datos oficiales de Oracle: Cómo saber si el IO de la base de datos es lento [ID 1275596.1]

Requisitos de retraso de VMware:


Estudio de caso de VMware vSphere Metro Storage Cluster (VMware vSphere 5.0)


Al transmitir datos, el retraso de la señal se puede representar en forma de dos componentes: T total = T equipo . + T s donde T equ. - el retraso causado por el paso de la señal a través del equipo, y T s - el retraso causado por el paso de la señal a través de la fibra óptica. El retraso causado por el paso de la señal a través del equipo (equipo T) depende de la arquitectura del equipo y del método de encapsulación de datos durante la conversión de señal optoeléctrica. En el equipo DWDM, esta funcionalidad se asigna a los módulos de transpondedor o muxponder. Por lo tanto, al organizar la comunicación entre dos centros de datos, son especialmente cuidadosos al elegir el tipo de transpondedor (muxponder) para que la demora en el transpondedor (muxponder) sea menor.

En modo síncrono, la velocidad de propagación de la señal en la fibra óptica (T s ) juega un papel importante. Se sabe que la velocidad de propagación de la luz en una fibra óptica estándar (por ejemplo, G.652) depende del índice de refracción de su núcleo y es aproximadamente igual al 70% de la velocidad de la luz en el vacío (~ 300,000 km / s). No profundizaremos en los fundamentos físicos, pero es fácil calcular que el retraso en este caso es de aproximadamente 5 microsegundos por kilómetro. Por lo tanto, dos centros de datos pueden operar sincrónicamente a una distancia de solo unos 100 kilómetros.

En el modo asíncrono, los requisitos de retardo no son tan estrictos, pero si la distancia entre los objetos aumenta considerablemente, la atenuación de la señal óptica en la fibra comienza a afectar. La señal debe ser amplificada y regenerada, es decir, debe crear su propio sistema de transmisión o arrendar canales de comunicación troncales. Los volúmenes de tráfico que pasan entre los dos centros de datos son bastante grandes y tienden a crecer constantemente. Los principales impulsores del crecimiento del tráfico entre los centros de datos: virtualización, servicios en la nube, migración y conexión de nuevos servidores y sistemas de almacenamiento. Aquí puede encontrar el problema del ancho de banda insuficiente de los canales de transmisión de datos. Incrementarlo hasta el infinito no funcionará debido a la falta de sus propias fibras libres o al alto costo del alquiler. El último punto importante está relacionado con la seguridad de la información: los datos que se ejecutan entre centros de datos deben estar encriptados, lo que también aumenta los retrasos. Hay otros puntos, como la complejidad de administrar un sistema distribuido, pero su influencia no es tan grande, y todos los obstáculos técnicos están relacionados principalmente con las características de los canales de comunicación y los equipos terminales.

Dos o tres son dificultades económicas.


Ambos modos de combinar centros de datos tienen inconvenientes significativos. Los objetos que funcionan sincrónicamente deben ubicarse uno cerca del otro, lo que no garantiza la supervivencia de al menos uno de ellos en caso de un desastre a gran escala. Sí, esta opción está protegida de manera confiable contra errores humanos, incendios, la destrucción de la sala de máquinas como resultado de un accidente aéreo o de otra emergencia local, pero está lejos de ser un hecho que ambos centros de datos pueden soportar, por ejemplo, un terremoto catastrófico. En el modo asíncrono, los objetos se pueden espaciar a miles de kilómetros de distancia, pero se garantiza que los valores aceptables de RTO y RPO fallen. Una solución ideal sería un circuito con tres centros de datos, dos de los cuales funcionan sincrónicamente, y el tercero está ubicado lo más lejos posible de ellos y desempeña el papel de una reserva asíncrona.



El único problema con los tres centros de datos es su costo extremadamente alto. La organización de incluso un sitio de respaldo no es barata, y pocos pueden permitirse mantener dos centros de datos inactivos. A veces se usa un enfoque similar en el sector financiero si el costo de transacción es muy alto: un intercambio grande puede lanzar un esquema con tres centros de datos pequeños, pero en el sector bancario prefieren usar una combinación sincrónica de los dos. Otras industrias suelen combinar dos centros de datos que funcionan en modo síncrono o asíncrono.

DWDM - Solución óptima para DCI


Si el cliente necesita combinar los dos centros de datos, inevitablemente se encontrará con los problemas anteriores. Para resolverlos, utilizamos la tecnología de multiplexación espectral DWDM, que permite multiplexar varias señales portadoras en una fibra óptica usando diferentes longitudes de onda (λ, es decir, lambda). Además, en un par óptico puede haber hasta 80 (96) longitudes de onda de acuerdo con la cuadrícula de frecuencia ITU-T G.694.1. La velocidad de transferencia de datos de cada longitud de onda es de 100 Gbit / s, 200 Gbit / so 400 Gbit / s, y la capacidad de un par óptico puede alcanzar 80 λ * 400 Gbit / s = 32 Tbit / s. Ya hay diseños listos que proporcionan 1 Tbit / s por longitud de onda: darán un ancho de banda aún mayor en el futuro cercano. Hoy, resuelve el problema del ancho de banda del canal por completo: en lugar de fibras adicionales, el cliente utilizará las disponibles de manera más eficiente: la utilización del tráfico alcanzará valores fantásticos.



La multiplexación espectral le permite resolver problemas de ancho de banda, y para los centros de datos que funcionan en modo síncrono, esto es suficiente, porque los retrasos en la transmisión de datos entre ellos son pequeños debido a la pequeña distancia y dependen más del tipo de transpondedor (o muxponder) utilizado en el sistema DWDM. Vale la pena señalar una de las principales características de la tecnología de compresión espectral DWDM: una transmisión de tráfico completamente transparente debido al hecho de que la tecnología funciona en el primer nivel físico del modelo OSI de siete niveles. Si puedo decirlo, el sistema DWDM es "transparente" para las conexiones de sus clientes, como si estuvieran conectados por un cable de conexión directa. Si hablamos del modo asíncrono, la cantidad principal de retraso depende de la distancia entre los centros de datos (recordamos que en OB hay un retraso de 5 microsegundos por kilómetro), pero no hay requisitos estrictos para los retrasos. Por lo tanto, el rango de transmisión está determinado por las capacidades del sistema DWDM y está limitado por tres factores: atenuación de señal, relación señal / ruido y dispersión de luz en modo de polarización.

Al calcular la parte óptica de la línea DWDM, se tienen en cuenta todos estos factores y, en función de los cálculos, se seleccionan los tipos de transpondedores (o muxponders), el número y tipo de amplificadores requeridos, así como otros componentes de la ruta óptica. Con el desarrollo de sistemas DWDM y la aparición de transpondedores en su composición que admiten una recepción coherente a velocidades de 40 Gbit / sy 100 Gbit / sy superiores, la dispersión de la luz en modo de polarización ha dejado de tenerse en cuenta. La cuestión de calcular la línea óptica y elegir el tipo de amplificador es un gran tema separado que requiere que el lector conozca los conceptos básicos de la óptica física, y no lo discutiremos en detalle en este artículo.

La tecnología WDM puede resolver problemas de seguridad de la información. Por supuesto, el cifrado no tiene que realizarse a nivel óptico, pero este enfoque tiene una serie de ventajas innegables. El cifrado en niveles superiores a menudo requiere dispositivos autónomos para diferentes flujos de tráfico y contribuye a retrasos significativos. Con el aumento en la cantidad de tales dispositivos, también aumentan los retrasos y también aumenta la complejidad de la administración de la red. El cifrado óptico OTN (G.709 - Recomendación ITU-T que describe el formato de trama en los sistemas DWDM) no depende del tipo de servicio, no requiere dispositivos separados y es muy rápido: la diferencia entre el flujo de datos cifrados y no cifrados generalmente no supera los 10 milisegundos



Sin el uso de la tecnología de multiplexación espectral DWDM, es casi imposible combinar grandes centros de datos y crear un clúster distribuido a prueba de desastres. Los volúmenes de información transmitidos a través de la red están creciendo exponencialmente y tarde o temprano las posibilidades de las líneas de comunicación de fibra óptica existentes se agotarán. Poner o alquilar otros adicionales le costará al cliente mucho más que comprar equipo, de hecho, hoy en día, el sellado es la única opción económicamente viable. A distancias cortas, las tecnologías DWDM hacen posible el uso más eficiente de las fibras ópticas existentes, aumentando la utilización del tráfico al cielo, y a largas distancias también minimizan los retrasos en la transmisión de datos. Hoy es quizás la mejor tecnología disponible en el mercado y vale la pena echarle un vistazo más de cerca.

Source: https://habr.com/ru/post/es428249/


All Articles