
Hacer copias de seguridad no es una tecnología moderna que se grita desde todos los hierros. Simplemente tiene que estar en cualquier compañía seria, eso es todo. Varios miles de servidores están respaldados en nuestro banco; este es un trabajo complicado e interesante, sobre algunas de sus sutilezas, así como sobre los conceptos erróneos típicos con respecto a las copias de seguridad que solo quiero contar.
He estado tratando este tema durante casi 20 años, de los cuales los últimos 2 años, en Promsvyazbank. Al comienzo de la práctica, hice una copia de seguridad casi manualmente, con scripts que simplemente copiaban los archivos. Luego, aparecieron herramientas convenientes en Windows: la utilidad Robocopy para preparar archivos y NT Backup para copiar. Y entonces llegó el momento del software especializado, principalmente Veritas Backup Exec, que ahora se llama Symantec Backup Exec. Así que he estado familiarizado con las copias de seguridad durante mucho tiempo.
En pocas palabras, realizar una copia de seguridad es guardar una copia de los datos (máquinas virtuales, aplicaciones, bases de datos y archivos) en caso de que tenga cierta regularidad. Cualquier caso generalmente se manifiesta en forma de falla de hardware o lógica y conduce a la pérdida de datos. La tarea del sistema de respaldo es reducir las pérdidas por pérdida de información. Una falla de hardware es, por ejemplo, una falla de servidor o almacenamiento donde se encuentra la base de datos. Lógico: esta es la pérdida o el cambio de una parte de los datos, incluso debido al factor humano: eliminó inadvertidamente una tabla, un archivo, lanzó un script para ejecutar una curva. También existen requisitos del regulador para almacenar cierto tipo de información durante un largo período, por ejemplo, hasta varios años.

El atractivo más típico para las copias de seguridad es la restauración de una copia guardada de las bases de datos para la implementación de varios sistemas de prueba, clones para desarrolladores.
Hay varios mitos típicos sobre las copias de seguridad que es hora de disipar. Aquí están los más famosos de ellos.
Mito 1. La copia de seguridad ha sido durante mucho tiempo solo una pequeña función dentro de los sistemas de seguridad o almacenamiento.
Los sistemas de respaldo siguen siendo una clase separada de soluciones y muy independientes. Demasiado importante negocio confiado a ellos. De hecho, son la última línea de defensa cuando se trata de seguridad de datos. Por lo tanto, la copia de seguridad funciona a su propio ritmo, en su propio horario. Se genera un informe diario en los servidores; hay eventos que actúan como disparadores para el sistema de monitoreo.

Además, el modelo a seguir del acceso al sistema de respaldo permite delegar parte de la autoridad a los administradores de los sistemas de destino para administrar los respaldos.
Mito 2. Cuando hay RAID, la copia de seguridad ya no es necesaria.

Sin lugar a dudas, las matrices RAID y la replicación de datos son una buena manera de proteger los sistemas de información de fallas de hardware, y si hay un servidor en espera, puede cambiar rápidamente a él en caso de falla de la máquina principal.
De los errores lógicos que hicieron los usuarios del sistema, la redundancia y la replicación no se guardan. Aquí hay un servidor en espera con una grabación retrasada: sí, puede ayudar si se detecta un error antes de sincronizarse. ¿Y si se pierde el momento? Solo la copia de seguridad realizada a tiempo ayudará aquí. Si sabe que los datos cambiaron ayer, puede restaurar el sistema a partir de anteayer y extraer los datos necesarios. Dado que los errores lógicos son los más comunes, la copia de seguridad antigua sigue siendo una herramienta probada y necesaria.
Mito 3. Copia de seguridad es lo que se hace una vez al mes.
La frecuencia de la copia de seguridad es un parámetro configurable, que depende principalmente de los requisitos del sistema de copia de seguridad. Es muy posible encontrar datos que casi nunca cambian y que no es particularmente importante, su pérdida no será crítica para la empresa.
De hecho, pueden ser respaldados una vez al mes o incluso menos. Pero los datos más críticos se almacenan con mayor frecuencia, dependiendo del indicador RPO (Objrective del punto de recuperación), que establece la pérdida de datos aceptable. Puede ser una vez a la semana, una vez al día, o incluso varias veces por hora. Tenemos estos registros de transacciones del DBMS.

Cuando se introducen sistemas en la operación comercial, la documentación de respaldo necesariamente se aprueba, lo que refleja los puntos principales, el cronograma de actualización, el procedimiento para restaurar el sistema, el procedimiento para almacenar los respaldos y similares.
Mito 4. El volumen de copias crece constantemente y ocupa completamente cualquier espacio asignado
Las copias de seguridad tienen una vida útil limitada. No tiene sentido, por ejemplo, almacenar las 365 copias de seguridad diarias durante el año. Como regla general, es permisible mantener copias diarias durante 2 semanas, después de lo cual se reemplazan por otras nuevas, y la versión que se hizo primero en el mes permanece para el almacenamiento a largo plazo. A su vez, también se almacena durante un tiempo determinado: cada copia tiene una vida útil.

Existe protección contra la pérdida de datos. La regla se aplica: antes de eliminar la copia de seguridad, se debe formar lo siguiente. Por lo tanto, los datos no se eliminarán si la copia de seguridad falla, por ejemplo, debido a la falta de disponibilidad del servidor. No solo se respeta el período de tiempo, sino que también se controla el número de copias en el conjunto. Si el sistema dice que debería haber dos copias de seguridad completas, siempre habrá dos, y la anterior se eliminará solo cuando una tercera nueva se grabe con éxito. Por lo tanto, el aumento en el volumen ocupado por el archivo de respaldo está asociado solo con el aumento en el número de datos protegidos y no depende del tiempo.
Mito 5. La copia de seguridad comenzó: todo se bloqueó
Es mejor decir esto: si todo se cuelga, las manos del administrador no crecerán desde allí. En general, el rendimiento de la copia de seguridad depende de muchos factores. Por ejemplo, a partir de la velocidad del sistema de respaldo en sí: qué tan rápido hay almacenamientos de discos, bibliotecas de cintas. Desde la velocidad de los servidores del sistema de respaldo: ¿logran procesar los datos, realizar la compresión y la deduplicación? Así como la velocidad de las líneas de comunicación entre el cliente y el servidor.
Una copia de seguridad puede ir a uno o varios subprocesos, dependiendo de si el sistema redundante admite subprocesos múltiples. Por ejemplo, el DBMS de Oracle le permite dar varios subprocesos, de acuerdo con el número de procesadores disponibles, hasta que la velocidad de transmisión descanse contra la limitación del ancho de banda de la red.
Si intenta hacer una copia de seguridad con una gran cantidad de subprocesos, es decir, una posibilidad de sobrecargar un sistema en funcionamiento, realmente comenzará a ralentizarse. Por lo tanto, se selecciona el número óptimo de subprocesos para proporcionar un rendimiento suficiente. Si incluso la más mínima disminución en el rendimiento es crítica, entonces existe una gran opción cuando la copia de seguridad se lleva a cabo no desde el servidor de batalla, sino desde su clonación en espera en la terminología de la base de datos. Este proceso no carga el sistema de producción principal. Los datos se pueden tomar a través de una mayor cantidad de subprocesos, ya que el servidor no se utiliza para mantenimiento.
En organizaciones grandes, se crea una red separada para el sistema de respaldo para que el respaldo no afecte las ventas. Además, el tráfico puede no transmitirse a través de la red, sino a través de la SAN.

Intentamos distribuir la carga también con el tiempo. La mayoría de las copias de seguridad se realizan fuera de horario: de noche, los fines de semana. Además, no comienzan todos al mismo tiempo. Las copias de seguridad de máquinas virtuales son un caso especial. El proceso prácticamente no tiene ningún efecto en el rendimiento de la máquina en sí, por lo que la copia de seguridad puede mancharse durante el día y no retrasar todo durante la noche. Hay muchas sutilezas, considerando todo, la copia de seguridad no afectará el rendimiento del sistema.
Mito 6. Lanzó un sistema de respaldo: aquí está la tolerancia a fallas.
Nunca olvide que un sistema de respaldo es la última línea de defensa, lo que significa que debe haber otros cinco sistemas frente a él que garanticen la continuidad, la alta disponibilidad y la tolerancia a desastres de la infraestructura de TI y los sistemas de información de la empresa.
No vale la pena esperar que la copia de seguridad restablezca todos los datos y aumente rápidamente el servicio caído. La pérdida de datos desde el momento de la copia de seguridad hasta el momento de la falla está garantizada, y los datos en el nuevo servidor pueden cargarse durante varias horas (o días, según la suerte). Por lo tanto, tiene sentido crear sistemas tolerantes a fallas completos sin cambiar todo a copia de seguridad.
Mito 7. Configuré una copia de seguridad una vez, verifiqué que funciona. Solo queda mirar los registros
Este es uno de los mitos más dañinos, del cual solo te das cuenta durante el incidente. Los registros sobre copias de seguridad exitosas no son una garantía de que todo realmente salió como debería. Es importante verificar la copia almacenada de antemano para poder implementarla. Es decir, inicie el proceso de recuperación en un entorno de prueba y observe el resultado.
Y un poco sobre el trabajo del administrador del sistema
En modo manual, nadie ha estado copiando datos durante mucho tiempo. El SII moderno puede hacer una copia de seguridad de casi todo, solo necesita configurarlo correctamente. Si se ha agregado un nuevo servidor, registre las políticas: seleccione el contenido del que se realizará una copia de seguridad, especifique las opciones de almacenamiento y aplique la programación.

Al mismo tiempo, todavía hay mucho trabajo debido a la extensa flota de servidores, que incluye bases de datos, sistemas de correo, clústeres de máquinas virtuales y recursos de archivos en Windows y Linux / Unix. Los empleados que respaldan el sistema de respaldo no están inactivos.
¡En honor a las vacaciones, me gustaría desear a todos los administradores nervios fuertes, claridad de movimientos y espacio infinito para almacenar copias de seguridad!