Qualquer classificação é arbitrária. A natureza não classifica. Nós classificamos, porque é mais conveniente para nós. E nós classificamos de acordo com os dados, que também usamos arbitrariamente.
- Jan Bruler
Independentemente do método de armazenamento físico, o armazenamento lógico de dados pode ser dividido em 2 maneiras de acessar esses dados: bloco e arquivo. Essa divisão foi recentemente muito embaçada, porque não existem armazenamentos lógicos puramente bloqueados, bem como puramente arquivados. No entanto, para simplificar, assumimos que são.
O armazenamento em bloco de dados implica que existe um dispositivo físico em que os dados são registrados em algumas partes fixas, blocos. O acesso aos blocos vai para um determinado endereço, cada bloco tem seu próprio endereço dentro do dispositivo.
Um backup geralmente é feito copiando blocos de dados. Para garantir a integridade dos dados no momento da cópia, a gravação de novos blocos, bem como a modificação dos existentes, é suspensa. Se fizermos uma analogia do mundo comum, o armário mais próximo é com as mesmas células numeradas.

O armazenamento de arquivos de dados pelo princípio de um dispositivo lógico está próximo do armazenamento em bloco e geralmente é organizado no topo. Diferenças importantes são a existência de uma hierarquia de armazenamento e nomes legíveis por humanos. A abstração é destacada na forma de um arquivo - uma área de dados nomeada, bem como um diretório - um arquivo especial no qual são armazenadas descrições e acessos a outros arquivos. Os arquivos podem ser fornecidos com metadados adicionais: hora da criação, sinalizadores de acesso etc. Eles geralmente fazem o backup dessa maneira: procuram os arquivos alterados e os copiam para outro armazenamento de arquivo com a mesma estrutura. A integridade dos dados geralmente é implementada pela ausência dos arquivos que estão sendo gravados. O backup dos metadados do arquivo é feito da mesma forma. A analogia mais próxima é a biblioteca, que possui seções com livros diferentes, além de um catálogo com nomes de livros legíveis por humanos.

Recentemente, às vezes é descrita outra opção, com a qual, em princípio, o armazenamento de dados de arquivos começou e que possui os mesmos recursos arcaicos: armazenamento de dados de objetos.
Difere do armazenamento de arquivos, pois não possui mais de um aninhamento (layout plano), e os nomes dos arquivos, embora legíveis por humanos, são, no entanto, mais adequados para processamento por máquinas. Ao fazer backup, os armazenamentos de objetos costumam ser tratados como armazenamento de arquivos, mas ocasionalmente existem outras opções.
- Existem dois tipos de administradores de sistema, aqueles que não fazem backups e aqueles que já fazem.
- Na verdade, existem três tipos: há também quem verifica se os backups podem ser restaurados.
Desconhecido
Também vale a pena entender que o processo de backup de dados é realizado por programas, portanto, apresenta as mesmas desvantagens de outro programa. Para remover (não excluir!) A dependência do fator humano, bem como dos recursos - que individualmente não influenciam fortemente, mas juntos podem dar um efeito tangível - aplique o chamado regra 3-2-1. Existem muitas opções para descriptografá-lo, mas eu prefiro a seguinte interpretação: você precisa armazenar 3 conjuntos dos mesmos dados, 2 conjuntos devem ser armazenados em diferentes formatos e 1 conjunto deve ser armazenado em um armazenamento geograficamente remoto.
O formato de armazenamento deve ser entendido da seguinte maneira:
- Se houver uma dependência do método de armazenamento físico, alteramos o método físico.
- Se houver uma dependência do método de armazenamento lógico, alteramos o método lógico.
Para alcançar o efeito máximo da regra 3-2-1, é recomendável alterar o formato de armazenamento de ambos os modos.
Do ponto de vista da prontidão do backup para a finalidade a que se destina - restauração da operabilidade, existem backups "quentes" e "frios". Quente do frio diferem apenas em uma coisa: eles estão imediatamente prontos para o trabalho, enquanto o frio da recuperação exige algumas ações adicionais: descriptografia, extração do arquivo morto etc.
Não confunda cópias quentes e frias com cópias online e offline, o que implica isolamento físico dos dados e, de fato, são outro sinal da classificação dos métodos de backup. Portanto, uma cópia offline - não conectada diretamente ao sistema em que precisa ser restaurada - pode ser quente ou fria (em termos de prontidão para recuperação). Uma cópia on-line pode estar disponível diretamente onde precisa ser restaurada e, na maioria das vezes, é quente, mas também há cópias frias.
Além disso, não esqueça que o processo de criação de backups geralmente não termina com a criação de um único backup, e pode haver muitas cópias. Portanto, é necessário distinguir entre backups completos, ou seja, aqueles que são recuperáveis independentemente de outros backups, bem como cópias diferenciais (incremental, diferencial, decremental etc.) - aqueles que não podem ser restaurados por si mesmos e exigem a restauração preliminar de um ou mais outros backups.
Backups incrementais diferenciais - uma tentativa de economizar a quantidade de espaço para armazenar backups. Portanto, apenas os dados modificados do backup anterior são gravados no backup.
Os decrementos de diferença são criados para o mesmo objetivo, mas de uma maneira um pouco diferente: é feito um backup completo, mas apenas a diferença entre a cópia nova e a cópia anterior é realmente armazenada.
Separadamente, vale a pena considerar o processo de backup sobre o armazenamento, que suporta a ausência de armazenamento duplicado. Portanto, se você escrever backups completos sobre ele, na realidade apenas a diferença entre os backups será registrada; no entanto, o processo de restauração de backups será semelhante ao de uma cópia completa e completamente transparente.
Quis custodiet ipsos custodes?
(Quem guardará os próprios vigias? - lat.)
É muito desagradável quando não há backups, mas é muito pior se o backup parece ter sido feito, mas durante a restauração acontece que não pode ser restaurado, porque:
- A integridade dos dados de origem foi violada.
- O armazenamento de backup está corrompido.
- A recuperação funciona muito lentamente, você não pode usar dados parcialmente restaurados.
Um processo de backup criado corretamente deve levar em conta esses comentários, especialmente os dois primeiros.
A integridade dos dados de origem pode ser garantida de várias maneiras. Os mais usados são: a) criação de instantâneos do sistema de arquivos no nível do bloco, b) congelamento do estado do sistema de arquivos, c) um dispositivo de bloco especial com armazenamento de versão, d) gravação seqüencial de arquivos ou blocos. As somas de verificação também são usadas para garantir a verificação dos dados durante a recuperação.
Os danos ao armazenamento também podem ser detectados usando somas de verificação. Um método adicional é o uso de dispositivos ou sistemas de arquivos especializados nos quais é impossível modificar dados já gravados, mas você pode adicionar novos.
Para acelerar a recuperação, a recuperação de dados é usada em vários processos de recuperação - desde que não haja "gargalo" na forma de uma rede lenta ou de um sistema de disco lento. Para contornar a situação com dados parcialmente restaurados, é possível dividir o processo de backup em subtarefas relativamente pequenas, cada uma das quais realizada separadamente. Assim, torna-se possível restaurar consistentemente o desempenho com previsão do tempo de recuperação. Esse problema geralmente está no plano organizacional (SLA); portanto, não vamos nos deter sobre isso em detalhes.
Sabe muito sobre especiarias, não quem as adiciona a cada prato, mas quem nunca acrescenta algo supérfluo.
-B. Sinyavsky
A prática em relação ao software usado pelos administradores de sistema pode variar, mas os princípios gerais ainda são os mesmos, de uma maneira ou de outra, em particular:
- Soluções prontas são altamente recomendadas.
- Os programas devem funcionar previsivelmente, ou seja, Não deve haver recursos ou gargalos não documentados.
- A configuração de cada programa deve ser simples o suficiente para que você não precise ler o manual ou as dicas sempre.
- A solução deve ser universal, se possível. servidores em suas especificações de hardware podem variar muito, muito.
Os seguintes programas comuns estão disponíveis para remover backups de dispositivos de bloco:
- dd, familiar aos veteranos em administração de sistemas, programas similares também se aplicam aqui (o mesmo dd_rescue, por exemplo).
- Utilitários (utilitários) integrados em alguns sistemas de arquivos que criam um dump do sistema de arquivos.
- Utilidades onívoras; por exemplo, partclone.
- Decisões próprias, geralmente proprietárias; por exemplo, NortonGhost e posterior.
Para sistemas de arquivos, a tarefa de backup é parcialmente resolvida usando os métodos aplicáveis aos dispositivos de bloco; no entanto, o problema pode ser resolvido com mais eficiência, usando, por exemplo:
- Rsync, um programa e protocolo universal para sincronizar o estado dos sistemas de arquivos.
- Ferramentas de arquivamento incorporadas (ZFS).
- Ferramentas de arquivamento de terceiros; o representante mais popular é o alcatrão. Há outros, por exemplo, que substituem o alcatrão pelo foco nos sistemas modernos.
Separadamente, vale a pena mencionar o software de consistência dos dados ao criar backups. As opções mais usadas são:
- Montando o sistema de arquivos no modo somente leitura (somente leitura) ou congelando o sistema de arquivos (congelar) - o método é limitado.
- Criando capturas instantâneas do estado de um sistema de arquivos ou dispositivo de bloco (LVM, ZFS).
- O uso de ferramentas de terceiros para organizar conversões, mesmo nos casos em que os parágrafos anteriores não podem ser fornecidos por qualquer motivo (programas como hotcopy).
- A técnica copy-on-change (CopyOnWrite), no entanto, é mais frequentemente associada ao FS usado (BTRFS, ZFS).