Toute classification est arbitraire. La nature ne classe pas. Nous classons, car c'est plus pratique pour nous. Et nous classons selon les données, que nous prenons également arbitrairement.
—Jan Bruler
Quelle que soit la méthode de stockage physique, le stockage logique des données peut être divisé en 2 façons d'accéder à ces données: bloc et fichier. Cette division a récemment été très floue, car les stockages logiques purement blocs, comme purement les fichiers, n'existent pas. Cependant, pour simplifier, nous supposons qu'ils le sont.
Le stockage en bloc des données implique qu'il existe un périphérique physique où les données sont enregistrées dans certaines parties fixes, des blocs. L'accès aux blocs va à une certaine adresse, chaque bloc a sa propre adresse dans l'appareil.
Une sauvegarde se fait généralement en copiant des blocs de données. Pour garantir l'intégrité des données au moment de la copie, l'enregistrement des nouveaux blocs, ainsi que la modification des blocs existants, est suspendu. Si nous prenons une analogie avec le monde ordinaire, le placard le plus proche est avec les mêmes cellules numérotées.

Le stockage de fichiers de données par le principe d'un périphérique logique est proche du stockage en bloc et est souvent organisé en haut. Les différences importantes sont l'existence d'une hiérarchie de stockage et de noms lisibles par l'homme. L'abstraction est mise en évidence sous la forme d'un fichier - une zone de données nommée, ainsi que d'un répertoire - un fichier spécial dans lequel les descriptions et les accès à d'autres fichiers sont stockés. Les fichiers peuvent être fournis avec des métadonnées supplémentaires: heure de création, drapeaux d'accès, etc. Ils sauvegardent généralement de cette façon: ils recherchent les fichiers modifiés, puis les copient vers un autre stockage de fichiers avec la même structure. L'intégrité des données est généralement mise en œuvre par l'absence des fichiers sur lesquels l'écriture est effectuée. Les métadonnées des fichiers sont sauvegardées de la même manière. L'analogie la plus proche est la bibliothèque, qui a des sections avec différents livres, ainsi qu'un catalogue avec des noms de livres lisibles par l'homme.

Récemment, une autre option est parfois décrite, avec laquelle, en principe, le stockage de fichiers de données a commencé, et qui a les mêmes caractéristiques archaïques: le stockage de données d'objets.
Il diffère du stockage de fichiers en ce qu'il ne comporte pas plus d'une imbrication (disposition plate), et les noms de fichiers, bien que lisibles par l'homme, sont néanmoins plus adaptés au traitement par des machines. Lors de la sauvegarde, les magasins d'objets sont le plus souvent traités comme des stockages de fichiers, mais il existe parfois d'autres options.
- Il existe deux types d'administrateurs système, ceux qui ne font pas de sauvegardes et ceux qui le font déjà.
- En fait, il existe trois types: il y a aussi ceux qui vérifient que les sauvegardes peuvent être restaurées.
—Inconnu
Il est également utile de comprendre que le processus de sauvegarde des données est effectué par des programmes, il présente donc les mêmes inconvénients qu'un autre programme. Pour supprimer (pas exclure!) La dépendance à l'égard du facteur humain, ainsi que des caractéristiques - qui individuellement n'influencent pas fortement, mais peuvent ensemble donner un effet tangible - appliquent ce que l'on appelle règle 3-2-1. Il existe de nombreuses options pour le décrypter, mais je préfère l'interprétation suivante: vous devez stocker 3 ensembles des mêmes données, 2 ensembles doivent être stockés dans des formats différents et 1 ensemble doit être stocké dans un stockage géographiquement distant.
Le format de stockage doit être compris comme suit:
- S'il existe une dépendance à la méthode de stockage physique, nous changeons la méthode physique.
- S'il existe une dépendance à la méthode de stockage logique, nous changeons la méthode logique.
Pour obtenir l'effet maximal de la règle 3-2-1, il est recommandé de modifier le format de stockage dans les deux sens.
Du point de vue de la préparation de la sauvegarde à sa destination - restauration de l'opérabilité, il existe des sauvegardes «à chaud» et «à froid». Le chaud du froid ne diffère que par une chose: ils sont immédiatement prêts pour le travail, tandis que le froid pour la récupération nécessite des actions supplémentaires: déchiffrement, extraction de l'archive, etc.
Ne confondez pas les copies chaudes et froides avec les copies en ligne et hors ligne, ce qui implique l'isolement physique des données, et en fait, sont un autre signe de la classification des méthodes de sauvegarde. Ainsi, une copie hors ligne - non connectée directement au système où elle doit être restaurée - peut être à chaud ou à froid (en termes de préparation à la récupération). Une copie en ligne peut être disponible directement là où elle doit être restaurée, et le plus souvent elle est chaude, mais il y en a aussi des froides.
En outre, n'oubliez pas que le processus de création de sauvegardes ne se termine généralement pas par la création d'une seule sauvegarde et qu'il peut y avoir beaucoup de copies. Par conséquent, il est nécessaire de distinguer les sauvegardes complètes, c'est-à-dire celles qui sont récupérables indépendamment des autres sauvegardes, ainsi que les copies différentielles (incrémentielles, différentielles, décrémentielles, etc.) - celles qui ne peuvent pas être restaurées seules et nécessitent la restauration préalable d'une ou plusieurs autres sauvegardes.
Sauvegardes incrémentielles différentielles - une tentative d'économiser l'espace pour le stockage des sauvegardes. Ainsi, seules les données modifiées de la sauvegarde précédente sont écrites dans la sauvegarde.
Les décrémentiels de différence sont créés dans le même but, mais d'une manière légèrement différente: une sauvegarde complète est effectuée, mais seule la différence entre la nouvelle copie et la précédente est réellement stockée.
Séparément, il convient de considérer le processus de sauvegarde au-dessus du stockage, qui prend en charge l'absence de stockage en double. Ainsi, si vous écrivez des sauvegardes complètes par-dessus, en réalité, seule la différence entre les sauvegardes sera enregistrée, cependant, le processus de restauration des sauvegardes sera similaire à la restauration à partir d'une copie complète et complètement transparente.
Quis custodiet ipsos custodes?
(Qui gardera les gardiens eux-mêmes? - lat.)
C'est très désagréable quand il n'y a pas de sauvegarde, mais c'est bien pire si la sauvegarde semble être faite, mais pendant la restauration il s'avère qu'elle ne peut pas être restaurée, car:
- L'intégrité des données source a été violée.
- Le stockage de sauvegarde est corrompu.
- La récupération fonctionne très lentement, vous ne pouvez pas utiliser de données partiellement restaurées.
Un processus de sauvegarde correctement construit doit prendre en compte ces commentaires, en particulier les deux premiers.
L'intégrité des données source peut être garantie de plusieurs manières. Les plus couramment utilisés sont: a) la création d'instantanés du système de fichiers au niveau du bloc, b) le gel de l'état du système de fichiers, c) un périphérique de bloc spécial avec stockage de version, d) l'enregistrement séquentiel des fichiers ou des blocs. Les sommes de contrôle sont également utilisées pour assurer la vérification des données pendant la récupération.
Les dommages au stockage peuvent également être détectés à l'aide de sommes de contrôle. Une autre méthode consiste à utiliser des appareils ou des systèmes de fichiers spécialisés dans lesquels il est impossible de modifier des données déjà enregistrées, mais vous pouvez en ajouter de nouvelles.
Pour accélérer la récupération, la récupération de données est utilisée avec plusieurs processus de récupération - à condition qu'il n'y ait pas de «goulot d'étranglement» sous la forme d'un réseau lent ou d'un système de disque lent. Afin de contourner la situation avec des données partiellement restaurées, il est possible de diviser le processus de sauvegarde en sous-tâches relativement petites, chacune étant exécutée séparément. Ainsi, il devient possible de restaurer systématiquement les performances avec une prédiction du temps de récupération. Ce problème se situe le plus souvent dans le plan organisationnel (SLA), nous ne nous attarderons donc pas là-dessus en détail.
En sait beaucoup sur les épices non pas celui qui les ajoute à chaque plat, mais celui qui n'y ajoute jamais rien de superflu.
—B. Sinyavsky
La pratique concernant les logiciels utilisés par les administrateurs système peut varier, mais les principes généraux sont toujours les mêmes, d'une manière ou d'une autre, en particulier:
- Des solutions toutes faites sont fortement recommandées.
- Les programmes devraient fonctionner de manière prévisible, c'est-à-dire Il ne devrait pas y avoir de fonctionnalités ou de goulots d'étranglement non documentés.
- La configuration de chaque programme doit être suffisamment simple pour que vous n'ayez pas à lire le manuel ou le cheat sheet à chaque fois.
- La solution devrait être universelle, si possible. les serveurs dans leurs spécifications matérielles peuvent varier très, très.
Les programmes courants suivants sont disponibles pour supprimer les sauvegardes des périphériques de bloc:
- dd, familier aux vétérans de l'administration système, des programmes similaires s'appliquent également ici (le même dd_rescue, par exemple).
- Utilitaires (utilitaires) intégrés à certains systèmes de fichiers qui créent un vidage du système de fichiers.
- Utilitaires omnivores; par exemple, clone partiel.
- Décisions propres, souvent exclusives; par exemple NortonGhost et versions ultérieures.
Pour les systèmes de fichiers, la tâche de sauvegarde est partiellement résolue en utilisant des méthodes applicables aux périphériques de bloc, cependant, le problème peut être résolu plus efficacement, en utilisant, par exemple:
- Rsync, un programme et protocole universel pour synchroniser l'état des systèmes de fichiers.
- Outils d'archivage intégrés (ZFS).
- Outils d'archivage tiers; le représentant le plus populaire est le goudron. Il y en a d'autres, par exemple, le remplacement du goudron par un accent sur les systèmes modernes.
Séparément, il convient de mentionner le logiciel de cohérence des données lors de la création de sauvegardes. Les options les plus couramment utilisées sont:
- Montage du système de fichiers en mode lecture seule (ReadOnly) ou gel du système de fichiers (gel) - la méthode est limitée.
- Création d'instantanés de l'état d'un système de fichiers ou d'un périphérique de bloc (LVM, ZFS).
- L'utilisation d'outils tiers pour organiser les conversions, même dans les cas où les paragraphes précédents ne peuvent pas être fournis pour une raison quelconque (des programmes tels que la copie à chaud).
- La technique de copie sur modification (CopyOnWrite), cependant, elle est le plus souvent liée au FS utilisé (BTRFS, ZFS).