Aujourd'hui, dans l'infrastructure informatique, avec l'utilisation généralisée de la virtualisation, les systèmes de stockage sont au cœur du stockage de toutes les machines virtuelles. L'échec de ce nœud est capable d'arrêter complètement le travail du centre de données. Bien qu'une partie considérable de l'équipement serveur ait une tolérance aux pannes sous une forme ou une autre «par défaut», c'est précisément en raison du rôle particulier des systèmes de stockage au sein du centre de données qu'ils ont des exigences accrues en termes de «capacité de survie».

La méthode la plus efficace pour garantir la tolérance aux pannes en informatique est l'utilisation de plusieurs instances d'équipements et de logiciels (dans le cas le plus simple, la duplication). Bien sûr, le stockage peut être entièrement dupliqué. Et pour la reprise après sinistre, c'est exactement l'approche qui est utilisée. Mais toutes les entreprises ne peuvent pas se permettre une telle solution. Il ne s'agit pas seulement de doubler le coût des équipements, mais aussi des autres coûts d'organisation d'une telle solution et de son accompagnement.
Cependant, la possibilité de duplication des équipements n'élimine pas la nécessité d'assurer une tolérance aux pannes au niveau des composants. En particulier, la redondance est appliquée aux systèmes de stockage pour les alimentations, les modules de refroidissement, les disques et, bien sûr, les contrôleurs. Tout cela est depuis longtemps devenu monnaie courante. Il est difficile de trouver du stockage sans utiliser une conception similaire. Ici, Qsan ne fait pas exception. Mais nous voulons parler dans cet article de ce qui n'est pas immédiatement évident, et en même temps il vise principalement à augmenter la tolérance aux pannes du système dans son ensemble.
Modules de refroidissement
Très souvent dans les systèmes de stockage avec des boîtiers 2U-3U, des modules combinés sont utilisés qui combinent alimentations et ventilateurs. D'une part, c'est pratique car Une seule unité doit être réparée. En revanche, si le système de refroidissement tombe en panne, l'alimentation peut être coupée de force pour éviter une surchauffe. Et il semble que la situation la plus critique ne se produira pas, mais il ne vaut évidemment pas la peine d'ajouter des vulnérabilités de stockage.
Le refroidissement des systèmes de stockage Qsan est organisé sous la forme de modules séparés avec un remplacement "à chaud", indépendant des alimentations. En fait, les blocs d'alimentation ont leurs propres ventilateurs, conçus pour souffler le bloc d'alimentation lui-même. Le module de refroidissement accueille deux ventilateurs indépendants qui s'assurent mutuellement. Il existe deux modules de ce type dans le système de stockage: à droite et à gauche - pour une circulation d'air efficace de tous les composants. Si l'un des ventilateurs tombe en panne, tous les autres augmentent automatiquement leur vitesse afin de compenser le manque de flux d'air qui en résulte. C'est pourquoi un dysfonctionnement du ventilateur n'entraîne pas de risque de surchauffe de l'ensemble de l'appareil.
Topologie de connexion des étagères d'extension
Le schéma classique de connexion des étagères d'extension au stockage signifie une topologie appelée cascade. Dans ce cas, l'étagère et les contrôleurs de stockage correspondants sont interconnectés par un seul câble SAS. Au total, 2 câbles pour un système à double contrôleur sont obtenus. Si vous souhaitez connecter la seconde, elle est connectée de la même manière à la première étagère. Et ainsi de suite. L'avantage de cette topologie est la facilité de mise en œuvre dans les équipements. Et le moins sera une vulnérabilité à une rupture soudaine du circuit SAS en raison de la défaillance croisée des contrôleurs de stockage et des étagères non connectés ou en raison d'une panne de courant d'une des étagères d'extension au milieu de la chaîne. Il en résultera une perte d'accès à une partie des disques et un éventuel effondrement du groupe RAID s'il est «réparti» sur plusieurs cas.
En cas de défaillance de plusieurs contrôleurs, Qsan bénéficie d'une protection sous la forme d'une communication logique interne entre les contrôleurs via le fond de panier de stockage. C'est-à-dire le contrôleur de stockage voit non seulement le contrôleur JBOD qui lui est directement connecté, mais également le contrôleur «voisin» via une liaison spéciale dans le fond de panier. Par conséquent, si une telle situation se produit et que personne ne tire physiquement les câbles SAS entre le système de stockage et l'étagère, l'accès à tous les lecteurs sera préservé.
Pour protéger le circuit SAS contre les ruptures, par exemple, en raison de la mise hors tension de l'étagère d'extension, une topologie de connexion différente est généralement utilisée - la cascade inverse. Dans ce cas, le système de stockage est connecté immédiatement à la première et à la dernière étagère de la chaîne, accédant aux disques des deux côtés.
Si vous souhaitez une protection renforcée, vous pouvez créer des configurations à plus grande échelle, en utilisant, par exemple, la topologie de l'arborescence. Ou bien compliquez-vous en combinant les topologies mentionnées. Cela est possible en raison du grand nombre de connecteurs SAS sur les périphériques (2 pour chaque contrôleur de stockage et 5 pour chaque contrôleur JBOD) avec détection automatique des modes de fonctionnement d'entrée / sortie. L'essentiel est que l'administrateur lui-même ne soit pas confus. Et le système de stockage pourra configurer correctement la configuration.
Reconstruction rapide
La disponibilité de disques de rechange à chaud dans le système augmente considérablement la fiabilité du stockage des informations. Cependant, le simple fait que ces disques soient alloués ne signifie pas une protection absolue. Le fait est que le processus de récupération (reconstruction) est assez long et souvent long. La complexité provient de l'accès continu aux données de base. C'est-à-dire le système, ainsi que le travail en cours, doit également copier les données sur un nouveau disque. Et la durée de la reconstruction dépend directement de la capacité du variateur et de ses caractéristiques de vitesse. Étant donné que le système ne sait rien de l'espace disque réellement occupé, il est tout simplement en train de le reconstruire: bloc par bloc.
En conséquence, la restauration d'un disque moderne haute capacité de 10 + To avec une charge sérieuse sur les systèmes de stockage peut facilement prendre une semaine ou plus. Vous devez également garder à l'esprit le fait que lors de la reconstruction, la probabilité de défaillance d'autres disques augmente considérablement en raison de la charge accrue sur eux. Et cela peut déjà représenter un grave danger dans le cas de l'utilisation, par exemple, du RAID5.
Pour résoudre ce problème, de nombreux développeurs de stockage souhaitent accélérer le processus de récupération. Différentes approches peuvent être utilisées pour cela, mais l'essence est la même: copier uniquement les blocs réellement occupés pendant la reconstruction. Qsan ne s'est pas écarté de ce problème. Dans le système de stockage de ce fournisseur, lorsque l'option Fast Rebuild est activée, le système conserve la trace des blocs utilisés pour l'enregistrement, ce qui permet de les copier uniquement sur un nouveau lecteur en cas de défaillance du disque.
L'option de reconstruction rapide n'est pas activée par défaut lors de la création de nouveaux volumes, car son utilisation a un impact sur les performances, notamment avec les opérations d'écriture aléatoire, car:
- Il est nécessaire de suivre les enregistrements par blocs;
- Lors de la reconstruction, les sommes de contrôle ne sont pas recalculées pour l'espace non alloué. Par conséquent, lorsqu'une nouvelle entrée est effectuée dans cette zone, vous devez d'abord «l'initialiser».
Par conséquent, il n'est pas recommandé d'utiliser Fast Rebuild pour les volumes, par exemple, avec des bases de données très chargées ou dans des systèmes de vidéosurveillance, où le volume sera toujours à 100% plein. Mais pour les serveurs de fichiers ou de messagerie, cette option sera tout simplement très utile.
Au lieu d'une conclusion
Chaque fabricant de stockage implique que ses appareils sont fiables. Et s'il n'y a pas d'erreurs de calcul fatales dans le développement des appareils et une incroyable soif d'économies dans le processus de production et de test, alors en général, nous pouvons être d'accord avec le fournisseur. Cependant, vous devez comprendre:
- la tolérance aux pannes de base des systèmes de stockage est avant tout un moyen de continuer à avoir accès aux données en cas de défaillance d'un ou de plusieurs composants;
- les options supplémentaires concernant la tolérance aux pannes (telles que celles décrites ci-dessus) sont l'élimination de certains types de dysfonctionnements et l'augmentation de vos chances d'avoir accès aux données;
- La fiabilité à 100%, hélas, ne se produit pas. Mais, pour s'en rapprocher le plus possible, la plupart des fournisseurs de stockage sensés (et Qsan parmi eux) mettent tout en œuvre pour améliorer continuellement leurs produits tant au niveau matériel que logiciel.
Dans le même temps, il ne faut pas oublier qu'aucune fiabilité absolue des systèmes de stockage n'annule la disponibilité des copies de sauvegarde, des plans de récupération clairs et répétés en cas d'accident et un support technique opérationnel pour le vendeur.