La majorité des systèmes de stockage disponibles sur le marché ne sont pas très différents les uns des autres, car de nombreux fournisseurs commandent des équipements auprès des mêmes fabricants d'ODM. Nous avons presque tout ce qui nous est propre, du châssis aux contrôleurs, en passant par les technologies telles que RAID 2.0+ et les logiciels.

Sous la coupe, il y a quelques détails sur ce qui pourrait être si inhabituel dans chacun des nœuds du système de stockage de données.
Ce qui est intéressant au niveau du module
Structurellement, tous les systèmes de stockage modernes de n'importe quel fabricant se ressemblent: les contrôleurs sont installés à l'avant du châssis du boîtier en acier et les modules d'interface à l'arrière. Il y a aussi des alimentations et une ventilation. Il semblerait que tout soit familier et standard. Mais en fait, nous avons introduit beaucoup de choses intéressantes dans ce paradigme.

Commençons par monter les éléments du système de stockage dans le châssis. Il y a moins de lecteurs magnétiques de 3,5 pouces dans le système de stockage; les systèmes hybrides et tout flash commencent à dominer. Mais même plusieurs disques durs avec une vitesse de rotation pouvant atteindre 15 000 tours par minute créent une vibration qui ne peut être ignorée. Nous avons développé un ensemble de recommandations pour ce cas - comment répartir les lecteurs magnétiques avec différents paramètres entre les étagères de disques.
Même à une fraction de pour cent, mais cela affecte la fiabilité. Et à l'échelle d'un grand centre de données, les pourcentages par lecteur se transforment en indicateurs tangibles de pannes et de dysfonctionnements. Pour garantir que les vibrations des disques individuels soient moins transmises à travers la structure rigide du châssis, nous équipons les disques sous les disques d'amortisseurs en caoutchouc ou en métal. Pour neutraliser une autre source de vibration dans le système de stockage - les modules de ventilation - nous mettons des ventilateurs bidirectionnels et isolons tous les éléments rotatifs du châssis.
Pour les entraînements de broche, un tremblement minimal est déjà un problème: les têtes commencent à s'égarer, les performances chutent considérablement. Les SSD sont une autre affaire, ils n'ont pas peur des vibrations. Mais la fixation sécurisée des composants est toujours importante. Prenez le processus de livraison: la boîte peut être lâchée ou jetée avec désinvolture, mise de côté ou à l'envers. Par conséquent, nous avons tous les composants du système de stockage qui sont fixés strictement en trois dimensions. Cela élimine la possibilité de leur déplacement pendant le transport, protège les connecteurs de sauter hors des prises en cas de choc accidentel.

Il était une fois, nous avons commencé avec le développement de la technologie informatique pour l'industrie des télécommunications, où les normes d'opérabilité en température et en humidité sont traditionnellement élevées. Et nous les avons déplacés dans d'autres directions: les parties métalliques des systèmes de stockage ne s'oxydent pas même à une humidité élevée - en raison de l'utilisation du nickelage et de la galvanisation.
La conception thermique de nos systèmes de stockage a été développée en mettant l'accent sur la distribution uniforme de la température à travers le châssis - pour éviter une surchauffe ou un refroidissement trop important de n'importe quel coin de l'étagère à disques. Sinon, la déformation physique ne peut pas être évitée - même si elle est insignifiante, mais viole toujours la géométrie et peut raccourcir la durée de vie de l'équipement. Ainsi, certaines fractions d'un pour cent sont gagnées, mais cela affecte toujours la fiabilité globale du système.
Les subtilités des semi-conducteurs
Nous dupliquons les composants importants des systèmes de stockage: en cas de défaillance, il existe toujours un filet de sécurité. Par exemple, les modules de puissance pour les modèles plus jeunes fonctionnent selon le schéma 1 + 1, pour les plus solides - 2 + 1 et même 3 + 1.

Les contrôleurs, dont il y a au moins deux dans le système de stockage (nous ne fournissons pas de systèmes à contrôleur unique) sont également réservés. Dans le système de stockage de la série 6800e et plus ancienne, la redondance est effectuée selon le schéma 3 + 1, dans les modèles plus jeunes - 1 + 1.
Même une carte de gestion est réservée, ce qui n'affecte pas directement le fonctionnement du système, mais n'est nécessaire que pour les changements de configuration et la surveillance. De plus, toutes les cartes d'extension d'interface pour les systèmes de stockage sont vendues par paires uniquement, de sorte que le client dispose d'une réserve.
Tous les composants - blocs d'alimentation, ventilateurs, contrôleurs, modules de gestion, etc. - équipé de microcontrôleurs capables de répondre à certaines situations. Par exemple, si le ventilateur commence à ralentir de lui-même, une alarme est envoyée au module de contrôle. En conséquence, le client a une image complète de l'état du système de stockage - et, si nécessaire, peut remplacer certains composants par lui-même, sans attendre l'arrivée de notre ingénieur de service. Et si la politique de sécurité du client le permet, nous configurons les contrôleurs afin qu'ils transmettent des informations sur l'état du fer à repasser à notre support technique.
Ses puces sont meilleures et plus compréhensibles.
Nous sommes la seule entreprise à développer ses propres processeurs, puces et contrôleurs de disques SSD pour ses systèmes de stockage.

Ainsi, dans certains modèles en tant que processeur principal du système de stockage (puce de contrôleur de stockage), nous n'utilisons pas le classique Intel x86, mais le processeur ARM de HiSilicon, notre filiale. Le fait est que l'architecture ARM en stockage - pour calculer le même RAID et la même déduplication - se montre mieux que le x86 standard.
Notre fierté particulière est les puces pour les contrôleurs SSD. Et si nos serveurs peuvent être équipés de disques semi-conducteurs tiers (Intel, Samsung, Toshiba, etc.), dans les systèmes de stockage de données, nous installons uniquement des SSD de notre propre conception.

Le microcontrôleur du module d'entrée-sortie (puce d'E / S intelligente) dans les systèmes de stockage est également un développement HiSilicon, ainsi que la puce de gestion intelligente pour la gestion du stockage à distance. L'utilisation de nos propres puces nous aide à mieux comprendre ce qui se passe à chaque instant dans le temps avec chaque cellule de mémoire. C'est ce qui nous a permis de minimiser les retards lors de l'accès aux données dans les mêmes systèmes de stockage Dorado.

Pour les disques magnétiques, la surveillance continue est extrêmement importante en termes de fiabilité. Nos systèmes de stockage prennent en charge le DHA (Disk Health Analyzer): le disque lui-même enregistre en continu ce qui lui arrive, comment il se sent. Grâce à l'accumulation de statistiques et à la construction de modèles prédictifs intelligents, il est possible de prédire la transition du lecteur vers un état critique en 2-3 mois, et non en 5-10 jours. Le disque est toujours «actif», les données qu'il contient sont totalement sécurisées - mais le client est prêt à le remplacer dès les premiers signes d'une éventuelle défaillance.
RAID 2.0+
Conception à sécurité intégrée dans les systèmes de stockage, nous avons pensé au niveau du système. Notre technologie Smart Matrix est un complément au dessus de PCIe - ce bus, sur la base duquel les connexions intercontrôleurs sont implémentées, est particulièrement adapté aux SSD.

Smart Matrix fournit, en particulier, le maillage complet à 4 contrôleurs de notre stockage Ocean Store 6800 v5. Afin que chaque contrôleur ait accès à tous les disques du système, nous avons développé un backend SAS spécial. Le cache, bien sûr, est mis en miroir entre tous les contrôleurs actuellement actifs.

Lorsque le contrôleur tombe en panne, les services de celui-ci basculent rapidement vers le contrôleur miroir et les contrôleurs restants restaurent la relation pour se refléter. Dans le même temps, les données enregistrées dans le cache ont une réserve de miroir pour garantir la fiabilité du système.

Le système résiste à la défaillance de trois contrôleurs. Comme le montre la figure, si le contrôle A échoue, les données de cache du contrôleur B sélectionneront le contrôleur C ou D pour refléter le cache. En cas de défaillance du contrôleur D, les contrôleurs B et C reflètent le cache.

Le système de distribution de données RAID 2.0 est la norme pour nos systèmes de stockage: la virtualisation au niveau du disque a longtemps remplacé la copie artificielle bloc par bloc de contenu d'un support à un autre. Tous les disques sont regroupés en blocs, ils sont combinés en plus grands conglomérats d'une structure à deux niveaux, et déjà au-dessus de son niveau supérieur se trouvent les volumes logiques qui composent les matrices RAID.

Le principal avantage de cette approche est le temps de reconstruction réduit de la baie. De plus, en cas de défaillance d'un disque, la reconstruction est effectuée non pas sur le disque «hot spare» qui a été maintenu pendant tout ce temps, mais sur l'espace libre de tous les disques utilisés. La figure ci-dessous montre neuf disques durs RAID5 à titre d'exemple. Lorsque le disque dur 1 tombe en panne, les données CKG0 et CKG1 sont corrompues. Le système sélectionne CK pour la reconstruction au hasard.

La vitesse de récupération RAID normale est de 30 Mo / s, il faut donc 10 heures pour récupérer 1 To de données. RAID 2.0+ réduit ce temps à 30 minutes.

Nos développeurs ont réussi à obtenir une répartition uniforme de la charge entre tous les lecteurs de broche et les SSD du système. Cela vous permet de libérer le potentiel des systèmes de stockage hybrides bien mieux que l'utilisation habituelle de disques SSD comme cache.

Dans les systèmes de la classe Dorado, nous avons implémenté le soi-disant RAID-TP, un tableau à triple parité. Un tel système continuera de fonctionner pendant que trois disques tombent en panne. Cela augmente la fiabilité par rapport au RAID 6 de deux ordres décimaux, avec le RAID 5 de trois.

Nous recommandons RAID-TP pour les données particulièrement critiques, d'autant plus qu'en raison du RAID 2.0 et des lecteurs flash haute vitesse, cela n'a pas d'impact significatif sur les performances. Vous avez juste besoin de plus d'espace libre pour réserver.

En règle générale, les systèmes 100% flash sont utilisés pour les SGBD avec de petits blocs de données et des IOPS élevés. Ce dernier n'est pas très bon pour les SSD: les cellules de mémoire NAND manquent rapidement de puissance. Dans notre implémentation, le système collecte d'abord un bloc de données relativement important dans le cache du lecteur, puis l'écrit complètement dans les cellules. Cela vous permet de réduire la charge sur les disques, ainsi que dans un mode plus économe, de "garbage collection" et de libérer de l'espace sur le SSD.
Six neuf

Ce qui précède nous permet de parler de la tolérance aux pannes de nos systèmes au niveau de la solution entière. La validation est implémentée au niveau de l'application (par exemple, Oracle DBMS), du système d'exploitation, de l'adaptateur, du stockage, etc. jusqu'au disque. Cette approche garantit que le bloc de données provenant des ports externes sera écrit sur les disques internes du système sans aucun dommage ni perte. Cela implique un niveau d'entreprise.

Pour un stockage, une protection et une récupération fiables des données, ainsi qu'un accès rapide à celles-ci, nous avons développé un certain nombre de technologies propriétaires.

HyperMetro est probablement le développement le plus intéressant de l'année et demie écoulée. Une solution clé en main basée sur nos systèmes de stockage pour la construction d'un cluster de métro à sécurité intégrée est en cours de mise en œuvre au niveau du contrôleur; elle ne nécessite aucune passerelle ou serveur supplémentaire, à l'exception de l'arbitre. Il est implémenté simplement par une licence: deux systèmes de stockage Huawei plus une licence - et cela fonctionne.

La technologie HyperSnap offre une protection continue des données sans perte de performances. Le système prend en charge RoW. Pour éviter à tout moment la perte de données sur le stockage, de nombreuses technologies sont utilisées: divers snapshots, clones, copies.

Sur la base de nos systèmes de stockage, au moins quatre solutions de reprise après sinistre ont été développées et testées dans la pratique.

Nous avons également une solution pour trois centres de données 3DC Ring DR Solution: deux centres de données dans le cluster et le troisième est en cours de réplication. Nous pouvons organiser la réplication ou la migration asynchrone à partir de baies tierces. Il existe une licence de virtualisation intelligente, vous pouvez donc utiliser des volumes de la plupart des baies standard avec accès FC: Hitachi, DELL EMC, HPE, etc. La solution est vraiment élaborée, il existe des analogues sur le marché, mais ils coûtent plus cher. Il existe des exemples d'utilisation en Russie.
Par conséquent, au niveau de l'ensemble de la solution, vous pouvez obtenir la fiabilité de six neuf, et au niveau du stockage local - cinq neuf. En général, nous avons essayé.
Publié par Vladimir Svinarenko, directeur principal des solutions informatiques, Huawei Enterprise en Russie