Présentation
Il est temps d'acheter du stockage. Lequel prendre, qui écouter? Le fournisseur A parle du fournisseur B, et il y a aussi un intégrateur C qui parle le contraire et conseille le fournisseur D.Dans cette situation, un architecte de stockage expérimenté fera également le tour, en particulier avec tous les nouveaux fournisseurs et les SDS et l'hyper-convergence d'aujourd'hui.
Alors, comment pouvez-vous comprendre cela et ne pas être stupide? Nous (
AntonVirtual Anton Zhbankov et
korp Evgeny Elizarov) allons essayer de raconter cela en russe en blanc.
L'article a beaucoup de points communs et constitue en fait une extension de la «
conception d'un centre de données virtualisé » en termes de choix de systèmes de stockage de données et un aperçu de la technologie de stockage. Nous considérons brièvement la théorie générale, mais nous vous recommandons de vous familiariser avec cet article.
Pourquoi
Souvent, vous pouvez observer la situation lorsqu'une nouvelle personne vient sur un forum ou dans une salle de discussion spécialisée, comme les discussions sur le stockage et pose la question: «ici, on me propose deux options de stockage - ABC SuperStorage S600 et XYZ HyperOcean 666v4, que recommandez-vous?»
Et quelqu'un commence à mesurer quelles caractéristiques de la mise en œuvre de puces effrayantes et incompréhensibles, qui pour une personne non préparée, est une lettre chinoise du tout.
Donc, la première et principale question que vous devez vous poser bien avant de comparer les spécifications des offres commerciales est POURQUOI? Pourquoi ce stockage est-il nécessaire?

La réponse sera inattendue, et très dans le style de Tony Robbins - pour stocker des données. Merci capitaine! Néanmoins, parfois nous allons si loin dans la comparaison des détails que nous oublions pourquoi nous faisons tout cela.
Ainsi, la tâche d'un système de stockage de données est de stocker et de donner accès à DATA avec une performance donnée. Nous allons commencer par les données.
Les données
Type de données
Quel type de données prévoyons-nous de stocker? Un problème très important qui peut supprimer de nombreux systèmes de stockage, même après examen. Par exemple, il est prévu de stocker des vidéos et des photos. Vous pouvez supprimer immédiatement les systèmes conçus pour un accès aléatoire par un petit bloc, ou les systèmes avec des puces propriétaires en compression / déduplication. Il peut s'agir simplement d'excellents systèmes, nous ne voulons rien dire de mal. Mais dans ce cas, leurs forces s'affaibliront au contraire (les vidéos et les photos ne sont pas compressées) ou augmenteront simplement de manière significative le coût du système.
Inversement, si l'utilisation prévue est un SGBD transactionnel chargé, alors d'excellents systèmes de streaming multimédia capables de fournir des gigaoctets par seconde seraient un mauvais choix.
Volume de données
Combien de données prévoyons-nous de stocker? La quantité grandit toujours en qualité, cela ne doit jamais être oublié, surtout à notre époque de croissance exponentielle du volume de données. Les systèmes de classe de pétaoctets ne sont plus rares, mais plus le volume de pétaoctets est élevé, plus le système devient spécifique, moins les fonctionnalités des systèmes à accès aléatoire de petits et moyens volumes sont familières. Trite parce que seules les tables de statistiques d'accès par blocs deviennent plus grandes que la RAM disponible sur les contrôleurs. Sans parler de la compression / déchirure. Supposons que nous voulions basculer l'algorithme de compression vers un algorithme plus puissant et extraire 20 pétaoctets de données. Combien de temps cela prendra-t-il: six mois, un an?
D'un autre côté, pourquoi s'embêter avec un jardin si vous devez stocker et traiter 500 Go de données? Seulement 500. Les SSD domestiques (DWPD bas) de cette taille ne coûtent rien du tout. Pourquoi construire une usine Fibre Channel et acheter un système de stockage externe haut de gamme avec le coût d'un pont en fonte?
Quel pourcentage du total des données chaudes? À quel point la charge des données est-elle inégale? C'est là que la technologie de stockage hiérarchisé ou Flash Cache peut vraiment aider si la quantité de données chaudes est insuffisante par rapport au total. Ou vice versa, avec une charge uniforme sur l'ensemble du volume, que l'on trouve souvent dans les systèmes de streaming (vidéosurveillance, certains systèmes d'analyse), ces technologies ne produiront rien et ne feront qu'augmenter le coût / la complexité du système.
IP
Le verso des données est un système d'information qui utilise ces données. IP a un ensemble d'exigences qui héritent des données. Pour plus d'informations sur IP, voir «Conception d'un centre de données virtualisé».
Conditions de basculement / disponibilité
Les exigences de tolérance aux pannes / disponibilité des données sont héritées du SI qui les utilise et sont exprimées en trois nombres -
RPO ,
RTO ,
disponibilité .
Disponibilité - une part pendant une période donnée pendant laquelle les données sont disponibles pour travailler avec elles. Il est généralement exprimé au nombre de 9. Par exemple, deux neuf par an signifie que la disponibilité est de 99%, ou 95 heures d'inaccessibilité par an sont autrement autorisées. Trois neuf - 9,5 heures par an.
RPO / RTO - ce ne sont pas des indicateurs résumés, mais pour chaque incident (accident), par opposition à la disponibilité.
RPO - la quantité de données perdues pendant l'accident (en heures). Par exemple, si vous sauvegardez une fois par jour, alors RPO = 24 heures. C'est-à-dire En cas d'accident et de perte totale de stockage, des données pouvant aller jusqu'à 24 heures peuvent être perdues (à partir du moment de la sauvegarde). Sur la base du RPO spécifié pour le SI, par exemple, la planification de sauvegarde est écrite. En outre, sur la base du RPO, vous pouvez comprendre la quantité de réplication de données synchrone / asynchrone nécessaire.
RTO - heure de récupération du service (accès aux données) après un accident. Sur la base de la valeur RTO définie, nous pouvons comprendre si un cluster métropolitain est nécessaire ou si la réplication unidirectionnelle est suffisante. Ai-je aussi besoin d'une classe de stockage haut de gamme à plusieurs contrôleurs?

Exigences de performance
Bien qu'il s'agisse d'une question très évidente, la plupart des difficultés se posent avec. Selon que vous disposez déjà d'une infrastructure ou non, des moyens de collecter les statistiques nécessaires seront élaborés.
Vous avez déjà un système de stockage et vous cherchez un remplacement pour celui-ci ou vous souhaitez en acheter un autre pour l'expansion. Ici, tout est simple. Vous comprenez quels services vous avez déjà et lesquels vous prévoyez de mettre en œuvre dans un proche avenir. Sur la base des services actuels, vous avez la possibilité de collecter des statistiques de performances. Décidez du nombre actuel d'IOPS et des retards actuels - quels sont ces indicateurs et sont-ils suffisants pour vos tâches? Cela peut être fait à la fois sur le système de stockage de données lui-même et sur la partie des hôtes qui y sont connectés.
De plus, vous devez surveiller non seulement la charge actuelle, mais pendant une certaine période (un mois, c'est mieux). Voir quels sont les pics maximaux dans la journée, quel type de charge crée la sauvegarde, etc. Si votre stockage ou logiciel ne vous donne pas un ensemble complet de ces données, vous pouvez utiliser le RRDtool gratuit, qui peut fonctionner avec la plupart des commutateurs et du stockage les plus populaires et peut vous fournir des statistiques de performances détaillées. Il convient également de regarder la charge sur les hôtes qui fonctionnent avec ce système de stockage, sur des machines virtuelles spécifiques, ou ce qui fonctionne exactement pour vous sur cet hôte.

Il convient de noter séparément que si les retards sur le volume et la banque de données qui se trouve sur ce volume diffèrent beaucoup - vous devez faire attention à votre réseau SAN, il est probable qu'il y ait des problèmes avec celui-ci et avant d'acquérir un nouveau système, vous devez traiter ce problème , car la probabilité d'augmenter les performances du système actuel est très élevée.
Vous construisez l'infrastructure à partir de zéro, ou achetez un système pour une sorte de nouveau service, dont vous n'êtes pas au courant des charges. Il existe plusieurs options: communiquer avec des collègues sur des ressources spécialisées afin d'essayer de connaître et de prévoir la charge, contacter un intégrateur qui a de l'expérience dans la mise en œuvre de tels services et qui peut calculer la charge pour vous. Et la troisième option (généralement la plus difficile, surtout en ce qui concerne les applications auto-écrites ou rares) est d'essayer de connaître les exigences de performance des développeurs de systèmes.
Et, attention, l'option la plus correcte du point de vue de l'application pratique est un pilote sur l'équipement actuel, ou un équipement fourni pour les tests par un fournisseur / intégrateur.
Exigences particulières
Exigences particulières - tout ce qui ne relève pas des exigences de performances, de tolérance aux pannes et de fonctionnalité pour le traitement direct et la fourniture de données.
L'une des exigences spéciales les plus simples pour un système de stockage de données est un «support de stockage aliéné». Et immédiatement, il devient clair que ce système de stockage de données doit inclure une bibliothèque de bandes ou simplement un lecteur de bande, sur lequel la sauvegarde est réinitialisée. Une personne spécialement formée signe ensuite la bande et la transporte fièrement dans un coffre-fort spécial.
Un autre exemple d'exigences particulières est une performance antichoc protégée.
O Where
Le deuxième élément principal dans le choix de l'un ou l'autre système de stockage est l'information sur OERE sera ce système de stockage. Partant de la géographie ou des conditions climatiques et se terminant par le personnel.
Client
Pour qui ce stockage est-il prévu? La question a les raisons suivantes:
Client gouvernemental / commercial.Un client commercial n'a pas de restrictions et n'est même pas obligé de procéder à des appels d'offres, sauf conformément à son propre règlement intérieur.
Le client d'État est une autre affaire. 44 Loi fédérale et autres délices des offres et des savoirs traditionnels, qui peuvent être contestés.
Client sanctionnéEh bien, ici la question est très simple - le choix n'est limité que par les offres disponibles pour ce client.
Règlements internes / fournisseurs agréés / modèlesLa question est également extrêmement simple, mais nous devons nous en souvenir.
Où physiquement
Dans cette partie, nous examinons tous les problèmes liés à la géographie, aux canaux de communication et au climat intérieur.
Le personnel
Qui travaillera avec ce stockage? Ceci n'est pas moins important que ce que SHD peut faire directement.
Peu importe à quel point le système de stockage est prometteur, cool et merveilleux du fournisseur A, il est probablement inutile de le dire si le personnel ne peut travailler qu'avec le fournisseur B, et il n'est pas prévu d'achats supplémentaires et de coopération continue avec A.
Et bien sûr, le revers de la question est de savoir dans quelle mesure le personnel qualifié est directement accessible dans l'entreprise et potentiellement sur le marché du travail dans cette zone géographique. Pour les régions, le choix de systèmes de stockage avec des interfaces simples ou la possibilité d'une gestion centralisée à distance peut être significatif. Sinon, à un moment donné, cela peut devenir douloureusement douloureux. L’Internet regorge d’histoires alors qu’un nouvel employé, l’étudiant d’hier, a proposé une configuration pour que l’ensemble du bureau soit tué.

L'environnement
Bien sûr, une question importante est de savoir dans quel environnement ce stockage fonctionnera.
- Et l'alimentation / le refroidissement?
- Quelle connexion
- Où sera-t-il monté
- Et ainsi de suite.
Souvent, ces questions sont tenues pour acquises et ne sont pas particulièrement abordées, mais parfois elles peuvent tout inverser exactement le contraire.
Quoi
Vendeur
Aujourd'hui (mi-2019), le marché russe du stockage peut être divisé en 5 catégories conditionnelles:
- Division supérieure - sociétés honorées avec une large gamme allant des étagères de disques les plus simples aux systèmes haut de gamme (HPE, DellEMC, Hitachi, NetApp, IBM / Lenovo)
- La deuxième division - les entreprises avec une gamme limitée, les acteurs de niche, les fournisseurs de SDS sérieux ou les nouveaux arrivants (Fujitsu, Datacore, Infinidat, Huawei, Pure, etc.)
- La troisième division - des solutions de niche au rang des SDS bas de gamme et bon marché, les bonnes pratiques sur le ceph et d'autres projets ouverts (Infortrend, Starwind, etc.)
- Segment SOHO - systèmes de stockage petits et ultra-petits au niveau de la maison / du petit bureau (Synology, QNAP, etc.)
- Systèmes de stockage remplacés par l'importation - cela comprend à la fois le fer de la première division avec des étiquettes collées et les rares représentants de la seconde (RAIDIX, donnons-leur une avance dans la seconde), mais c'est principalement la troisième division (Aerodisk, Baum, Depo, etc.)
La division est plutôt arbitraire et ne signifie pas du tout que le troisième segment ou SOHO est mauvais et ne peut pas être utilisé. Dans des projets spécifiques avec un ensemble de données et un profil de charge clairement définis, ils peuvent très bien fonctionner, dépassant de loin la première division en termes de rapport qualité / prix. Il est important de décider d'abord des tâches, des perspectives de croissance, des fonctionnalités requises - puis Synology vous servira fidèlement et vos cheveux deviendront doux et soyeux.
L'un des facteurs importants lors du choix d'un fournisseur est l'environnement actuel. Combien et quels systèmes de stockage possédez-vous déjà, avec quels systèmes de stockage les ingénieurs peuvent-ils travailler? Avez-vous besoin d'un autre fournisseur, d'un autre point de contact, allez-vous migrer progressivement toute la charge du fournisseur A vers le fournisseur B?
Il n'est pas nécessaire de produire des entités au-delà de ce qui est nécessaire.
iSCSI / FC / File
Sur la question des protocoles d'accès, il n'y a pas de consensus parmi les ingénieurs, et les disputes ressemblent plus à des discussions théologiques qu'à des discussions d'ingénierie. Mais en général, les points suivants peuvent être notés:
Le FCoE est plus probablement mort que vivant.
FC vs iSCSI . L'un des principaux avantages du FC en 2019 sur le stockage IP, une usine dédiée à l'accès aux données, est nivelé par un réseau IP dédié. FC n'a aucun avantage global sur les réseaux IP et IP peut être utilisé pour construire des systèmes de stockage de n'importe quel niveau de charge, jusqu'aux systèmes de SGBD lourds pour ABS d'une grande banque. D'un autre côté, la mort du FC n'a pas été prophétisée pour la première année, mais quelque chose interfère constamment avec cela. Aujourd'hui, par exemple, certains acteurs du marché du stockage développent activement la norme NVMEoF. S'il partage le sort de FCoE - le temps nous le dira.
L'accès aux fichiers n'est pas non plus digne d'attention. NFS / CIFS fonctionnent bien dans des environnements productifs et, lorsqu'ils sont correctement conçus, n'ont pas plus de plaintes que les protocoles de blocage.
Tableau hybride / tout flash
Les systèmes de stockage classiques sont disponibles en 2 types:
- AFA (All Flash Array) - systèmes optimisés pour l'utilisation de SSD.
- Hybride - vous permettant d'utiliser à la fois le disque dur et le SSD, ou une combinaison des deux.
Leur principale différence réside dans les technologies d'efficacité de stockage prises en charge et le niveau de performances maximal (IOPS élevé et latences faibles). Ces systèmes et d'autres (dans la plupart de leurs modèles, sans compter le segment bas de gamme) peuvent faire fonctionner à la fois des périphériques de bloc et des périphériques de fichiers. Les fonctionnalités prises en charge et les modèles plus jeunes dépendent également du niveau du système; il est le plus souvent réduit à un niveau minimum. Vous devez faire attention à cela lorsque vous étudiez les caractéristiques d'un modèle particulier, et pas seulement les capacités de la ligne entière dans son ensemble. De plus, bien sûr, ses caractéristiques techniques dépendent du niveau du système, comme le processeur, la quantité de mémoire, le cache, le nombre et les types de ports, etc. Du point de vue de la gestion, l'AFA des systèmes hybrides (disque) ne diffère que par la mise en œuvre de mécanismes de travail avec les disques SSD, et même si vous utilisez SSD dans un système hybride, cela ne signifie pas que vous pouvez obtenir un niveau de performances au niveau du système AFA . De plus, dans la plupart des cas, les mécanismes en ligne pour un stockage efficace sur les systèmes hybrides sont désactivés et leur inclusion entraîne une perte de performances.
Stockage spécial
En plus du stockage à usage général, axé principalement sur le traitement des données opérationnelles, il existe des systèmes de stockage spéciaux avec des principes clés qui sont fondamentalement différents des systèmes habituels (faible latence, beaucoup d'IOPS):
MédiasCes systèmes sont conçus pour le stockage et le traitement de fichiers multimédias de grande taille. Acc. le retard devient pratiquement sans importance, et la capacité d'envoyer et de recevoir des données dans une large bande dans de nombreux flux parallèles apparaît au premier plan.
Déduplication du stockage pour les sauvegardes.Étant donné que les sauvegardes diffèrent par leur convivialité, ce qui est rare dans des circonstances normales (la sauvegarde moyenne diffère d'hier de 1 à 2%), cette classe de systèmes regroupe de manière extrêmement efficace les données enregistrées sur eux dans un assez petit nombre de supports physiques. Par exemple, dans certains cas, les taux de compression des données peuvent atteindre 200 à 1.
Stockage d'objetsCes systèmes de stockage n'ont pas les volumes habituels avec un accès par bloc et une boule de fichiers, et surtout ils ressemblent à une énorme base de données. L'accès à un objet stocké dans un tel système s'effectue par un identifiant unique ou par des métadonnées (par exemple, tous les objets au format JPEG, avec la date de création entre XX-XX-XXXX et YY-YY-YYYY).
Système de conformité .
Pas si souvent trouvé en Russie aujourd'hui, mais il convient de les mentionner. Le but de ces systèmes de stockage est un stockage garanti des données pour le respect des politiques de sécurité ou des exigences réglementaires. Dans certains systèmes (par exemple, EMC Centera), la fonction d'interdiction de suppression des données a été mise en œuvre - dès que la clé est tournée et que le système passe dans ce mode, ni l'administrateur ni personne d'autre ne peut supprimer physiquement les données déjà enregistrées.
Technologie propriétaire
Cache Flash
Flash Cache est le nom commun à toutes les technologies propriétaires permettant d'utiliser la mémoire flash comme cache de deuxième niveau. Lorsque vous utilisez le cache flash, le stockage est généralement calculé pour fournir une charge stable à partir des disques magnétiques, tandis que le cache de pointe sert la charge de pointe.
Il est nécessaire de comprendre le profil de charge et le degré de localisation des appels aux blocs de volume de stockage. Le cache Flash est une technologie pour les charges avec une localisation élevée des demandes et n'est pratiquement pas applicable aux volumes uniformément chargés (comme pour les systèmes d'analyse).
Deux implémentations de cache flash sont disponibles sur le marché:
- Lecture seule. Dans ce cas, seules les données lues sont mises en cache et l'écriture va directement sur les disques. Certains fabricants, tels que NetApp, pensent que l'écriture sur leur système de stockage est optimale et que le cache n'aidera pas.
- Lire / écrire. , , RAID Penalty, .
Tiering
() — , SSD HDD. , , , , .
. 256 . , . – .
Snapshot
, , . , , / . , .
— . , , . , , . — . , , .
CoW (Copy-On-Write) . , . . «» , .
RoW (Redirect-on-Write) . , , , . , .
:
Application consitent . , . .
Crash consistent . . , . , .
?
Cloning
— , , , . , , , . Test&Dev . , .. .
/
— . , . , , VMware vSphere Replication.
, , NetApp HP MSA.
:
. , . , . C'est-à-dire RPO = 0 .
. , . , ( 100 ). RPO = .
. , . , EMC RecoverPoint, , . ( ) 23 11 59 13 , , “DROP ALL TABLES; COMMIT”.
Metro cluster
— , , . - ( 100 ).
, . , , . :
- . , , . RTO = (15 VMware) + .
- Disaster avoidance , -, . 1, , , 2 .
— . - , , RAID .
— EMC VPLEX IBM SVC. — NetApp, Hitachi, IBM / Lenovo Storwize.
?
- . , HP 3Par, NetApp. EMC.
- . , 3Par, , Dell. 3Par, VPLEX . , . Dell, 3Par .
- .
/
— , . , / , , — .
2 :
Inline — . . - , , - .
Post — , . , , .
, , . , , . , , , . , , ( ) . , , , . , AFA , SSD, HDD , , , .
Modèle
.
“ — ABC SuperStorage S600 XYZ HyperOcean 666v4, ”
“ — ABC SuperStorage S600 XYZ HyperOcean 666v4, ?
VMware / / . = . 150 80 000 IOPS 8kb 50% 80/20 -. 300 , 50 000 IOPS , 80 , 80 .
RPO = 15 RTO = 1 , RPO = 3 , .
50 , .
Dell, Hitachi, , 50% ”
, 80% .
Information additionnelle
Livres
- “ ”. IP / Ethernet
- “EMC Information Storage and Management”. , , .
Les prix
— , List price, . , , , . , low-end , ,
nix.ru xcom-shop.ru . , .
, TB/$ . , JBOD + , , , , . , JBOD , - — . , JBOD , . . .
Total
La comparaison des systèmes entre eux est nécessaire non seulement par le prix, ou non seulement par la productivité, mais par la totalité de tous les indicateurs.
Achetez le disque dur uniquement si vous êtes sûr d'avoir besoin du disque dur. Pour les charges faibles et les types de données incompressibles, dans le cas contraire, il vaut la peine de prêter attention aux programmes de garantie d'efficacité de stockage SSD que la plupart des fournisseurs ont maintenant (et ils fonctionnent vraiment, même en Russie), mais tout dépend des applications et des données qui situé sur ce stockage.
Ne poursuivez pas le bon marché. Parfois, de nombreux moments désagréables sont cachés sous ceux-ci, dont Yevgeny Elizarov a décrit dans ses articles sur
Infortrend . Et que, finalement, ce bon marché peut venir à vos côtés. N'oubliez pas - "l'avaricieux paie deux fois".