Huawei Dorado V6: Sichuan Heat


Pour être honnête, l'été à Moscou cette année n'a pas été très bon. Cela a commencé trop tôt et trop vite, tout le monde n'y est pas parvenu et cela s'est déjà terminé fin juin. Par conséquent, lorsque Huawei a suggéré que j'aille en Chine, dans la ville de Chengdu, où se trouve leur centre RnD, en regardant les prévisions météorologiques à +34 degrés à l'ombre, j'ai immédiatement accepté. Pourtant, mon âge n'est pas le même et mes os doivent être un peu réchauffés. Mais je tiens à noter qu'il était possible de réchauffer non seulement les os, mais aussi l'intérieur, car la province du Sichuan, dans laquelle, en fait, Chengdu est célèbre pour son amour de la nourriture épicée. Mais encore, ce blog n'est pas sur les voyages, revenons donc à l'objectif principal de notre voyage - la nouvelle gamme de systèmes de stockage - Huawei Dorado V6. Cet article vous rappellera un peu du passé, Il a été écrit avant l'annonce officielle, mais publié seulement après sa sortie. Et donc, aujourd'hui, nous examinons tout ce qui est intéressant et savoureux que Huawei a préparé pour nous.



La nouvelle ligne comprendra 5 modèles. Tous les modèles sauf 3000V6 peuvent être en deux versions - SAS et NVMe. L'interface de disque que vous pouvez utiliser dans ce système, les ports principaux et le nombre d'unités de disque que vous pouvez installer dans le système dépendent du choix. NVMe utilise des SSD de taille Palm, plus fins que les SSD SAS classiques de 2,5 pouces et pouvant accueillir jusqu'à 36 unités. La nouvelle ligne est All Flash et il n'y a aucune configuration de disque.



SSD Palm NVMe


À mon avis, les Dorado 8000 et 18000 semblent être les modèles les plus intéressants. Huawei les positionne comme un système haut de gamme et, en raison de la politique de prix de Huawei, il contraste ces modèles de milieu de gamme avec son segment concurrent. C'est sur ces modèles que je vais me concentrer aujourd'hui dans ma revue. Immédiatement, je note qu'en raison de ses caractéristiques de conception, les systèmes à double contrôleur plus jeunes ont une architecture légèrement différente, différente des Dorado 8000 et 18000, donc tout ce dont je vais parler aujourd'hui ne s'applique pas aux modèles plus jeunes.


L'une des principales caractéristiques des nouveaux systèmes était l'utilisation de plusieurs puces de leur propre conception, chacune permettant de transporter la charge logique du processeur central du contrôleur et d'ajouter des fonctionnalités à différents composants.


Le cœur des nouveaux systèmes est le processeur Kunpeng 920, développé sur les technologies ARM et fabriqué indépendamment par Huawei. Selon le modèle, le nombre de cœurs varie, leur fréquence et le nombre de processeurs installés dans chaque contrôleur:
Huawei Dorado V6 8000 - 2CPU, 64 cœurs
Huawei Dorado V6 18000 - 4CPU, 48 cœurs


Huawei a développé ce processeur sur l'architecture ARM, et pour autant que je sache, il avait initialement prévu de le mettre uniquement dans les anciens modèles Dorado 8000 et 18000, comme c'était le cas avec certains modèles V5, mais les sanctions ont apporté des ajustements à cette idée. Bien sûr, ARM a également évoqué le refus de coopération avec Huawei lors de l'imposition de sanctions, mais ici la situation est différente qu'avec Intel. Huawei produit ces puces de son propre chef, et aucune sanction ne peut arrêter ce processus. La rupture des relations avec ARM ne menace que la perte d'accès aux nouveaux développements. Quant à la performance - ici, il ne sera possible de juger qu'après avoir effectué des tests indépendants. Bien que j'aie vu comment 1M IOPS a été supprimé du système Dorado 18000 sans aucun problème, jusqu'à ce que je le fasse de mes propres mains dans le rack, je ne le croirai pas. Mais les capacités des contrôleurs là-bas ne sont vraiment pas suffisantes. Les anciens modèles sont équipés de 4 contrôleurs, chacun ayant 4 processeurs installés, ce qui donne un total de 768 cœurs.


Mais je vous parlerai des noyaux encore plus tard, lorsque nous examinerons l'architecture des nouveaux systèmes, mais pour l'instant, revenons à une autre puce installée dans le système. La puce Ascend 310 ressemble à une solution extrêmement intéressante (si je comprends bien, le frère cadet Ascend 910, qui a récemment été présenté au public). Sa tâche est d'analyser les blocs de données arrivant au système pour augmenter le taux de réussite en lecture. Il est encore difficile de dire comment il se montrera au travail, car Aujourd'hui, il ne fonctionne que selon un schéma donné et n'a pas la capacité d'apprendre dans un mode intellectuel. L'apparition d'un mode intelligent est promise dans le futur firmware, très probablement au début de l'année prochaine.


Passons à l'architecture. Huawei a continué de développer sa propre technologie Smart Matrix, qui met en œuvre une approche entièrement maillée pour connecter les composants. Mais si dans la V5, c'était uniquement pour l'accès des contrôleurs aux disques, maintenant tous les contrôleurs ont accès à tous les ports du back-end et du front-end.


Grâce à la nouvelle architecture de microservices, cela permet également d'équilibrer la charge entre tous les contrôleurs, même s'il n'y a qu'un seul lun. Le système d'exploitation de cette gamme de baies a été développé à partir de zéro, et pas seulement optimisé pour l'utilisation de lecteurs Flash. En raison du fait que tous les contrôleurs ont accès aux mêmes ports, en cas de défaillance ou de redémarrage du contrôleur, l'hôte ne perd pas un seul chemin vers le système de stockage et la commutation de chemin est effectuée au niveau du système de stockage de données. Dans le même temps, l'utilisation d'UltraPath sur l'hôte n'est pas une stricte nécessité. Une autre «économie» dans l'installation du système est un plus petit nombre de liens nécessaires. Et si avec l'approche «classique» pour 4 contrôleurs, nous avons besoin de 8 liens de 2 usines, alors dans le cas de Huawei, même 2 suffiront (je ne parle pas maintenant de la suffisance de la bande passante d'un lien).


Comme dans la version précédente, un cache global avec mise en miroir est utilisé. Cela vous permet de perdre jusqu'à deux contrôleurs simultanément ou trois contrôleurs en série sans affecter la disponibilité. Mais il convient de noter que nous n'avons pas vu d'équilibrage de charge complet entre les 3 contrôleurs restants en cas de défaillance d'un, sur le stand de démonstration. La charge du contrôleur défaillant a été complètement prise en charge par l'un des autres. Il est possible que pour cela, il soit nécessaire de laisser le système fonctionner plus longtemps dans cette configuration. Dans tous les cas, lors de mes propres tests, je vérifierai cela plus en détail.
Huawei positionne de nouveaux systèmes en tant que systèmes NVMe de bout en bout, mais pour le moment, NVMeOF n'est pas encore pris en charge sur le frontend, uniquement FC, iSCSI ou NFS. À la fin de ceci ou au début du suivant, comme d'autres puces, on nous promet le support RoCE.


Les étagères sont connectées aux contrôleurs de la même manière à l'aide de RoCE, ce qui présente un inconvénient - l'absence de connexion en boucle des étagères, comme c'était le cas avec SAS. À mon avis, bien que ce soit un assez gros inconvénient, si vous avez prévu un système assez volumineux. Le fait est que toutes les étagères sont connectées en série, et la défaillance de l'une des étagères entraîne l'inaccessibilité complète de toutes les autres qui la suivent. Dans ce cas, pour garantir la tolérance aux pannes, nous devons connecter toutes les étagères aux contrôleurs, ce qui entraîne une augmentation du nombre requis de ports backend dans le système.


Et une autre chose à noter est la mise à jour non perturbatrice (NDU). Comme je l'ai dit ci-dessus, Huawei a mis en œuvre une approche de conteneur dans le fonctionnement du système d'exploitation de la nouvelle ligne Dorado, ce qui permet de mettre à jour et de redémarrer les services, sans avoir besoin d'un redémarrage complet du contrôleur. Il convient de mentionner tout de suite que certaines mises à jour contiendront des mises à jour du noyau, et dans ce cas, le redémarrage classique des contrôleurs sera parfois toujours requis lors de la mise à jour, mais pas toujours. Cela réduira le niveau d'influence de cette opération sur le système productif.


Dans notre arsenal, la grande majorité des baies de la société NetApp. Par conséquent, je pense que ce sera assez logique si je fais une petite comparaison avec les systèmes avec lesquels je dois beaucoup travailler. Il ne s'agit pas de déterminer qui est meilleur et qui est pire ou dont l'architecture est plus avantageuse. J'essaierai sobrement et sans fanatisme de comparer deux approches différentes pour résoudre le même problème de différents fournisseurs. Oui, bien sûr, dans ce cas, nous considérerons les systèmes Huawei dans la «théorie» et je noterai également séparément les moments qui ne devraient être mis en œuvre que dans les futures versions du firmware. Quels sont les avantages que je vois en ce moment:


  1. Nombre de disques NVMe pris en charge. NetApp a aujourd'hui un nombre de 288, Huawei selon le modèle - 1600-6400. Dans le même temps, la capacité maximale utilisable de Huawei est de 32PBe, comme les systèmes NetApp (pour être plus précis, ils ont 31,64PBe). Et cela malgré le fait que les disques du même volume sont pris en charge (jusqu'à 15 To). Huawei explique ce fait comme suit - ils n'ont pas eu l'occasion d'assembler un support plus grand. En théorie, ils n'ont pas de limite de volume, mais ils n'ont tout simplement pas pu tester ce fait. Mais il convient de noter que les capacités des lecteurs flash sont très élevées aujourd'hui, et dans le cas des systèmes NVMe, nous sommes confrontés au fait que 24 disques sont suffisants pour utiliser le système haut de gamme à 2 contrôleurs. Par conséquent, une nouvelle augmentation du nombre de disques dans le système non seulement ne donnera pas un gain de performances, mais affectera également de manière défavorable le rapport IOPS / Tb. Bien sûr, il vaut la peine de voir combien de disques les systèmes à 4 contrôleurs 8000 et 16000 peuvent retirer, car les capacités et le potentiel du Kunpeng 920 ne sont pas encore complètement clairs.
  2. Lun a un propriétaire sur les systèmes NetApp. C'est-à-dire un seul contrôleur peut effectuer des opérations avec la lune, tandis que le second ne fait que passer IO à travers lui-même. Les systèmes Huawei, au contraire, n'ont pas de propriétaires et les opérations avec des blocs de données (compression, déduplication) peuvent être effectuées par l'un des contrôleurs, ainsi qu'écrites sur des disques.
  3. Pas de chute de port en cas de panne d'un des contrôleurs. Pour certains, ce moment semble extrêmement critique. L'essentiel est que la commutation à l'intérieur du système de stockage devrait être plus rapide que du côté hôte. Et si dans le cas du même NetApp, nous avons en pratique révélé une frise de l'ordre de 5 secondes lors du retrait du contrôleur et des voies de commutation, alors passer à Huawei doit encore s'entraîner.
  4. Pas besoin de redémarrer le contrôleur pendant la mise à niveau. J'étais particulièrement inquiet à ce sujet avec la sortie assez fréquente de nouvelles versions et de nouvelles branches de firmware pour NetApps. Oui, certaines mises à jour pour Huawei nécessiteront toujours un redémarrage, mais pas toutes.
  5. 4 contrôleurs Huawei pour le prix de deux contrôleurs NetApp. Comme je l'ai dit plus haut, grâce à la politique tarifaire de Huawei, il peut rivaliser avec le milieu de gamme avec ses modèles haut de gamme.
  6. La présence de puces supplémentaires dans les contrôleurs d'étagère et les cartes de port, qui sont potentiellement destinées à augmenter l'efficacité du système.

Inconvénients et peurs en général:


  1. Connexion directe des étagères aux contrôleurs ou besoin d'un grand nombre de ports principaux pour connecter toutes les étagères aux contrôleurs.
  2. L'architecture ARM et la présence d'un grand nombre de puces - son efficacité et son efficacité.

La plupart des craintes et des craintes pourront dissiper les propres tests de la nouvelle ligne. J'espère que peu de temps après la sortie, ils apparaîtront déjà à Moscou et qu'il y en aura suffisamment pour en obtenir rapidement un pour leurs propres tests. Jusqu'à présent, nous pouvons dire que l'approche de l'entreprise dans son ensemble semble intéressante, et la nouvelle gamme semble très bonne face à ses concurrents. la mise en œuvre finale soulève beaucoup de questions, car nous ne verrons beaucoup de choses qu'à la fin de l'année, et peut-être seulement en 2020.

Source: https://habr.com/ru/post/fr467975/


All Articles