Test de charge de sauvegarde et de réplication Veeam



Au printemps 2018, Selectel a lancé un service de sauvegarde pour VMware Cloud via Veeam® Backup & Replication ™ (ci-après VBR). Nous avons abordé le projet de manière approfondie, planifié et réalisé la liste de travaux suivante:

  • Explorer la documentation et les meilleures pratiques des produits Veeam
  • Conception d'une architecture VBR au niveau du fournisseur de services
  • Déployer l'infrastructure VBR
  • Test de la solution, détermination des paramètres et modes de fonctionnement optimaux
  • Lancement de la solution en exploitation industrielle (commerciale)

Il s'est avéré - pas en vain. Le service est stable, les clients peuvent sauvegarder leurs machines virtuelles et nous avons une certaine expertise que nous voulons partager.

Dans cet article, nous voulons parler des résultats des tests de charge VBR pour les deux modes de fonctionnement du proxy de sauvegarde les plus populaires, en tenant compte de la variation du nombre de tâches parallèles.

Ici vous pouvez voir:

  • Description de l'infrastructure de production Selectel utilisée pour les tests
  • Fonctionnalités du proxy de sauvegarde (proxy de sauvegarde) dans divers modes de transport
  • Description du programme de test et des paramètres des composants VBR pour sa mise en œuvre
  • Indicateurs quantitatifs, comparaison et conclusions

Tester la configuration de l'infrastructure


Infrastructure source


En tant que plate-forme pour tester les performances de VBR, l'un des clusters de production du cloud public basé sur VMware a été créé .

  • La configuration matérielle des hôtes de ce cluster:
  • Processeurs Intel® Xeon® Gold 6140
  • Intel® DC NVMe P4600 et P3520
  • 4 ports 10 GbE par hôte

Le cluster est basé sur les solutions suivantes:

  • Réseau physique - Usine Ethernet sur les commutateurs Brocade VDX, architecture Leaf-Spine (ports 10 GbE - hôtes de connexion, liaisons montantes 40 GbE vers Spine)
  • Environnement de virtualisation - VMware vSphere® 6.5
  • Stockage VM - VMware vSAN ™ 6.6 (cluster vSAN 100% Flash)
  • Virtualisation réseau - VMware NSX® 6.4

Les performances de la plateforme de test sont plus que suffisantes et ne font aucun doute. Bien sûr, pour des performances à haute vitesse, tout cela doit être correctement configuré, mais comme il s'agit de production, avec des clients animés et satisfaits, vous pouvez être sûr que tout va bien à cet égard.

Avec Cloud basé sur VMware, Selectel a lancé un service pour sa sauvegarde sur la plate-forme VBR. Les clients reçoivent un portail Web libre-service où ils peuvent sauvegarder et restaurer des vApp et des VM à partir de leur VDC (centre de données virtuel).

Les clients ont accès à ce portail (portail libre-service Veeam® Enterprise Manager) avec les mêmes droits que vCloud Director® (vCD). Cela est possible en raison de l'intégration de Veeam® Backup Enterprise Manager (EM) et de vCD, alors que chaque client, lorsqu'il est connecté à EM, est limité par les ressources de son VDC, il ne verra pas d'autres VM.

Le client n'a pas besoin de déployer son propre VBR et l'infrastructure de sauvegarde associée, ce qui implique les coûts des ressources informatiques et réseau, du stockage, des licences Veeam et MS et de l'administration. C'est long, cher et compliqué. Selectel fournit les capacités de base de VBR en tant que service BaaS (Backup-as-a-Service): instantanément, simplement, commodément et économiquement.

Pour fournir ce service, Selectel a déployé une infrastructure de fournisseur VBR couvrant tous les clusters vSphere et VDC de clients cloud VMware, y compris le cluster dans lequel ce test a été effectué. Ainsi, les résultats des tests nous permettront de juger de la vitesse maximale avec laquelle les clients peuvent sauvegarder leurs VM.

Tester les machines virtuelles


Pour tester les performances de sauvegarde, 6 machines virtuelles identiques ont été déployées dans le cluster vSphere dans la configuration suivante:

  • OS Windows Server 2016, 2 processeurs virtuels, 4 Go de RAM
  • 200 Go de vDisk

Le disque est presque plein - 193 Go. En plus des fichiers OS, un dossier avec des distributions de divers OS et SGBD d'une capacité de 60 Go a été créé dessus (données uniques). Sur le même lecteur, 3 copies de ce dossier ont été créées - un total de 180 Go de données non système.

Aucune application n'a été installée sur ces VM, seulement un OS «propre» et des données «froides». Aucune charge, informatique ou réseau, démarrée. Pour ce test, cela n'était pas nécessaire.

Le DRS est activé dans le cluster vSphere, de sorte que les machines virtuelles de test sont automatiquement réparties de manière optimale sur les hôtes VMware ESXi ™ pour l'équilibrage de charge.

Proxy de sauvegarde


Une machine virtuelle avec proxy de sauvegarde est déployée directement dans le cluster vSphere décrit ci-dessus (l'infrastructure source, ci-après dénommée cluster vSphere), il s'agit d'une condition nécessaire pour les tests en mode Virtual Appliance.

Configuration VM:

  • 8 vCPU
  • 8 Go de RAM
  • VDisk de 40 Go
  • 10GbE vNIC vmxnet3
  • OS Windows Server 2016

Le paramètre "Tâches simultanées maximales" pour le proxy de sauvegarde au niveau VBR est défini sur 6. Cela signifie que le proxy de sauvegarde peut traiter simultanément (en parallèle) jusqu'à 6 tâches de sauvegarde. Une tâche consiste à sauvegarder un disque de machine virtuelle virtuelle.

Référentiel de sauvegarde


Le serveur physique faisant office de référentiel de sauvegarde de VBR agit en tant que frontal du stockage de sauvegarde. Configuration du serveur:

  • CPU E5-1650v3
  • 32 Go de RAM
  • 2 ports 10 GbE

Backend de stockage - cluster CephFS avec cache NVMe.

Le référentiel de sauvegarde et les nœuds Ceph communiquent sur un réseau 10 GbE, chacun d'eux est connecté aux commutateurs par deux ports.

Une description détaillée de la configuration du cluster Ceph dépasse le cadre de cet article. Notez que pour la fiabilité et la tolérance aux pannes, les données y relatives sont stockées en trois exemplaires. Les performances du cluster ne sont pas satisfaisantes et avec une marge, les résultats des tests ont montré que dans aucun d'entre eux le stockage de sauvegarde n'était un goulot d'étranglement.

Le paramètre "Limiter le nombre maximal de tâches simultanées" pour le référentiel de sauvegarde au niveau VBR est défini sur 6. Cela signifie que le référentiel de sauvegarde pourra traiter simultanément (jusqu'à 6) tâches de sauvegarde.

Réseau de sauvegarde


Le réseau physique de l'infrastructure décrite ci-dessus est limité par une bande passante de 10 Gbit / s, des commutateurs et des ports 10GbE sont utilisés partout. Cela est vrai non seulement pour vSAN, mais également pour les interfaces de gestion des hôtes ESXi.

Pour héberger un proxy de sauvegarde au niveau de VMware NSX, un sous-réseau dédié a été créé avec son propre commutateur logique. Pour sa connectivité avec la physique et le routage, le NSX-edge, une taille X-large, a été déployé.

À l'avenir, selon les résultats des tests, il est clair que le réseau peut supporter une charge allant jusqu'à 8 Gb / s. Il s'agit d'une bande passante très solide, qui est suffisante à ce stade, si nécessaire, elle peut être augmentée.

Diagramme d'interaction des composants



Les proxys de sauvegarde et les machines virtuelles de test sont déployés dans le même cluster VMware vSAN. Après le démarrage du job de sauvegarde (job de sauvegarde), en fonction du mode de transport sélectionné, dont les fonctionnalités sont décrites ci-dessous, un proxy de sauvegarde:

  • Récupère les données des machines virtuelles de sauvegarde via vSAN (HotAdd) ou réseau de contrôle (NBD)
  • Transfère les données traitées vers le référentiel de sauvegarde sur le sous-réseau alloué à cet effet

Modes de transport du proxy de sauvegarde


Le proxy de sauvegarde est un composant de l'infrastructure VBR qui effectue directement le traitement des travaux de sauvegarde. Il extrait les données de la machine virtuelle, les traite (compresse, déduplique, chiffre) et les envoie au référentiel, où elles sont enregistrées dans des fichiers de sauvegarde.

Le proxy de sauvegarde vous permet de travailler dans trois modes de transport:

  • Accès direct au stockage
  • Appliance virtuelle
  • Réseau

Le cloud basé sur VMware Selectel utilise vSAN comme stockage, dans cette configuration, l'accès direct au stockage n'est pas pris en charge, ce mode n'est donc pas pris en compte et n'a pas été testé. Les deux modes restants fonctionnent à merveille sur chacun de nos clusters vSphere. Arrêtons-nous plus en détail.

Mode d'appareil virtuel (HotAdd)


L'appliance virtuelle est le mode recommandé lors du déploiement de proxys de sauvegarde en tant que machines virtuelles. Les hôtes ESXi sur lesquels les proxys de sauvegarde sont déployés doivent avoir accès à tous le magasin de données du cluster vSphere qui stocke les machines virtuelles de sauvegarde. L'essence du mode est que le proxy monte les disques de la machine virtuelle de sauvegarde (VMware SCSI HotAdd) et en prend les données comme si c'était les siennes. L'extraction de données se produit avec Datastore sur un réseau de stockage.

Dans notre cas, la machine virtuelle de proxy de sauvegarde doit être située sur l'un des hôtes ESXi du cluster vSAN que nous sauvegardons. L'extraction des données a lieu via vSAN. Ainsi, pour fonctionner en mode d'appareil virtuel, au moins un proxy de sauvegarde doit être déployé dans chaque cluster vSAN. Développez une paire de proxys de sauvegarde (par exemple, dans un cluster de gestion) et la sauvegarde de tous les clusters vSAN avec eux échouera.
AvantagesInconvénients
Rapide, en règle générale, est beaucoup plus rapide que NBD, en particulier dans le cas d'une sauvegarde complète ou de grands incréments. Seul l'accès direct au stockage peut être inférieur en vitesse.L'opération de montage de disques (HotAdd) sur un proxy peut prendre jusqu'à 2 minutes par disque. Avec des sauvegardes incrémentielles de petits morceaux de données, NBD peut être plus rapide.
Élimine le réseau de stockage. Ne charge pas l'interface de gestion et l'hyperviseur.La machine virtuelle proxy consomme une partie des ressources de l'hôte. Parfois, il peut y avoir des problèmes avec la suppression des instantanés.

Mode réseau (NBD)


Il s'agit du mode le plus simple et le plus universel, adapté aux proxys de sauvegarde physiques et virtuels. Contrairement aux deux modes précédents, l'extraction de données ne se produit pas sur le réseau de stockage. Un proxy de sauvegarde prend les données VM en se connectant à l'interface de gestion des hôtes ESXi sur lesquels ils s'exécutent.

Cette approche présente les inconvénients suivants:

  • Souvent, les interfaces de gestion ESXi ne tiennent pas sur les liaisons montantes les plus rapides, en règle générale, il s'agit de 1 GbE
  • Même si l'interface de gestion aura des ports 10 GbE, ESXi n'abandonnera pas l'intégralité du proxy de bande proxy - il le limite artificiellement et n'alloue qu'une partie de la bande passante de l'interface pour les sauvegardes
AvantagesInconvénients
Simple et polyvalent. Les proxys peuvent être physiques et virtuels.En règle générale, il est beaucoup plus lent que HotAdd, en particulier sur les gros volumes de sauvegarde et un petit nombre de tâches parallèles.
Démarrage rapide, aucun retard sur le montage des variateurs. Aucun problème avec les instantanés.Crée une charge (petite) sur l'interface de gestion et l'hyperviseur.
Dans le même temps, de nombreuses sources affirment que NBD est très lent à 1 GbE, mais à 10 GbE, il peut être assez rapide. Nous allons certainement vérifier cela.

Programme de test


Sur l'infrastructure décrite ci-dessus, il est nécessaire de sauvegarder les VM de test et d'enregistrer les indicateurs suivants:

  • Charge CPU,%
  • Consommation de RAM, Go
  • Charge réseau, Gbps
  • Performances de sauvegarde, Mo / s
  • Temps de sauvegarde, mm: ss

Les indicateurs doivent être fixes pour la sauvegarde d'une machine virtuelle de test et pour la sauvegarde parallèle de deux, quatre et six machines virtuelles de test.

Des indicateurs doivent être enregistrés pour les modes de fonctionnement de l'appliance virtuelle et du proxy de sauvegarde réseau. Chaque fois qu'une sauvegarde complète doit être effectuée, aucun incrément.

Ainsi, il est nécessaire de créer 4 jobs de sauvegarde:

  • Pour une VM de test
  • Pour deux machines virtuelles de test
  • Pour quatre machines virtuelles de test
  • Pour six machines virtuelles de test

Dans le cadre des tests, il est nécessaire:

  1. Exécutez séquentiellement toutes les tâches en un seul mode
  2. Supprimer les sauvegardes créées afin qu'il n'y ait pas d'incréments
  3. Répéter les exécutions dans le deuxième mode, en fixant chaque fois les indicateurs

Dans les paramètres de chaque tâche, vous devez sélectionner manuellement un proxy de sauvegarde préparé pour les tests, car ce n'est pas le seul dans l'infrastructure VBR générale, et par défaut, le proxy est automatiquement sélectionné.

Le mode proxy de sauvegarde par défaut est également automatiquement sélectionné. Par conséquent, dans les paramètres du proxy de sauvegarde, avant chaque exécution, définissez manuellement le mode de transport souhaité.

L'indicateur le plus intéressant est la vitesse moyenne ou les performances de sauvegarde. Il peut être vu dans les résultats du travail dans la console VBR. Il affichera également le runtime de sauvegarde.

De plus, vous devez évaluer la charge sur le proxy de sauvegarde dans chacun des tests. La congestion du processeur, de la mémoire et du réseau peut être surveillée à l'aide des outils du système d'exploitation invité (Windows 2016) et au niveau de VMware.

Sur le proxy de sauvegarde et les référentiels de sauvegarde, le paramètre du nombre maximal de tâches simultanées est défini sur 6. Cela signifie que pendant le test, toutes les machines virtuelles de chaque tâche seront traitées en parallèle, aucune d'entre elles n'attendra dans la file d'attente, les performances seront maximales.

Veeam® recommande que le nombre de tâches parallèles ne dépasse pas le nombre de cœurs de processeur sur les proxys et les référentiels. La quantité de RAM recommandée sur le référentiel est de 2 Go par cœur, soit 12 Go au total. La configuration de l'infrastructure montre que toutes les recommandations sont suivies.

Vitesse et charge de sauvegarde en mode Virtual Appliance (ajout à chaud)


Sauvegarde 1 VM



Charge du proxy de sauvegarde
IndicateurValeur
Charge CPU,%55-95
Consommation de RAM, Go2-2,2
Charge réseau, Gbps4.7-6.4

Vitesse de sauvegarde
IndicateurValeur
Performances de sauvegarde, Mo / s709
Temps de sauvegarde, mm: ss06:35


Sauvegarde 2 VM



Charge du proxy de sauvegarde
IndicateurValeur
Charge CPU,%70-100 (étagère 100% avec de courtes chutes brusques à 70%)
Consommation de RAM, Go2.3-2.5
Charge réseau, Gbps5-7,7

Vitesse de sauvegarde
IndicateurValeur
Performances de sauvegarde, Mo / s816
Temps de sauvegarde, mm: ss10:03


Sauvegarde 4 VM



Charge du proxy de sauvegarde
IndicateurValeur
Charge CPU,%100 (étagère 100% avec de petites gouttes rares)
Consommation de RAM, Go3-3,5
Charge réseau, Gbps5-8,2

Vitesse de sauvegarde
IndicateurValeur
Performances de sauvegarde, Mo / s885
Temps de sauvegarde, mm: ss17:10


Sauvegarde 6 VM



Charge du proxy de sauvegarde
IndicateurValeur
Charge CPU,%100 (étagère 100% avec de petites gouttes rares)
Consommation de RAM, Go4-4,2
Charge réseau, Gbps5-8,2

Vitesse de sauvegarde
IndicateurValeur
Performances de sauvegarde, Mo / s888
Temps de sauvegarde, mm: ss24:42


Vitesse de sauvegarde et charge en mode réseau (NBD)


Sauvegarde 1 VM



Charge du proxy de sauvegarde
IndicateurValeur
Charge CPU,%18-24
Consommation de RAM, Go1.9-2.1
Charge réseau, Gbps1.2-1.8

Vitesse de sauvegarde
IndicateurValeur
Performances de sauvegarde, Mo / s192
Temps de sauvegarde, mm: ss18h30


Sauvegarde 2 VM



Charge du proxy de sauvegarde
IndicateurValeur
Charge CPU,%25-33
Consommation de RAM, Go2.2-2.4
Charge réseau, Gbps1,5-2,5

Vitesse de sauvegarde
IndicateurValeur
Performances de sauvegarde, Mo / s269
Temps de sauvegarde, mm: ss25:50


Sauvegarde 4 VM



Charge du proxy de sauvegarde
IndicateurValeur
Charge CPU,%45-55
Consommation de RAM, Go2,8-3,5
Charge réseau, Gbps2,8-4,5

Vitesse de sauvegarde
IndicateurValeur
Performances de sauvegarde, Mo / s446
Temps de sauvegarde, mm: ss31:14


Sauvegarde 6 VM



Charge du proxy de sauvegarde
IndicateurValeur
Charge CPU,%50-70
Consommation de RAM, Go3,5-4
Charge réseau, Gbps3,5-5

Vitesse de sauvegarde
IndicateurValeur
Performances de sauvegarde, Mo / s517
Temps de sauvegarde, mm: ss40:02


Comparaison des performances et de la charge dans l'appliance virtuelle (HotAdd) et le mode réseau (NBD)

Nombre de VMVitesse - HotAdd, Mo / sVitesse - NBD, Mo / sHotAdd / NBD
17091923,69
28162693.03
48854461,98
68885171,72
Nombre de VMCharge CPU - HotAdd,%Charge CPU - NBD,%HotAdd / NBD
155-9518-243.06-3.96
270-10025-332.8-3.03
410045-551.82-2.22
610050-701,43-2
Nombre de VMTéléchargement de RAM - HotAdd, GBChargement RAM - NBD, GBHotAdd / NBD
12-2,21.9-2.11,05
22.3-2.52.2-2.41,04-1,05
43-3,52,8-3,51-1.07
64-4,23,5-41.14-1.05
Nombre de VMTéléchargement réseau - HotAdd, Gb / sTéléchargement réseau - NBD, Gb / sHotAdd / NBD
14.7-6.41.2-1.83.56-3.92
25-7,71,5-2,53.08-3.33
45-8,22,8-4,51,79-1,82
65-8,23,5-51,43-1,64

Résultats des tests


Les indicateurs de performance de sauvegarde obtenus à la suite de tests confirment sans équivoque le fait que le mode d'appareil virtuel est nettement supérieur en vitesse par rapport au mode réseau, en particulier dans un petit nombre de tâches parallèles.

Permettez-moi de vous rappeler que les tests pour les deux modes ont été exécutés dans des conditions absolument identiques sur la même plate-forme. La bande passante du réseau était également la même - les interfaces de contrôle à travers lesquelles le proxy collecte des données en mode NBD donnent 10 Gbit / s, comme le réseau vSAN pour le mode HotAdd, nous n'avons défini aucune limite de bande passante.

De toute évidence, ESXi ralentit vraiment Veeam® et ne lui donne qu'une partie de la bande en mode réseau, d'où les différences de vitesse de sauvegarde. Cependant, avec l'augmentation du nombre de threads - tâches de sauvegarde simultanées - le mode Réseau réduit considérablement le retard.

Nous voyons qu'en mode Appliance virtuelle, déjà sur 4 VM, le proxy de sauvegarde repose sur le processeur, il ne peut pas fonctionner plus vite, pour 6 VM la vitesse de sauvegarde n'a pas beaucoup changé. Dans le même temps, la vitesse de sauvegarde de 1 à 2 machines virtuelles dans ce mode est légèrement en retard, les capacités des proxys et des plates-formes de sauvegarde sont utilisées au maximum, même sur un petit nombre de threads.

En mode Réseau, au contraire, il y a une augmentation significative de la productivité avec une augmentation du nombre de tâches simultanées. Dans le même temps, la charge sur le processeur proxy de sauvegarde est nettement inférieure à celle du mode HotAdd, même sur 6 threads, elle ne dépasse pas 70%.

La consommation de mémoire du proxy de sauvegarde est faible et approximativement la même dans les deux modes.

La charge sur le réseau proxy de sauvegarde est en corrélation avec la vitesse de sauvegarde, la dépassant de ~ 10-17%. Apparemment, le proxy prend les données des sources de machines virtuelles un peu plus rapidement qu'il ne les télécharge dans le référentiel, car elles doivent être traitées.

Il est intéressant d'observer la ligne Load dans les images avec les résultats de l'exécution du travail. Il montre le niveau de charge sur divers éléments de l'infrastructure de sauvegarde: source, proxy, réseau, référentiel.

En mode d'appliance virtuelle, nous voyons que les performances de sauvegarde reposent sur le proxy et le réseau, elles sont toujours approximativement à la même charge. La source et le référentiel ne sont pas un goulot d'étranglement.

En mode réseau, le goulot d'étranglement est toujours la source, même pour un seul flux. On peut voir que le reste de l'infrastructure peut donner plus, mais ESXi ne les donne pas.

Résumé


Les tests ont confirmé que le proxy de sauvegarde dans les modes de transport étudiés se comporte exactement comme le suggère la théorie.

Le logiciel Veeam® s'est avéré très utile:

  • En mode HotAdd, toutes les capacités de l'infrastructure ont été utilisées efficacement et complètement.
  • En mode NBD, les performances devraient être plus modestes, mais ce n'est pas un problème Veeam®, mais une fonctionnalité de la pile réseau ESXi

Nous avons obtenu des indicateurs de performances et de charge réels, ce qui est très utile pour choisir le mode de fonctionnement optimal et la mise à l'échelle ultérieure du système.

Pour le moment, nous sommes très satisfaits des performances de sauvegarde existantes, nous savons comment les augmenter correctement lorsqu'un tel besoin se fait sentir.

Source: https://habr.com/ru/post/fr431596/


All Articles