👩🏽‍🏫 🐗 ⏭️ Comment puis-je utiliser des machines virtuelles Yandex.Cloud interrompues et économiser sur la résolution de problèmes à grande échelle 👨🏼‍🔬 👩‍👩‍👧‍👧 👩🏼‍💻

Aujourd'hui, nous voulons parler d'une fonctionnalité aussi utile de Yandex.Cloud que les machines virtuelles interrompues. Il s'agit d'une option spéciale que vous pouvez choisir lors de la création d'une machine virtuelle pour utiliser les ressources informatiques à un prix réduit. Quelle est la particularité des machines virtuelles interruptibles, pourquoi sont-elles moins chères que les machines normales et dans quels cas est-il judicieux de les utiliser?

Les capacités de Yandex.Cloud, et plus précisément du service d'infrastructure Yandex Compute Cloud , sont sensiblement supérieures à celles utilisées par les utilisateurs. Par défaut, il est supposé que les utilisateurs devraient pouvoir évoluer arbitrairement. Au moins pour ces raisons, sans tenir compte d'autres aspects, les ressources disponibles de la plateforme cloud dépassent considérablement la demande actuelle. C'est à ces capacités libres que les machines virtuelles interrompues sont créées.

Limitations principales

En bref, la nature des machines virtuelles interrompues peut être décrite comme suit: le service propose d'utiliser ses ressources informatiques gratuites à un prix inférieur, à condition que ces ressources puissent être rappelées à tout moment.

En général, les machines virtuelles interrompues fonctionnent comme des machines virtuelles normales, mais elles ont un certain nombre de limitations:

Ils ne sont pas couverts par un contrat de niveau de service (SLA).
La possibilité de créer et d'exécuter n'est pas garantie.
Ils peuvent être contraints d'arrêter à tout moment. La probabilité d'un arrêt est faible, mais non nulle, elle peut changer au fil du temps et varier dans différentes zones de disponibilité de Yandex.Cloud .
Une machine virtuelle interrompue ne peut pas devenir normale, mais une machine normale interrompue. L'indicateur correspondant est défini une fois et ne change pas.
La machine sera sûrement arrêtée dans un délai ne dépassant pas 24 heures.

En pratique, dans la grande majorité des cas, les machines virtuelles interrompues effectuent toutes les 24 heures prévues par les conditions de service. Un arrêt forcé ne se produit généralement que lorsqu'un grand nombre de machines virtuelles ordinaires sont créées dans une zone de disponibilité spécifique dans un court laps de temps: un nouvel utilisateur ayant des besoins sérieux apparaît ou les utilisateurs actuels sont massivement mis à l'échelle.

Dans le même temps, une machine virtuelle arrêtée peut être redémarrée: toutes les données sur les disques sont enregistrées à la fois lors de l'arrêt automatique et manuel.

Cas d'utilisation

Les limitations des machines virtuelles interrompues soulèvent une question logique: comment les appliquer si les ressources peuvent être révoquées à tout moment? À titre d'explication, voici quelques cas d'utilisation possibles.

Traitement par lots

Le traitement par lots implique l'exécution parallèle d'un grand nombre de tâches gourmandes en ressources. Cela peut être la conversion de formats de fichiers, le traitement et la reconnaissance d'images, les opérations ETL . L'essentiel est que dans le traitement par lots, il existe une file d'attente de travaux et un ensemble complet de processus de travail (exécuteurs) qui reçoivent des travaux de la file d'attente. Si un exécuteur individuel exécuté sur une machine interrompue s'arrête, la tâche sera simplement transférée au prochain exécuteur. En d'autres termes, l'arrêt d'une ou même plusieurs machines virtuelles n'aura pas d'impact négatif significatif sur le processus et le résultat du traitement.

Lorsque nous traitons des données par lots, nous parlons de l'utilisation de dizaines de machines virtuelles. L'utilisation de machines intermittentes permet des économies très sensibles. Désormais, l'un des principaux consommateurs de machines virtuelles discontinues productives avec 32 cœurs est un client de longue date de Yandex.Cloud, Seismotech. Seismotek traite les données sismiques, nécessaires à l'exploration des gisements de gaz et de pétrole. L'exploration sismique implique de travailler avec de grands volumes d'informations. Les données sont traitées dans une méthode par lots. La société utilise simultanément jusqu'à 60 machines interrompues ou plus: un total de 2000 vCPU et 4000 Go de RAM.

Projets sur Hadoop

Hadoop est utilisé pour développer et exécuter des programmes distribués s'exécutant sur des clusters de centaines et de milliers de nœuds à faible coût. Les mécanismes de réplication de fichiers et de redémarrage automatique des tâches effectuées sur les nœuds défaillants fournis par Hadoop assurent la stabilité d'un système distribué aux défaillances de machines individuelles. C'est pourquoi, lorsque Hadoop est utilisé, au moins une partie des nœuds peut être facilement déployée sur des machines virtuelles interrompues. S'ils s'arrêtent tôt, les tâches seront envoyées à d'autres nœuds.

Basculement des services Web

La disponibilité continue du service Web peut être assurée en utilisant un cluster. Un cluster se compose de deux serveurs ou plus. L'une de ses tâches dans l'application aux services Web est d'assurer un fonctionnement stable au moment des pics de charge. Exemples typiques: sites d'achats en ligne ou sites sportifs où la croissance du trafic est liée à des dates spécifiques. Pour les magasins, il peut s'agir de jours fériés traditionnels ou de périodes de rabais, et pour les sites liés au sport, il peut s'agir de jours d'événements lorsque des émissions ont lieu, des critiques et des reportages photo sont publiés. À de tels moments, le volume de trafic peut augmenter considérablement.

Le cluster doit faire face à l'afflux de visiteurs en répartissant le trafic vers différents nœuds. Pour une période de forte croissance de charge, mais de courte durée, la tolérance aux pannes peut être fournie en ajoutant des serveurs sur des machines virtuelles arrêtées. Cette option est peu coûteuse et fait bien son travail. Il est important de respecter une condition: un tel cluster doit être hybride, c'est-à-dire inclure des machines virtuelles ordinaires. Dans ce cas, même l'arrêt improbable de machines interrompues n'entraînera pas de panne de service.

Projets chez Kubernetes

Kubernetes automatise le déploiement, la mise à l'échelle et la gestion des applications conteneurisées sur un grand nombre de nœuds. L'une des principales entités que l'on peut appeler le bloc de construction de Kubernetes est sous (pod). Pod permet le lancement d'un ou plusieurs conteneurs sur un nœud. Un nœud pour chaque foyer est sélectionné et attribué par le planificateur Kubernetes. Si un nœud séparé avec un foyer en marche tombe en panne, le planificateur le transfère automatiquement vers un nœud qui fonctionne en mode normal. Ce schéma de maintien de l'intégrité suggère qu'une partie des nœuds peut être hébergée dans des machines virtuelles discontinues.

Test d'intégration continue

La pratique de l'intégration continue est basée sur l'assemblage et les tests fréquents du projet. Dans ce cas, des tests principalement automatisés sont utilisés. Schématiquement, cela ressemble à ceci: un environnement de test est créé sur une machine virtuelle, la dernière version de l'application y est téléchargée, des tests automatisés sont effectués, les résultats des tests sont téléchargés, la machine virtuelle est supprimée. En règle générale, les tests prennent plusieurs dizaines de minutes, moins souvent plusieurs heures.

Traditionnellement, les points faibles de l'intégration continue sont considérés comme des coûts importants pour soutenir le processus d'intégration lui-même et la forte demande de ressources informatiques. De ce point de vue et compte tenu de la durée des tests automatisés, les machines virtuelles abandonnées semblent plus que adaptées à une intégration continue. Ils sont beaucoup moins chers et la probabilité qu'une voiture s'arrête immédiatement au moment des tests est extrêmement faible. De plus, même si la voiture est toujours arrêtée, les dommages du point de vue de l'entreprise seront minimes.

Utiliser en conjonction avec d'autres services Yandex.Cloud

Le service Groupes d'instances Yandex vous permet de surveiller automatiquement l'état d'un groupe entier de machines virtuelles interrompues. Il peut créer indépendamment des machines virtuelles avec les caractéristiques données, maintenir le nombre nécessaire de machines dans le groupe et redémarrer les instances interrompues si elles s'arrêtent. Peu importe si un arrêt forcé s'est produit ou si 24 heures se sont écoulées depuis le début. Une seule chose est importante: un redémarrage se produira s'il y a des ressources disponibles. Les groupes d'instances Yandex rendent le travail avec des machines virtuelles interrompues plus pratique, mais ne peuvent garantir que des capacités libres existeront nécessairement dans une zone de disponibilité spécifique.

Performance économique

Comme nous l'avons mentionné, les machines virtuelles interruptibles peuvent réduire le coût d'utilisation des ressources informatiques. Au sein de Yandex, nous avons commencé à travailler sur une fonction similaire il y a plusieurs années. Pour diviser les tâches informatiques en exécutables garantis et interruptibles, des investissements considérables ont été nécessaires. Mais cela n'a pas été vain: au final, nous avons augmenté le niveau d'utilisation utile de l'infrastructure serveur de 30-40% à 70-80%.

Des fonctionnalités similaires sont désormais disponibles pour tous les utilisateurs de Yandex.Cloud en un seul clic. Un exemple simple: si vous transférez la moitié des machines virtuelles utilisées avec une charge du noyau à cent pour cent au format d'interruption, vous pouvez économiser jusqu'à 35 à 40% du budget.

À un coût réduit, des ressources CPU et RAM sont disponibles. L'espace disque et les adresses IP sont payés à des tarifs réguliers. Voici ce qu'un simple calcul montre pour la plate-forme Cascade Lake.

Si vous le souhaitez, vous pouvez comparer le coût d'utilisation des machines virtuelles dans différents modes à l'aide d'une calculatrice .

Nous espérons que nous avons pu apporter un peu de clarté et donner quelques exemples utiles dans lesquels vous pouvez utiliser des machines virtuelles interruptibles pour réduire le coût des ressources informatiques sans perdre en qualité dans l'exécution des tâches.

Comment puis-je utiliser des machines virtuelles Yandex.Cloud interrompues et économiser sur la résolution de problèmes à grande échelle