Exemple de calcul du «facteur de disponibilité» pour un système informatique

image

Tâche: dans le mandat d'un système informatique complet, il y avait une clause - «effectuer le calcul du coefficient de disponibilité du système».

Solution: utilisez les matériaux de GOST, demandez des données supplémentaires aux fournisseurs pour les équipements et utilisez des mathématiques simples pour effectuer le calcul final.

Références normatives:

GOST R 27.002-2009 ("Fiabilité de la technologie (SSTN). Termes et définitions")

GOST R 27.003-2011 Fiabilité technologique (SSTN). Gestion de la fiabilité. Guide de spécifications de fiabilité

GOST 27.002-89 Fiabilité technologique (SSTN). Concepts de base. Termes et définitions

Selon GOST R 27.002-2009 («Fiabilité de la technologie (SSNT). Termes et définitions»), le facteur de disponibilité (dans le domaine de la fiabilité de la technologie) est la probabilité que le produit soit actuellement dans un état opérationnel, déterminée conformément au projet dans des conditions de fonctionnement et d'entretien spécifiées .

Ainsi, l'état de préparation reflète la capacité du système à remplir en permanence ses fonctions.

Dans le cas général, pour les dispositifs informatiques et informatiques, le facteur de disponibilité est la probabilité que le système informatique soit en état de fonctionner à tout moment (arbitraire) dans le temps.

Le facteur de disponibilité (K) est déterminé par la formule:

K = MTBF / (MTBF + MTTR) ,

où:
- MTBF (Mean Time Between Failure) - temps moyen entre les pannes (temps moyen entre les pannes);
- MTTR (Mean Time To Repair) - temps de récupération moyen (temps moyen de récupération).

Contrairement à la fiabilité, dont la valeur est déterminée uniquement par la valeur MTBF, la disponibilité dépend également du temps nécessaire pour remettre le système en état de fonctionnement.

Nous avons donc un système informatique spécifique (serveur monté en rack, serveur lame, système de stockage de données).

La tolérance aux pannes au niveau de l'équipement d'un tel système informatique permet à ses services de continuer à fonctionner en cas de défaillance matérielle de composants individuels de l'équipement serveur, du système de stockage de données ou de l'infrastructure.

La tolérance aux pannes du fonctionnement des composants internes du système informatique est obtenue en appliquant les technologies suivantes:

  • redondance des alimentations électriques pour l'équipement serveur, les systèmes de stockage de données;
  • adaptateurs de réseau de serveurs redondants;
  • redondance d'adaptateur de serveur optique;
  • redondance des lignes de connexion par câble du réseau de commutation et de transmission de données du serveur et du réseau de stockage de données;
  • duplication de modules de châssis de lames: alimentations, modules de commande, ventilateurs, modules de commutation;
  • placer des informations sur les systèmes de stockage sur disque à l'aide de groupes de disques à sécurité intégrée (RAID).

Par conséquent, tous les principaux composants de l'équipement du système informatique - serveurs, blocs d'alimentation, lecteurs de disque, adaptateurs réseau, commutateurs - ont des capacités de remplacement à chaud redondantes.

L'alimentation électrique des équipements du système informatique s'effectue à partir de deux sources indépendantes. La connexion de l'équipement du système informatique aux réseaux de données externes et aux réseaux de stockage est également dupliquée.

Tous les sous-systèmes du système informatique ont une redondance, donc si un élément tombe en panne, l'équipement du système informatique dans son ensemble restera en état de fonctionnement. De plus, le remplacement d'un élément défaillant est possible sans arrêter l'équipement du système informatique.

La probabilité (P) de défaillance d'un composant pendant un an est:
P = 1 / MTBF.

La défaillance d'un composant dupliqué entraînera une défaillance de l'équipement uniquement à la condition que le composant de sauvegarde échoue également dans le délai requis pour un remplacement «à chaud» du composant qui a échoué en premier. Si le temps de remplacement garanti des composants est de 24 heures (1/365 ans) (ce qui correspond à la pratique établie de maintenance de l'équipement du serveur), alors la probabilité d'un tel événement au cours de l'année:
image

Après avoir calculé la probabilité de défaillance de tous les N composants de l'équipement du système informatique, il est possible de calculer la probabilité de défaillance de l'équipement du système informatique dans un délai d'un an en additionnant chaque probabilité de défaillance:
image

Étant donné que les défaillances des composants sont généralement réparties uniformément dans le temps, alors, connaissant la probabilité de défaillance de l'équipement du système informatique au cours de l'année, nous pouvons déterminer le temps entre les défaillances:
MTBF = 1 / Ps.

Le facteur de disponibilité de l'équipement du système informatique sera égal à:
Kit = MTBFs / (MTBFs + MTTR).

Nous calculerons le facteur de disponibilité de l'équipement du système informatique de 26 composants (chacun des composants comporte plusieurs éléments).

Le principal problème dans le tableau ci-dessous est les données MTBF réelles pour chaque composant. Ces données sont très réticentes à fournir des fournisseurs. Souvent, vous devez entrer en correspondance avec des représentants de fournisseurs pour demander la fourniture et le raffinement de ces données.

Le tableau ci-dessous a effectué le calcul du système informatique "obsolète", mais il fonctionne maintenant depuis presque la cinquième année en mode combat sans défaillance de composant, mais le client prévoit déjà de migrer vers de nouveaux composants sans attendre les délais des données calculées finales.

image
image
image
image

(*) - les données initiales sur le MTBF sont des estimations fournies pour ces équipements du fabricant ou de leurs analogues.

En conséquence, les données estimées sur l'équipement de notre système:

  • probabilité de défaillance de l'équipement du système au cours de l'année: 0,0966;
  • Système d'équipement MTBF (années): 10,35 (90666 heures);
  • temps moyen de dépannage (heures): 24;
  • facteur de disponibilité de l'équipement du système (%): 99,97;
  • temps d'arrêt moyen par an (heures): 2,61 (156 minutes).

Des dernières lignes du tableau, vous pouvez voir que nous avons des éléments de stockage non dupliqués et ce moment a un effet très fort sur les données calculées. Si possible, vous devez dupliquer ces éléments (comme recommandation) ou utiliser une disposition de stockage différente.

Ce calcul est bien sûr très évaluatif. Mais une compréhension de base que le système est optimal ou nécessite des éléments supplémentaires peut fournir.

En effet, ces tableaux avec calculs sont entrés dans la section souhaitée de la documentation du projet et remis au Client.

Il est intéressant d'effectuer un tel calcul pour un ensemble d'équipements réseau (avec la décomposition maximale en éléments jusqu'au module SFP et aux alimentations) et de comparer les données résultantes avec différents fournisseurs.

Source: https://habr.com/ru/post/fr418769/


All Articles