Ejemplo de cálculo del "factor de disponibilidad" para un sistema de TI

imagen

Tarea: en los Términos de referencia para un sistema informático integral había una cláusula: "realizar el cálculo del coeficiente de disponibilidad del sistema".

Solución: utilice materiales de GOST, solicite datos adicionales de los proveedores para los elementos del equipo y utilice matemáticas simples para realizar el cálculo final.

Referencias normativas:

GOST R 27.002-2009 ("Confiabilidad en tecnología (SSTN). Términos y definiciones")

GOST R 27.003-2011 Fiabilidad en tecnología (SSTN). Gestión de fiabilidad. Guía de especificación de confiabilidad

GOST 27.002-89 Fiabilidad en tecnología (SSTN). Conceptos basicos. Términos y definiciones

Según GOST R 27.002-2009 ("Confiabilidad en tecnología (SSNT). Términos y definiciones"), el factor de disponibilidad (en el campo de la confiabilidad en tecnología) es la probabilidad de que el producto se encuentre actualmente en un estado operable, determinado de acuerdo con el proyecto bajo condiciones de operación y mantenimiento especificadas .

Por lo tanto, la preparación refleja la capacidad del sistema para realizar continuamente sus funciones.

En el caso general, para la información y los dispositivos informáticos, el factor de disponibilidad es la probabilidad de que el sistema informático funcione correctamente en cualquier momento (arbitrario).

El factor de disponibilidad (K) está determinado por la fórmula:

K = MTBF / (MTBF + MTTR) ,

donde:
- MTBF (tiempo medio entre fallos): tiempo medio entre fallos (tiempo medio entre fallos);
- MTTR (tiempo medio de reparación): tiempo de recuperación promedio (tiempo promedio de recuperación).

A diferencia de la confiabilidad, cuyo valor está determinado solo por el valor MTBF, la disponibilidad también depende del tiempo requerido para que el sistema vuelva a funcionar.

Por lo tanto, tenemos un sistema informático específico (servidor de montaje en bastidor, servidor blade, sistema de almacenamiento de datos).

La tolerancia a fallas a nivel de equipo de dicho sistema de TI permite que sus servicios continúen funcionando en caso de una falla de hardware de componentes individuales del equipo del servidor, el sistema de almacenamiento de datos o la infraestructura.

La tolerancia a fallas del funcionamiento de los componentes internos del sistema de TI se logra mediante la aplicación de las siguientes tecnologías:

  • redundancia de fuentes de alimentación para equipos de servidores, sistemas de almacenamiento de datos;
  • adaptadores de red de servidor redundantes;
  • redundancia del adaptador del servidor óptico;
  • redundancia de líneas de conexión de cable de conmutación de servidores y red de transmisión de datos y red de almacenamiento de datos;
  • duplicación de módulos de chasis blade: fuentes de alimentación, módulos de control, ventiladores, módulos de conmutación;
  • colocar información en sistemas de almacenamiento en disco utilizando grupos de discos a prueba de fallas (RAID).

Como resultado, todos los componentes principales del equipo del sistema de TI (servidores, fuentes de alimentación, unidades de disco, adaptadores de red, conmutadores) tienen capacidades redundantes de intercambio en caliente.

El suministro de energía del equipo del sistema de TI se realiza desde dos fuentes independientes. La conexión del equipo del sistema de TI a redes externas de datos y redes de almacenamiento también está duplicada.

Todos los subsistemas del sistema de TI tienen redundancia, por lo que si falla algún elemento, el equipo del sistema de TI en su conjunto permanecerá en condiciones de funcionamiento. Además, el reemplazo de un elemento fallido es posible sin detener el equipo del sistema de TI.

La probabilidad (P) de la falla de un componente durante un año es:
P = 1 / MTBF.

La falla de un componente duplicado conducirá a la falla del equipo solo bajo la condición de que el componente de respaldo también falle dentro del tiempo requerido para un reemplazo "en caliente" del componente que falló primero. Si el tiempo de reemplazo de componentes garantizado es de 24 horas (1/365 años) (que corresponde a la práctica establecida de servicio del equipo del servidor), entonces la probabilidad de tal evento durante el año:
imagen

Después de calcular la probabilidad de falla de todos los N componentes del equipo del sistema de TI, es posible calcular la probabilidad de falla del equipo del sistema de TI dentro de un año sumando cada probabilidad de falla:
imagen

Dado que las fallas de los componentes generalmente se distribuyen uniformemente en el tiempo, entonces, conociendo la probabilidad de falla del equipo del sistema de TI durante el año, podemos determinar el tiempo entre fallas:
MTBFs = 1 / Ps.

El factor de disponibilidad del equipo del sistema de TI será igual a:
Kit = MTBFs / (MTBFs + MTTR).

Calcularemos el factor de disponibilidad del equipo del sistema de TI de 26 componentes (cada uno de los componentes tiene varios elementos).

El principal problema en la tabla a continuación son los datos reales de MTBF para cada componente. Estos datos son muy reacios a proporcionar proveedores. A menudo tiene que entablar correspondencia con representantes de proveedores para solicitar el suministro y el refinamiento de estos datos.

La siguiente tabla ha realizado el cálculo para el sistema informático "desactualizado", pero ahora ha estado funcionando durante casi el quinto año en modo de combate sin fallas en los componentes, pero el Cliente ya está planeando migrar a nuevos componentes sin esperar los plazos de los datos calculados finales.

imagen
imagen
imagen
imagen

(*) - los datos iniciales sobre MTBF son estimaciones proporcionadas para estos elementos de equipo del fabricante o sus análogos.

Como resultado, los datos estimados sobre el equipo de nuestro sistema:

  • probabilidad de falla del equipo del sistema durante el año: 0.0966;
  • Sistema de equipo MTBF (años): 10.35 (90666 horas);
  • tiempo promedio de resolución de problemas (horas): 24;
  • factor de disponibilidad del equipo del sistema (%): 99,97;
  • tiempo de inactividad promedio por año (horas): 2,61 (156 minutos).

De las líneas finales de la tabla, puede ver que tenemos elementos de almacenamiento no duplicados y este momento tiene un efecto muy fuerte en los datos calculados. Si es posible, debe duplicar estos elementos (como recomendación) o usar un diseño de almacenamiento diferente.

Este cálculo, por supuesto, es muy evaluativo. Pero puede proporcionar una comprensión básica de que el sistema es óptimo o necesita elementos adicionales.

De hecho, estas tablas con cálculos se ingresan en la sección deseada de la documentación del proyecto y se envían al Cliente.

Es interesante realizar dicho cálculo para un conjunto de equipos de red (con el desglose máximo en elementos hasta el módulo SFP y las fuentes de alimentación) y comparar los datos resultantes con diferentes proveedores.

Source: https://habr.com/ru/post/es418769/


All Articles