Exemplo de cálculo do "fator de disponibilidade" para um sistema de TI

imagem

Tarefa: nos Termos de Referência para um sistema de TI abrangente, havia uma cláusula - "executar o cálculo do coeficiente de disponibilidade do sistema".

Solução: use materiais do GOST, solicite dados adicionais dos fornecedores para itens de equipamento e use matemática simples para realizar o cálculo final.

Referências normativas:

GOST R 27.002-2009 ("Confiabilidade em tecnologia (SSTN). Termos e definições")

GOST R 27.003-2011 Confiabilidade em tecnologia (SSTN). Gerenciamento de confiabilidade. Guia de especificação de confiabilidade

GOST 27.002-89 Confiabilidade em tecnologia (SSTN). Conceitos básicos. Termos e definições

De acordo com GOST R 27.002-2009 (“Confiabilidade em tecnologia (SSNT). Termos e definições”), o fator de disponibilidade (no campo de confiabilidade em tecnologia) é a probabilidade de o produto estar atualmente em um estado operacional, determinado de acordo com o projeto sob condições operacionais e de manutenção especificadas .

Assim, a prontidão reflete a capacidade do sistema de executar continuamente suas funções.

Em geral, para dispositivos de informação e computador, o fator de disponibilidade é a probabilidade de o sistema estar em condições de trabalho a qualquer momento (arbitrário) do tempo.

O fator de disponibilidade (K) é determinado pela fórmula:

K = MTBF / (MTBF + MTTR) ,

onde:
- MTBF (tempo médio entre falhas) - tempo médio entre falhas (tempo médio entre falhas);
- MTTR (tempo médio de reparo) - tempo médio de recuperação (tempo médio de recuperação).

Diferentemente da confiabilidade, cujo valor é determinado apenas pelo valor do MTBF, a disponibilidade também depende do tempo necessário para retornar o sistema à condição de trabalho.

Portanto, temos um sistema de TI específico (servidor de montagem em rack, servidor blade, sistema de armazenamento de dados).

A tolerância a falhas no nível do equipamento de um sistema de TI permite que seus serviços continuem funcionando no caso de uma falha de hardware de componentes individuais do equipamento do servidor, sistema de armazenamento de dados ou infraestrutura.

A tolerância a falhas do funcionamento dos componentes internos do sistema de TI é alcançada usando as seguintes tecnologias:

  • redundância de fontes de alimentação para equipamentos de servidor, sistemas de armazenamento de dados;
  • adaptadores de rede de servidor redundantes;
  • redundância de adaptador de servidor óptico;
  • redundância de linhas de conexão a cabo da rede de comutação e transmissão de servidores e rede de armazenamento de dados;
  • duplicação de módulos de chassi blade: fontes de alimentação, módulos de controle, ventiladores, módulos de comutação;
  • colocação de informações em sistemas de armazenamento em disco usando grupos de discos à prova de falhas (RAID).

Como resultado, todos os principais componentes do equipamento do sistema de TI - servidores, fontes de alimentação, unidades de disco, adaptadores de rede, comutadores - possuem recursos redundantes de troca a quente.

A fonte de alimentação do equipamento do sistema de TI é realizada a partir de duas fontes independentes. A conexão do equipamento do sistema de TI a redes externas de dados e redes de armazenamento também é duplicada.

Todos os subsistemas do sistema de TI têm redundância; portanto, se algum elemento falhar, o equipamento do sistema de TI como um todo permanecerá em condições de funcionamento. Além disso, a substituição de um elemento com falha é possível sem parar o equipamento do sistema de TI.

A probabilidade (P) de falha de um componente durante um ano é:
P = 1 / MTBF.

A falha de um componente duplicado levará à falha do equipamento somente sob a condição de que o componente de backup também falhe dentro do tempo necessário para uma substituição "quente" do componente que falhou primeiro. Se o tempo garantido de substituição do componente for 24 horas (1/365 anos) (o que corresponde à prática estabelecida de manutenção de equipamentos de servidor), a probabilidade de tal evento durante o ano:
imagem

Após calcular a probabilidade de falha de todos os N componentes do equipamento do sistema de TI, é possível calcular a probabilidade de falha do equipamento do sistema de TI dentro de um ano, somando cada probabilidade de falha:
imagem

Como as falhas de componentes geralmente são distribuídas uniformemente no tempo, sabendo a probabilidade de falha do equipamento do sistema de TI durante o ano, podemos determinar o tempo entre as falhas:
MTBFs = 1 / Ps.

O fator de disponibilidade do equipamento do sistema de TI será igual a:
Kit = MTBFs / (MTBFs + MTTR).

Vamos calcular o fator de disponibilidade do equipamento do sistema de TI de 26 componentes (cada um dos componentes possui vários elementos).

O principal problema na tabela abaixo são os dados reais de MTBF para cada componente. Esses dados são muito relutantes em fornecer fornecedores. Muitas vezes, você precisa entrar em correspondência com representantes de fornecedores para solicitar o fornecimento e o refinamento desses dados.

A tabela abaixo executou o cálculo para o sistema de TI "desatualizado", mas agora está funcionando há quase o quinto ano no modo de combate sem falha de componente, mas o Cliente já planeja migrar para novos componentes sem aguardar os prazos dos dados finais calculados.

imagem
imagem
imagem
imagem

(*) - os dados iniciais do MTBF são estimativas fornecidas para esses itens de equipamento do fabricante ou seus análogos.

Como resultado, os dados estimados sobre os equipamentos do nosso sistema:

  • probabilidade de falha do equipamento do sistema durante o ano: 0,0966;
  • Sistema de equipamentos MTBF (anos): 10,35 (90666 horas);
  • tempo médio de solução de problemas (horas): 24;
  • fator de disponibilidade de equipamentos do sistema (%): 99,97;
  • tempo de inatividade médio por ano (horas): 2,61 (156 minutos).

A partir das linhas finais da tabela, você pode ver que temos elementos de armazenamento não duplicados e esse momento tem um efeito muito forte nos dados calculados. Se possível, é necessário duplicar esses elementos (como recomendação) ou usar um layout de armazenamento diferente.

Esse cálculo, é claro, é muito avaliador. Mas um entendimento básico de que o sistema é ideal ou precisa de elementos adicionais pode fornecer.

De fato, essas tabelas com cálculos são inseridas na seção desejada da documentação do projeto e emitidas para o Cliente.

É interessante realizar esse cálculo para um conjunto de equipamentos de rede (com a divisão máxima em elementos até o módulo SFP e as fontes de alimentação) e comparar os dados resultantes com diferentes fornecedores.

Source: https://habr.com/ru/post/pt418769/


All Articles