Exemplos de cálculo do "fator de disponibilidade" para conjuntos de equipamentos de rede

imagem

A teoria e os principais pontos da metodologia para o cálculo do "coeficiente de disponibilidade" foram descritos por mim anteriormente neste artigo .

Nesta publicação, calcularemos o “fator de disponibilidade” de dois conjuntos de equipamentos de rede de nível de operadora, cada um instalado em um gabinete de telecomunicações, e comparamos com o cálculo do “fator de disponibilidade” para um conjunto de equipamentos sem elementos duplicados.

Por que você precisa fazer os cálculos do "fator de disponibilidade" para diferentes casos de configuração de equipamentos?

Nossos dados sobre o cálculo do "coeficiente de disponibilidade" nos resultados finais podem estar incorretos, ideais demais, altos e baixos demais. E onde o erro aparece lá ou tudo é calculado corretamente, você pode entender apenas quando é possível ver todos os elementos do sistema juntos, suas opções de uso e localização.

Um exemplo de cálculo "ideal" do "fator de disponibilidade".

Os principais componentes do kit de equipamentos de rede nº 1:

  • Cisco ASR 9010 - 2 peças .;
  • Cisco ASR 9000v - 2 peças .;
  • quadro de distribuição da fonte de alimentação "48V" -10-2 - 2 unid.

Totalidade do equipamento Cisco ASR 9010:

imagem

O diagrama do gabinete com o kit número 1 instalado é assim:

imagem

Cálculo do fator de disponibilidade do equipamento do conjunto n. 1:

imagem

(*) - os dados iniciais do parâmetro MTBF são estimativas fornecidas para esses itens de equipamento do fabricante ou seus análogos.

Os roteadores Cisco ASR 9000 Series foram projetados para ter altas taxas de tempo médio entre falhas (MTBF) e baixas de tempo médio para resolução (MTTR), fornecendo uma plataforma confiável que minimiza interrupções ou tempo de inatividade e maximiza a disponibilidade. O MTBF é calculado com base na condição Benigna do solo. Os valores podem ser ajustados com base no uso diferente do roteador.

Dados finais calculados para o conjunto nº 1:

  • probabilidade de falha do equipamento do sistema durante o ano: 0,0008023;
  • Sistema de equipamentos de MTBF (anos): 1246 (10918609 horas);
  • tempo médio de solução de problemas (horas): 24;
  • coeficiente de disponibilidade do equipamento do sistema (%): 99.99978;
  • tempo de inatividade médio por ano (horas): 0,019 (1,15 minutos).

O que é levado em consideração incorretamente neste cálculo?

Para calcular o fator de disponibilidade, é necessário entender como e onde o equipamento está instalado, qual é a sua funcionalidade e a possibilidade de troca a quente e duplicação de elementos, a complexidade da instalação e substituição de componentes, sem desligar os principais sistemas do complexo.

Em um cálculo ideal, todos os elementos são duplicados (o que raramente é o caso), assume-se que as peças de reposição estão à mão e podemos realizar trabalhos ao vivo em equipamentos de trabalho próximos sem problemas.

E se o layout físico diverge do esquema lógico do sistema, aqui as partes individuais do sistema não podem se duplicar.

No caso “ideal”, temos um complexo de duas metades que se duplicam. Mas, se não houver essa duplicação lógica, já estamos saindo do cálculo “ideal” para um cálculo mais correto e obtemos um resultado plausível.

E, sejamos realistas, adicione 60 minutos por ano ao procedimento "Reiniciar \ Desligar". Faça o download do novo chassi, configure e execute no modo normal esse tempo deve ser suficiente a partir do momento em que você pressiona o botão liga / desliga do gabinete. Por 60 minutos de tempo de inatividade, a probabilidade de falha por ano é de 0,04167. Esta será a linha de fundo nos cálculos abaixo.

Um exemplo de cálculo "real" do "fator de disponibilidade".

Cálculo do fator de disponibilidade do equipamento do conjunto nº 1 sem duplicação:

imagem

Dados finais calculados para o conjunto nº 1 sem duplicação:

  • probabilidade de falha do equipamento do sistema durante o ano: 0,5001666;
  • Sistema de equipamentos MTBF (anos): 1,99 (17514 horas);
  • tempo médio de solução de problemas (horas): 24;
  • fator de disponibilidade de equipamentos do sistema (%): 99,86;
  • tempo de inatividade médio por ano (horas): 11,98 (719 minutos).

A diferença entre os dois cálculos realizados acima é enorme. E esse momento deve ser sempre lembrado e analisado.

Na melhor das hipóteses, mesmo se tivermos elementos duplicados no sistema, você precisará ignorar a possibilidade de envolvimento deles como uma substituição, se esses elementos contiverem outros componentes. Ou seja, parece que temos dois chassis e duas placas de alimentação. Esses componentes são duplicados, mas possuem outros elementos internos que podem parar de funcionar quando o componente "mãe" falha.

Se isso for essencial para o chassi, será menos problemático para a blindagem, uma vez que eletrônicos simples são usados ​​apenas para testes e exibição de carga atual, mesmo que essa placa falhe, a blindagem funcionará normalmente.

Um exemplo de cálculo "padrão" do "fator de disponibilidade".

Os principais componentes do conjunto 2 de equipamentos de rede:

  • Cisco ASR 9006 - 2 peças .;
  • Cisco ASR 9000v - 2 peças .;
  • quadro de distribuição da fonte de alimentação "48V" -48-5 - 2 pçs.

Totalidade do equipamento Cisco ASR 9006:

imagem

O diagrama do gabinete com o kit número 2 instalado é assim:

imagem

Cálculo do fator de disponibilidade do equipamento do conjunto nº 2, levando em consideração a não duplicação do chassi e dos painéis de alimentação:

imagem

Dados finais calculados para o conjunto nº 2:

  • probabilidade de falha do equipamento do sistema durante o ano: 0.2167769;
  • Sistema de equipamentos MTBF (anos): 4,7 (40410 horas);
  • tempo médio de solução de problemas (horas): 24;
  • fator de disponibilidade de equipamentos do sistema (%): 99,94;
  • tempo de inatividade médio por ano (horas): 5,2 (311 minutos).

Acontece que, ao calcular o fator de disponibilidade, é necessário entender qual elemento maior do sistema pode ser substituído mesmo dentro de 24 horas. E quanto a substituição desse elemento afetará o funcionamento dos componentes restantes.

Por exemplo, ao substituir o chassi, teremos que desmontar todo o conjunto de placas e adaptadores desse chassi, e isso pode levar tempo e mais de 2-3 horas. E desmontar os elementos quando o equipamento é ligado ao lado do rack é um grande risco para uma situação de emergência adicional.

Para a opção ideal - dois gabinetes com equipamentos, cada um com 2 chassis - um funcionando, o segundo vazio para ativação rápida com a transferência de elementos da falha. Mas essa é uma situação ideal demais.

Source: https://habr.com/ru/post/pt419763/


All Articles