任务:在综合IT系统的职责范围中,有一个条款-“执行系统可用性系数的计算”。
解决方案:使用GOST的材料,向供应商索要设备项目的其他数据,并使用简单的数学方法进行最终计算。
规范性引用文件:
GOST R 27.002-2009 (“技术可靠性(SSTN)。术语和定义”)
GOST R 27.003-2011技术可靠性(SSTN)。 可靠性管理。 可靠性规格指南
GOST 27.002-89技术可靠性(SSTN)。 基本概念。 术语和定义
根据GOST R 27.002-2009(“技术可靠性(SSNT)。术语和定义”),
可用性因子 (在技术可靠性领域)是
根据项目确定的产品当前处于可操作状态的概率在规定的操作和维护条件下 。
因此,就绪状态反映了系统连续执行其功能的能力。
在一般情况下,对于信息和计算机设备,可用性因子是计算机系统在任何(任意)时刻处于工作状态的概率。
可用性因子(K)由以下公式确定:
K = MTBF /(MTBF + MTTR) ,
其中:
-MTBF(平均无故障时间)-平均无故障时间(平均无故障时间);
-MTTR(平均修复时间)-平均恢复时间(平均恢复时间)。
与可靠性(其值仅由MTBF值确定)不同,可用性还取决于使系统恢复工作状态所需的时间。
因此,我们有一个特定的IT系统(机架安装服务器,刀片服务器,数据存储系统)。
在服务器设备,数据存储系统或基础架构的各个组件发生硬件故障的情况下,此类IT系统在设备级别的容错性使其服务可以继续工作。
通过应用以下技术,可以实现IT系统内部组件功能的容错能力:
- 服务器设备,数据存储系统的电源冗余;
- 冗余服务器网络适配器;
- 光学服务器适配器冗余;
- 服务器交换和数据传输网络以及数据存储网络的电缆连接线的冗余;
- 刀片机箱模块的副本:电源,控制模块,风扇,交换模块;
- 使用故障安全磁盘组(RAID)将信息放置在磁盘存储系统上。
因此,IT系统设备的所有主要组件-服务器,电源,磁盘驱动器,网络适配器,交换机-都具有冗余的热插拔功能。
IT系统设备的电源来自两个独立的来源。 IT系统设备到外部数据网络和存储网络的连接也是重复的。
IT系统的所有子系统都具有冗余性,因此,如果任何元素发生故障,则IT系统的整个设备将保持工作状态。 此外,可以在不停止IT系统设备的情况下更换故障元件。
一年中某个组件发生故障的概率(P)为:
P = 1 / MTBF。只有在备用组件也将在“热”替换最先出现故障的组件所需的时间内也发生故障的情况下,重复组件的故障才会导致设备故障。 如果保证的组件更换时间为24小时(1/365年)(与维修服务器设备的既定惯例相对应),则一年中发生此类事件的可能性:

在计算完IT系统设备的所有N个组件的故障概率之后,可以通过合计每种故障概率来计算一年内IT系统设备的故障概率:

由于组件故障通常按时间平均分配,因此,知道一年中IT系统设备发生故障的可能性,我们可以确定两次故障之间的时间:
MTBF = 1 /磅IT系统设备的可用性因子将等于:
套件= MTBF /(MTBF + MTTR)。我们将计算26个组件(每个组件都有几个元素)的IT系统设备的可用性因子。
下表中的主要问题是每个组件的实际MTBF数据。 此数据非常不愿提供给供应商。 通常,您必须与供应商代表联系以请求提供和完善此数据。
下表执行了“过时” IT系统的计算,但是现在它已经在战斗模式下运行了将近五年,而没有组件故障,但是客户已经在计划迁移到新组件,而不必等待最终计算数据的最后期限。




(*)-MTBF的初始数据是为制造商的这些设备或其类似物提供的估计值。
结果,有关我们系统设备的估计数据:
- 该年度系统设备故障的可能性:0.0966;
- MTBF设备系统(年):10.35(90666小时);
- 平均故障排除时间(小时):24;
- 系统设备可用性系数(%):99.97;
- 每年平均停机时间(小时):2.61(156分钟)。
从表的最后几行中,您可以看到我们具有不重复的存储元素,此刻对计算的数据有非常强烈的影响。 如果可能,您需要复制这些元素(作为建议)或使用其他存储布局。
当然,这种计算是非常评估的。 但是可以提供有关系统是最佳系统还是需要其他元素的基本理解。
实际上,这些带有计算的表已输入到项目文档的所需部分中并发给客户。
对一组网络设备执行这样的计算(将最大细分分解为SFP模块和电源),然后将结果数据与不同的供应商进行比较是很有趣的。