如何检查数据中心的可靠性:您需要注意的三个要点

选择IaaS提供商的公司将重点放在云的特性上。 他们评估可用性,可伸缩性等。但是,数据中心中安装的硬件负责任何虚拟化环境的性能。 在大多数情况下,云服务的可靠性取决于此基础架构(及其所在的位置)。

今天,我们决定告诉您在评估IaaS提供商数据中心的参数时应注意的几点。


/图片Arthur Caranta CC

可靠性水平和冗余


首先,在评估IaaS提供商的数据中心时,应注意工程基础架构(特别是电源系统)的冗余性。 由于此特定参数会影响可用性级别,即连续运行的时间而不会出现故障。

Uptime Institute分类可用于评估冗余级别。

  • 第1层-在这种情况下,没有冗余方案(N)。 可靠性取决于基础架构的每个单独元素,并且一件设备的故障会导致整个数据中心的停机。
  • 第2层-表示N + 1冗余方案。 N个基础架构元素中增加了一个附加元素,从而降低了故障风险。
  • 第3层-冗余方案也为N + 1,但可以并行进行技术工作。
  • 4-2N层预订 。 当每个元素类似地重复时。

层级分类假定工程系统被视为单个实体。 如果没有保留至少一个组件,则会降低UI的容错能力。 级别越高,可用性越高。 但是,您必须了解,在UI的分类中没有“最坏和最好”的情况。 这并不是说在所有情况下都可以做到。 因此,应根据公司面临的任务来选择具有一个或另一个冗余级别的数据中心的提供商。

对于不希望停机的大型组织,应该注意具有2N冗余的数据中心。 例如,这条路去了Facebook。 该公司的数据中心位于瑞典的吕勒奥市, 预订2N。 Skolkovo的Sberbank数据中心的能源系统同样得到保留

但是,在某些情况下,这样的系统可能是多余的。 由于层数越高,租用云提供商的设备的成本就越高。 因此,对于简单的IT基础架构和服务而言,一年一小时都不重要的公司,应该选择级别较小的数据中心。

例如,IaaS提供商IT-GRAD 设备放置在DataSpace(莫斯科)和Xelent(圣彼得堡)的数据中心中。 这是具有Tier III类的数据中心,每年的停机时间约为1个半小时。 他们根据N + 1计划进行了保留。 例如,在莫斯科的一个站点上,沿着六个独立线路的两个城市变电站提供连续的电源。 数据中心中安装了六个2 MVA的独立变压器,每个变压器都是独立电路的连接点。

在不可抗力和电压下降的情况下,一个电源分支的可能关闭不会影响整个系统的运行,因为所有负载都转移到了备用分支上。 作为“后备计划”,有自动柴油发电机,每台柴油发电机带有6个950升的油箱。 满载后,备用库存将为数据中心提供84小时的连续运行时间。

小气候


下一个重要方面是评估数据中心“制冷装置”的性能。 冷却系统在机舱内维持最佳微气候的能力会影响“铁”的可靠性,所消耗的电量,并因此影响为设备放置提供的服务的价格标签。

例如, 数据中心的温度从22°C 升高时 。 高达35°C,服务器功耗平均增加20%。 作为正在制定通信标准和空气质量评估的ASHRAE工程师协会的代表,写道,低于18°C和高于27°C的温度会显着降低不间断电源系统的输出功率和电池寿命( 报告第29页 )。

但是,您还需要考虑如何在数据中心中保持所需的温度。 因为如果冷却系统的效率低,则将消耗大量的电力。 在某些情况下,高达40%的数据中心能耗全部用于空调。 反过来,这会影响设备租赁费用。

因此,通常为了控制数据中心的微气候和空气温度,请使用“自然冷却”(或自然冷却)技术。 它可以减少功耗。 根据最新数据,Xelent数据中心的数据效率( PUE )在俄罗斯市场上是最好的- 总计 1.29。 Google的数据中心被认为是该领域的记录持有者-这家IT巨头设法将PUE 设为1.11。

在Xelent数据中心,所有信息技术设备的温度状况均按照ASHRAE的建议进行维护。 旋转式热交换器负责数据中心的微气候。 这是一个五米大的轮子,可将热量从数据中心的机房传递到街道,而实际上几乎没有空气对流。

还必须考虑到如何在数据中心内提供给定的湿度水平。 冷凝可能对服务器硬件有害并造成损坏。 就像Primeville的第一个Facebook数据中心一样,那里的小气候系统操作错误导致液体进入设备。 在服务器机房中,“凝结雨”实际上开始下雨了。 必须紧急断开设备。 ASHRAE指出,数据中心的湿度水平不应超过 60%。 以Facebook为例,这一数字达到了95%。


/图片Tim Dorr CC

人身安全


如今,数据中心位于地下掩体中,入口处由武装士兵守卫。 有数据中心受到核爆炸或EMP 保护 。 但是,大多数大型跨国公司或军事机构经常使用它们。 对于大多数组织而言,这种措施是多余的,并且在经济上不利。 但是,安全性和物理渗透性问题仍然与每个人有关。

需要考虑三点:访问控制,周边有摄像机和信号传感器以及带有服务器机架的“单元”的安全性。 检查每个数据库的最佳方法也许是去数据中心。 因此,您可以独立评估进入数据中心机房的难度。

例如,入口处的Xelent数据中心具有访问控制系统。 在检查站检查所有访客和汽车。 另外,进入数据中心地区的每个人(包括员工)都必须注册。 监视服务器机房情况的200台摄像机“分散”在区域本身上。 只有在拥有特殊访问卡(可以是钥匙卡或生物识别卡)的数据中心员工的陪同下,才能进入机房。

在检查机房的物理保护时,不仅要评估外围设备和服务器的安全性,还要评估设施的防火安全性。 例如,DataSpace数据中心使用早期火灾探测系统。 整个建筑物中的传感器评估空气样本,以帮助防止火灾。 数据中心使用安全的设备,即气体灭火系统,在紧急情况下可以最大程度地减少可能的破坏。

总结一下


在评估数据中心云提供商的可靠性时,应执行以下操作:

  • 注意工程基础架构的冗余性。 可用性级别取决于它。 根据公司的要求和任务选择必要的备份方案。
  • 评估机舱中的冷却和气候控制系统。 如果数据中心使用旨在降低PUE的技术,那就很好。 因此,数据中心将更多的电力用于计算,而不是用于冷却服务器,从而节省了客户资金。
  • 在数据中心内,应组织服务器机房的物理保护(安全,灭火系统,视频监控),并应制定严格的程序允许访客进入该地区。

但是,数据中心的安全性和可靠性不仅取决于物理安全措施,还取决于软件:防火墙,DDoS保护机制,数据加密等。我们将在下一篇文章中讨论这些方面。



PS第一个公司IaaS博客的其他一些材料:


PPS我们在Habré博客上的最新帖子:




IT-GRAD公司的主要活动是提供云服务:

虚拟基础架构(IaaS) | PCI DSS托管 | 云FZ-152 | 在云端租用1C


Source: https://habr.com/ru/post/zh-CN416507/


All Articles