创新云技术:灾难性云

全球和俄罗斯的云服务市场都在迅速增长。 越来越多的公司将他们的应用程序和数据(包括关键业务的应用程序和数据)迁移到云中。 根据营销人员的说法,这使企业可以使用最先进的创新云解决方案,从而降低资本成本(将CAPEX转换为OPEX),更快地将新产品推向市场并推出新服务。 这样的论点不会使潜在的顾客无动于衷。 俄罗斯云市场的增长率大大领先于传统的传统IT基础架构,这绝非偶然。


逐渐消除了对云的可靠性和安全性的怀疑。 正如iKS-Consulting的最新研究表明,接受调查的俄罗斯公司中有近40%的公司将使用公共云作为提高IT系统安全性的机会。 最受欢迎的基础架构云服务是虚拟服务器租赁。 排在第二位的是云备份服务(Backup-as-a-Service)。 大约三分之一的受访者使用云服务托管存储和灾难恢复基础架构。


同时,随着业务对IT的依赖性越来越高,对包括云服务在内的IT服务可靠性的要求也在增长。 并且经常不仅需要提供硬件可靠性,而且还需要提供容灾能力。

根据研究 ,世界上将近四分之三的组织并不完全确定他们将能够恢复其系统和数据。 计划外的停机时间和数据丢失每年使世界各地的组织损失超过17亿美元。 根据Acronis的研究 ,在俄罗斯,只有2%的接受调查的公司绝对确定其IT基础架构可以承受任何考验。 一半的俄罗斯专家预计,如果发生自然灾害或事故,其工作将长期中断。 根据世界统计数据,仅10天失去数据中心的公司中就有93%在一年之内破产。

在任何技术上复杂的系统中,事故都是不可避免的,但对于企业而言,事故并非至关重要。 为了防止这种情况,创建了抗灾群集系统,该系统实际上消除了发生事故和故障时的停机时间。

设计抗灾IT基础架构时不应忘记的另一个重要点是用户工作站。 有必要恢复业务流程,而不仅仅是切换到备份服务器或提升数据库。 容灾始于客户办公室。 即使是拥有员工职位的后备办公室也不是最佳选择。 虚拟工作站(VDI)或云中的其他形式的工作场所可能是一个很好的解决方案。 通过分支网络中的任何计算机都可以轻松地访问数据中心虚拟机中的此类工作站。

云创新


俄罗斯电信运营商MasterTel和联想共同准备并实施了一个名为Innovate Cloud Technology的抗灾云项目。 基于该云,为希望在云中部署关键IT基础架构的众多客户提供了高度可靠的IaaS服务。 云基于在两个站点之间分布的城域集群-莫斯科的DataPro和IXellerate数据中心。

为这个项目选择合作伙伴,首先,MasterTel公司受到了卖方迅速以合理价格提供最完整解决方案的能力的指导。 为了实施于2018年10月启动的云,由Lenovo专业服务专家组成的团队参与其中。 MasterTel充当云服务提供商和电信运营商,负责组织安全的通信通道并提供直接的光纤线路,负责云的运营及其支持。

创新云技术是面向企业客户的私有云,提供高度可靠且可扩展的实时云服务IaaS,BaaS,DRaaS,VDS等。 创新云技术服务的用途是什么?

高可靠性


实际上,实际上,大多数云项目都提供租金能力。 通常,这是创建虚拟服务器(俄罗斯最常见的商业数据中心服务)并访问已经形成的资源池。 在使用Innovate Cloud Technology的情况下,客户可以在线进行所有设置,然后动态分配和释放资源,并在事后付费(专用于所用资源),以适合传统的云服务。

但是,创新云技术的最重要特征可能是其高可靠性。 客户可以利用高可用性云基础架构,并在地理位置分散的DataPro和IXcellelle数据中心中存储高度关键的数据。 仅这些站点就可以保证可靠性以及高水平的物理和信息安全性。 MasterTel提供了可靠的高速通信通道以及对两个数据中心的访问。

创新云技术是一种具有99.99%保证SLA可用性的云资源。 但是,该云不仅具有高可靠性,而且具有容灾能力,因为它是位于Tier III级别的两个站点上的地理位置分散的虚拟化群集。

数据中心DataPro


该数据中心位于大街上。 莫斯科的Aviamotornaya是获得运行时间设计和设施认证的少数俄罗斯商业数据中心之一。 数据中心使用的所有技术和解决方案均经过认证,这意味着最大的容错能力,保证的资源可用性以及防止意外情况的保证。


DataPro数据中心管理中心。 正常运行时间设计和设施的国际认证意味着它的设计和建造符合Tier III可靠性类别的所有适用标准。
安全性负责数据中心本身和周围区域的安全性。 该安全系统包括350多个网络摄像机。 对于不间断且有保证的电源,使用不间断电源(UPS),使用柴油发电机组(DGU)在电源网络长时间发生事故时支持数据中心的运行。

在DataPro数据中心中,Mosenergo变电站有两个独立的10 kV输入,电缆铺设在不同的收集器中,为设施提供了必要的电力。 数据中心的电源实际上是根据2N方案预留的。

IXcellerate莫斯科一号


IXcellerate的Moscow One数据中心还获得了Design类别的Tier III Uptime Institute认证。 根据IBM可靠性评估系统方法论,该设施在“项目”,“建设”和“运营”类别中也达到了3级可靠性级别。 IXcellerate Moscow One在SLA级别得到了技术实施和保证,可用性指标为99.999%。 位于德古尼诺的IXcellerate Moscow One数据中心的总面积为15,741平方米。 m。该设施的设计能力达到13.7兆瓦。 数据中心的客户包括大约一百家国际和俄罗斯公司。


通过Uptime Institute的认证测试证明,IXcellerate计算中心是根据现代世界数据中心建设实践设计的。

防灾能力


在两个站点上进行分发需要组织冗余的通信通道,并在存储之间进行数据复制。 我们需要一种数据同步机制,以确保在一个节点发生故障时其相关性,并支持那些需要这种同步的信息系统的运行。

抗灾数据中心的核心通常是具有地理位置分布的群集服务器配置,该配置与公共存储区域网络(SAN)相连。 该间隔集群的节点位于主站点和备用站点上,形成一个系统。 这样即使在其中一个数据中心丢失的情况下,也可以确保不间断的服务可用性。 借助群集,可以在发生事故时在分布式数据中心的站点之间提供自动负载切换。

这些站点上的存储系统可以完全相互复制,并且站点本身通过冗余高速通信通道连接,这使您可以实施对数据传输的可靠性及其可用性(包括同步数据复制)具有最高要求的项目。


基于VMware vSphere的Metrocluster配置示例。 它基于在两个地理位置不同的站点上复制存储系统,并具有数据复制功能,并可能在数据中心网络级别实现负载平衡。 如果其中一个数据中心不可用,虚拟机将自动在第二个平台上启动。 一个城域群集的停机时间几乎为零,只有在VMware High Availability(HA)在群集中具有存储位置的远程站点上重新启动VM时,工作才会在虚拟机启动期间中断。

如果使用DR负载平衡机制(Global Server负载平衡,GSLB),则在发生主要故障时可以自动将用户切换到备份站点。 对于用户而言,此过程将是透明的。

与具有数据复制功能的灾难恢复不同,对于城域集群,仅将相同类型的磁盘用于镜像,两个站点都需要相同的配置。

基于VMware的创新云技术云就是以这种方式构建的。 它提供了关键应用程序和云中数据的连续运行。 虚拟化群集的所有元素都在两个站点之间复制,彼此相距近30公里。 在它们之间,数据镜像是在存储系统级别配置的。 因此,如果其中一个站点发生故障,数据和服务将可用:电源故障,存储系统,控制器的部分故障,数据中心之间的通信通道,甚至在其中一个站点完全无法操作的情况下。


如果其中一个数据中心不可用,则将虚拟机迁移到备份站点。 在备份站点(恢复时间目标,RTO)上启动虚拟机大约需要3分钟。

向客户提供了详细的服务水平协议(SLA)。 其主要指标:服务可用性水平为99.99%; 简单-每月不超过4.38分钟,保证的处理器性能参数(MIPS / 1 vCPU),磁盘系统(IOPS,GB / s),访问存储系统的延迟。 对于其合规性,提供商应承担财务责任。

都市簇解剖


云是根据经典架构模型构建的,其中涉及购买必要硬件和软件的整个复杂系统:具有物理和逻辑访问,存储,网络组件,虚拟化软件,安全解决方案的组织的服务器。

莫斯科的两个数据中心有专用的封闭区域,可容纳四个带有计算和网络节点的机架。 该解决方案基于联想制造的组件。 作为硬件计算系统,使用具有Emulex 16Gb Gen6 FC双端口HBA适配器的1U Lenovo ThinkSystem SR530 / SR570 / SR630服务器,将Lenovo Storage V3700 V2 XP阵列用于数据存储,并使用10 Gb 32端口机架式交换机进行数据传输。与Lenovo ThinkSystem NE1032 RackSwitch一起使用。 该软件包包括服务器上出厂安装的VMware ESXi 6.5软件。 这些站点通过两个8 Gbit / s FC通道和两个10 Gbit / s以太网通道连接。


地理上分散的群集的结构。 城域集群位于两个站点之间,可提供容灾能力,并有可能向广泛的客户提供可靠的IaaS服务。 这些站点通过冗余以太网(2x10 Gbit / s)和FC(2x8 Gbit / s)通道连接。

通过从一个供应商那里购买基础设施组件,可以提高整个系统的可靠性和弹性,消除元素,标准和协议之间的冲突。

这两个团队的共同努力进行了项目创建,技术规范的准备和开发,设备安装,调试,压力测试和地铁集群的调试。

Lenovo Metrocluster对所有元素进行了完整备份:服务器,存储,控制器,FC适配器,光交换机。 存储级同步数据复制提供了零恢复点目标(RPO)。

始终通过确保冗余来实现高可用性-在为极端情况做准备的情况下也是如此,此时必须保护整个数据中心免受停电或自然灾害的影响。 如果其中一个站点发生故障,则地理位置分散的群集会自动切换到第二个数据中心,而不会中断工作流程。 实际上,都市集群是具有镜像存储系统的本地集群,位于两个站点之间。

地理位置分散的群集没有关键的故障点。 Metro集群在站点之间实现相互同步的数据复制。 如果发生问题,切换到另一个站点是完全透明的,并且无需管理员干预。 此过程的自动化确保所有应用程序的连续运行。 都市集群也不需要停止以更新其硬件或软件。

例如,如果整个服务器发生故障,则其职责将在几秒钟内转移到位于同一站点的第二台服务器。 在这种情况下发生的短期数据输入输出中断不会影响应用程序的操作,因为数据已同步镜像到第二个平台。 如果交换机,电缆或光纤通道HBA的操作出现问题,则无需将备份切换到第二个数据中心,并且最终用户将不会遇到应用程序性能的任何下降。


如果整个服务节点发生故障,则会发生I / O流的短期(几秒钟)中断:首先将服务转移到相邻节点,并且仅当站点完全中断时才需要切换到地理位置较远的节点。

在这种情况下,地理上分散的群集在数据中心级别使用冗余来克服故障,并且位于第二个站点上的系统将接管所有服务的支持。 因此,应用服务器保留对所有服务的访问权限,但性能有限。

当发生故障的站点再次进入操作模式时,仅需要将停机期间已更改的数据传输到该模式,因此,在消除本地问题之后,受影响的数据中心可以非常快速地恢复正常操作。

万一主机丢失,VMware High Availability(HA)会立即在远程站点上重新启动VM。 如果其中一个存储系统发生故障,则另一个站点上的存储系统会通告到其余主机的磁盘路径。 丢失的虚拟机将在它们上重新启动,一切都会自动发生。
如果站点之间的连接丢失,则一切将继续在其位置进行,一旦恢复连接,同步过程就会开始。

解决方案组成

八台Lenovo ThinkSystem SR630服务器,带有2个Intel Xeon Gold 6132 14C 140W 2.6 GHz处理器,32 GB TruDDR4 2666 MHz(RDIMM)内存,10个2.5英寸驱动器托架,M.2 32 GB SATA SSD驱动器和出厂时安装的VMware ESXi 6.5软件。
1U尺寸的双处理器服务器具有灵活性和性能,这是因为它支持带有SAS或SATA(12 SFF或4 LFF)接口的硬盘驱动器和固态驱动器(HDD和SSD)。 具有连接NVMe驱动器的能力,可提供较高的读取和写入速度。 Lenovo XClarity Administrator软件简化了基础架构的管理和维护。 该设计解决方案专注于性能和价格之间的平衡,以支持广泛的工作负载,并设计为在45°C的温度下连续运行。
两个带有1.92 TB 2.5“ SAS SSD和1.2 TB 2.5” 10K HDD的Lenovo Storage V3700 V2 XP存储系统,以及Easy Tier,FlashCopy和Remote Mirroring软件。
一组功能强大的存储工具使您可以有效地解决海量数据和对信息资源的多线程访问问题V3700 V2 XP提供了整合负载的能力,支持能够支持众多苛刻应用程序的存储系统的形成。 英特尔处理器上的系统的特点是通过SAS总线(以前仅在高端设备中可用)的功能工具实现了高性能和数据交换速度。 存储提供具有集成管理功能的基于Web的界面,提供了灵活的工作配置的形成以及使用虚拟化的快速部署以及使用FlashCopy的备份应用程序。 它支持垂直扩展,最多可扩展到240个2.5英寸驱动器或3.5英寸外形尺寸的120个驱动器。 您可以使用九个扩展单位进行缩放。
具有20个驱动器的Lenovo V3700 V2的存储2 TB 2.5英寸7.2K HDD
该系统提供了一组工具,可提供统一的虚拟化,扩展和管理。 它是具有虚拟化功能的混合解决方案。 存储Lenovo Storage V3700 V2具有两个RAID控制器,可让您使用任何存储格式-硬盘驱动器为3.5英寸,硬盘或SSD外形为2.5英寸。 SHD是系统软件的标准配置,具有内部存储虚拟化,自动精简配置,单向数据迁移,FlashCopy(64份)功能。 附加功能-FlashCopy(2048份),简易层,远程镜像。
32- Ethernet 10 / Lenovo ThinkSystem NE1032 SFP+ SR.
24 10GBase-T 8 SFP+ 10 / . Lenovo Cloud NOS, . NE1032 . L2/L3 IP-, BGP, , Lenovo XClarity.
Fibre Channel Lenovo B6505 FC SAN c 12 SFP 16 /.
Fibre Channel 5- -. - 16 /.

在所有Lenovo 1U服务器中,Lenovo ThinkSystem SR630服务器具有最大的存储子系统和最高的性能,可以处理各种工作负载。它允许您使用参考模型来构建云。

ThinkSystem SR630服务器包含两个Intel Xeon性能处理器,最多具有四个PCIe 3.0插槽,用于安装各种I / O适配器。 AnyBay技术支持具有SAS或SATA接口(12个SFF尺寸设备或4个LFF尺寸设备)的硬盘驱动器和SSD。主板上的四个NVMe端口用于直接连接NVMe驱动器。


联想存储V3700 V2 XP-IBM Storwize系列的延续。 XP版本具有高性能和配置灵活性的特点。

结果如何?通过支持基于阵列的同步镜像和群集,已部署的“ MasterTel”城域群集可实现恒定可用性并完全消除数据丢失。该软件提供故障转移透明性,从而确保关键任务应用程序的平稳运行。联想并不是第一个参与此类项目的公司。该公司的产品组合包括服务器,存储和网络。 x86服务器充当VMware虚拟化平台

当然,城域集群是一个困难且昂贵的解决方案,但是在那些必须确保不间断运行的情况下,当停机或数据损坏的代价很高时,它们通常不愿意节省。

Source: https://habr.com/ru/post/zh-CN437802/


All Articles