穿越Selectel数据中心。 《恐龙大战》,VMware,C2F5H和“隐形狼人”

系统管理员的工作基于以下信念:数据中心工程师知道他们的工作。 我们正在构建故障转移群集,但是如果断电,那么此故障转移将花费多少呢? 如果从数据中心到通信交换点的通道断开,服务器处理请求的速度有多快? 如果服务器过热,如何升高服务器?


我不想相信,但是想知道在铁水平上如何精确地创建容错能力。 制定SLA Kubernetesov时所谈到的“九个”设备可靠性来自何处。 当项目以最真实的含义燃烧时会发生什么。


我们很幸运在Slurm DevOps的第三天到Selectel数据中心走来走去,观察圣灵,甚至拍一些照片以纪念。 我们还询问了Selectel员工从未告诉任何人的公司传说。 事实证明,他们自己不记得了。


我们的南桥公司与Selectel建立了长期的合作伙伴关系。 现在,我们支持在提供商服务器上托管的58个项目。 当客户需要位于俄罗斯的服务器时,我们建议您选择Selectel,因为根据经验,我们认为他是最可靠,最方便的IT基础架构提供商。


走吧



当走到四楼时-最棘手的人上了电梯,最运动的人上了楼-南桥的同事提醒我,我绝对应该了解Selectel的传说:关于狼人,关于在建造新数据中心大楼时四处徘徊和how叫的躁动不安的精神。 我一直对大公司的神话感兴趣,这些神话一直停留在动荡的阶段和最初的成长阶段。


最初,该公司在圣彼得堡的Flower 1上只有一个数据中心。 数据中心为Vkontakte公司提供服务。 当我们上到四楼时,我们从窗户看到了他。 他在九到十年前就停止了现代化建设-从那以后一直持续工作。 在可靠性方面,它属于Tier II。


供审议的信息(c)“春天的十七个时刻”:

数据中心的主要指标是容错能力。 共有4个类别-从第一层到第四层。 属于某个类别表示冗余级别,物理安全性和可靠性。

第I层(冗余-N,容错-99.671%)-数据中心没有高架地板,没有冗余电源和不间断电源,并且未保留工程基础架构。 在计划的或紧急维修期间,数据中心将停止。

第II层(冗余-(N +1),容错-99.749%)-少量冗余,在数据中心中安装了高架地板和备用电源,维修工作导致数据中心停止工作,如第I层中一样。

第III层(冗余-2N,容错-99.982%)-可以在不停止数据中心的情况下进行维修工作(更换系统组件,添加和移除故障设备)。 所有系统都是保留的,有几个配电和冷却通道。

IV层(冗余-2(N +1),容错-99,995%)-需要双重冗余和系统冗余。 可以执行任何工作而无需停止数据中心的工作。 工程系统是双重保留的,即,主系统和辅助系统都是重复的。

在我们前面的是一个功能强大的格栅,一个带电子锁的门和一个由厚金属型材制成的全高风车。 其背后是数据中心空间本身。



我们所位于的数据中心比附近的数据中心新-它建于2015年。 它属于Tier III类别。


现在,Selectel在Tsvetochnaya拥有两个运营中心,在Dubrovka拥有另外三个运营中心,在莫斯科拥有两个数据中心,这被视为公司的一个数据中心。 只有六个。


该建筑有四层。 办公室位于二楼,并设有一些设备。 第四层部分分配给办公室,但大部分被技术处所占用。


提供者进入此处之前,生产已在建筑物中进行。 数据中心的员工本人并不记得电影或服装的确切生产。 该公司购买该建筑物是为了消除如果建筑物归第三方拥有的复杂财产关系的风险。


尽管过去曾经在这里生产,但还是有机床和其他重型机械,Selectel进一步强化了地板。 即使在进行密集的Slurm DevOps( 1、2、3 )的一楼会议室中,我们也要注意加强的支撑。


我们只穿鞋套去数据中心-这种场所的通常规则。 穿上塑料大头钉需要“鞋架”。 我们真诚地灌输。 服务员为我们提供了一个选择-自己穿鞋或将四肢交给器。



我们的选择是可以预测的。 南桥主管Igor Olemsky: “我们致力于自动化 南桥管理人安东·塔拉索夫(Anton Tarasov): “如果是袜子,那我将是地球上最幸福的人



当他们穿鞋的时候,南桥开发人员一直在积极地想知道VMware服务器的确切位置。 每个人都有兴趣了解该技术在什么设备上工作。


进入技术领域后,他们立即宣布了以下规则: “我们不吃饭,不喝酒,不吸烟。 我们不会将手放在任何地方,任何防护罩,任何机架,空调和遥控器中。 我们像暴龙一样握在我们面前。”


第四层有三个服务器机房。 所有设备都在高架地板上。 有必要使冷空气从下方流动,并且可以进行不需要经常访问的通信。 这些是电源线和冷却管道。



当我们进入小型服务器机房时,嗡嗡声袭来。 这位著名卡通人物的脑袋肯定会说: “这很好,很好,很好, 原因很充分!” 。 由于我们不习惯,因此在最初的几分钟内我们几乎没有听到对方的声音。 几乎没有猜到该指南的解释,我不得不更加接近。


周围是机架,机架,甚至更多的机架……它们排成一排。 在服务器数据中心,我们遇到了不同的等级:10个机架,12个,20个,30个机架。具体取决于房间的配置,客户端租用的区域以及任务。




在冷却系统所有服务器机房的数据中心中,情况看起来是这样的:从上方和侧面,冷却空间受机架结构的限制,前部被穿孔的门封闭。 空调机在高架地板下驱动冷空气-空气在压力下上升进入机架。



在各行之间走动就足以感觉到空气温度如何急剧下降五度,甚至可以感觉到温度极限。 高架地板上的接缝安装得非常紧,除了经过专门设置的冷却路径外,空调无处可去。


在服务器本身中,温度保持在22±2摄氏度左右。 在“冷”走廊中,温度可以下降到16-17度。 在小型服务器机房中有两个“冷”走廊。 因此,它们之间的走廊被称为“热”。 它们比一般服务器机房略热-空气穿过机架并从设备中加热。



有架子出租给顾客。 工程师接通电源-客户在法规和法规的框架内调用设备并执行他想要的操作。 可以租用不同的架子。 多达47个单元,一半,四节。 它们在物理上是分开的-使用了不同的锁。 您只能租用10个单位。 谁拥有很少的设备,这将足够。 因此,功耗更低-结果更便宜。


例如,如果客户在下部租用一个“四分之一”,而您需要铺设电缆,则将通过一个特殊的金属通道来吸引他。 机架上部的客户将无法以任何方式访问他人的通信:既不能通电,也不能铜线,也不能光缆。


在服务器机房中装有三件空调。 他们中只有两个工作。 如果取出一台空调进行维护或发生故障,工程师将打开备用空调。 此储备库存是Tier III规格要求。


例如,有不间断电源。 其中有一定数量的设备(假设为12)。但是它可以正常工作。6.如果电力不再流向数据中心,则服务器机房可以用电池工作一个小时。 但是,如果假设有6台UPS发生故障,那么工程师将再打开6台。 为了提高可靠性,数据中心中的节点总数量是原来的两倍。



该项目的数据中心最多可消耗10兆瓦。 但是现在只有1.5。 到目前为止,只有第四层用于设备-在施工阶段的第二和第三层。 第四个还没有完全装满:它设计用于250个机架,可容纳200个机架,还有增长的空间。


Selectel在所有数据中心总共使用14.4兆瓦。 运行中的机架1,200。



除了用于各种项目的主要机架(主要是为客户出租)之外,服务机架位于仅安装Selectel设备的服务器机架中。 有用于被动连接的交叉机架。 它们没有电源,只有光纤-用于在平台之间以及房间之间连接设备。 每个服务器机房都有带十字的同一机柜。 Cross可以在建立后立即转到另一个房间,位于一楼的另一个服务器房间,也可以转到相邻的数据中心,甚至可以到达Dubrovka上的数据中心。


该公司有几种这样的纤维。 如果其中一个中断,则数据中心将立即开始工作,而不会暂停。 放置的所有路径始终保留。


如果他们在该数据中心和相邻的数据中心之间建立连接,工程师将通过数据中心之间的空中通道将一个链接引导穿过交叉口,而第二个链接将通过另一交叉通道引导穿过下水道。 无论发生什么情况,总会有一个备用通道。


由于数据中心中有很多设备,因此员工必须严格监控消防安全。 数据中心有几种处理火灾的方案。 Selectel在每个房间(办公室和技术室)都有灭火器。 而且人们也经过专门培训,可以与他们一起工作。 如果火灾是局部的,您可以自己处理。



但是,如果它强烈燃烧,例如服务器上的电源或压缩机回路中的油燃烧,则灭火器将无法始终应付。 在这种情况下,数据中心设有一个气体灭火站。 从那里,黄色的管道从天花板向下延伸到每个房间。


在严重的火灾中,所有人员都被带出服务器机房。 每个门附近是一个黄色按钮。 门紧闭,按下按钮,倒计时30秒。 供应Hladon-125气体-五氟乙烷,化学式C2F5H。 它抑制了燃烧过程-火灾立即停止。 在数据中心灭火时,请勿使用液体或粉末,因为它们会损坏设备。


在大型服务器机房中,我们被禁止拍照。 因为我会从记忆中告诉他们所看到的。 该数据中心总共有一个小型服务器和两个大型服务器。


第一个大型服务器机房有一个“冷”走廊,用于Selectel项目和客户租赁。 它比在小型服务器机房中更长。 在某些机架上有单独的安全措施-在其中一个机架上,我们注意到一个电子锁,上面有密码和一个摄录机。


我们从内部看了“分配空间租赁”服务的外观。 您可以在该站点上购买任何正交-当然,可以从可用的那个中购买。 客户在那里可以放置任何符合标准的机架和设备。


通过封闭的围栏检查了属于一个客户的一个很大的区域。 有德国的货架需要特别订购。 还有一个单独的小仓库。


根据我们指南的故事,此服务不一定太大。 您可以放置​​两个机架并将其围绕笼子。 而访问它们只会与您同在。 通常,如果是银行或客户在金融机构工作,则会产生此类要求。



我们调查了灭火站的处所。 这是带有“ Freon-125”的气瓶所在的位置。 该设备经过配置,可以根据大小将一定数量的气瓶中的气体发送到每个房间。



在走廊的左侧,有一个电气面板室。 但是我们无法进入那里,以防万一他们不去游览-否则会很不舒服,并且气味不会消失很长时间。


有不间断电源和面板。 整个建筑物的食物就在这个房间里。 从这里开始,所有房间都已经有了布线。 母线排到服务器机房,可以在走廊的天花板下看到。


两个总线通道发送到每个服务器。 一个人进入天花板下,一个人进入活动地板下-这就是满足预订条件的方式。 整个建筑物由发电厂的两条输入射线提供动力。 如果一个输入断开,则数据中心将从第二个开始工作。



如果立即断开两个连接,则所有设备都将进入充电电池。 750个电池位于一个特殊的房间中。 再远一点,还有另一个同类型的房间-还有更多。 数据中心将根据负载情况在其上运行1-3个小时,但是切换到柴油机仅需2分钟。


在单独的房间里是巨型柴油发电机组。 每个人都站在一个膝盖高的平台上-从我的解释中可以看出,这是一个单独的油箱,每个柴油机都装有燃料。 另外,在数据中心中,有几个油箱埋在地下,设计用于数十吨的燃料。


随着燃料的降解,它会定期更换。 如果柴油箱中的燃油用完了,则泵将从燃油箱中抽出燃油。 如果突然出现麻烦并且泵坏了,则还有备用。



绝对所有系统都是重复的-Internet通信通道,冷却,电源,紧急灭火系统和备用电源。


我们问了一个关于电信运营商的问题。 该公司的工程师说,他们不断使用5-6个运营商进行上行链路。 而且有很多路线。 此外,提供商还可以与圣彼得堡和莫斯科的几乎所有交通交换点建立连接。 在莫斯科,最大的是M9。 在圣彼得堡-B18和Kantemirovskaya。


如果地下油箱中的燃料用完了,则会带另一个油箱。 Selectel与一家燃料公司有合同。 数据中心可以无休止地依靠柴油生活,价格昂贵。


我们询问了Selectel如何与人为因素打交道-因为最大的危险是他,因此毫无保留会有所帮助。


-如何处理人为错误?


-我们尽量不重复。 我们预测可能的错误。 我们进行训练,练习。 例如,接受有关更换柴油发电机的培训:我们测试人员,在此过程中更换柴油,有时我们将全部负荷转移给他们。 另外还有一个知识库。


我们到了VMware。 在云服务器上,仅使用2 TB的Intel平台SSD。 自然地,预订就是一切。 例如,我们看到了close:每个服务器中有两个网卡,每个网卡中都有两个链接。 一个链接转到顶部的交换机,另一个链接转到下一个机架的交换机。 每个模块使用两个电源。



在数据中心,主要有俄罗斯CMO机架。 在出租区域的客户服务台中,有不同的解决方案。


在第二个大型服务器机房的走廊下方,我们看到了一部电梯。 有两台用于提升设备的电梯-一吨和两吨。 装载区是单独制作的-位于一楼的会议室旁边。



在电梯室内,我们看到了一个装有Juniper MX 2010路由器的“小”盒子,任何管理员的梦想:三个交流电源,1个RE模块(路由引擎):1800x4(CPU 1.8 GHz QuadCore,16 GB RAM),1个模块SFB(交换结构板)。


同事们争论说该放在哪里。 我们决定在家里他会看起来最好。 可以将wi-fi分发到家用电器。 笨拙而坚固-是认真的管理员的理想路由器。 而且当您累了时,您可以在一个大城市里买卖公寓。





MX 2020还有一个更大,更强大和高效的模型。


路由器如何工作? 模块,线卡插入其中-它们异常高且非常狭窄。 而且这些线卡非常不同-它们可以具有8、24、48个端口。 端口可以​​是“十”和“百”。 取决于您的需求和财务机会。


在MX 2020中,线卡有32个插槽:顶部16个,底部16个。 相对而言,如果插入10个线卡,每个线卡有48个端口,则结果是480个端口。 我们使用“二十五”个收发器-将480个端口乘以25吉比特。 这是选项之一。 您可以输入“数百”。


当他们离开技术场所时,他们在“小吃店”徘徊了一下,Selectel工程师在晚上恢复了实力。 他们询问是否在数据中心中重复了Tier III类别的咖啡机。 每个点有两台咖啡机-每台有两个电源...依此类推。



伊戈尔·奥莱姆斯基(Igor Olemsky)问:


— -?


— . . , , , . . — , . - . , . — , , .


, DCIM (Data Center Infrastructure Management). , -, . , , , , .


, Selectel, — , , : " 6 - 40 000 " .


- — , . , , .



, . , , -. - , , .


. - , .




, , - . .


— - ?
— , — Selectel.
— - , .
— .
— .


.


. . , , , . , Selectel. -.



, Selectel , :


— , , ?
— . , — .


, - . , , , 8 . . - , Selectel , , , , , .


, . — . , - . . . , , . . .


Selectel, — , , , . , , -, : , , .


.


— ? , - ? , ?


— , — , . , .


从逃避的答案来看,塞尔达科洛夫斯基狼人的主题已被NDA的黑暗所笼罩。我们从未发现它是否存在,而是从内部查看了数据中心。

Source: https://habr.com/ru/post/zh-CN467595/


All Articles