🕵🏻 🌌 👩🏼‍🍳 优化服务器的机架分布 ♨️ 👩🏿‍🤝‍👨🏽 🍂

在一个聊天中，有人问我一个问题：

-还有什么要读的东西，如何将服务器正确地装在机架中？

我意识到我不知道这样的文字，所以我写了自己的。

首先，本文是关于物理数据中心（DC）中的物理服务器的。其次，我们认为有很多服务器：成百上千台，对于较小的数量，此文本是没有意义的。第三，我们认为我们有三个限制因素：机架中的物理空间，机架的电源以及让机架成排站立，以便我们可以使用一个ToR交换机连接相邻机架中的服务器。

问题的答案很大程度上取决于我们优化的参数以及为了达到最佳结果而可以进行哪些更改。例如，我们只需要占用最少的空间即可留出更多空间用于进一步增长。或者也许我们可以自由选择机架的高度，每个机架的电源，PDU中的插座，一组交换机中的机架数量（每1、2或3个机架一个交换机），电线的长度和拉力（这在行的末端很关键：如果一排有10个机架，而交换机上有3个机架，您将不得不拉另一排电线或未充分使用交换机中的端口），依此类推。单独的故事：服务器选择和DC选择，我们假定它们已被选择。

最好了解一些细微差别和细节，尤其是服务器的平均/最大消耗量以及我们如何供电。因此，如果我们有一个230V的俄罗斯电源和每个机架一个相，那么一台32A的机器可以容纳约7kW。假设我们名义上为每个机架支付6kW。如果供应商仅按一系列10个机架而不是每个机架来衡量我们的消耗量，并且如果机器的常规截断值为7 kW，那么从技术上讲，我们可以在一个单独的机架中以6.9 kW的价格购买另一个5.1 kW的设备，那么一切都会好起来的-不会受到惩罚。

通常，我们的主要目标是最小化成本。最好的衡量标准是降低TCO（总拥有成本）。它由以下部分组成：

资本支出：采购直流基础设施，服务器，网络硬件和电缆
运营支出：直流电租赁，耗电，维护。 OPEX取决于使用寿命。合理地假设它等于3年。

根据整个饼中各个组件的大小，我们需要优化最昂贵的组件，并让其余组件尽可能高效地使用所有剩余资源。

假设我们有一个现有的DC，机架高度为H个单元（例如H = 47），机架P _机架的电为P（ _机架 6 kW），因此我们决定使用h = 2U的两单元服务器。我们从机架中将2..4单元移除到交换机，配线架和管理器。即从物理上讲，我们的机架中有S _h =向下取整（（H-2..4）/ h）服务器（即，S _h =向下取整（（47-4）/ 2）=每个机架21个服务器）。请记住，这是S _h 。

在简单的情况下，机架中的所有服务器都是相同的。总计，如果我们用服务器锤击机架，那么在每台服务器上，我们平均可以花费功率P _serv = P _机架 / S _h （P _serv = 6000 W / 21 = 287 W）。为了简单起见，我们在这里忽略开关消耗。

我们走到一边，确定最大服务器消耗是P _max 。如果它非常简单，效率低下且完全安全，那么我们将阅读服务器电源上写的内容。

如果它更复杂，更有效，那么我们采用所有组件的TDP（热设计包）并进行总结（这不是很正确，但是可以如此）。

通常，我们不了解TDP组件（除了CPU），因此我们采用最正确但也最困难的方法（我们需要实验室）-我们采用具有所需配置的实验服务器并加载它，例如，使用Linpack（CPU和内存）和fio（磁盘）衡量消费。如果认真对待，在测试过程中还需要在冷走廊中创建最温暖的环境，因为这会影响风扇消耗和CPU消耗。在此特定负载下，在这些特定条件下，我们将获得具有特定配置的特定服务器的最大消耗。我们只是表示系统的新固件，软件的另一个版本，其他条件可能会影响结果。

总而言之，我们返回P _serv ，并将其与P _max进行比较。这是一个了解服务如何工作以及技术人员的神经质的问题。

如果您完全不冒险，那么我们相信所有服务器都可以立即开始消耗其最大资源。同时，可以形成一个直流输入。在这些情况下，下面应该提供服务，因此P _serv≡P _max 。这是可靠性绝对至关重要的方法。

如果技术代表不仅考虑完美的安全性，而且考虑公司的资金并且足够勇敢，那么我们可以决定

我们开始管理我们的供应商，尤其是在计划的峰值负载时，我们禁止进行定期维护，以最大程度地减少一次投入的下降；
和/或我们的体系结构允许您丢失机架/行/直流电源，并且服务继续工作；
和/或我们很好地将负载水平分布在整个机架上，因此我们的服务永远不会跳到一个机架上的最大消耗量。

在这里，不仅进行猜测，而且可以监视功耗并了解服务器在正常和高峰条件下的实际耗电量，这非常有用。因此，经过一些分析，techdir压缩了它的所有内容，并说：“我们愿意确定每个机架的最大服务器消耗的最大可实现平均值比最大消耗量低**如此之多”，条件是P _serv = 0.8 * P _最大

然后在6kW机架中，不再有16台服务器的P _max = 375W，而是20台服务器的P _serv = 375W \ * 0.8 = 300W。即服务器增加25％。这是一个非常大的节省-毕竟，我们立即需要的机架数量减少了25％（我们还节省了PDU，交换机和电缆）。这种决定的严重缺陷-有必要不断监视我们的假设仍然正确。固件的新版本不会显着改变风扇的运行和功耗，新版本的开发突然并未开始更有效地使用服务器（请注意，我们在服务器上有更多的负载和更多的消耗）。毕竟，我们的最初假设和结论都立即变得不正确。必须以负责任的方式承担风险（或避免这种风险，然后为明显欠载的机架付费）。

重要说明-如果可能，您应尝试水平分布机架上不同服务的服务器。这是必要的，以便当一批服务的一批服务器到达时，故事不会发生，机架被垂直阻塞，从而增加了“密度”（因为这很容易）。实际上，事实证明，一个机架挤满了一种服务的相同低负载服务器，而另一种负载也同样高负载。一秒钟掉落的可能性要高得多，因为负载配置文件是相同的，并且由于负载增加，该机架中的所有服务器开始消耗相同的数量。

回到机架中服务器的分布。我们检查了机架空间的物理限制和电源限制，现在看一下网络。您可以在24/32/48端口N上使用交换机（例如，我们有48端口ToR交换机）。幸运的是，如果您不考虑分支电缆，那么选择就不多了。我们考虑以下场景：在R _net组中，每个机架有一个交换机，一个交换机到两个或三个机架。在我看来，该组中已经超过了三个机架，因为机架之间的布线问题变得更大。

因此，对于每种网络方案（一个组中的1个，2个或3个机架），我们将服务器分配到机架中：

S _rack = min（S _h ，向下舍入（P _rack / P _serv ），向下舍入（N / R _net ））

因此，对于组中有2个机架的选件：

S _机架 ² =最小（21，向下（6000/300），向下（48/2））=最小（21、20、24）=每个机架20个服务器。

同样，我们考虑其余选项：

_机架 ¹ = 20
_机架 ³ = 16

我们快到了。我们计算所有S服务器分布的机架数量（设为1000）：

R =汇总（S /（S _机架 * R _net ））* R _net

R ₁ =汇总（1000 /（20 * 1））* 1 = 50 * 1 = 50个机架

R ₂ =汇总（1000 /（20 * 2））* 2 = 25 * 2 = 50个机架

R ₃ =汇总（1000 /（16 * 3））* 3 = 21 * 3 = 63个机架

接下来，我们根据机架数量，所需的交换机数量，布线等来考虑每个选项的TCO。我们选择总拥有成本较少的选项。赢利！

请注意，尽管选项1和2所需的机架数量相同，但是它们的价格会有所不同，因为第二种选择的开关数量是原来的一半，所需电缆的长度也更长。

PS如果有机会在机架和机架高度上发挥作用，则可变性会增加。但是，只需对选项进行排序，就可以简化为上述过程。是的，会有更多的组合，但数量仍然非常有限-机架的计算功率可以1 kW的增量增加，典型的机架尺寸有限：42U，45U，47U，48U，52U。 Excel在“数据表”模式下进行的假设分析可以帮助您进行计算。我们查看收到的板并选择最小值。

优化服务器的机架分布

More articles: