服务器组装:从订购组件到测试



当客户订购任意配置服务器时会发生什么? 定制服务器的可靠性如何? 我们将在今天的新文章中详细讨论这些问题和其他问题。

服务器顺序


尽管在可用于订购服务器的部分中有几十种不同的配置,但是某些客户端需要具有特殊配置的服务器。 通常,这对于创建具有很高性能或大量磁盘驱动器的服务器是必需的。

为了满足此需求,提供了“ 任意配置的专用服务器 ”服务。 该站点上的配置器使您可以创建任何复杂程度的服务器,并在几分钟之内自行租用。 但是,很少有人怀疑如何组装这些服务器。

客户确定所需的配置,下订单并付款后,系统会自动在控制面板中创建票证。 这样的票将送到组装部门,专家开始检查订单,实际上是服务器本身。

组装过程


订单检查


站点上的配置器通常会选择组件的“正确”版本,但是在某些情况下,客户可能没有选择用于组合硬件组件的最佳选择。 例如,在这种配置下将无法提供最佳性能的RAID控制器,或者在多处理器系统中,RAM插槽的数量为奇数。 因此,工程师首先检查订单,如果发现潜在问题,则必须在票证中警告客户。

如果客户同意配置不是最佳配置,则可以轻松取消订单并创建新订单。 取消后的资金将全部退还到控制面板的余额中。 确认订单后,我们将继续准备组件和组装服务器。

配饰


每个服务器均包含以下组件:

  • 外壳 (随电源一起提供);
  • 主板 ;
  • 随机存取存储器 ;
  • 处理器
  • 驱动器
  • 磁盘控制器 (如果按顺序提供);
  • 视频卡 (如果可以订购)。

负责组装的工程师使用序列号作为标识符准备所有组件并将其固定在会计系统中。 现在,我们将介绍任意配置的每台服务器所经历的所有阶段。

案件准备


我们通常使用Supermicro机箱,应准备使用随附的硬件安装主板。 不同的主板型号具有不同的安装点,因此您应确定每个特定组件的硬件和螺栓数量。

虽然订单数量很少,但我们只是购买了一套专为这种情况设计的紧固件,并推迟了未使用的紧固件。 在某个时候,很明显,找到合适的螺栓需要很长时间,因此我们决定打包仓库中所有可用的硬件。

预包装紧固件

在包装完最后一个带紧固件的包装后,很明显我们没有白费力气。 现在,每个螺栓和每个硬件都放置在严格指定的位置,这样可以节省大量时间。

为了防止主板的触点接触金属外壳和短路,使用了特殊的塑料层。 没有它,则禁止组装。 另外,您必须小心地断开(是的,它是由制造商提供的)服务器背面存根中的端口。 它基本上是用一字螺丝刀完成的。

之后,将带有订单标识符的标签以及将来服务器的序列号粘贴到该案例上。 为方便起见,除字母数字标识符外,标签还包含条形码,可让您使用扫描仪快速读取信息。

主板安装


在安装主板之前,工程师立即执行一些准备步骤:

  • 戴上薄手套;
  • 戴上接地手镯。

首先,这是必要的,以免损坏手。 在这种情况下,最常见的伤害是割伤。 接地腕带不会由于静电而意外损坏电路板的电子组件。

将母板放置到位后,拧紧固定螺栓。 应该记住的是,该织物是相当脆弱的,并且不需过度努力。 为了节省时间,工程师使用无绳螺丝刀。

现在,电源线已连接到主板以及冷却系统风扇。 重要的是有时电缆的长度比必要的要长,因此请使用细尼龙扎带将电缆整齐地拉在一起。 如果无法将熨平板固定到主体,则制造商会在双面胶带上提供方便的安装垫。 两端用侧切刀小心地咬住。

然后使用适当的电缆连接前面板和背板。 现在,您可以继续安装处理器和其他元素。

CPU安装


此操作可能是最微妙的,需要引起注意。 甚至在10年前,处理器都具有方便的“腿”,插座是带有孔的塑料基质。 因此,仅将处理器小心地插入插槽并合上闩锁就足够了。 从LGA 775插座开始,处理器失去了“支腿”,仅留下光滑的接触垫。 相反,插座现在具有触点,但它们又小又脆弱,以至于安装处理器时进行的任何操作都应尽可能精确。

现代插座FCLGA3647

英特尔至强可扩展处理器

将处理器安装到位后,就该安装冷却散热器了。 通常使用无源散热器,但在此之前,先涂导热油脂-一层导热材料,将处理器和散热器分开。 最常见的是,使用有机硅浆料(例如KPT-8)。

应当记住,导热膏的主要任务是封闭处理器表面和散热器表面的微观缺陷,以提供最大可能的接触面积。 因此,它以非常薄且均匀的层施加。 为此,请使用专用抹刀或老式的不必要的塑料卡。 用棉签去除多余物。

RAM安装


每个主板制造商都根据其类型和速度独立确定RAM模块的正确安装顺序。 对于Supermicro,此安装过程在每种主板型号的说明中都有说明。 尽管如此,在大多数情况下还是有一些通用的规则可以起作用:

  • 不希望使用奇数个板条 (与E5系列中的Intel Xeon处理器有关);
  • 应该逐个通道分配内存,以便系统可以使用所有可能的控制机制模式;
  • 在一台服务器中,希望使用与主板支持范围内的延迟,电压和频率相同的内存

安装前,工程师应检查插槽中是否有异物或纸屑。 如有必要,可使用压缩空气进行清洁。

驱动器安装


这里的一切都很简单。 磁盘驱动器固定在标准滑轨中,然后插入服务器中。 如果订购了磁盘控制器或其他网卡,则将它们安装在相应的PCI-E插槽中并用螺钉固定。 一切安装到位后,组装部门的工程师再次检查所有组件是否与订单相符,然后将服务器发送到机架进行固件和测试。

电缆管理


我们涉及服务器内部电缆管理等主题。 这里也有自己的细微差别,主要是有限的空间。 大多数服务器设计为占用最小的机架空间。 一个安装单元的高度为43.7毫米。 因此,安装主板和其他外围设备后用于电缆的空间很小。

有趣的事实:一个安装单元的高度恰好等于一个顶点(旧俄制长度单位)。

您应该始终认为,空气必须畅通无阻地穿过服务器才能有效地冷却组件。 其路径上的任何障碍都会使散热变差,并由于冷却系统负载的增加而增加能耗。 这对于具有多个GPU的服务器尤其重要,这些GPU在负载下的温度达到80度。

气流在所有GPU之间平均分配

因此,所有电缆的铺设方式都应不会阻塞空气通道。 借助领带将多余的部分固定在普通的眼睛上,如果没有,则用双面胶带固定在塑料平台上。

敷设电缆,以免干扰气流通过

组件固件


首先,我们将回答一个常见问题-为什么需要这样做? 答案很简单-此过程对于确保所有服务器组件均能正常工作且提高安全级别是必需的。

大多数服务器组件都是在可以重新编程的情况下构建的。 在测试和操作过程中离开装配线后,在大多数情况下,会检测到错误和软件漏洞。 如果未提供重新编程组件的可能性,则要消除这些软件问题,必须召回所有产品。 创建替换固件的功能要便宜得多。

IPMI闪烁


远程控制模块(IPMI / iLO / iDrac)是服务器最重要的元素之一。 这是一台独立的微型计算机,当主板上有工作电压时,它始终可以工作。

即使服务器中没有组件,该微型计算机也可以工作,执行解释和调整服务器传感器数据的任务。 该模块与所有电源管理子系统紧密连接,并允许您远程执行几乎所有操作。 因此,访问这种设备时的安全性问题非常严重。 及时的固件更新使您可以保护模块免受黑客攻击。

固件的安装通常直接从Web界面完成,但是在某些情况下,可以通过将带有适当软件的固件发送到模块来通过网络完成安装。

BIOS刷新


除了已经列出的安全性原因之外,基本的I / O系统还需要更新另一个重要点。 BIOS固件包含主板支持的处理器的微码,以及网络接口和芯片组的微码。 当处理器的新版本问世时,主板制造商会发布包含所需微代码的固件的新版本。 否则,新处理器将无法启动。

此外,新固件的发布可防止由于各种组件(内置在主板和第三方设备中)的相互作用而引起的冲突。 除BIOS固件外,经常会更新相关模块,例如Intel ME(管理引擎)。

为了没有根据,我们举一个例子。 以支持Intel Xeon E5-XXXXv3处理器的Supermicro X10SRi / X10DRi / X10DRW主板为例。 如果将下一版E5-XXXXv4的处理器放在此处,则主板将启动,但是,它将在不同插槽中产生“ Failing DIMM” RAM的奇怪错误。 而且这里的问题根本不在存储器中,而在于存储器控制器位于处理器中。 因此,主板对处理器的错误识别导致出现类似问题的事实。 使用受支持的处理器进行闪烁可以完全解决这种情况。

在某些情况下,设备制造商会人为地停止使用更新的主板型号来支持旧设备。 一个引人注目的例子是Supermicro X11DPi主板,该主板与任何版本的BIOS固件都不能与Adaptec 7th系列HBA一起使用 。 磁盘控制器根本不会初始化,从而导致服务器完全冻结。 目前,这个问题还没有解决。

闪存磁盘控制器


诸如磁盘控制器之类的重要设备的软件错误不仅会引起麻烦,而且会成为非常大的问题的根源。 在大多数情况下,该过程非常简单,使用直接内置于控制器本身的本机实用程序进行刷新。

应当记住,磁盘控制器的旧固件不仅可以修复错误,而且可以从根本上改变元数据的存储方式。 为了避免出现不愉快的情况并保持数据完整,必须在执行刷新之前读取对功能所做的更改的列表。 该信息始终存在于设备制造商的网站上,并且通常与固件本身在存档中重复。

闪烁的网卡


同样,严重的问题(极其难以诊断)可以提供具有固件级别错误的网卡。 除了故障排除之外,网卡软件还可以直接影响性能。 因此,这对于构建服务器的工程师来说是另一项必不可少的项目。

重要


我想单独指出,对闪光组件进行的所有操作均会对设备造成潜在危险,因此,仅允许由合格的专家进行操作。 如果您已经是我们的客户,并且发现需要重新刷新任何服务器组件,那么在任何情况下都不要自己尝试这样做 。 只需在票证中写信给我们,我们应该重新刷新哪个组件,并且将通过所有预防措施来完成此操作。

测试中


完成软件更新后,组装工程师继续对组装的服务器进行压力测试。 通过这种测试,即使在将服务器移交给客户端之前,您也可以找出大多数问题。

RAM测试


为了检查服务器中安装的所有RAM模块的可操作性,启动了一种非常流行的工具,称为memtester。 在测试之前,构建工程师立即检查BIOS中是否正确显示了服务器中安装的所有内存模块。

当开始测试时,使用不同的数据顺序和单元填充的顺序进行将数据读取和写入RAM的过程。 所有测试的执行速度直接取决于数量。 我们的最低要求是一个完整的检查周期。

如果在测试过程中检测到错误,那么我们将寻找有故障的RAM模块,并将其从配置中排除,并用类似的模块替换它。 然后将整个测试过程重复进行。 仅当所有测试迭代均已完成且没有错误时,服务器才进行压力测试。

CPU和磁盘测试


负载测试可模拟具有磁性驱动器的服务器至少6个小时的服务器最大负载。 对于固态驱动器,如此长的测试可能会大大增加驱动器的磨损,因此将以较短的执行时间对它们进行类似的测试。

使用原始的Intel IPDT(处理器诊断工具)实用程序对Intel处理器进行负载测试。 此过程导致处理器温度上升到最高允许工作温度,并且冷却系统必须有效地清除所有这些热量。 组装工程师不断确保服务器通过此测试,并且所有组件的温度均未超过声明的操作极限。

测试完成后,将检查所有已安装驱动器的SMART设置。 如果制造商声明至少一个参数作为更换驱动器的原因非零,则将磁盘替换为另一个参数,并进行测试以消除“战斗模式”下出现问题的可能性。

结论


我们租用的任何配置的每台服务器都会经过多次检查和测试,因此可以安全地一次用于任何项目,而不会浪费时间进行重复的测试和检查。 每个订购的服务器将具有每个组件的最新固件版本,从而可以很好地防止现有漏洞和错误。

告诉我们您在构建或测试服务器方面的经验。 您遇到了哪些有趣的功能? 在评论中等待您的故事。

Source: https://habr.com/ru/post/zh-CN422959/


All Articles