
我认为,对于选择服务器这一话题的关注很少(“它们都是一样的”)。 下面,我将尝试描述为什么您不应该忽略这一点,以及您真正需要注意的地方,还讨论了有助于简化管理员寿命并节省资金的功能。 下面描述的所有内容都是基于多年经验的个人观点。
选择服务器时要考虑的关键点
任务
选择的主要因素是负载的类型和性质。 基于它们,选择常规的配置参数:CPU的数量和特性,RAM的数量,磁盘子系统的参数等。 显然,加载的DBMS服务器的配置将与域控制器或虚拟化主机不同。 在这里,它们通常从特定软件对必要负载的系统要求开始,以及评估必要软件所需性能的经验。 如果我们讨论一些技巧,那么对于虚拟化主机而言,最好为服务器配置最大的RAM以用于预算(无论如何它很快就会变小:)。 对于DBMS服务器,最好照顾处理器性能,并且在IOPS和磁盘子系统的最小延迟方面都非常快(当然,除非您计划使用本地磁盘)。 应该选择一个带有大量磁盘插槽和一个不错的RAID控制器的文件存储服务器。
可扩展性
尽管标准做法是在购买服务器时在特性方面增加一定的余量,但不按计划增加负载以要求比现有资源更多的情况并不少见。 在这种情况下,谨慎考虑进一步升级将有助于管理显着降低的成本。 这主要涉及RAM的数量(空闲插槽的数量和通道利用率),用于添加某种网络适配器,HBA,nVMe SSD等的磁盘和PCIe扩展端口的数量。 但是,我强烈建议您不要(例如,购买带有一个处理器的两路服务器),因为在很多情况下,您无法(过去几年)在eBay之外的任何地方都无法购买第二个处理器进行升级。 一开始存钱变成了多付。 同样,许多客户后来可能会发现处理器的版本和步进不同,并且存在奇怪的挂起,错误和其他麻烦,但是通常可以通过将BIOS / UEFI更新到最新版本(如果有的话)来解决。 而且,如果名牌硬件供应商试图在整个服务器支持周期内更新固件,那么对于自行组装的解决方案和几乎不知名的组件制造商(主要是主板)而言,很可能一无所有。
RAS
可靠性,可用性,可服务性-该术语是IBM引入的,它描述了整个系统的可靠性,因为它确保了委托给它的工作的连续性。 如果有必要具有足够高的RAS指标,则值得朝着认真品牌的机器方向看,因为与低端品牌或组件自组装相比,它们非常重视这些功能。
可靠性(或用俄语表示可靠性)
它暗示了系统独立修复故障而不影响最终结果的能力。 此特性包括几乎所有组件中使用的多种技术:处理器指令中的典型错误检测和此操作系统的通知(例如,英特尔的MCA),RAM中的错误校正(ECC,清理)和供应商特定的服务,例如服务处理器级别(PFA)的预测分析。
有空
确定系统相对于计划时间处于健康状态的时间。 通过使用高质量的组件,关键设备(电源,风扇,HBA)的冗余以及服务器在特定操作条件下的总体安全系数,可提高可用性。 一个典型的反例是服务器负载下的台式机固态硬盘:是的,它的运行速度相当快,是的,它的价格要便宜得多,但是当超过DWPD阈值(台式机驱动器的阈值非常低)时,固态硬盘很容易发生故障,如果采用这种方法,那就很好管理员和情况的融合只会导致停机,而不会导致数据丢失。
可维护性(简单性和服务速度)
但是,即使由于快速恢复而发生故障时,也可以提高可用性。 为此,使用了大量可热插拔的组件,方便的滑轨(无需维修即可进行维修),各种诊断解决方案(可通过服务处理器通过网络获得并且位于服务器机壳上)—它们使您能够快速识别出故障的组件。 一些制造商添加了回拨功能,该功能会自动向技术支持报告故障,从而减少恢复时间。 如果位于服务器上的服务的关键性足够高,则值得认真注意RAS。
环境条件
这包括功率参数(PSU的功率和效率),冷却(冷却系统的质量,在高温下工作的能力,包括在不损失保修的情况下),机壳内部的温度传感器,尺寸(还影响冷却的性能和效率) -与高密度相关)。 在存在“热”组件(具有高TDP,GPU等的CPU)的情况下,无需明显地需要高密度放置就无需追求小型尺寸,最好选择2U或更大的尺寸。
相容性
正确的制造商的HCL中服务器和组件的存在将有助于避免与软件启动相关的不愉快情况。 同样,对软件供应商的支持请求可能会变成硬件和软件供应商之间的乒乓球,如果在不受支持的硬件上启动,则可能会被完全拒绝。 总体而言,开箱即用的解决方案比重新打包虚拟机监控程序的映像以将RAID控制器的驱动程序放在那要好得多(此示例是对ESXi和Adaptec控制器的兼容性的引用,该兼容性已正式存在,但需要进行初步的探讨)。 因此,如果任务和软件需要与硬件兼容,则此项目需要仔细选择组件(从这个角度来看,对于大型制造商的服务器来说,一切都非常简单-它们存在于几乎所有软件开发公司的HCL中,无论是组件方面还是整体上)。
管理学
几乎所有服务器都配备了遥控器,这些遥控器提供了与IPMI和/或Web控制台兼容的接口。 取决于供应商,控制器可以具有各种功能,从在网络上安装映像,自动安装操作系统和集中的固件更新到完整的生命周期管理,这可以大大简化并加快新服务器的调试及其进一步维护。 对此项的关注程度取决于服务器群的大小以及对远程控制的便利性的需求。 坦白地说,我总是为其他管理功能(除了LCM之外,没有明确指出需要使用此功能)放置可选许可证的配置,因为它非常方便并且易于维护,从而大大减少了时间。
性能表现
乍一看,这很奇怪:毕竟,不同供应商的服务器使用相同的处理器,RAM,磁盘等。但是,如果直接测量相同配置下不同制造商的服务器的性能,则可以获得不同的结果。 首先,这是由于(但不限于)固件级别的各种设置和优化。 要了解相对于竞争产品的性能水平,您可以参考服务器基准测试(例如,VMware的VMmark)。
保固与服务
许多供应商提供的服务包可以快速识别硬件故障的原因,并通过更换组件来消除故障。 包装的保修和服务期限以及响应和恢复时间有所不同。 同样,从生产中删除特定型号后,服务仓库中备件的可用性也会有所不同。 在自组装的情况下,您要么必须保留备件,要么必须依靠设备的供应商/组装商来解决仓库中备件的可用性以及其交付期限。
结论
这是选择服务器时应注意的要点。 我希望这对某人有用,并且有助于避免常见错误。 如果您还有其他问题,请在评论中写。
您还可以订阅我们的频道(
YouTube ,
VK ,
Telegram ),以免错过新的文章,课程和研讨会。