您的计算机可靠吗?

我向您介绍了Jeff Atwood关于测试新计算机的文章的翻译。我没有见过一篇关于这一主题的文章。本文提供了所有必要的信息,仅此而已,以及结构良好的材料。我希望你也喜欢。

Jeff是StackOverflow的创始人。他目前正在从事Discourse项目

原始文章:您的计算机稳定吗?

免责声明:尽管文章名为“ 您的计算机是否可靠吗?”,但这与可靠性(英文可靠性)一词无关,而与稳定性(英文稳定性)有关。有关作者如何测试新计算机的稳定性和耐用性的文章。


如果我没记错的话,过去二十年来我组装了大约一百台计算机。这并不是那么困难,实际上,随着计算机变得越来越兼容,随着时间的推移它只会变得更容易。

例如,这是构建滑板车计算机可能需要的

  1. 在外壳顶部涂一些导热膏。
  2. 将主板放在机箱中。
  3. 将主板固定到机箱上。
  4. 插入SSD卡。
  5. 插入RAM板。
  6. 连接外部电源。
  7. 启动。

仅此而已。



这很简单。我六岁的儿子和我组装了乐高积木,这要复杂得多。传统PC的组装仅在几个额外的步骤中有所不同:插入处理器,散热器,连接电缆。最后,构建服务器会增加一些较小的操作,可能会限制程序集的大小。一台小型计算机,一台普通PC或一台服务器-如果您能够组装其中的一台,则认为您已经收集了它们。

每次启动刚组装的计算机时,无论您的帐户中组装了多少台计算机,我们每个人都可以松一口气。但是下载仅仅是开始。如果能启动,那就太好了,但是您不会感到惊讶。实际上,我们需要知道这台计算机是否可靠

而且,尽管计算机组件每年都在变得越来越可靠,并且制造商在出厂前进行了许多测试,但是并不能保证所有组件在您的特定环境中都能可靠地协同工作。而且总是有机会碰到带有难以捉摸的内部缺陷的备件-即使这种可能性很小。

由于我们是科学家,因此我们可以在适当的条件下测试事物并收集数据以证明我们的计算机运行稳定因此,加载后,我们开始测试。

记忆


我喜欢从内存测试开始,因为它不必安装操作系统,并且在所有x86计算机上都可以正常工作。Memtest86是所有内存测试人员的“曾祖父”。我不确定为什么他和Memtest86 +分手了,但它们的工作原理几乎相同。 PassMark是较新的版本,这就是为什么我推荐它的原因

下载适合您的版本,将其写入可启动的USB闪存驱动器,将其插入新计算机,启动并让程序完成其工作。一切都以自动模式运行-只需启动即可查看测试的运行方式。

图片
(如果您的计算机支持UEFI引导,则可以使用更新的6.x版本,在另一种情况下-屏幕截图中显示的是4.2版。

我建议至少进行一次完整的memtest测试,如果您需要对计算机的稳定性有信心,请将其放置一整夜进行测试。如果您有很多记忆,请耐心等待。对于我们的128GB内存服务器,测试大约需要3个小时。

屏幕顶部的“通过”值应达到100%,表中的“通过”值应大于一。如果您遇到任何错误,甚至只有100%的纯净分数,您的计算机都不可靠在这种情况下,值得开始卸下存储卡以检测故障的存储卡。

作业系统


所有后续测试都将需要安装操作系统,并且在所有可靠性测试中最重要的是测试是否可以在计算机上安装操作系统选择您喜欢的免费操作系统并开始正常安装。我推荐Ubuntu Server LTS x64,因为它对视频设备的期望值低得多。下载ISO并将其写入可启动的USB闪存驱动器,然后从中启动。

图片
(嘿,看一下,有一个用于测试内存的选项!多么谨慎!)

  • 确保您与DHCP的互联网连接稳定。这样可以加快安装速度。
  • , Enter , . , , Linux, , — .
  • , , jeff password, .
  • CD, . , .

如果在安装过程中发生任何妨碍安装完成的  事情,则  说明您的计算机不可靠我知道这不能提供有关此问题的太多信息,但是安装操作系统是对整个系统的很好的全面测试。

无论如何,对于以下测试,我们将需要已安装的操作系统。将来,我假设您已经安装了Ubuntu,但实际上任何Linux发行版都可以。

中央处理器


现在,让我们确保计算机的大脑处于正常状态。老实说,如果您达到了这一点,并且内存和操作系统测试成功,那么计算机故障的可能性几乎为零。但是我们需要确定,实现这一目标的最佳方法是求助于我们的老朋友马伦·梅森(Maren Mersenne)。

图片
(. Mersenne numbers) — Mn = 2^n — 1, n — . , . 17 .

我通常使用Prime95和Mprime-程序,这些程序分析大量的大数以确定它们是否简单。这是我们在全新安装的Ubuntu Server上下载并安装mprime的方式:( 您可能需要使用以下命令中的当前最新版本替换命令中的版本号:www.mersenne.org/download,但在撰写本文时,我引用的版本是最新的)。 现在,使用命令./mprime Answer N 运行mprime

mkdir mprime
cd mprime
wget mersenne.org/gimps/p95v287.linux64.tar.gz
tar xzvf p95v287.linux64.tar.gz
rm p95v287.linux64.tar.gz





图片



接下来,将要求您指出要执行的测试数量。但是该程序很聪明,默认情况下它选择的线程数量等于逻辑内核的数量,因此只需按Enter键-我们需要对所有处理器和内核进行全面测试。接下来,选择测试类型:

  1. 小型FFT(最大热量+压力测试FPU,数据放置在L2缓存中,实际上未测试RAM)。
  2. 就地使用大型FFT(最大耗电量,对RAM进行一点测试)。
  3. 混合(只是一点点,很多RAM测试)。

我会保留一点,他们不会在开玩笑,说“最大用电量”。选择2,然后选择Y以开始折磨处理器。现在看着他痛苦地挣扎。 现在是发现您的Kill-a-Watt或其他类似电能表的合适时机。如果有一个,则可以测量处理器的最大功耗。在大多数系统中,只有当您没有功能强大的游戏图形卡时,CPU才是系统中唯一的能源消耗大户。 我还建议在另一个终端上启动i7z:这样,您可以监视核心温度和频率,而mprime则可以工作。让mprime在最大热量下通宵运行

Accept the answers above? (Y):
[Main thread Feb 14 05:48] Starting workers.
[Worker #2 Feb 14 05:48] Worker starting
[Worker #3 Feb 14 05:48] Worker starting
[Worker #3 Feb 14 05:48] Setting affinity to run worker on logical CPU #2
[Worker #4 Feb 14 05:48] Worker starting
[Worker #2 Feb 14 05:48] Setting affinity to run worker on logical CPU #3
[Worker #1 Feb 14 05:48] Worker starting
[Worker #1 Feb 14 05:48] Setting affinity to run worker on logical CPU #1
[Worker #4 Feb 14 05:48] Setting affinity to run worker on logical CPU #4
[Worker #2 Feb 14 05:48] Beginning a continuous self-test on your computer.
[Worker #4 Feb 14 05:48] Test 1, 44000 Lucas-Lehmer iterations of M7471105 using FMA3 FFT length 384K, Pass1=256, Pass2=1536.





sudo apt-get install i7z
sudo i7z

所有计算都经过仔细检查,因此,如果某处发生某种错误,则整个过程将被中断并将错误输出到控制台。通常,如果mprime被中断,则您的计算机不可靠

图片

注意处理器的温度除了处理器的绝对温度外,还必须监视系统中的总热量。风扇应提高速度,并且整个系统的温度应保持在可接受的范围内,否则最终将导致故障的计算机过热。

坏消息是,实际上,计算机几乎永远不会承受这样的负载。好消息是,如果您的系统可以在这种模式下承受夜晚-它已为所有任务和过载100%准备就绪。

驱动器


磁盘可能是最容易更换的,但同时,它们也是最有可能发生故障的候选磁盘。我们知道磁盘无法损坏-我们只是安装了一个新的操作系统,但是进行额外的测试不会有任何问题。

让我们从测试“坏”块(Badblocks)开始 因此,我们完全测试了整个磁盘(在安全读取模式下)。我认为,没有任何解释,很明显任何错误都应该使您怀疑磁盘的运行状况。 现在,检查驱动器SMART记录 上面的命令将让您知道驱动器是否支持SMART。如果是这样,让我们​​激活它: 现在,我们准备运行SMART测试。但首先,让我们找出不同测试将运行多长时间: 运行

sudo badblocks -sv /dev/sda



Checking blocks 0 to 125034839
Checking for bad blocks (read-only test): done
Pass completed, 0 bad blocks found. (0/0/0 errors)



sudo apt-get install smartmontools
smartctl -i /dev/sda



smartctl -s on /dev/sda



smartctl -c /dev/sda

如果有时间,请进行长时测试;否则,请进行短时测试 测试是异步执行的;在指定的时间过去之后,打开SMART测试报告,并确保一切都成功: 接下来,运行一个简单的基准测试,以确保磁盘性能大致符合预期: 对于具有普通SSD的系统,您至少应获得以下结果,但是一切都将变得更好: 最后,我们将使用bonnie ++进行更深入的测试:所 获得数值结果对我们而言不是很重要,测试对我们而言很重要,没有错误。如果在上述步骤中出错,则说明计算机不可靠

smartctl -t long /dev/sda



=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 100 -



dd bs=1M count=512 if=/dev/zero of=test conv=fdatasync
hdparm -Tt /dev/sda



536870912 bytes (537 MB) copied, 1.52775 s, 351 MB/s
Timing cached reads: 11434 MB in 2.00 seconds = 5720.61 MB/sec
Timing buffered disk reads: 760 MB in 3.00 seconds = 253.09 MB/sec



sudo apt-get install bonnie++
bonnie++ -f



(我相信我所提供的测试非常适合日常使用,尤其是RAID中的磁盘。但是,如果您想更彻底地测试磁盘,我建议您使用一个很好的资源:FreeNAS“如何在硬盘中刻录”

联播网


老实说,我对网络问题没有太多经验。但是我相信带宽的重要性,而这正是可以验证的事情。

您需要两台计算机进行iperf测试假设我们的服务器的地址为10.0.0.1,这是它的命令: 这是我们的客户端,它将连接到服务器并监视我们在计算机之间传输数据的速度: 您应该看到大约120兆字节/秒(960兆字节) /秒)用于单个千兆以太网连接。如果您很幸运地拥有10 GB的连接,那很好,恭喜您的1.2 GB /秒。

sudo apt-get install iperf
iperf -s



sudo apt-get install iperf
iperf -c 10.0.0.1

------------------------------------------------------------
Client connecting to 10.0.0.1, TCP port 5001
TCP window size: 23.5 KByte (default)
------------------------------------------------------------
[ 3] local 10.0.0.2 port 43220 connected with 10.0.0.1 port 5001
[ ID] Interval Transfer Bandwidth
[ 3] 0.0-10.0 sec 1.09 GBytes 933 Mbits/sec



显卡


我没有讨论这个问题,因为我构建的计算机中很小一部分需要的东西比处理器中集成的GPU还要多。顺便说一下,集成的GPU 非常好

但是你是玩家,对不对?然后,您需要启动Windows并尝试使用furmark之类的工具而且,您必须测试视频卡,因为视频卡(尤其是游戏卡)通常是功能最强大,最复杂的设备,消耗大量功率。是的,观察温度。

好吧,也许您的计算机是可靠的


我将上述所有内容应用于我收集的所有计算机,所有这些都完美地完成了其任务。因此,我发现有故障的处理器,RAM,磁盘,冷却系统在它们引起主要工作问题之前就已经找到了。所有这些并不意味着计算机将永远不会崩溃,但我已尽我所能确保计算机可以长期使用。

谁知道,也许运气会陪伴您,您会成为一个众所周知的人,在服务器被注销之前,服务器正常运行时间16年

图片

所有这些测试只是一个起点。告诉我们您使用什么技术来确保计算机稳定可靠?根据您的经验,您将如何改善我的测试?

Source: https://habr.com/ru/post/zh-CN390499/


All Articles