O seu computador é confiável?

Apresento a você a tradução de um artigo de Jeff Atwood sobre o teste de novos computadores. Não vi nenhum artigo dessa qualidade sobre esse assunto; o artigo fornece todas as informações necessárias e nada mais, além de material bem estruturado. Espero que você também goste.

Jeff é o fundador do StackOverflow . Atualmente, ele está trabalhando no projeto Discourse .

Artigo original: Seu computador está estável?

Isenção de responsabilidade: embora o artigo seja intitulado " Seu computador é confiável ?", Não se trata de confiabilidade como um termo (confiabilidade em inglês), mas de estabilidade (estabilidade em inglês). Um artigo sobre como o autor testa novos computadores em busca de estabilidade e durabilidade.


Se a memória me serve bem, montei cerca de cem computadores nos últimos vinte anos. Isso não é tão difícil e, de fato, só fica mais fácil com o tempo, à medida que os computadores se tornam cada vez mais compatíveis.

Por exemplo, aqui está o que você pode precisar para criar o Scooter Computer :

  1. Aplique um pouco de pasta térmica na parte superior do estojo.
  2. Coloque a placa-mãe no gabinete.
  3. Aparafuse a placa-mãe ao gabinete.
  4. Insira um cartão SSD.
  5. Inserir placa de RAM.
  6. Conecte energia externa.
  7. Inicialize.

Isso é tudo.



É ridiculamente simples. Meu filho de seis anos e eu montamos construtores de Lego, que eram muito mais complicados. A montagem de PCs tradicionais difere em apenas algumas etapas adicionais: inserir um processador, dissipador de calor, conectar cabos. E, finalmente, a criação do servidor adiciona mais algumas ações menores, possivelmente com restrições no tamanho da montagem. Um minicomputador, um PC comum ou um servidor - se você conseguiu montar um deles - considere coletar todos eles.

Cada um de nós exala com alívio quando o computador acaba de inicializar pela primeira vez, e não importa quantas máquinas estão montadas em sua conta. Mas carregar é apenas o começo. Isso é ótimo se inicializar, mas você não surpreenderá ninguém. De fato, precisamos saber se este computador é confiável .

E embora os componentes do computador estejam se tornando mais confiáveis ​​a cada ano e os fabricantes realizem vários testes antes do envio, não há garantia de que todas as peças funcionem de maneira confiável juntas, em seu ambiente específico. E sempre há uma chance de você encontrar peças com defeitos internos indescritíveis - mesmo que essa probabilidade seja muito pequena.

Como somos cientistas, testamos as coisas nas condições corretas e coletamos dados para provar que nosso computador está funcionando de maneira estável . Portanto, após o carregamento, iniciamos os testes.

Memória


Eu gosto de começar com o teste de memória, pois ele não precisa ter um sistema operacional instalado e funciona da mesma maneira em todos os computadores x86. O Memtest86 é o "bisavô" de todos os testadores de memória. Não sei por que ele e o Memtest86 + se separaram, mas eles funcionam quase da mesma forma. PassMark é uma versão mais recente, e é por isso que eu a recomendo .

Baixe a versão que mais lhe convém, grave-a em uma unidade flash USB inicializável, insira-a em um novo computador, inicialize e deixe o programa fazer seu trabalho. Tudo funciona no modo automático - basta inicializar e ver como o teste é executado.

imagem
(se o seu computador suportar a inicialização UEFI, uma versão 6.x mais recente estará disponível para você, em outro caso - versão 4.2, que é mostrada na captura de tela).

Recomendo pelo menos um passe completo para o teste de memtest e, se você precisar ter confiança na estabilidade do seu computador, deixe-o para ser testado da noite para o dia. Se você tem muita memória, seja paciente. Para nossos servidores com 128 GB de memória, o teste levou cerca de 3 horas.

O valor de "Aprovação" na parte superior da tela deve atingir 100%, e o valor de "Aprovação" na tabela deve ser mais de um. Se você receber algum erro e, na verdade, algo além de uma marca de 100% - o seu computador não é confiável . Nesse caso, vale a pena começar a remover os cartões de memória para detectar um com defeito.

Sistema operacional


Todos os testes subsequentes precisarão de um sistema operacional instalado, e o mais importante de todos os testes de confiabilidade é testar se é possível instalar um sistema operacional em um computador . Escolha seu sistema operacional livre favorito e inicie a instalação normal. Eu recomendo o Ubuntu Server LTS x64 , pois tem expectativas muito mais baixas sobre o seu equipamento de vídeo. Faça o download do ISO e grave-o em uma unidade flash USB inicializável e depois inicialize-o.

imagem
(Ei, basta olhar, há uma opção para testar a memória! Quão prudente!)

  • Verifique se você possui uma conexão estável à Internet com o DHCP. Isso permitirá que a instalação seja mais rápida.
  • , Enter , . , , Linux, , — .
  • , , jeff password, .
  • CD, . , .

Se algo acontecer durante a instalação  que impeça a conclusão da instalação ...  seu computador não é confiável . Sei que isso não fornece muita informação sobre o problema, mas instalar o sistema operacional é um bom teste extensivo de todo o sistema.

De qualquer forma, para os testes a seguir, precisaremos de um sistema operacional instalado. No futuro, suponho que você tenha instalado o Ubuntu, mas, na realidade, qualquer distribuição Linux o fará.

Unidade central de processamento


Agora, vamos garantir que o cérebro do nosso computador esteja em ordem. Honestamente, se você chegou a esse ponto e os testes de memória e sistema operacional foram bem-sucedidos, a chance de você ter um computador com defeito é quase zero. Mas precisamos ter certeza, e a melhor maneira de conseguir isso é recorrer à nossa velha amiga Maren Mersenne.

imagem
(. Mersenne numbers) — Mn = 2^n — 1, n — . , . 17 .

Normalmente, uso os programas Prime95 e Mprime - que analisam um grande número de números gigantes para determinar se são simples. Veja como baixamos e instalamos o mprime em nosso servidor Ubuntu recém-instalado: (Pode ser necessário substituir o número da versão nos comandos pela versão mais recente atual aqui: www.mersenne.org/download , mas no momento da redação, a versão que eu citei é a mais recente). Agora execute mprime com o comando ./mprime Resposta N.

mkdir mprime
cd mprime
wget mersenne.org/gimps/p95v287.linux64.tar.gz
tar xzvf p95v287.linux64.tar.gz
rm p95v287.linux64.tar.gz





imagem



Em seguida, você será solicitado a indicar o número de testes a serem executados. Mas o programa é inteligente e, por padrão, seleciona o número de threads igual ao número de núcleos lógicos, então pressione enter - precisamos de testes completos de todos os processadores e núcleos. Em seguida, selecione o tipo de teste:

  1. Pequenas FFTs (FPU de teste de aquecimento máximo + estresse, os dados são colocados no cache L2, a RAM praticamente não é testada).
  2. FFTs grandes no local (consumo máximo de eletricidade, testa um pouco a RAM).
  3. Misture (apenas um pouco, muitos testes de RAM).

Farei uma reserva de que eles não estão brincando, dizendo "consumo máximo de eletricidade". Escolha 2 e depois Y para começar a torturar seu processador. Agora observe-o se contorcer de dor. Agora é a hora certa de descobrir seu medidor de energia Kill-a-Watt ou outro similar. Se você tiver um, poderá medir o consumo máximo de energia do processador. Na maioria dos sistemas, a CPU é o único consumidor significativo de energia no sistema, apenas se você não tiver uma poderosa placa gráfica de jogo. Também recomendo o lançamento do i7z em outro terminal: dessa maneira, você pode monitorar a temperatura e as frequências principais, enquanto o mprime faz o seu trabalho. Deixe mprime correr a noite toda no calor máximo

Accept the answers above? (Y):
[Main thread Feb 14 05:48] Starting workers.
[Worker #2 Feb 14 05:48] Worker starting
[Worker #3 Feb 14 05:48] Worker starting
[Worker #3 Feb 14 05:48] Setting affinity to run worker on logical CPU #2
[Worker #4 Feb 14 05:48] Worker starting
[Worker #2 Feb 14 05:48] Setting affinity to run worker on logical CPU #3
[Worker #1 Feb 14 05:48] Worker starting
[Worker #1 Feb 14 05:48] Setting affinity to run worker on logical CPU #1
[Worker #4 Feb 14 05:48] Setting affinity to run worker on logical CPU #4
[Worker #2 Feb 14 05:48] Beginning a continuous self-test on your computer.
[Worker #4 Feb 14 05:48] Test 1, 44000 Lucas-Lehmer iterations of M7471105 using FMA3 FFT length 384K, Pass1=256, Pass2=1536.





sudo apt-get install i7z
sudo i7z

. Todos os cálculos são cuidadosamente verificados, portanto, se algum tipo de erro ocorrer em algum lugar, todo o processo será interrompido e emitirá o erro no console. Em geral, se o mprime for interrompido ... seu computador não é confiável .

imagem

Assista a temperatura do processador ! Além da temperatura absoluta do processador, também é necessário monitorar o calor total no sistema. Os ventiladores devem aumentar a velocidade e a temperatura de todo o sistema deve ser mantida dentro de limites aceitáveis; caso contrário, você terá um computador com superaquecimento com defeito.

A má notícia é que, na prática, os computadores quase nunca experimentam tais cargas. A boa notícia é que, se seu sistema puder suportar a noite nesse modo - ele estará 100% pronto para qualquer tarefa e sobrecarga.

Drive


Os discos são provavelmente os mais fáceis de substituir, mas ao mesmo tempo são os candidatos mais prováveis ​​a falhas. Sabemos que o disco não pode ser quebrado - acabamos de instalar um novo sistema operacional, mas um teste extra não será prejudicial.

Vamos começar testando os blocos "ruins" (Badblocks) : Portanto, testamos completamente o disco inteiro (no modo de leitura segura). Eu acho que, sem explicação, é claro que qualquer erro deve fazer você duvidar da saúde do seu disco. Agora verifique os registros SMART da nossa unidade. O comando acima informará se sua unidade suporta o SMART. Nesse caso, vamos ativá-lo: Agora estamos prontos para executar os testes SMART. Mas primeiro, vamos descobrir por quanto tempo os diferentes testes serão executados: Execute

sudo badblocks -sv /dev/sda



Checking blocks 0 to 125034839
Checking for bad blocks (read-only test): done
Pass completed, 0 bad blocks found. (0/0/0 errors)



sudo apt-get install smartmontools
smartctl -i /dev/sda



smartctl -s on /dev/sda



smartctl -c /dev/sda

teste longo se você tiver tempo ou curto, se não tiver. Os testes são realizados de forma assíncrona; após o tempo especificado, abra o relatório de teste SMART e verifique se tudo foi bem-sucedido: Em seguida, execute uma referência simples para garantir que o desempenho do disco seja aproximadamente o esperado: Para um sistema com um SSD normal, você deve obter pelo menos os seguintes resultados, mas sim de tudo é muito melhor: Finalmente, realizaremos um teste mais intensivo usando o bonnie ++ : Os resultados numéricos obtidos não são muito importantes para nós, é importante para nós que o teste termine sem erros. Se você receber erros durante as etapas acima ... seu computador não é confiável .

smartctl -t long /dev/sda



=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 100 -



dd bs=1M count=512 if=/dev/zero of=test conv=fdatasync
hdparm -Tt /dev/sda



536870912 bytes (537 MB) copied, 1.52775 s, 351 MB/s
Timing cached reads: 11434 MB in 2.00 seconds = 5720.61 MB/sec
Timing buffered disk reads: 760 MB in 3.00 seconds = 253.09 MB/sec



sudo apt-get install bonnie++
bonnie++ -f



(Acredito que os testes que dei são ótimos para o uso diário, principalmente para discos em RAID. No entanto, se você quiser testar seus discos ainda mais detalhadamente, sugiro um bom recurso: FreeNAS "como gravar em discos rígidos" )

Rede


Honestamente, não tenho muita experiência com problemas de rede. Mas acredito na importância da largura de banda, e é exatamente isso que pode ser verificado.

Você precisará de dois computadores para o teste iperf . Suponha que nosso servidor tenha um endereço 10.0.0.1, eis os comandos para ele: e aqui está o nosso cliente, que se conectará ao servidor e monitorará a rapidez com que podemos transferir dados entre máquinas: você deverá ver cerca de 120 megabytes / s (960 megabytes) / s) para uma conexão Ethernet de gigabit único. Se você tiver sorte de ter uma conexão de 10 gigabits, ótimo, parabéns pelos 1,2 gigabytes / s.

sudo apt-get install iperf
iperf -s



sudo apt-get install iperf
iperf -c 10.0.0.1

------------------------------------------------------------
Client connecting to 10.0.0.1, TCP port 5001
TCP window size: 23.5 KByte (default)
------------------------------------------------------------
[ 3] local 10.0.0.2 port 43220 connected with 10.0.0.1 port 5001
[ ID] Interval Transfer Bandwidth
[ 3] 0.0-10.0 sec 1.09 GBytes 933 Mbits/sec



Placa de vídeo


Não abordo esse problema, porque uma parte muito pequena dos computadores que eu construo precisa de algo mais do que o processador GPU embutido. A propósito, as GPUs embutidas são surpreendentemente muito boas .

Mas você é um jogador, certo? Então você precisa inicializar no Windows e tentar algo como furmark . E você precisa testar a placa de vídeo, porque as placas de vídeo, especialmente as de jogos, costumam ser o dispositivo mais poderoso e complexo que consome uma quantidade enorme de watts. E sim, observe a temperatura.

Bem, talvez seu computador seja confiável


Aplico tudo descrito acima a todos os computadores que coleciono e tudo isso cumpre perfeitamente sua tarefa. Assim, encontro processadores defeituosos, RAM, discos, sistemas de refrigeração antes que causem problemas no trabalho principal. Tudo isso não significa que o computador nunca irá falhar, mas eu fiz tudo o que pude para garantir que meus computadores durassem muito tempo.

Quem sabe, talvez a sorte o acompanhe e você se tornará conhecido como um cara cujo servidor teve 16 anos de tempo de atividade até que fosse baixado.

imagem

Todos esses testes são apenas um ponto de partida. Diga-nos quais técnicas você usa para garantir que seus computadores sejam estáveis ​​e confiáveis? Como você melhoraria meus testes de acordo com a sua experiência?

Source: https://habr.com/ru/post/pt390499/


All Articles