¿Es confiable su computadora?

Les presento la traducción de un artículo de Jeff Atwood sobre la prueba de nuevas computadoras. No he visto un solo artículo de esta calidad sobre este tema; El artículo proporciona toda la información necesaria y nada más, así como material bien estructurado. Espero que también te guste.

Jeff es el fundador de StackOverflow . Actualmente está trabajando en el proyecto Discurso .

Artículo original: ¿Es estable su computadora?

Descargo de responsabilidad: aunque el artículo se llama " ¿Es confiable su computadora?", No se trata de confiabilidad como un término (confiabilidad en inglés), sino más bien de estabilidad (estabilidad en inglés). Un artículo sobre cómo el autor prueba las computadoras nuevas para determinar su estabilidad y durabilidad.


Si mi memoria no me falla, he ensamblado alrededor de cien computadoras en los últimos veinte años. Esto no es tan difícil y, de hecho, solo se vuelve más fácil con el tiempo, a medida que las computadoras se vuelven cada vez más compatibles.

Por ejemplo, esto es lo que puede necesitar para construir Scooter Computer :

  1. Aplique un poco de pasta térmica en la parte superior de la caja.
  2. Coloque la placa base en el caso.
  3. Atornille la placa base a la caja.
  4. Inserte una tarjeta SSD.
  5. Inserte la placa RAM.
  6. Conecte la alimentación externa.
  7. Arrancar

Eso es todo



Es ridículamente simple. Mi hijo de seis años y yo reunimos constructores de Lego, que eran mucho más complicados. El ensamblaje de PC tradicionales difiere en solo un par de pasos adicionales: inserte un procesador, disipador térmico, conecte los cables. Y finalmente, la construcción del servidor agrega un par de acciones menores, posiblemente con restricciones en el tamaño del ensamblaje. Una mini computadora, una PC ordinaria o un servidor, si pudo ensamblar uno de ellos, considere que los ha recopilado todos.

Cada uno de nosotros exhala con alivio cuando la computadora recién ensamblada se inicia por primera vez, y no importa cuántas máquinas estén ensambladas en su cuenta. Pero la descarga es solo el comienzo. Esto es genial si arranca, pero no sorprenderás a nadie. De hecho, necesitamos saber si esta computadora es confiable .

Y aunque los componentes de la computadora se vuelven más confiables cada año , y los fabricantes realizan numerosas pruebas antes del envío, no hay garantía de que todas las piezas funcionen juntas de manera confiable en su entorno particular. Y siempre existe la posibilidad de que encuentre piezas de repuesto con defectos internos evasivos, incluso si esta probabilidad es muy pequeña.

Como somos científicos, probamos las cosas en las condiciones adecuadas y recopilamos datos para demostrar que nuestra computadora funciona de manera estable . Por lo tanto, después de cargar, comenzamos las pruebas.

El recuerdo


Me gusta comenzar con las pruebas de memoria, ya que no tiene que tener un sistema operativo instalado y funciona igual en todas las computadoras x86. Memtest86 es el "bisabuelo" de todos los probadores de memoria. No estoy seguro de por qué él y Memtest86 + se separaron, pero funcionan casi igual. PassMark es una versión más nueva, por eso lo recomiendo .

Descargue la versión que más le convenga, escríbala en una unidad flash USB de arranque, insértela en una computadora nueva, inicie y deje que el programa haga su trabajo. Todo funciona en modo automático: simplemente inicie y vea cómo se ejecuta la prueba.

imagen
(si su computadora admite el arranque UEFI, tendrá disponible una versión 6.x más nueva), en otro caso, la versión 4.2, que se muestra en la captura de pantalla).

Recomiendo al menos un pase completo de memtest , y si necesita confiar en la estabilidad de su computadora, deje que se pruebe durante la noche. Si tiene mucha memoria, sea paciente. Para nuestros servidores con 128 GB de memoria, las pruebas tomaron aproximadamente 3 horas.

El valor de "Pase" en la parte superior de la pantalla debe alcanzar el 100%, y el valor de "Pase" en la tabla debe ser más de uno. Si obtiene algún error, y de hecho cualquier cosa menos una marca limpia del 100%, su computadora no es confiable . En este caso, vale la pena comenzar a extraer las tarjetas de memoria para detectar una defectuosa.

Sistema operativo


Todas las pruebas posteriores necesitarán un sistema operativo instalado, y la más importante de todas las pruebas de confiabilidad es probar si es posible instalar un sistema operativo en una computadora . Elija su sistema operativo gratuito favorito y comience la instalación normal. Recomiendo Ubuntu Server LTS x64 , ya que tiene expectativas mucho más bajas sobre su equipo de video. Descargue el ISO y escríbalo en una unidad flash USB de arranque, luego inicie desde él.

imagen
(¡Oye, mira, hay una opción para probar la memoria! ¡Qué prudente!)

  • Asegúrese de tener una conexión a Internet estable con DHCP. Esto permitirá que la instalación sea más rápida.
  • , Enter , . , , Linux, , — .
  • , , jeff password, .
  • CD, . , .

Si sucede algo durante la instalación  que impide que la instalación se complete ...  su computadora no es confiable . Sé que esto no proporciona mucha información sobre el problema, pero instalar el sistema operativo es una buena prueba exhaustiva de todo el sistema.

En cualquier caso, para las siguientes pruebas necesitaremos un sistema operativo instalado. En el futuro, supongo que ha instalado Ubuntu, pero en realidad cualquier distribución de Linux servirá.

Unidad central de procesamiento


Ahora, asegurémonos de que los cerebros de nuestra computadora estén en orden. Honestamente, si llegó a este punto, y las pruebas de memoria y sistema operativo fueron exitosas, entonces la posibilidad de que tenga una computadora defectuosa es casi nula. Pero debemos estar seguros, y la mejor manera de lograr esto es recurrir a nuestra vieja amiga, Maren Mersenne.

imagen
(. Mersenne numbers) — Mn = 2^n — 1, n — . , . 17 .

Usualmente uso Prime95 y Mprime , programas que analizan una gran cantidad de números gigantes para determinar si son simples. Así es como descargamos e instalamos mprime en nuestro servidor Ubuntu recién instalado: (Es posible que deba reemplazar el número de versión en los comandos con la última versión actual desde aquí: www.mersenne.org/download , pero al momento de escribir, la versión que cité es la última). Ahora ejecute mprime con el comando ./mprime Answer N.

mkdir mprime
cd mprime
wget mersenne.org/gimps/p95v287.linux64.tar.gz
tar xzvf p95v287.linux64.tar.gz
rm p95v287.linux64.tar.gz





imagen



A continuación, se le pedirá que indique la cantidad de pruebas a realizar. Pero el programa es inteligente y, de manera predeterminada, selecciona la cantidad de subprocesos igual a la cantidad de núcleos lógicos, así que solo presione Intro; necesitamos pruebas completas de todos los procesadores y núcleos. Luego, seleccione el tipo de prueba:

  1. FFT pequeños (FPU de prueba de calor + estrés máximo, los datos se colocan en el caché L2, la RAM prácticamente no se prueba).
  2. FFT grandes en el lugar (consumo máximo de electricidad, prueba RAM un poco).
  3. Mezcla (solo un poco, muchas pruebas de RAM).

Haré una reserva de que no están bromeando, diciendo "consumo máximo de electricidad". Elija 2, luego Y para comenzar a torturar su procesador. Ahora míralo retorcerse de dolor. Ahora es el momento adecuado para descubrir su Kill-a-Watt u otro medidor de energía similar. Si tiene uno, puede medir el consumo máximo de energía del procesador. En la mayoría de los sistemas, la CPU es el único consumidor importante de energía en el sistema, solo si no tiene una tarjeta gráfica de juegos potente. También recomiendo iniciar i7z en otro terminal: de esta manera puede monitorear la temperatura central y las frecuencias, mientras que mprime hace su trabajo. Deje que mprime funcione toda la noche al máximo calor

Accept the answers above? (Y):
[Main thread Feb 14 05:48] Starting workers.
[Worker #2 Feb 14 05:48] Worker starting
[Worker #3 Feb 14 05:48] Worker starting
[Worker #3 Feb 14 05:48] Setting affinity to run worker on logical CPU #2
[Worker #4 Feb 14 05:48] Worker starting
[Worker #2 Feb 14 05:48] Setting affinity to run worker on logical CPU #3
[Worker #1 Feb 14 05:48] Worker starting
[Worker #1 Feb 14 05:48] Setting affinity to run worker on logical CPU #1
[Worker #4 Feb 14 05:48] Setting affinity to run worker on logical CPU #4
[Worker #2 Feb 14 05:48] Beginning a continuous self-test on your computer.
[Worker #4 Feb 14 05:48] Test 1, 44000 Lucas-Lehmer iterations of M7471105 using FMA3 FFT length 384K, Pass1=256, Pass2=1536.





sudo apt-get install i7z
sudo i7z

. Todos los cálculos se verifican cuidadosamente, por lo que si se produce algún tipo de error en algún lugar, todo el proceso se interrumpirá y enviará el error a la consola. En general, si se interrumpe mprime ... su computadora no es confiable .

imagen

Mira la temperatura del procesador ! Además de la temperatura absoluta del procesador, también es necesario controlar el calor total en el sistema. Los ventiladores deben aumentar la velocidad y la temperatura de todo el sistema debe mantenerse dentro de los límites aceptables, de lo contrario al final obtendrá una computadora defectuosa y sobrecalentada.

La mala noticia es que, en la práctica, las computadoras casi nunca experimentan tales cargas. La buena noticia es que si su sistema puede soportar la noche en este modo, está 100% listo para cualquier tarea y sobrecarga.

Conducir


Los discos son probablemente los más fáciles de reemplazar, pero al mismo tiempo son los candidatos más probables para fallar. Sabemos que el disco no puede romperse: acabamos de instalar un nuevo sistema operativo, pero una prueba adicional no afectará.

Comencemos probando los bloques "malos" (Badblocks) : así que probamos completamente todo el disco (en modo de lectura segura). Creo que, sin explicación, está claro que cualquier error debería hacerle dudar de la salud de su disco. Ahora verifique los registros SMART de nuestro disco. El comando anterior le informará si su unidad admite SMART. Si es así, vamos a activarlo: ahora estamos listos para ejecutar pruebas SMART. Pero primero, veamos cuánto tiempo durarán las diferentes pruebas: Ejecutar

sudo badblocks -sv /dev/sda



Checking blocks 0 to 125034839
Checking for bad blocks (read-only test): done
Pass completed, 0 bad blocks found. (0/0/0 errors)



sudo apt-get install smartmontools
smartctl -i /dev/sda



smartctl -s on /dev/sda



smartctl -c /dev/sda

prueba larga si tienes tiempo o corta si no. Las pruebas se realizan de forma asincrónica; después de que haya transcurrido el tiempo especificado, abra el informe de prueba SMART y asegúrese de que todo tenga éxito: A continuación, ejecute un punto de referencia simple para asegurarse de que el rendimiento del disco sea aproximadamente el esperado: para un sistema con un SSD normal, debería obtener al menos los siguientes resultados, pero en su lugar de todo es mucho mejor: Finalmente, realizaremos una prueba más intensiva con bonnie ++ : los resultados numéricos obtenidos no son muy importantes para nosotros, es importante para nosotros que la prueba finalice sin errores. Si obtiene errores durante los pasos anteriores ... su computadora no es confiable .

smartctl -t long /dev/sda



=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 100 -



dd bs=1M count=512 if=/dev/zero of=test conv=fdatasync
hdparm -Tt /dev/sda



536870912 bytes (537 MB) copied, 1.52775 s, 351 MB/s
Timing cached reads: 11434 MB in 2.00 seconds = 5720.61 MB/sec
Timing buffered disk reads: 760 MB in 3.00 seconds = 253.09 MB/sec



sudo apt-get install bonnie++
bonnie++ -f



(Creo que las pruebas que he realizado son excelentes para el uso diario, en particular para discos en RAID. Sin embargo, si desea probar sus discos aún más a fondo, sugiero un buen recurso: FreeNAS "cómo grabar en discos duros" )

Red


Honestamente, no tengo mucha experiencia con problemas de red. Pero creo en la importancia del ancho de banda, y esto es exactamente lo que se puede verificar.

Necesitará dos computadoras para la prueba de iperf . Digamos que nuestro servidor tiene la dirección 10.0.0.1, aquí están los comandos para ello: y aquí está nuestro cliente, que se conectará al servidor y controlará la rapidez con la que podemos transferir datos entre máquinas: debería ver aproximadamente 120 megabytes / seg (960 megabytes) / seg) para una sola conexión Gigabit Ethernet. Si tiene suerte de tener una conexión de 10 gigabits, felicidades por sus 1.2 gigabytes / seg.

sudo apt-get install iperf
iperf -s



sudo apt-get install iperf
iperf -c 10.0.0.1

------------------------------------------------------------
Client connecting to 10.0.0.1, TCP port 5001
TCP window size: 23.5 KByte (default)
------------------------------------------------------------
[ 3] local 10.0.0.2 port 43220 connected with 10.0.0.1 port 5001
[ ID] Interval Transfer Bandwidth
[ 3] 0.0-10.0 sec 1.09 GBytes 933 Mbits/sec



Tarjeta de video


No cubro este problema, porque una parte muy pequeña de las computadoras que construyo necesita algo más que la GPU integrada en el procesador. Por cierto, las GPU integradas son sorprendentemente muy buenas .

Pero eres un jugador, ¿verdad? Luego necesita iniciar Windows y probar algo como furmark . Y debe probar la tarjeta de video, porque las tarjetas de video, especialmente las de juegos, son a menudo el dispositivo más potente y complejo que consume una gran cantidad de vatios. Y sí, mira la temperatura.

Bueno, tal vez tu computadora es confiable


Aplico todo lo descrito anteriormente a todas las computadoras que colecciono, y todo esto cumple perfectamente su tarea. Por lo tanto, encuentro procesadores defectuosos, RAM, discos, sistemas de enfriamiento antes de que causen problemas en el trabajo principal. Todo esto no significa que la computadora nunca se descompondrá, pero hice todo lo posible para asegurarme de que mis computadoras durarían mucho tiempo.

Quién sabe, tal vez la suerte te acompañe y serás conocido como un tipo cuyo servidor tuvo 16 años de tiempo de actividad hasta que se canceló.

imagen

Todas estas pruebas son solo un punto de partida. Díganos qué técnicas utiliza para asegurarse de que sus computadoras sean estables y confiables. ¿Cómo mejoraría las pruebas que propuse de acuerdo con su experiencia?

Source: https://habr.com/ru/post/es390499/


All Articles