Las lluvias atmosféricas conducen al fracaso de las supercomputadoras: ¿qué se puede hacer al respecto?


La supercomputadora Cray-1 , la más rápida en la década de 1970, no parece una supercomputadora. Parece una modificación de una atracción en la que una persona se para en una pared, se sujeta y luego lo desenrolla. Está rodeado por un banco redondo que esconde una comida con forma de rosquilla, si tan solo un agujero de rosquilla pudiera dar ideas valiosas relacionadas con las armas nucleares.

Después de que Seymour Cray creó por primera vez esta computadora, le dio al Laboratorio Nacional en Los Alamos seis meses para usarla de forma gratuita. Pero sucedió algo interesante durante estos seis meses: se produjeron 152 errores de memoria inexplicables en la computadora. Y solo más tarde, los investigadores descubrieron que los neutrones de los rayos cósmicos pueden chocar con partes del procesador e interrumpir los datos almacenados en la computadora. Cuanto más alto sea y más grandes sean sus computadoras, más le afectará este problema. Los Alamos, ubicado a 2.2 km sobre el nivel del mar, donde se encuentran las computadoras más lujosas del mundo, se ha convertido en el objetivo principal.


Seymour Cray, creador de la supercomputadora, junto a su creación Cray-1

Desde entonces, el mundo ha cambiado y las computadoras han cambiado. Pero el cosmos se mantuvo igual. Por lo tanto, Los Alamos tuvo que adaptarse, y sus ingenieros comenzaron a tener en cuenta las partículas cósmicas en los equipos y el software. "Este no es un problema que deba abordarse", explicó Nathan Debardeleben, del equipo de desarrollo informático de alto rendimiento. "Este es un problema que podemos contener".

Para las computadoras modernas, comenzando con la supercomputadora Q , esto es algo bastante serio. El Q, instalado en 2003, fue mucho más rápido que Cray-1, diseñado para la informática relacionada con las existencias de armas nucleares de EE. UU. Pero se estrellaba con más frecuencia de lo esperado, y estos fueron los primeros fracasos que hicieron que los científicos de Los Alamos se preocuparan seriamente por los rayos cósmicos del espacio profundo. Chocan con elementos químicos en la atmósfera, y todo se descompone en partículas más pequeñas . "Literalmente forman duchas peculiares que caen sobre nosotros", dice Sean Blanchard, otro miembro del grupo. Algunas de estas "gotas" resultan ser neutrones, y esto es muy malo.

"Pueden hacer que los bits cambien en la memoria de la computadora", dice DeBardeleben, "de 0 a 1, o de 1 a 0". Para una computadora en casa, esto no tiene sentido. Pero Los Alamos tiene grandes trilladores de números. La misma Q de principios de siglo se asemeja a los estantes de los supermercados. Y hoy en el laboratorio hay salas de computadoras del tamaño de un campo de fútbol, ​​y todas las computadoras en la sala pueden trabajar en la misma tarea. Y, así como hay más lluvia en el campo de fútbol que en la casa de verano, las supercomputadoras penetran más rayos cósmicos que su computadora portátil.


En Los Alamos, los detectores de neutrones se implementan en todo el centro de la supercomputadora

Después de Q, los ingenieros realmente se dieron cuenta de que los neutrones no son partículas tan neutras, por lo que ahora están tratando de anticipar problemas. Antes de instalar nuevos equipos, los ingenieros realizan algo así como una prueba de estrés espacial, colocando la electrónica en un haz de neutrones (hay muchos más allí que en las duchas atmosféricas) y observando lo que sucede. "Tomamos partes individuales, las hacemos radiactivas, las hacemos funcionar en caso de falla", explica Blanchard. Pronto colocarán detectores de neutrones dentro del centro de la supercomputadora para medir la fuerza de las "tormentas". Si sabe cuántos neutrones han llegado y sabe cómo afectan el funcionamiento de los componentes de la computadora, "puede predecir el tiempo de vida de su electrónica", dice Susan Novichki, física del grupo de ciencias espaciales y aplicadas del laboratorio.

Por lo general, las supercomputadoras resultan ser lo suficientemente inteligentes como para comprender que algo ha salido mal, y sienten que el interruptor se mordió como lo harías si te sacaras el pelo. [el autor del artículo original es una niña / aprox. perev. ] En este caso, el sistema generalmente solo informa un error y se corrige solo. Pero a veces, dice Blanchard, la computadora es más pesimista. "Tengo un error, se han cambiado demasiados bits", describe una computadora, "no puedo solucionarlo, pero quería contarte".

Cuando esto sucede en Los Alamos, la gente detiene intencionalmente todas las computadoras. Es lo mismo que esquiar en una montaña, porque será menos doloroso que intentar resistir. Pero en este caso, no necesita volver a la cima y comenzar de nuevo: los ingenieros establecen " puntos de control " en la búsqueda de una respuesta. Es lo mismo que guardar puntos en los juegos: si mueres, no tienes que empezar de nuevo. Comienza desde el último punto que salvó tus logros. Las supercomputadoras también tienen un sistema de almacenamiento similar.

El verdadero problema es la " corrupción silenciosa de datos " . Esto es cuando se cambian los bits, y nadie lo nota. Y la respuesta que crees que es cierta puede llegar a ser un sueño inspirado en neutrones. Es por eso que el trabajo preventivo es tan importante: se sabe qué esperar y con qué frecuencia, y monitorearlo. Al mismo tiempo, habiendo recibido este conocimiento, el equipo espera convertir los errores silenciosos en fuertes gritos. Pero si algo se desliza por la defensa, tal vez una persona viva lo vea. Por lo general, en Los Álamos no dicen "¡Aquí está tu respuesta!" Hasta que una persona verifica los resultados del trabajo en busca de sentido.

La intervención personal ocurre en parte porque Los Alamos está haciendo una investigación crítica sobre temas que afectan a muchas otras personas. "El laboratorio, y el departamento de energía en su conjunto, está estudiando el cambio climático, los nuevos medicamentos, la epidemiología, la propagación de enfermedades, la modelización de incendios, la ciencia de los materiales y la fragilidad de los metales", explica Blanchard. Y, como agrega después de esta lista, la razón de la existencia de Los Alamos radica en las armas nucleares creadas por humanos (algunos de ellos incluso pertenecen a este mismo laboratorio). "Somos un laboratorio de armas nucleares", dice Blanchard. "Nuestro trabajo es administrar sus reservas". Debemos garantizar que sea seguro y que funcione como debería, y que no funcione cuando no sea necesario ".

Debido a la prohibición de las pruebas de armas nucleares , la única forma legítima de dejar de preocuparse y aprender a mantener un suministro de bombas es simular lo que sucede dentro de una supercomputadora. Así es como un laboratorio preocupado por la radiación en la Tierra debería preocuparse por la radiación del espacio. Porque no importa cuál sea el trabajo de las supercomputadoras en el futuro, una cosa está clara: "Cada año se convierten en un objetivo más grande", dice Blanchard.

Source: https://habr.com/ru/post/es414835/


All Articles