Les douches atmosphériques entraînent la défaillance des supercalculateurs: que faire pour y remédier


Le supercalculateur Cray-1 , le plus rapide des années 1970, ne ressemble pas à un supercalculateur. Cela ressemble à une modification d'une attraction dans laquelle une personne se tient sur un mur, s'attache, puis se détend. Il est entouré d'un banc rond qui cache une nourriture semblable à un beignet - si seulement un trou de beignet pouvait donner de précieuses idées liées aux armes nucléaires.

Après que Seymour Cray a créé cet ordinateur pour la première fois, il a donné au Laboratoire national de Los Alamos six mois pour l'utiliser gratuitement. Mais quelque chose d'intéressant s'est produit pendant ces six mois: 152 erreurs de mémoire inexpliquées se sont produites sur l'ordinateur. Et ce n'est que plus tard, les chercheurs ont appris que les neutrons des rayons cosmiques peuvent entrer en collision avec des parties du processeur et perturber les données stockées dans l'ordinateur. Plus vous êtes haut et plus vos ordinateurs sont grands, plus ce problème vous affecte. Los Alamos, située à 2,2 km au-dessus du niveau de la mer, où se trouvent les ordinateurs les plus luxueux du monde, est devenue la cible principale.


Seymour Cray, créateur du supercalculateur, à côté de son idée originale Cray-1

Depuis lors, le monde a changé et les ordinateurs ont changé. Mais le cosmos est resté le même. Par conséquent, Los Alamos a dû s'adapter - et ses ingénieurs ont commencé à prendre en compte les particules cosmiques dans les équipements et les logiciels. «Ce n'est pas un problème qui doit être résolu», a expliqué Nathan Debardeleben de l'équipe de développement informatique hautes performances. "C'est un problème que nous pouvons retenir."

Pour les ordinateurs modernes, à commencer par le supercalculateur Q , c'est une chose assez sérieuse. Le Q, installé en 2003, était beaucoup plus rapide que le Cray-1, conçu pour l'informatique liée aux stocks d'armes nucléaires américains. Mais il s'est écrasé plus souvent que prévu - et ce sont les premiers échecs qui ont sérieusement inquiété les scientifiques de Los Alamos à propos des rayons cosmiques de l'espace lointain. Ils entrent en collision avec des éléments chimiques dans l'atmosphère, et tout se décompose en particules plus petites . «Ils forment littéralement des douches particulières qui nous tombent dessus», explique Sean Blanchard, un autre membre du groupe. Certaines de ces «gouttelettes» se révèlent être des neutrons - et c'est très mauvais.

«Ils peuvent faire basculer les bits dans la mémoire de l'ordinateur», explique DeBardeleben, «de 0 à 1 ou de 1 à 0». Pour un ordinateur personnel, cela n'a aucun sens. Mais Los Alamos a d'énormes batteurs pour les chiffres. Le même Q du début du siècle ressemble aux rayons des supermarchés. Et aujourd'hui, dans le laboratoire, il y a des salles informatiques de la taille d'un terrain de football, et tous les ordinateurs de la salle peuvent travailler sur la même tâche. Et, tout comme il y a plus de précipitations sur le terrain de football que sur le chalet d'été, les superordinateurs pénètrent plus de rayons cosmiques que votre ordinateur portable.


À Los Alamos, des détecteurs de neutrons sont déployés dans tout le centre de superordinateurs

Après Q, les ingénieurs ont vraiment réalisé que les neutrons ne sont pas des particules si neutres, alors maintenant ils essaient d'anticiper les problèmes. Avant d'installer de nouveaux équipements, les ingénieurs effectuent quelque chose comme un test de stress spatial, plaçant l'électronique dans un faisceau de neutrons - il y en a beaucoup plus que dans les douches atmosphériques - et observent ce qui se passe. «Nous prenons des pièces individuelles, les rendons radioactives, les faisons fonctionner en cas d'échec», explique Blanchard. Bientôt, ils placeront des détecteurs de neutrons à l'intérieur du centre du supercalculateur pour mesurer la force des «tempêtes». Si vous savez combien de neutrons sont arrivés, et vous savez comment ils affectent le fonctionnement des composants informatiques, "vous pouvez prédire la durée de vie de votre électronique", explique Susan Novichki, physicienne au sein du groupe des sciences spatiales et appliquées du laboratoire.

En règle générale, les superordinateurs s'avèrent être assez intelligents pour comprendre que quelque chose a mal tourné, et ils sentent que le commutateur est un peu comme vous le feriez si vous vous arrachez les cheveux. [l' auteur de l'article original est une fille / env. perev. ] Dans ce cas, le système signale généralement une erreur et se corrige. Mais parfois, dit Blanchard, l'ordinateur est plus pessimiste. "J'ai une erreur, trop de bits ont changé", dit-il sur un ordinateur, "je ne peux pas le réparer, mais je voulais vous en parler."

Lorsque cela se produit à Los Alamos, les gens arrêtent intentionnellement tous les ordinateurs. C’est la même chose que de descendre une montagne, car ce sera moins douloureux que d’essayer de résister. Mais dans ce cas, vous n'avez pas besoin de remonter au début et de tout recommencer - les ingénieurs ont mis en place des « points de contrôle » dans la recherche d'une réponse. C'est la même chose que de gagner des points dans les jeux - si vous mourez, vous n'avez pas à tout recommencer. Commencez par le dernier point qui a enregistré vos réalisations. Les superordinateurs ont également un système de stockage similaire.

Le vrai problème est la « corruption silencieuse des données » . C'est lorsque les bits sont commutés, et personne ne le remarque. Et la réponse que vous pensez être vraie peut en fait s'avérer être un rêve inspiré par les neutrons. C'est pourquoi le travail préventif est si important: on sait à quoi s'attendre et à quelle fréquence, et à le surveiller. Dans le même temps, après avoir reçu ces connaissances, l'équipe espère transformer les erreurs silencieuses en cris forts. Mais si quelque chose glisse à travers la défense, peut-être qu'une personne vivante le verra. Habituellement, à Los Alamos, ils ne disent pas "Voici votre réponse!" Jusqu'à ce qu'une personne vérifie la pertinence des résultats du travail.

L'intervention personnelle se produit en partie parce que Los Alamos effectue des recherches critiques sur des sujets qui touchent de nombreuses autres personnes. «Le laboratoire - et le département de l'énergie dans son ensemble - étudie le changement climatique, les nouveaux médicaments, l'épidémiologie, la propagation des maladies, la modélisation des incendies, la science des matériaux et la fragilité des métaux», explique Blanchard. Et, comme il ajoute après cette liste, la raison de l'existence de Los Alamos réside dans les armes nucléaires créées par les humains (certaines d'entre elles appartiennent même à ce même laboratoire). «Nous sommes un laboratoire d'armes nucléaires», explique Blanchard. «Notre travail consiste à gérer ses réserves.» Nous devons garantir qu'il est sûr et fonctionne comme il se doit, et ne fonctionne pas lorsqu'il n'est pas nécessaire. »

En raison de l' interdiction des essais d'armes nucléaires , le seul moyen légitime de cesser de s'inquiéter et d'apprendre à maintenir un approvisionnement en bombes est de simuler ce qui se passe à l'intérieur sur un supercalculateur. C'est ainsi qu'un laboratoire inquiet des radiations sur Terre devrait s'inquiéter des radiations de l'espace. Parce que quel que soit le travail des supercalculateurs à l'avenir, une chose est claire: «Chaque année, ils deviennent une cible plus importante», explique Blanchard.

Source: https://habr.com/ru/post/fr414835/


All Articles