Atmosphärische Schauer führen zum Ausfall von Supercomputern: Was kann man dagegen tun?


Der Cray-1- Supercomputer, der schnellste in den 1970er Jahren, sieht nicht wie ein Supercomputer aus. Es sieht aus wie eine Modifikation einer Attraktion, bei der eine Person an einer Wand steht, sich befestigt und sie dann abwickelt. Er ist von einer runden Bank umgeben, die ein Donut-ähnliches Essen verbirgt - wenn nur ein Donut-Loch wertvolle Ideen in Bezug auf Atomwaffen liefern könnte.

Nachdem Seymour Cray diesen Computer zum ersten Mal erstellt hatte, gab er dem Nationalen Labor in Los Alamos sechs Monate Zeit, ihn kostenlos zu nutzen. In diesen sechs Monaten passierte jedoch etwas Interessantes: 152 ungeklärte Speicherfehler traten auf dem Computer auf. Und erst später erfuhren die Forscher, dass Neutronen aus kosmischen Strahlen mit Teilen des Prozessors kollidieren und die im Computer gespeicherten Daten stören können. Je höher Sie sind und je größer Ihre Computer sind, desto stärker betrifft Sie dieses Problem. Los Alamos, 2,2 km über dem Meeresspiegel gelegen, wo sich die luxuriösesten Computer der Welt befinden, ist zum Hauptziel geworden.


Seymour Cray, Schöpfer des Supercomputers, neben seiner Idee Cray-1

Seitdem hat sich die Welt verändert und die Computer haben sich verändert. Aber der Kosmos blieb derselbe. Deshalb musste sich Los Alamos anpassen - und seine Ingenieure begannen, kosmische Partikel in Geräten und Software zu berücksichtigen. "Dies ist kein Problem, das angegangen werden muss", erklärte Nathan Debardeleben vom Hochleistungsteam für Computerentwicklung. "Dies ist ein Problem, das wir zurückhalten können."

Für moderne Computer, beginnend mit dem Q-Supercomputer , ist dies eine ziemlich ernste Sache. Der Q, der 2003 installiert wurde, war viel schneller als Cray-1, der für die Berechnung von US-Atomwaffenvorräten entwickelt wurde. Aber er stürzte häufiger als erwartet ab - und dies waren die ersten Fehler, die Wissenschaftler aus Los Alamos ernsthaft über kosmische Strahlen aus dem Weltraum beunruhigten. Sie kollidieren mit chemischen Elementen in der Atmosphäre und alles zerfällt in kleinere Partikel . "Sie bilden buchstäblich eigenartige Duschen, die direkt auf uns fallen", sagt Sean Blanchard, ein weiteres Mitglied der Gruppe. Einige dieser „Tröpfchen“ erweisen sich als Neutronen - und das ist sehr schlecht.

"Sie können dazu führen, dass die Bits im Arbeitsspeicher des Computers wechseln", sagt DeBardeleben, "von 0 auf 1 oder von 1 auf 0." Für einen Heimcomputer ist dies Unsinn. Aber Los Alamos hat riesige Dreschmaschinen für Zahlen. Das gleiche Q zu Beginn des Jahrhunderts ähnelt den Regalen von Supermärkten. Und heute gibt es im Labor Computerräume von der Größe eines Fußballfeldes, und alle Computer im Raum können an derselben Aufgabe arbeiten. Und genau wie es auf dem Fußballplatz mehr Niederschläge gibt als auf dem Sommerhaus, dringen Supercomputer mehr kosmische Strahlen ein als Ihr Laptop.


In Los Alamos werden Neutronendetektoren im gesamten Supercomputerzentrum eingesetzt

Nach Q haben die Ingenieure wirklich erkannt, dass Neutronen nicht so neutrale Teilchen sind, und versuchen nun, Probleme zu antizipieren. Vor der Installation neuer Geräte führen die Ingenieure so etwas wie einen Weltraum-Stresstest durch, indem sie die Elektronik in einen Neutronenstrahl legen - es gibt viel mehr davon als in atmosphärischen Duschen - und beobachten, was passiert. „Wir nehmen einzelne Teile, machen sie radioaktiv, lassen sie bei Fehlern arbeiten“, erklärt Blanchard. Bald werden sie Neutronendetektoren im Supercomputerzentrum platzieren, um die Stärke der "Stürme" zu messen. Wenn Sie wissen, wie viele Neutronen angekommen sind und wie sie sich auf den Betrieb von Computerkomponenten auswirken, können Sie „die Lebensdauer Ihrer Elektronik vorhersagen“, sagt Susan Novichki, Physikerin in der Gruppe für Weltraum- und angewandte Wissenschaften des Labors.

Normalerweise erweisen sich Supercomputer als klug genug, um zu verstehen, dass etwas schief gelaufen ist, und sie spüren den Schalter genauso, wie Sie es tun würden, wenn Sie sich die Haare ausreißen würden. [Der Autor des Originalartikels ist ein Mädchen / ca. perev. ] In diesem Fall meldet das System normalerweise nur einen Fehler und korrigiert sich selbst. Aber manchmal, sagt Blanchard, ist der Computer pessimistischer. "Ich habe einen Fehler, zu viele Bits haben gewechselt", zeigt er einen Computer. "Ich kann ihn nicht reparieren, aber ich wollte Ihnen davon erzählen."

Wenn dies in Los Alamos passiert, stoppen die Leute absichtlich alle Computer. Es ist dasselbe wie das Skifahren auf einem Berg, weil es weniger schmerzhaft ist, als zu versuchen, Widerstand zu leisten. In diesem Fall müssen Sie jedoch nicht nach oben zurückkehren und von vorne beginnen. Die Ingenieure haben bei der Suche nach einer Antwort „ Checkpoints “ eingerichtet. Dies entspricht dem Speichern von Punkten in Spielen. Wenn Sie sterben, müssen Sie nicht erneut von vorne beginnen. Beginnen Sie mit dem letzten Punkt, der Ihre Erfolge gespeichert hat. Supercomputer haben auch ein ähnliches Speichersystem.

Das eigentliche Problem ist die " stille Datenkorruption ". Dies ist, wenn die Bits geschaltet werden und niemand es bemerkt. Und die Antwort, die Sie für wahr halten, könnte sich tatsächlich als ein Traum herausstellen, der von Neutronen inspiriert ist. Deshalb ist vorbeugende Arbeit so wichtig: Es ist bekannt, was und wie oft zu erwarten ist und wie es überwacht wird. Gleichzeitig hofft das Team, nach Erhalt dieses Wissens stille Fehler in lautes Schreien umzuwandeln. Aber wenn etwas durch die Verteidigung rutscht, wird es vielleicht eine lebende Person sehen. Normalerweise sagen sie in Los Alamos nicht "Hier ist Ihre Antwort!", Bis eine Person die Arbeitsergebnisse auf ihre Aussagekraft überprüft.

Persönliche Eingriffe erfolgen teilweise, weil Los Alamos kritische Forschung zu Themen betreibt, die viele andere Menschen betreffen. „Das Labor - und die Energieabteilung insgesamt - untersuchen den Klimawandel, neue Medikamente, Epidemiologie, die Ausbreitung von Krankheiten, Brandmodellierung, Materialwissenschaften und die Fragilität von Metallen“, erklärt Blanchard. Und wie er nach dieser Liste hinzufügt, liegt der Grund für die Existenz von Los Alamos in den von Menschen geschaffenen Atomwaffen (einige von ihnen gehören sogar zu diesem Labor). "Wir sind ein Atomwaffenlabor", sagt Blanchard. "Unsere Aufgabe ist es, die Reserven zu verwalten." Wir müssen sicherstellen, dass es sicher ist und so funktioniert, wie es sollte, und nicht funktioniert, wenn es nicht benötigt wird. “

Aufgrund des Verbots von Atomwaffentests besteht die einzig legitime Möglichkeit, sich keine Sorgen mehr zu machen und zu lernen, wie man einen Vorrat an Bomben aufrechterhält, darin, zu simulieren, was auf einem Supercomputer im Inneren passiert. So sollte sich ein Labor, das sich Sorgen um die Strahlung auf der Erde macht, Sorgen um die Strahlung aus dem Weltraum machen. Denn unabhängig von der Arbeit der Supercomputer in der Zukunft ist eines klar: „Jedes Jahr werden sie zu einem größeren Ziel“, sagt Blanchard.

Source: https://habr.com/ru/post/de414835/


All Articles