Warum moderne SSD mich zum Absturz bringt



Heute ist eine der SSDs auf einem unserer neuen Linux- Dateiserver gestorben. Dies ist nicht der erste und wahrscheinlich nicht der letzte Tod von SSD, dem wir gegenüberstehen werden, aber wie fast immer in solchen Fällen empfand ich meine Nerven als ungezogen - und das alles aufgrund der Kombination der Art von SSD-Fehlern, ihrer Ähnlichkeit mit der „Black Box“. "Und Festkörper Natur.

Wie die meisten anderen SSD-Fehler trat dieser plötzlich auf. Die Festplatte hat sich von einem Zustand, in dem sie einwandfrei funktioniert, in einen Zustand verwandelt, der 50 Sekunden lang ohne Warnung durch SMART oder irgendetwas anderes überhaupt nicht reagiert. Hier bearbeitet er gerne Lese- und Schreibanforderungen (von allen externen Zeichen, einschließlich ZFS, die sich nicht über Prüfsummen beschwert haben), aber jetzt befindet sich kein Crucial MX300 am SAS-Port.

Die erste Nachricht des Linux-Kernels über den Ausfall von E / A-Vorgängen kam um 20:31:34 Uhr, und das Laufwerk wurde um 20:32:15 Uhr für offiziell fehlend erklärt. In der Realität könnte die Festplatte jedoch sofort nicht mehr reagieren - ich verstehe die Treibermeldungen nicht ganz.

Was mich an diesen plötzlichen SSD-Fehlern am meisten stört, ist, wie unverständlich sie sind und dass ich mir nicht erklären kann, was genau schief gelaufen ist. Wenn sich die Festplatte dreht, kann sie auch plötzlich sterben, aber zumindest können Sie erklären, was zuvor passiert ist - ein Motor hat sich verklemmt oder ein anderer physischer Fehler ist aufgetreten, der zu einem plötzlichen Stillstand geführt hat. SSDs sind solide und mysteriös, und ich habe keine Erklärung dafür, was schief gelaufen ist, insbesondere als die Festplatte noch jung war und sich der Erschöpfung der Lebensdauer von Flash-Zellen nicht hätte nähern dürfen.

Wenn die Festplatte in jungen Jahren stirbt, kann man sich vorstellen, dass die daraus resultierenden Herstellungsfehler nicht aufgedeckt wurden. Theoretisch sollte dies bei SSDs nicht passieren, daher ist sein früher Tod besonders besorgniserregend. Es ist möglich, dass Flash-Zellen auch nicht nachweisbare Herstellungsfehler aufweisen.

Und wenn ich keine Erklärung dafür habe, was passiert, folgen meine Gedanken dem Pfad der Angst - wie der Tatsache, dass die Festplatte uns wegen ihrer Gesundheit in der SMART-Diagnose betrogen hat und dass sie tatsächlich die letzten Ersatzzellen verwendet hat, und dann endeten sie oder was Er hatte einen Fehler in der Firmware, den wir versehentlich angesprochen haben, woraufhin er sich in einen Ziegelstein verwandelte.

Wir hatten solche, dass die SSD auf diese Weise starb und dann wieder zum Leben erwachte, als sie herausgezogen und wieder festgeklebt wurde - und sie sah völlig gesund aus, was kein Vertrauen schafft. Aber es war eine andere Art von SSD. Und wir haben auch seltsame Fehler von der Crucial MX500 SSD-Serie bekommen.

Wenn ich keine Erklärung für SSD-Fehler habe, scheint mir jeder von ihnen eine unvorhersehbare Zeitbombe zu sein. Sind sie gesund oder werden sie morgen sterben? Es scheint, dass ich mich auf Statistiken verlassen sollte, das heißt, nicht zu viele von ihnen werden sterben und es nicht zu schnell tun, damit sie geändert werden können. Und selbst diese Hoffnung basiert auf der Annahme, dass es keine Korrelation von Fehlern gibt - dass das, was mit dieser SSD passiert ist, wahrscheinlich nicht mit anderen passiert, die daneben stehen.

Und dieses Problem ist nicht nur für unsere Dateiserver relevant - ich habe die gleichen Bedenken wie bei meinem Heimcomputer. Ich spiegele alle Daten, aber wie hoch sind die tatsächlichen Ausfallwahrscheinlichkeiten beider SSDs?

Theoretisch weiß ich, dass SSDs viel zuverlässiger sein sollten als ein rotierendes rostiges Laufwerk. Wir haben auch eine Reihe von SSDs, die seit vielen Jahren leise arbeiten. Aber nach solch mysteriösen plötzlichen Ausfällen scheinen sie nicht mehr so ​​zuverlässig zu sein. Ich möchte wirklich, dass wir eine Warnung vor einem SSD-Fehler erhalten, da dies mit HD ziemlich oft möglich war (zum Beispiel habe ich solche Warnungen über HD auf einem der funktionierenden Desktop-Computer erhalten - obwohl ich sie ignoriert habe). .

Source: https://habr.com/ru/post/de434702/


All Articles