Pourquoi le SSD moderne me plante



Aujourd'hui, l'un des SSD de l'un de nos nouveaux serveurs de fichiers Linux est mort. Ce n'est pas le premier et probablement pas le dernier décès SSD auquel nous serons confrontés, mais, comme presque toujours dans de tels cas, j'ai senti mes nerfs être méchants - et tout cela en raison de la combinaison de la nature des défaillances SSD, de leur similitude avec la «boîte noire» "Et la nature du solide.

Comme la plupart des autres pannes SSD, celle-ci s'est produite soudainement; le disque est passé d'un état de fonctionnement parfait à un état qui ne réagit pas du tout pendant 50 secondes sans aucun avertissement via SMART ou quoi que ce soit d'autre. Il gère avec plaisir les demandes de lecture et d'écriture (par tous les signes externes, y compris ZFS, qui ne se plaignait pas des sommes de contrôle), mais maintenant il n'y a pas de Crucial MX300 sur le port SAS.

Le premier message du noyau Linux sur l'échec des opérations d'E / S est arrivé à 20:31:34, et le disque a été déclaré officiellement manquant à 20:32:15. Cependant, en réalité, le disque pourrait immédiatement cesser de répondre - je ne comprends pas très bien les messages du pilote.

Ce qui me dérange le plus dans ces brusques pannes de SSD, c'est à quel point elles sont incompréhensibles et que je ne peux pas m'expliquer ce qui s'est exactement passé. Lorsque le disque dur tourne, il peut également mourir subitement, mais au moins vous pouvez expliquer ce qui s'est passé avant cela - un moteur coincé ou une autre défaillance physique s'est produite, ce qui a entraîné un arrêt soudain. Les SSD sont solides et mystérieux, et je n'ai aucune explication sur ce qui s'est mal passé, surtout lorsque le disque était encore jeune et n'aurait pas dû approcher de l'épuisement de la limite de vie des cellules flash.

Lorsque le disque dur meurt à un jeune âge, on peut imaginer qu'il n'a pas révélé les défauts de fabrication qui en résultent. Théoriquement, cela ne devrait pas se produire avec les SSD, donc sa mort précoce est particulièrement inquiétante. Il est possible que les cellules flash puissent également présenter des défauts de fabrication indétectables.

Et quand je n'ai pas d'explication sur ce qui se passe, mes pensées commencent à suivre le chemin de l'anxiété - comme le fait que le disque nous a trompés sur sa santé dans les diagnostics SMART, et qu'il a effectivement utilisé les dernières cellules de rechange, puis elles se sont terminées, ou quoi il avait une sorte d'erreur dans le firmware, que nous avons accidentellement effleuré, après quoi il s'est transformé en brique.

Nous avions tel que le SSD est mort de cette façon, puis est revenu à la vie quand il a été retiré et coincé à nouveau - et il avait l'air complètement sain, ce qui n'inspire pas confiance. Mais c'était un type de SSD différent. Et nous avons également eu d' étranges erreurs de la série SSD Crucial MX500.

De plus, lorsque je n'ai aucune explication pour les pannes SSD, chacune d'entre elles me semble une bombe à retardement imprévisible. Sont-ils en bonne santé ou mourront-ils demain? Il semble que je devrais me fier aux statistiques, c'est-à-dire que trop peu d'entre elles mourront et ne le feront pas trop rapidement pour pouvoir être modifiées. Et même cet espoir est basé sur l'hypothèse qu'il n'y a pas de corrélation des échecs - que ce qui est arrivé à ce SSD est peu susceptible de se produire pour d'autres personnes à côté de lui.

Et ce problème ne concerne pas seulement nos serveurs de fichiers - j'ai la même anxiété associée à mon ordinateur personnel. Je reflète toutes les données, mais quelles sont les chances réelles de défaillance des deux SSD?

En théorie, je sais que les SSD devraient être beaucoup plus fiables qu'un disque rotatif rouillé. Nous avons également un tas de SSD qui fonctionnent silencieusement depuis de nombreuses années. Mais après de tels échecs soudains mystérieux, ils ne semblent plus aussi fiables. J'aimerais vraiment que nous ayons une sorte d'avertissement sur l'échec du SSD, car avec la HD, c'était assez souvent possible (par exemple, j'ai reçu de tels avertissements sur la HD dans l'un des ordinateurs de bureau qui fonctionnent - bien que je les ai ignorés) .

Source: https://habr.com/ru/post/fr434702/


All Articles