
Hoje, um dos SSDs de um dos nossos
novos servidores de arquivos Linux morreu. Esta não é a primeira e provavelmente não a última morte do SSD que enfrentaremos, mas, como quase sempre nesses casos, senti meus nervos serem travessos - e tudo por causa da combinação da natureza das falhas do SSD, sua semelhança com a "caixa preta" "E natureza de estado sólido.
Como a maioria das outras falhas de SSD, essa ocorreu repentinamente; o disco passou de um estado de funcionamento perfeito para um estado que não reage por 50 segundos sem nenhum aviso pelo SMART ou qualquer outra coisa. Aqui, ele lida com prazer com solicitações de leitura e gravação (por todos os sinais externos, incluindo o ZFS, que não reclamava de somas de verificação), mas agora não há Crucial MX300 na porta SAS.
A primeira mensagem do kernel do Linux sobre a falha das operações de E / S chegou às 20:31:34 e a unidade foi declarada oficialmente ausente às 20:32:15. No entanto, na realidade, o disco pode parar imediatamente de responder - não entendo bem as mensagens do driver.
O que mais me incomoda com essas falhas repentinas de SSD é como elas são incompreensíveis e que não consigo explicar para mim mesma o que exatamente deu errado. Quando o disco rígido está girando, ele também pode morrer repentinamente, mas pelo menos você pode explicar o que aconteceu antes disso - um motor preso ou outra falha física que levou a uma parada repentina. Os SSDs são sólidos e misteriosos e não tenho explicação para o que deu errado, especialmente quando o disco ainda era jovem e não deveria ter se aproximado do esgotamento do limite de vida das células flash.
Quando o HDD morre em tenra idade, pode-se imaginar que não revelou os defeitos de fabricação resultantes. Teoricamente, isso não deveria acontecer com os SSDs, então sua morte prematura é especialmente preocupante. É possível que as células flash também tenham defeitos de fabricação indetectáveis.
E quando não tenho uma explicação para o que está acontecendo, meus pensamentos começam a seguir o caminho da ansiedade - como o fato de o disco nos enganar sobre sua saúde nos diagnósticos SMART e de realmente usar as últimas células sobressalentes, e então elas terminaram, ou o que ele teve algum tipo de erro no firmware, sobre o qual acidentalmente falamos, após o que ele se transformou em um tijolo.
Tivemos que o SSD morreu dessa maneira e depois voltou à vida quando foi retirado e preso novamente - e parecia completamente saudável, o que não inspira confiança. Mas era um tipo diferente de SSD. E também tivemos
erros estranhos da série Crucial MX500 SSD.
Além disso, quando não tenho explicação para falhas no SSD, cada uma delas me parece uma bomba-relógio imprevisível. Eles são saudáveis ou vão morrer amanhã? Parece que devo confiar nas estatísticas, ou seja, não muitas delas morrerão e não farão isso muito rapidamente para que possam ser alteradas. E mesmo essa esperança se baseia na suposição de que não há correlação de falhas - que é improvável que o que aconteceu com esse SSD aconteça com outras pessoas próximas a ele.
E esse problema é relevante não apenas para nossos servidores de arquivos - tenho a mesma ansiedade associada ao meu computador doméstico. Eu espelho todos os dados, mas quais são as chances reais de falha dos dois SSDs?
Em teoria, eu sei que os SSDs devem ser muito mais confiáveis do que uma unidade enferrujada em rotação. Também temos um monte de SSDs que trabalham silenciosamente há muitos anos. Mas, após essas falhas repentinas misteriosas, elas não parecem mais tão confiáveis. Eu realmente gostaria que tivéssemos algum tipo de aviso sobre falha do SSD, porque com o HD era quase sempre possível (por exemplo, recebi esses avisos sobre o HD em um dos computadores de trabalho - embora eu os ignorasse) .