Überwachen und Überprüfen des SSD-Status unter Linux

Hallo nochmal. Eine Übersetzung des folgenden Artikels wurde speziell für Studenten des Linux Administrator- Kurses erstellt. Lass uns gehen!



Was ist SMART?


SMART (steht für Self-Monitoring, Analysis and Reporting Technology) ist eine Technologie, die in Laufwerke wie Festplatten oder SSDs eingebettet ist. Seine Hauptaufgabe ist es, den Zustand zu überwachen.

Tatsächlich steuert SMART während des normalen Festplattenbetriebs mehrere Parameter. Es überwacht Parameter wie die Anzahl der Lesefehler, die Startzeit der Festplatte und sogar den Zustand der Umgebung. Darüber hinaus kann SMART auch Tests mit dem Laufwerk ausführen.

Im Idealfall sagt SMART vorhersehbare Fehler voraus, z. B. Fehler, die durch mechanischen Verschleiß oder eine Verschlechterung der Plattenoberfläche verursacht werden, sowie unvorhersehbare Fehler, die durch unerwartete Fehler verursacht werden. Da Festplatten normalerweise nicht plötzlich ausfallen, hilft SMART dem Betriebssystem oder Systemadministrator dabei, die Festplatten zu identifizieren, die bald ausfallen werden, damit sie ersetzt und Datenverluste vermieden werden können.

Was gilt nicht für SMART?


Das alles ist natürlich cool. SMART ist jedoch keine Kristallkugel. Er kann einen Ausfall nicht mit absoluter Wahrscheinlichkeit vorhersagen und kann nicht garantieren, dass der Antrieb nicht ohne Vorwarnung ausfällt. Im besten Fall sollte SMART verwendet werden, um die Wahrscheinlichkeit eines Ausfalls zu bewerten.

Angesichts des statistischen Charakters der Fehlerprognose ist die SMART-Technologie besonders an Unternehmen interessiert, die eine große Anzahl von Speichergeräten verwenden. Um herauszufinden, wie genau SMART Fehler vorhersagen und die Notwendigkeit des Austauschs von Festplatten in Rechenzentren oder Server-Mainframes melden kann, wurden sogar spezielle Studien durchgeführt.

Im Jahr 2016 führten Microsoft und die University of Pennsylvania eine Studie zu SSDs durch .

Laut dieser Studie gelten einige SMART-Attribute als gute Indikatoren für die Unvermeidlichkeit eines Ausfalls. In dem Artikel wird insbesondere Folgendes erwähnt:

Zähler für Realloc-Sektoren :

Trotz der Tatsache, dass sich die zugrunde liegenden Technologien grundlegend unterscheiden, bleibt dieser Indikator sowohl in der Welt der SSDs als auch in der Welt der Festplatten gefragt. Es ist erwähnenswert, dass aufgrund der Merkmale der in SSDs verwendeten Verschleißausgleichsalgorithmen, wenn mehrere Sektoren ausfallen, mit hoher Wahrscheinlichkeit davon ausgegangen werden kann, dass bald noch mehr ausfallen werden.

Fehler in der Programm / Lösch-Schleife (P / E):

Dies ist ein Zeichen für Probleme mit der Haupt-Flash-Speicherausrüstung, die darauf zurückzuführen sind, dass die Festplatte keine Daten aus dem Block löschen oder dort speichern kann. Tatsache ist, dass der Produktionsprozess nicht perfekt ist, so dass das Auftreten solcher Fehler zu erwarten ist. Der Flash-Speicher hat jedoch eine begrenzte Anzahl von Schreib- / Löschzyklen. Aus diesem Grund kann ein plötzlicher Anstieg der Anzahl von Ereignissen darauf hinweisen, dass die Festplatte ihre Grenze erreicht, und es wird erwartet, dass auch andere Speicherzellen ausfallen.

CRC und schwerwiegende Fehler („Datenfehler“):

Ereignisse dieses Typs können durch Speicherfehler oder Probleme mit dem internen Kommunikationskanal des Laufwerks verursacht werden. Dieser Indikator berücksichtigt sowohl die korrigierten Fehler (die dem Hostsystem ohne Probleme gemeldet wurden) als auch die nicht korrigierten Fehler (aufgrund derer die Festplatte gesperrt wird, wodurch das Hostsystem über die Unmöglichkeit des Lesens informiert wurde). Mit anderen Worten, die korrigierten Fehler sind für das Betriebssystem nicht sichtbar, beeinträchtigen jedoch die Leistung des Laufwerks und erhöhen die Wahrscheinlichkeit einer Neuzuweisung des Sektors.

Anzahl der SATA-Herunterschaltungen:

Aufgrund vorübergehender Interferenzen, Problemen mit dem Kommunikationskanal zwischen dem Laufwerk und dem Host oder aufgrund interner Probleme mit dem Laufwerk kann die SATA-Schnittstelle auf eine niedrigere Signalübertragungsgeschwindigkeit umschalten. Das Verringern der Verbindungsgeschwindigkeit unter den Nennwert hat offensichtliche Auswirkungen auf die Festplattenleistung. Daher ist dieser Indikator am bedeutendsten, insbesondere wenn er mit dem Vorhandensein eines oder mehrerer vorheriger Indikatoren korreliert.

Laut der Studie zeigten 62% der fehlgeschlagenen SSDs das Vorhandensein mindestens eines der oben genannten Symptome. Andererseits können wir sagen, dass 38% der untersuchten Laufwerke ohne Hinweis auf diese Symptome fehlgeschlagen sind. In den Studien wurde nicht erwähnt, ob es andere Berichte über die Ablehnung von SMART wegen anderer "Symptome" gab. Aus diesem Grund können Sie diese Werte in 36% der Fälle aus einem Artikel von Google nicht ohne Vorwarnung direkt mit einem Fehler korrelieren.

Eine Studie von Microsoft und der University of Pennsylvania enthüllte das Modell der untersuchten Discs nicht. Laut den Autoren stammen die meisten Discs jedoch seit mehreren Generationen von demselben Lieferanten.

In der Studie wurden auch signifikante Unterschiede in der Zuverlässigkeit zwischen verschiedenen Modellen festgestellt. Beispielsweise zeigt das untersuchte „schlechteste“ Modell eine Ausfallrate von 20 Prozent 9 Monate nach dem ersten Neuzuweisungsfehler und bis zu 36 Prozent der Fehler innerhalb von 9 Monaten nach dem ersten Auftreten von Datenfehlern. Das "schlechteste" Modell wurde als ältere Generation von Discs bezeichnet, die im Artikel berücksichtigt wurden.

Andererseits versagte die neue Generation von Laufwerken mit den gleichen Symptomen wie oben bei 3% und 20% gemäß den gleichen Fehlern. Es ist schwer zu sagen, ob diese Zahlen durch eine Verbesserung des Designs des Antriebs und des Produktionsprozesses erklärt werden können oder ob der Effekt der Veralterung hier eine Rolle spielt.

Das Interessanteste, was in dem Artikel erwähnt wird (ich habe darüber früher geschrieben), ist, dass eine Zunahme der Anzahl registrierter Fehler als alarmierender Indikator auftreten kann:

"Es besteht eine hohe Wahrscheinlichkeit für Symptome, die dem Ausfall von SSDs vorausgehen, die sich aktiv manifestieren und schnell fortschreiten und die Lebensdauer des Laufwerks erheblich auf mehrere Monate verkürzen."

Mit anderen Worten, ein von SMART gemeldeter zufälliger Fehler sollte definitiv nicht als Signal für einen bevorstehenden Ausfall angesehen werden. Wenn eine fehlerfreie SSD jedoch immer mehr Fehler meldet, sollten Sie mit einem kurz- oder mittelfristigen Ausfall rechnen.

Aber woher wissen Sie, in welchem ​​Zustand sich Ihre SSD gerade befindet? Um Ihre Neugier zu befriedigen oder aus dem Wunsch heraus, Ihre Laufwerke genau zu überwachen, können Sie das smartctl Überwachungstool smartctl .

Verwenden von smartctl zum Überwachen des Status Ihrer SSD unter Linux


Um den SMART-Status Ihres Laufwerks zu überwachen, empfehle ich die Verwendung des smartctl Tools, das Teil des smartmontool Pakets ist (zumindest unter Debian / Ubuntu).

 sudo apt install smartmontools 

smartctl ist ein Befehlszeilentool , das jedoch insbesondere in Fällen smartctl ist, in denen Sie die Datenerfassung beispielsweise von Ihren Servern aus automatisieren müssen.

Der erste Schritt bei der Verwendung von smartctl besteht darin, zu überprüfen, ob Ihr Laufwerk über SMART verfügt und vom Tool unterstützt wird:

 sh$ sudo smartctl -i /dev/sdb smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-6-amd64] (local build) Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Model Family: Seagate Momentus 7200.4 Device Model: ST9500420AS Serial Number: 5VJAS7FL LU WWN Device Id: 5 000c50 02fa0b800 Firmware Version: D005SDM1 User Capacity: 500,107,862,016 bytes [500 GB] Sector Size: 512 bytes logical/physical Rotation Rate: 7200 rpm Device is: In smartctl database [for details use: -P show] ATA Version is: ATA8-ACS T13/1699-D revision 4 SATA Version is: SATA 2.6, 3.0 Gb/s Local Time is: Mon Mar 12 15:54:43 2018 CET SMART support is: Available - device has SMART capability. SMART support is: Enabled 

Wie Sie sehen, unterstützt die interne Festplatte meines Laptops SMART wirklich und ist eingeschaltet. Wie bekomme ich jetzt den SMART-Status? Gibt es feste Fehler?

Die Meldung "Über alle SMART-Festplatteninformationen" ist die Option -a :

 sh$ sudo smartctl -i -a /dev/sdb smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-6-amd64] (local build) Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Model Family: Seagate Momentus 7200.4 Device Model: ST9500420AS Serial Number: 5VJAS7FL LU WWN Device Id: 5 000c50 02fa0b800 Firmware Version: D005SDM1 User Capacity: 500,107,862,016 bytes [500 GB] Sector Size: 512 bytes logical/physical Rotation Rate: 7200 rpm Device is: In smartctl database [for details use: -P show] ATA Version is: ATA8-ACS T13/1699-D revision 4 SATA Version is: SATA 2.6, 3.0 Gb/s Local Time is: Mon Mar 12 15:56:58 2018 CET SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED See vendor-specific Attribute list for marginal Attributes. General SMART Values: Offline data collection status: (0x82) Offline data collection activity was completed without error. Auto Offline Data Collection: Enabled. Self-test execution status: ( 0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: ( 0) seconds. Offline data collection capabilities: (0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 2) minutes. Extended self-test routine recommended polling time: ( 110) minutes. Conveyance self-test routine recommended polling time: ( 3) minutes. SCT capabilities: (0x103f) SCT Status supported. SCT Error Recovery Control supported. SCT Feature Control supported. SCT Data Table supported. SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 111 099 006 Pre-fail Always - 29694249 3 Spin_Up_Time 0x0003 100 098 085 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 095 095 020 Old_age Always - 5413 5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 3 7 Seek_Error_Rate 0x000f 071 060 030 Pre-fail Always - 51710773327 9 Power_On_Hours 0x0032 070 070 000 Old_age Always - 26423 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 096 037 020 Old_age Always - 4836 184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0 187 Reported_Uncorrect 0x0032 072 072 000 Old_age Always - 28 188 Command_Timeout 0x0032 100 096 000 Old_age Always - 4295033738 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0 190 Airflow_Temperature_Cel 0x0022 056 042 045 Old_age Always In_the_past 44 (Min/Max 21/44 #22) 191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 184 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 104 193 Load_Cycle_Count 0x0032 001 001 000 Old_age Always - 395415 194 Temperature_Celsius 0x0022 044 058 000 Old_age Always - 44 (0 13 0 0 0) 195 Hardware_ECC_Recovered 0x001a 050 045 000 Old_age Always - 29694249 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 1 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 1 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 25131 (246 202 0) 241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 3028413736 242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 1613088055 254 Free_Fall_Sensor 0x0032 100 100 000 Old_age Always - 0 SMART Error Log Version: 1 ATA Error Count: 3 CR = Command Register [HEX] FR = Features Register [HEX] SC = Sector Count Register [HEX] SN = Sector Number Register [HEX] CL = Cylinder Low Register [HEX] CH = Cylinder High Register [HEX] DH = Device/Head Register [HEX] DC = Device Command Register [HEX] ER = Error register [HEX] ST = Status register [HEX] Powered_Up_Time is measured from power on, and printed as DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes, SS=sec, and sss=millisec. It "wraps" after 49.710 days. Error 3 occurred at disk power-on lifetime: 21171 hours (882 days + 3 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 60 00 08 ff ff ff 4f 00 00:45:12.580 READ FPDMA QUEUED 60 00 08 ff ff ff 4f 00 00:45:12.580 READ FPDMA QUEUED 60 00 08 ff ff ff 4f 00 00:45:12.579 READ FPDMA QUEUED 60 00 08 ff ff ff 4f 00 00:45:12.571 READ FPDMA QUEUED 60 00 20 ff ff ff 4f 00 00:45:12.543 READ FPDMA QUEUED Error 2 occurred at disk power-on lifetime: 21171 hours (882 days + 3 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 60 00 00 ff ff ff 4f 00 00:45:09.456 READ FPDMA QUEUED 60 00 00 ff ff ff 4f 00 00:45:09.451 READ FPDMA QUEUED 61 00 08 ff ff ff 4f 00 00:45:09.450 WRITE FPDMA QUEUED 60 00 00 ff ff ff 4f 00 00:45:08.878 READ FPDMA QUEUED 60 00 00 ff ff ff 4f 00 00:45:08.856 READ FPDMA QUEUED Error 1 occurred at disk power-on lifetime: 21131 hours (880 days + 11 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 60 00 00 ff ff ff 4f 00 05:52:18.809 READ FPDMA QUEUED 61 00 00 7e fb 31 45 00 05:52:18.806 WRITE FPDMA QUEUED 60 00 00 ff ff ff 4f 00 05:52:18.571 READ FPDMA QUEUED ea 00 00 00 00 00 a0 00 05:52:18.529 FLUSH CACHE EXT 61 00 08 ff ff ff 4f 00 05:52:18.527 WRITE FPDMA QUEUED SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Short offline Completed without error 00% 10904 - # 2 Short offline Completed without error 00% 12 - # 3 Short offline Completed without error 00% 0 - SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay. 

smartctl zur Ausgabe von smartctl Befehlen


Die Ausgabe besteht aus vielen Informationen, die nicht immer leicht zu verstehen sind. Der interessanteste Teil ist wahrscheinlich der Teil mit der Bezeichnung "Herstellerspezifische SMART-Attribute mit Schwellenwerten". Es meldet verschiedene vom SMART-Gerät gesammelte Statistiken und ermöglicht es Ihnen, diese Werte (aktuell oder schlecht für alle Zeiten) mit einem bestimmten vom Lieferanten festgelegten Schwellenwert zu vergleichen.

Hier sind zum Beispiel meine Berichte über neu zugewiesene Sektoren auf der Festplatte:

 ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 3 

Möglicherweise bemerken Sie das Attribut "Pre-Fail" . Dies bedeutet, dass der Wert abnormal ist. Wenn der Wert den Schwellenwert überschreitet, ist die Ausfallwahrscheinlichkeit hoch. Eine andere Kategorie von "Old_age" wird für Attribute verwendet, die den Werten von "normaler Abnutzung" entsprechen.

Das letzte Feld (hier mit dem Wert "3") entspricht dem ursprünglichen Attributwert, den das Laufwerk meldet. Normalerweise hat diese Zahl eine physikalische Bedeutung. Hier ist die tatsächliche Anzahl der neu zugewiesenen Sektoren. Bei anderen Attributen kann dies die Temperatur in Grad Celsius, die Zeit in Stunden oder Minuten oder die Häufigkeit sein, mit der eine bestimmte Bedingung für eine Festplatte erfüllt wurde.

Zusätzlich zum Anfangswert muss ein SMART-fähiges Laufwerk „normalisierte Werte“ (Feldwerte, schlechteste und Schwellenwerte) melden. Diese Werte werden im Bereich von 1-254 normalisiert (0-255 für Schwellenwerte). Die Firmware der Festplatte führt diese Normalisierung mithilfe eines internen Algorithmus durch. Darüber hinaus können verschiedene Hersteller dasselbe Attribut auf unterschiedliche Weise normalisieren. Die meisten Werte werden in Prozent angegeben. Je höher, desto besser. Dies ist jedoch nicht immer der Fall. Wenn der Parameter kleiner oder gleich dem vom Hersteller angegebenen Schwellenwert ist, wird die Festplatte in Bezug auf dieses Attribut als fehlerhaft angesehen. Unter Berücksichtigung aller Anweisungen aus dem ersten Teil des Artikels ist es sehr wahrscheinlich, dass die Festplatte bald ausfällt, wenn das Attribut mit dem Wert "Pre-Fail" immer noch fehlschlägt.

Nehmen Sie als zweites Beispiel die "Suchfehlerrate" :

 ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 7 Seek_Error_Rate 0x000f 071 060 030 Pre-fail Always - 51710773327 

Tatsächlich (und dies ist das Hauptproblem bei der SMART-Berichterstellung) versteht nur der Anbieter den genauen Wert der Felder jedes Attributs. In meinem Fall verwendet Seagate eine logarithmische Skala, um den Wert zu normalisieren. Somit bedeutet "71" ungefähr einen Fehler pro 10 Millionen Anfragen (10 hoch 7,1). Es ist lustig, dass der schlechteste Indikator aller Zeiten ein Fehler pro 1 Million Anfragen war (10 bis 6. Grad).

Wenn ich das richtig verstehe, bedeutet dies, dass die Köpfe meiner Festplatte jetzt genauer als zuvor lokalisiert sind. Ich habe diese CD nicht genau überwacht, daher analysiere ich die erhaltenen Daten sehr subjektiv. Vielleicht musste das Laufwerk seit seiner Inbetriebnahme nur ein wenig „einlaufen“? Oder ist dies möglicherweise eine Folge des mechanischen Verschleißes der Teile und daher gibt es jetzt weniger Reibung? Unabhängig vom Grund ist dieser Wert in jedem Fall eher ein Maß für die Leistung als eine frühzeitige Warnung vor einem Fehler. Es stört mich also nicht sehr.

Zusätzlich zu den oben genannten und drei äußerst verdächtigen Fehlern, die vor etwa sechs Monaten aufgezeichnet wurden, befindet sich diese Festplatte (laut SMART) in einem überraschend guten Zustand für die Standardfestplatte des Laptops, die mehr als 1100 Tage (26423 Stunden) funktionierte.

 ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 9 Power_On_Hours 0x0032 070 070 000 Old_age Always - 26423 

Aus Neugier führte ich den gleichen Test auf einem viel neueren Laptop mit SSD durch:

 sh$ sudo smartctl -i /dev/sdb smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.10.0-32-generic] (local build) Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Device Model: TOSHIBA THNSNK256GVN8 Serial Number: 17FS131LTNLV LU WWN Device Id: 5 00080d 9109b2ceb Firmware Version: K8XA4103 User Capacity: 256 060 514 304 bytes [256 GB] Sector Sizes: 512 bytes logical, 4096 bytes physical Rotation Rate: Solid State Device Form Factor: M.2 Device is: Not in smartctl database [for details use: -P showall] ATA Version is: ACS-3 (minor revision not indicated) SATA Version is: SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s) Local Time is: Tue Mar 13 01:03:23 2018 CET SMART support is: Available - device has SMART capability. SMART support is: Enabled 

Das erste, was smartctl ist, dass sich das Gerät trotz SMART nicht in der smartctl Datenbank befindet. Dies hindert das Tool jedoch nicht daran, Daten von der SSD zu erfassen. Es kann jedoch nicht die genauen Werte der verschiedenen anbieterspezifischen Attribute melden:

 sh$ sudo smartctl -a /dev/sdb smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.10.0-32-generic] (local build) Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x00) Offline data collection activity was never started. Auto Offline Data Collection: Disabled. Self-test execution status: ( 0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: ( 120) seconds. Offline data collection capabilities: (0x5b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. No Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 2) minutes. Extended self-test routine recommended polling time: ( 11) minutes. SCT capabilities: (0x003d) SCT Status supported. SCT Error Recovery Control supported. SCT Feature Control supported. SCT Data Table supported. SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000a 100 100 000 Old_age Always - 0 2 Throughput_Performance 0x0005 100 100 050 Pre-fail Offline - 0 3 Spin_Up_Time 0x0007 100 100 050 Pre-fail Always - 0 5 Reallocated_Sector_Ct 0x0013 100 100 050 Pre-fail Always - 0 7 Unknown_SSD_Attribute 0x000b 100 100 050 Pre-fail Always - 0 8 Unknown_SSD_Attribute 0x0005 100 100 050 Pre-fail Offline - 0 9 Power_On_Hours 0x0012 100 100 000 Old_age Always - 171 10 Unknown_SSD_Attribute 0x0013 100 100 050 Pre-fail Always - 0 12 Power_Cycle_Count 0x0012 100 100 000 Old_age Always - 105 166 Unknown_Attribute 0x0012 100 100 000 Old_age Always - 0 167 Unknown_Attribute 0x0022 100 100 000 Old_age Always - 0 168 Unknown_Attribute 0x0012 100 100 000 Old_age Always - 0 169 Unknown_Attribute 0x0013 100 100 010 Pre-fail Always - 100 170 Unknown_Attribute 0x0013 100 100 010 Pre-fail Always - 0 173 Unknown_Attribute 0x0012 200 200 000 Old_age Always - 0 175 Program_Fail_Count_Chip 0x0013 100 100 010 Pre-fail Always - 0 192 Power-Off_Retract_Count 0x0012 100 100 000 Old_age Always - 18 194 Temperature_Celsius 0x0023 063 032 020 Pre-fail Always - 37 (Min/Max 11/68) 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 240 Unknown_SSD_Attribute 0x0013 100 100 050 Pre-fail Always - 0 SMART Error Log Version: 1 No Errors Logged SMART Self-test log structure revision number 1 No self-tests have been logged. [To run self-tests, use: smartctl -t] SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay. 

Oben sehen Sie die Ausgabe einer brandneuen SSD. Die Daten sind auch dann verständlich, wenn keine Normalisierung oder Metainformationen für die Daten eines bestimmten Anbieters vorliegen, wie in meinem Fall mit "Unknown_SSD_Attribute". Ich kann nur hoffen, dass zukünftige Versionen von smartctl Daten zu diesem Laufwerksmodell in der Datenbank haben, und ich kann potenzielle Probleme besser identifizieren.

Testen Sie Ihre SSD unter Linux mit smartctl


Bisher haben wir die während des normalen Antriebsbetriebs gesammelten Daten überprüft. Das SMART-Protokoll unterstützt jedoch auch mehrere Befehle zum Offline-Testen, um eine On-Demand-Diagnose auszuführen.

Sofern nicht anders angegeben, können Offline-Tests während des normalen Festplattenbetriebs durchgeführt werden. Da die Test- und Host-E / A-Anforderungen miteinander konkurrieren, sinkt die Festplattenleistung während des Tests. Die SMART-Spezifikation definiert verschiedene Arten von eigenständigen Tests:

Kurze eigenständige Tests ( -t short )
Ein solcher Test überprüft die elektrische und mechanische Leistung sowie die Leistung beim Lesen der Festplatte. Kurze autonome Tests dauern normalerweise nur wenige Minuten (normalerweise von 2 bis 10).

Erweiterte Standalone-Tests ( -t long )
Dieser Test dauert fast doppelt so lange. Dies ist normalerweise nur eine detailliertere Version eines kurzen Standalone-Tests. Darüber hinaus durchsucht dieser Test die gesamte Oberfläche der Festplatte ohne zeitliche Begrenzung auf Datenfehler. Die Dauer des Tests ist proportional zur Größe der Festplatte.

Standalone-Versandprüfung ( -t conveyance )
Dieses Testkit wird als relativ schnelle Methode zur Überprüfung auf mögliche Schäden beim Transport des Geräts vorgeschlagen.

Hier sind Beispiele von denselben Laufwerken wie oben. Ich schlage vor, Sie raten, wo welche:

 sh$ sudo smartctl -t short /dev/sdb smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.10.0-32-generic] (local build) Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org === START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION === Sending command: "Execute SMART Short self-test routine immediately in off-line mode". Drive command "Execute SMART Short self-test routine immediately in off-line mode" successful. Testing has begun. Please wait 2 minutes for test to complete. Test will complete after Mon Mar 12 18:06:17 2018 Use smartctl -X to abort test. 

Eine Überprüfung wird durchgeführt. Warten wir auf den Abschluss, um das Ergebnis zu sehen:

 sh$ sudo sh -c 'sleep 120 && smartctl -l selftest /dev/sdb' smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.10.0-32-generic] (local build) Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org === START OF READ SMART DATA SECTION === SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Short offline Completed without error 00% 171 - 

Lassen Sie uns denselben Test auf einem anderen Laufwerk ausführen:

 sh$ sudo smartctl -t short /dev/sdb smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-6-amd64] (local build) Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org === START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION === Sending command: "Execute SMART Short self-test routine immediately in off-line mode". Drive command "Execute SMART Short self-test routine immediately in off-line mode" successful. Testing has begun. Please wait 2 minutes for test to complete. Test will complete after Mon Mar 12 21:59:39 2018 Use smartctl -X to abort test. 

Und wieder schicken wir es für zwei Minuten in den Schlaf und sehen das Ergebnis:

 sh$ sudo sh -c 'sleep 120 && smartctl -l selftest /dev/sdb' smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-6-amd64] (local build) Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org === START OF READ SMART DATA SECTION === SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Short offline Completed without error 00% 26429 - # 2 Short offline Completed without error 00% 10904 - # 3 Short offline Completed without error 00% 12 - # 4 Short offline Completed without error 00% 0 - 

Interessanterweise sehen wir in diesem Fall, dass die Hersteller der Festplatte und des Computers die Festplatte anscheinend bereits getestet haben (bei einer Lebensdauer von 0 Stunden und 12 Stunden). Ich selbst war definitiv viel weniger besorgt über den Zustand des Laufwerks als sie. Da ich bereits schnelle Tests gezeigt habe, werde ich auch den erweiterten Test ausführen, um zu sehen, wie dies geschieht.

 sh$ sudo smartctl -t long /dev/sdb smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-6-amd64] (local build) Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org === START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION === Sending command: "Execute SMART Extended self-test routine immediately in off-line mode". Drive command "Execute SMART Extended self-test routine immediately in off-line mode" successful. Testing has begun. Please wait 110 minutes for test to complete. Test will complete after Tue Mar 13 00:09:08 2018 Use smartctl -X to abort test. 

Anscheinend dauert das Warten diesmal viel länger als bei einem kurzen Test. Also mal sehen:

 sh$ sudo bash -c 'sleep $((110*60)) && smartctl -l selftest /dev/sdb' [sudo] password for sylvain: smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-6-amd64] (local build) Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org === START OF READ SMART DATA SECTION === SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Extended offline Completed: read failure 20% 26430 810665229 # 2 Short offline Completed without error 00% 26429 - # 3 Short offline Completed without error 00% 10904 - # 4 Short offline Completed without error 00% 12 - # 5 Short offline Completed without error 00% 0 - 

Achten Sie im letzten Test auf den Unterschied in den Ergebnissen, die mit den kurzen und erweiterten Tests erzielt wurden, auch wenn diese nacheinander durchgeführt wurden. Nun, vielleicht ist dieses Laufwerk nicht in einem so guten Zustand! Ich stelle fest, dass der Test nach dem ersten Lesefehler gestoppt wurde. Wenn Sie umfassende Informationen zu allen Lesefehlern erhalten möchten, müssen Sie den Test daher nach jedem Fehler fortsetzen. Ich fordere Sie dringend auf, sich eine sehr gut geschriebene smartctl (8) -Handbuchseite anzusehen, um weitere Informationen zu den -t select -t select , N-max und -t select zu erhalten, um dies tun zu können:

 sh$ sudo smartctl -t select,810665230-max /dev/sdb smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-6-amd64] (local build) Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org === START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION === Sending command: "Execute SMART Selective self-test routine immediately in off-line mode". SPAN STARTING_LBA ENDING_LBA 0 810665230 976773167 Drive command "Execute SMART Selective self-test routine immediately in off-line mode" successful. Testing has begun. 

 smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-6-amd64] (local build) Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org === START OF READ SMART DATA SECTION === SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Selective offline Completed without error 00% 26432 - # 2 Extended offline Completed: read failure 20% 26430 810665229 # 3 Short offline Completed without error 00% 26429 - # 4 Short offline Completed without error 00% 10904 - # 5 Short offline Completed without error 00% 12 - # 6 Short offline Completed without error 00% 0 - 

Fazit


Auf jeden Fall ist SMART genau die Technologie, die Ihrem Toolkit hinzugefügt werden sollte, um den Zustand Ihrer Serverlaufwerke zu überwachen. SMART Disk Monitoring Daemon smartd(8) , .

, , SMART . , , – , , . , RAID !

, !

Source: https://habr.com/ru/post/de461929/


All Articles