Guten Tag,
ich schaue von Zeit zu Zeit mit smartctl nach, ob Platten fehlerhaft sind.
Da mir diese Woche 2 von 4 Platten im RAID-Verbund (den ich nicht überwacht hatte, weil er durch Storage Tiers abgelöst wird) gestorben sind möchte ich diese Aufgabe automatisieren. Ich habe zwar Datensicherungen, allerdings nimmt das Zurücksichern der einzelnen VMs über das Netzwerk relativ viel Zeit in Anspruch..
Nun kann man sich trefflichst streiten, dass Pending Sectors kein Problem darstellen, bei mir sterben die Platten damit aber nach einiger Zeit regelmäßig ..
Problem:
smartctl zeigt:
Dies ist der Output einer gestorbenen Platte:
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 181 158 021 Pre-fail Always - 3933
4 Start_Stop_Count 0x0032 097 097 000 Old_age Always - 3081
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0
9 Power_On_Hours 0x0032 091 091 000 Old_age Always - 6686
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 098 098 000 Old_age Always - 2436
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 699
193 Load_Cycle_Count 0x0032 199 199 000 Old_age Always - 3078
194 Temperature_Celsius 0x0022 101 082 000 Old_age Always - 46
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 11
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 7
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 3
Ich frage folgendermaßen ab:
smartctl -q errorsonly /dev/csmi0,4
(zeigt nichts)
smartctl -H /dev/csmi0,4
smartctl 6.6 2017-04-17 r4420 [x86_64-w64-mingw32-w10-1607] (daily-20170417)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, smartmontools
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
(zeigt OK)
Benutzt man nun gsmartcontrol als GUI, dann wird die 197 und die 198 gleich rot markiert.
Frage:
Wie bekomme ich diese Art von Fehlern direkt von smartctl gemeldet?
Mir ist schon klar, dass ich um den Output einen Wrapper schreiben kann, der mir bestimmte Attribute filtert, aber warum das Rad nochmal erfinden ..
Danke.
ich schaue von Zeit zu Zeit mit smartctl nach, ob Platten fehlerhaft sind.
Da mir diese Woche 2 von 4 Platten im RAID-Verbund (den ich nicht überwacht hatte, weil er durch Storage Tiers abgelöst wird) gestorben sind möchte ich diese Aufgabe automatisieren. Ich habe zwar Datensicherungen, allerdings nimmt das Zurücksichern der einzelnen VMs über das Netzwerk relativ viel Zeit in Anspruch..
Nun kann man sich trefflichst streiten, dass Pending Sectors kein Problem darstellen, bei mir sterben die Platten damit aber nach einiger Zeit regelmäßig ..
Problem:
smartctl zeigt:
Dies ist der Output einer gestorbenen Platte:
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 181 158 021 Pre-fail Always - 3933
4 Start_Stop_Count 0x0032 097 097 000 Old_age Always - 3081
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0
9 Power_On_Hours 0x0032 091 091 000 Old_age Always - 6686
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 098 098 000 Old_age Always - 2436
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 699
193 Load_Cycle_Count 0x0032 199 199 000 Old_age Always - 3078
194 Temperature_Celsius 0x0022 101 082 000 Old_age Always - 46
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 11
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 7
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 3
Ich frage folgendermaßen ab:
smartctl -q errorsonly /dev/csmi0,4
(zeigt nichts)
smartctl -H /dev/csmi0,4
smartctl 6.6 2017-04-17 r4420 [x86_64-w64-mingw32-w10-1607] (daily-20170417)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, smartmontools
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
(zeigt OK)
Benutzt man nun gsmartcontrol als GUI, dann wird die 197 und die 198 gleich rot markiert.
Frage:
Wie bekomme ich diese Art von Fehlern direkt von smartctl gemeldet?
Mir ist schon klar, dass ich um den Output einen Wrapper schreiben kann, der mir bestimmte Attribute filtert, aber warum das Rad nochmal erfinden ..
Danke.