smartctl -H liefert keine Fehler - gsmartcontrol GUI zeigt die Fehler korrekt an

ThomasH · 21.04.2017

Guten Tag,

ich schaue von Zeit zu Zeit mit smartctl nach, ob Platten fehlerhaft sind.

Da mir diese Woche 2 von 4 Platten im RAID-Verbund (den ich nicht überwacht hatte, weil er durch Storage Tiers abgelöst wird) gestorben sind möchte ich diese Aufgabe automatisieren. Ich habe zwar Datensicherungen, allerdings nimmt das Zurücksichern der einzelnen VMs über das Netzwerk relativ viel Zeit in Anspruch..

Nun kann man sich trefflichst streiten, dass Pending Sectors kein Problem darstellen, bei mir sterben die Platten damit aber nach einiger Zeit regelmäßig ..

Problem:

smartctl zeigt:

Dies ist der Output einer gestorbenen Platte:

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 181 158 021 Pre-fail Always - 3933
4 Start_Stop_Count 0x0032 097 097 000 Old_age Always - 3081
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0
9 Power_On_Hours 0x0032 091 091 000 Old_age Always - 6686
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 098 098 000 Old_age Always - 2436
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 699
193 Load_Cycle_Count 0x0032 199 199 000 Old_age Always - 3078
194 Temperature_Celsius 0x0022 101 082 000 Old_age Always - 46
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 11
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 7
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 3

Ich frage folgendermaßen ab:

smartctl -q errorsonly /dev/csmi0,4
(zeigt nichts)

smartctl -H /dev/csmi0,4
smartctl 6.6 2017-04-17 r4420 [x86_64-w64-mingw32-w10-1607] (daily-20170417)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, smartmontools

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
(zeigt OK)

Benutzt man nun gsmartcontrol als GUI, dann wird die 197 und die 198 gleich rot markiert.

Frage:

Wie bekomme ich diese Art von Fehlern direkt von smartctl gemeldet?

Mir ist schon klar, dass ich um den Output einen Wrapper schreiben kann, der mir bestimmte Attribute filtert, aber warum das Rad nochmal erfinden ..

Danke.

Holt · 21.04.2017

Poste mal die Ausgabe von smartctl -a für die Platte, schreib auch was für ein RAID es ist, also ob ein HW RAID Controller, ein SW RAID oder ein Fake RAID verwendet wird.

ThomasH · 21.04.2017

Holt schrieb:
Poste mal die Ausgabe von smartctl -a für die Platte, schreib auch was für ein RAID es ist, also ob ein HW RAID Controller, ein SW RAID oder ein Fake RAID verwendet wird.

Überwachen möchte ich auch NON RAID Platten auf anderen Servern/Clients. Das Raid hier fliegt raus und wird durch TierdStorage ersetzt, sobald die neuen Disks da sind.

Zu Deiner Frage trotzdem die Infos:

Es handelt sich um ein C612 Raid (d.h, hier auch als FAKE tituliert) auf einem X10SRA-F

smartctl -a /dev/csmi0,4
smartctl 6.6 2017-04-17 r4420 [x86_64-w64-mingw32-w10-1607] (daily-20170417)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, smartmontools

=== START OF INFORMATION SECTION ===
Model Family: Western Digital Caviar Blue (SATA)
Device Model: WDC WD6400AAKS-22A7B2
Serial Number: WD-WCASY9208881
LU WWN Device Id: 5 0014ee 102315863
Firmware Version: 01.03B01
User Capacity: 640.135.028.736 bytes [640 GB]
Sector Size: 512 bytes logical/physical
Device is: In smartctl database [for details use: -P show]
ATA Version is: ATA8-ACS (minor revision not indicated)
SATA Version is: SATA 2.5, 3.0 Gb/s
Local Time is: Fri Apr 21 18:25:21 2017 MS
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 121) The previous self-test completed having
the read element of the test failed.
Total time to complete Offline
data collection: (11580) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 136) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x3037) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 181 158 021 Pre-fail Always - 3933
4 Start_Stop_Count 0x0032 097 097 000 Old_age Always - 3081
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0
9 Power_On_Hours 0x0032 091 091 000 Old_age Always - 6687
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 098 098 000 Old_age Always - 2436
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 699
193 Load_Cycle_Count 0x0032 199 199 000 Old_age Always - 3078
194 Temperature_Celsius 0x0022 102 082 000 Old_age Always - 45
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 11
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 7
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 3

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed: read failure 90% 6687 2486

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

PS:
Den Selbsttest hatte ich vorhin angestoßen.

Holt · 21.04.2017

"SMART overall-health self-assessment test result: PASSED" sollte die Ausgabe von smartctl -H /dev/csmi0,4 erklären. Mich wundert nur ein wenig wieso da steht: "No Errors Logged" Da es schwebende Sektoren gibt, sollte es auch die Logs der Lesefehler dazu geben. Was für ein RAID ist das? Wenn es kein RAID 0 ist, was ja kein echtes RAID ist, da das R in RAID für Redundanz steht und die fehlt ja beim RAID 0, sollte das RAID eigentlich bei einem Lesefehler die Daten rekonstruieren und auf der betroffenen HDD den Sektor überschreiben, womit der schwenden Sektor in jedem Fall verschwindet. Da scheint etwas nicht zu passen, außerdem wird doch unter Linux gar kein Intel Fake RAID gemacht, da nimmt man doch das md SW RAID, dem hat Intel extra die Unterstützung für die Metadaten seiner Chipsatz Fake RAIDs beigebracht, eben weil es sonst keinen Linux Treiber dafür gibt.

ThomasH · 21.04.2017

Es ist ein ein Raid 5 mit 4 Disks wovon 2 ausgefallen sind. Vermutlich ist eine Disk schon vorher zum Teufel gegangen, was ich aber mangels Monitoring nicht mitbekommen habe. Als OS habe ich Win10 Prof 64 1067

Die 4 Platten sind schon ausgebaut.

mika2004 · 22.04.2017

da ich so ein Problem vor sehr langer Zeit schon einmal hatte, bin ich mal neugierig.

Was für einen Festplattenrahmen verwendest Du?

Ich hatte mal diese Sorte Sharkoon SATA QuickPort 3-Bay
im Einsatz, was sich im nach hinein als katastrophaler Fehler herausgestellt hat.
Der war an unzähligen Fehlern Schuld. U.a auch an "Pending Sektors"

ThomasH · 22.04.2017

@mika

es ist ein ca. 8 Jahre alter HDD 4 Fach Einbauschacht der 3 3.5 Zoll Höheneinheiten belegt.
Hersteller kann ich erst sagen, wenn ich den Rahmen ausbaue, was noch dauert, da die neuen Platten immer noch nicht da sind.

Die selben 4 Platten sind 7 Jahre in einem 4 Fach Stripe Set (Raid 0) gelaufen. Im selben Rahmen.
Der Rahmen fliegt aber ebenfalls raus, da ich ihn auch in Verdacht habe.

ThomasH · 10.05.2017

Nachdem nun eine weitere Platte in diesem Teil mit Pending Sectors kam, habe ich das Teil rausgeworfen
link
weil ich auch nicht weiß, ob das Teil wirklich SATAIII kann, denn es ist schon8 oder 9 Jahre alt.

Holt · 10.05.2017

Das ist wie ich das sehen einfach nur ein Wechselrahmen, der dürfte keine Schuld an den Schwebenden Sektoren haben. Nur hast Du eben zu viele HDDs im gleichen Gehäuse verbaut und die WD Blue sind nun eben nicht dafür gedacht mit so vielen HDDs in einem Gehäuse verbaut zu sein, dafür fehlen solchen einfachen Desktopplatten wie den WD Blue die Vorrichtungen um mit den Vibrationen umgehen zu können die die anderen HDDs im Gehäuse zwangsläufig erzeugen. Die 640 GB scheinen auch schon recht alt zu sein, die (vom Hersteller) geplante Nutzungsdauer von normalen HDDs ist üblicherweise 5 Jahre und wenn man außerhalb der Spezifikationen betreibt, erreichen sie diese oft gar nicht einmal.

Außerdem sind schwebende Sektoren auch kein Beinbruch, die Sektoren sind nicht zwangsweise kaputt, es passt da nur die ECC dahinter nicht zu den Daten. Dies kann verschiedene Ursachen haben und es ist normal das dies zuweilen vorkommt. Die Häufigkeit mit der man damit rechnen muss, wird in Form der UBER angegeben, die bei einfachen Desktopplatten wie der WD Blue 1:10^14 ist und besagt, dass die HDD auch dann noch innerhalb ihrer Spezifikationen arbeitet, wenn pro etwa 12TB gelesener Daten ein schwebender Sektor auftritt.

Ob es Probleme mit SATA 6Gb/s gegeben hätte, diese Wechselrahmen leiten die Signale ja nur passiv durch, können aber auch Probleme erzeigen wenn die Signalqualität darunter zu sehr leidet, hättest Du am Attribut 199 sehen können, bei der alten HDD gab es keine Probleme:

199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0

mika2004 · 11.05.2017

ThomasH schrieb:
Nachdem nun eine weitere Platte in diesem Teil mit Pending Sectors kam, habe ich das Teil rausgeworfen
link
weil ich auch nicht weiß, ob das Teil wirklich SATAIII kann, denn es ist schon8 oder 9 Jahre alt.

Eines ist sicher, das Ding überträgt alle Schwingungen von einer auf die nächste Platte.
Mal ganz abgesehen von den schwierigen Kühlungsbedingungen.

Ruhe mit den Plattenproblemen bekam ich mit der Lian-Li Technik rein.

Diese Platten sind entkoppelt.

ThomasH · 12.05.2017

ja, die Disks sind nun 9 Jahre alt.

Der Rahmen ist aber nicht total passiv, den er hat an den Knöpfen (rechts) eine LED die den Zugriffstatus (grün flackernd) und den Ausfall der Platte anzeigt.

Suche

smartctl -H liefert keine Fehler - gsmartcontrol GUI zeigt die Fehler korrekt an

ThomasH

Experte

Holt

Legende

ThomasH

Experte

Holt

Legende

ThomasH

Experte

mika2004

Enthusiast

ThomasH

Experte

ThomasH

Experte

Holt

Legende

mika2004

Enthusiast

ThomasH

Experte