Tool für Smart Werte außer CDI?

Nemac

Enthusiast
Thread Starter
Mitglied seit
03.04.2010
Beiträge
1.550
Ort
17033
Hi,
Hat noch jemand einen Programmvorschlag für ein Tool das SMART Werte anzeigen kann?
Ich nutzte Argus Monitor für Temperaturüberwachung und Lüftersteuerung usw. Das Programm kann aber auch SMART prüfen.

Ich teste gerade alte Platten zum verschenken durch, plötzlich meldet sich Argus mit einem Smart Alarm, Crystaldiskinfo sieht aber nichts :(
Welches Tool hat nun Recht?

Smart1.JPGSmart2.JPG

Was stimmt? Und kann mir jemand die Differenz erklären? Was tun? Ein 3. Programm als "Schiedsrichter" nehmen?

danke 🍻
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Na ja, für CDI sind wieder zugewiesene Sektoren eine Meldung wert, aber nicht unkorrigierbare Fehler.
Ansonsten lesen sie die Werte gleich aus, interpretieren sie aber anders.
 
So richtig unkritisch sind die 'unkorrigierbaren Fehler.' aber auch nicht oder? Es läuft gerade ein Format, mal sehen wie es danach aussieht.
Einschätzung von euch für die Platte J: noch nutzbar oder Tonne?
 
Für dich vielleicht, aber CDI sieht das anscheinend nicht so.

Also die mit den wieder zugewiesenen Sektoren ist für mich für die Tonne, die andere würde ich noch nutzen, aber wichtige Daten würde ich den alten Dingern eh nicht mehr anvertrauen.
 
meldet sich Argus mit einem Smart Alarm, Crystaldiskinfo sieht aber nichts :(
Welches Tool hat nun Recht?
CDI reagiert nur auf bestimmte Attribute wenn es um die Warnung zur Vorsicht geht.

So richtig unkritisch sind die 'unkorrigierbaren Fehler.' aber auch nicht oder?
Das ist schwer zu sagen, denn es ist meist nicht dokumentiert was die genau bedeuten. Aber beides sind uralte Platten die die vom Hersteller geplante Nutzungsdauer von 5 Jahren schon lange hinter sich haben und HDDs altern übrigens auch, wenn sie nicht genutzt werden. Man kann also nicht einfach die Betriebsstunden durch 8760 Stunden teilen und meinen alles wäre gut, wenn weniger als 5 rauskommt, sondern muss schon auf das Produktionsdatum auf dem Etikett schauen.
 
Empfehlung: spar den Zeitaufwand. Langsame HDDs mit geringer Speicherkapazität braucht heute kaum noch einer. Zudem ist der Zustand beider Festplatten nicht so toll. Problematisch sind besonders wiederzugewiesene Sektoren und unkorrigierbare Fehler. Das muss aber nicht heißen, dass die Platte mit dem einen wiederzugewiesenen Sektor nicht noch ein paar Jahre weiter läuft.

Die Rohwerte werden von CrystalDiskInfo als Hexadezimalzahlen ausgelesen (das ist auch auf Dezimal umstellbar) und von Argus direkt als Dezimalzahlen. Offensichtlich lesen beide Programme dieselben Werte aus, nur die "Interpretation" ist unterschiedlich.

Für Gebrauchtplatten eignet sich, um die S.M.A.R.T-Werte vollständig auszulesen, alternativ die Linux Command Line mit smartctl.
Die kannst du auch direkt in Windows 10/11 nutzen, oder eben auf einem Testsystem eine Distro nach Wahl von einem Live-USB-Stick booten.

Vorgehen zum Auslesen der vollständigen S.M.A.R.T.-Informationen mit Hilfe von Linux commandline:
1. commandline (Terminal) starten (natürlich lassen sich auch meherere Festplatten parallel überprüfen, indem man mehrere Workspaces/Terminals startet).
2. Festplatten auflisten, um die Geräte-ID (also sda/sdb/sdc...) der gewünschten Festplatte anzuzeigen:
fdisk -l
3. S.M.A.R.T. auslesen (angenommen, die Geräte-ID der gewünschten Festplatte ist sdX):
smartctl -a /dev/sdX

OPTIONALE Schritte
nach kopieren der zuvor ausgelesenenen S.M.A.R.T.-Daten aus dem Terminal in eine Textdatei:
Vollständiger Funktionstest
Weil dies eine Weile dauert, besser vorübergehend folgende Stromsparmechanismen abschalten:
> Power Saving>Blank screen: Never
> Automatic suspend: Off

4. vollständiges Löschen der Daten und mehrfaches Überschreiben der Festplatte als Langzeitfunktionstest
...~10h Langzeit Lese-Schreib-Test mit wiederkehrenden Testmustern: 0xaa (10101010), 0x55 (01010101), 0xff (11111111) und 0x00 (00000000).
badblocks -b 4096 -ws /dev/sdX
5. Funktionstest der Interenen Komponenten via smartctl
...ca. 2 min - Test von: Schreibköpfen, Servo, Elektronikfunktion, Festplattencache.
smartctl -t short /dev/sdX
...ca.10min - Herstellerspezische S.M.A.R.T.-Tests und Prüfung der Mechanik.
smartctl -t conveyance /dev/sdX
...ca. 4h Kompletter Scan, um schlechte Sektoren/Fehler zu finden und auszusortieren
smartctl -t long /dev/sdX
... im Anschluss nochmal alle S.M.A.R.T.-Informationen auslesen und mit der vorher erstellten Textdatei vergleichen. Haben sich die S.M.A.R.T.-Werte vorher vs. nachher nicht signifikant verschlechert, kann die betreffende Festplatte weiterverwendet werden und es ist nicht davon auszugehen, dass sie in Kürze kaputt geht. Ansonsten: weg damit.
smartctl -a /dev/sdX
 
Offensichtlich lesen beide Programme dieselben Werte aus, nur die "Interpretation" ist unterschiedlich.
Die S.M.A.R.T. Werte in der Tabelle unten bei CDI stehen ja auch so in den Device Identdaten, nur die Namen muss das Auslesetool selbst aus einer eigenen Hintergrunddatenbank ziehen, da der Controller diese nicht mir überträgt und die Interpretation ist dann natürlich auch eine Sache des Tools. Generell gilt nur, dass ein Wert schlecht ist wenn der Aktuelle Wert oder der Schlechteste Wert auf oder unter dem Grenzwert liegt.
 
Ja, ich vermute, Nemac meint den Unterschied beispielsweise für S.M.A.R.T#187 bzw. BB "unkorrigierbare Fehler":
da steht dann in Bild 2 bei der Samsung HD500LJ bei Argus eine "Vorsicht" Warnung, während für CDI noch alles "Gut" ist mit 720899 bzw. B0003 Fehlern. - Selbe Zahlenwerte (Hex.-Werte von CDM = Dec.-Werte von Argus) und unterschiedliche Interpretation der Programme.

Für SATA/SAS HDD's haben sich Erfahrungswerte von großen Clouddiensten als hilfreich erwiesen, um Abzuschätzen, wie lange die Festplatten wohl noch durchhalten.
So haben laut Backblaze folgende S.M.A.R.T.-Werte besonderen Einfluss auf die Restlebensdauer (Quelle dazu unter https://www.backblaze.com/blog/hard-drive-smart-stats/) mit Empfehlungen aus dem Artikel
  • #Dec #Hex: Beschreibung. Empfehlung Dec. laut Backblaze
  • 5 bzw. 05: Anzahl wiederzugewiesener Sektoren. = 1 bis 4 beobachten / >4 tauschen
  • 187 bzw. BB: gemeldete unkorrigierbare Fehler. >1 tauschen
  • 188 bzw. BC: Befehlszeitüberschreitung. 1 bis 13 beobachten / >13 tauschen
  • 197 bzw. C5: Aktuell schwebende Sektoren. >1 tauschen
  • 198 bzw. C6: Nicht korrigierbare Sektoren. >1 tauschen
Edit: die Empfehlungen sind nicht allgemeingültig. Daher gestrichen.
 
Zuletzt bearbeitet:
ist mit 720899 bzw. B0003 Fehlern.
Die hexadezimal Anzeige macht mehr Sinn, denn es sind sehr wahrscheinlich nicht 720899 Fehler, sondern 0x0B = 11 Fehler einer Art und 3 Fehler eine anderen Art, denn Rohwerte enthalten oft mehr als einen Wert in den unterschiedlichen Bytes, WORDs oder DWORDs. Daher macht die hexadezimale Anzeige meist mehr Sinn, aber man muss sich eben auch ein wenig mit der Sache auskennen und wissen was z.B. ein DWORD ist, sonst sollte man es lieber lassen.

187 bzw. BB: gemeldete unkorrigierbare Fehler. >1 tauschen
Da man nicht weiß es diese unkorrigierbaren Fehler bei den jeweiligen Platten genau angeben, kann man dies schwer so pauschal sagen.
188 bzw. BC: Befehlszeitüberschreitung. 1 bis 13 beobachten / >13 tauschen
Das ist totaler Blödsinn, denn selbst Probleme mit dem SATA Datenkabel einer anderen Platte am gleichen Controller welches dann ständige Wiederholungen der Übertragung auslöst und damit den SATA Host Controller blockiert, kann zu diesen Befehlszeitüberschreitungen auslösen. Fehler am eigenen Datenkabel oder ggf. der Backplane natürlich auch, aber die sieht man dann am Attribut C7.

197 bzw. C5: Aktuell schwebende Sektoren. >1 tauschen
Auch Blödsinn, einmal wird man diese bei Platten in einem ordentlichen RAID nie sehen, da HDDs beim Lesen eines problematischen Sektors einen Lesefehler ausgeben wenn sie den Sektor auch nach wiederholten Versuchen nicht mehr korrekt lesen können und dies wird dann ein schwebender Sektor. Ordentliche RAIDs lesen dann die Redundanz, rekonstruieren daraus die Daten und überschreiben den Sektor auf der Platte die den Lesefehler gemeldet hat. Wird ein schwebender Sektor überschrieben, dann verschwindet es, die Platten prüft in dem Fall auch ob die neuen Daten korrekt gelesen werden können und wenn nicht, dann wird der Sektor durch einen Reservesektor ersetzt. Deshalb sieht man bei den HDDs in so einem ordentlichen RAID nie schwebende Sektoren, denn die werden praktisch sofort wieder überschrieben.

Außerdem sind schwebende Sektoren in einem bestimmten Rahmen normal und die UBER einer HDD spezifiziert wie oft man mit ihnen rechnen muss. Bei einer UBER von 1:10^14 muss man so etwa alle 12TB gelesener Daten mit so einem Fehler und damit schwebenden Sektor rechnen, ohne dass die HDD ihr Spezifikationen verletzten würde. Dazu können auch äußere Faktoren zu schwebenden Sektoren führen, z.B. unerwartete Spannungsabfälle während Schreibvorgängen die dazu führen das nicht der komplette Sektor mit seiner ECC die hinter jedem Sektor steht, geschrieben werden konnte und dann passen die Daten eben nicht zur ECC und die Platten kann den Sektor nicht lesen, da ja die Daten nicht zur ECC passen. Auch Vibrationen und da braucht es gar nicht so viel, können dazu führen das die Köpfe beim Schreiben die Daten der Nachbarspur teilweise überschreiben und bei denen dann die Daten eben auch nicht mehr zur ECC passen, was eben einen unkorrigierbarer Lesefehler zur Folge hat, wenn dieser Sektor dann gelesen wird. NAS und Enterprise HDDs haben Vibraitionssensoren die dies verhindern sollen, indem Schreibvorgänge dann eben unterbrochen werden. Hier ein interessanter Video dazu:

"Shouting in the Datacenter"

198 bzw. C6: Nicht korrigierbare Sektoren. >1 tauschen
Der gleiche Mist, da dieser Wert nur anzeigt wie viele schwebenden Sektoren bei letzten Einschalten vorhanden waren. Anders als C5 welches augenblicklich aktualisiert wird, aktualisiert der Controller C6 nur einmal beim Einschalten.

Backbalze Vorschläge mögen für deren sehr spezielle Einsatzbedingungen passen, aber wie alles was diese Firma angeht, sollte man sie nichts generalisieren.
 
Genau so war es gemeint, Mich hat gewundert warum CDI den Parameter 187 trotz einer Menge Fehler noch für Ok hat.
Interessant wenn Erfahrungswerte sagen man sollte bei Werten >1 tauschen. Da war die Platte ja wirklich weit drüber.
 
Mich hat gewundert warum CDI den Parameter 187 trotz einer Menge Fehler noch für Ok hat.
Weil es für die Bewertung nur relativ wenige Attribute verwendet. Es ist eben schlecht bis gar nicht dokumentiert was der Wert diese Attributes genau aussagt und damit gibt es was die Auswertungen angeht am Ende eben zwei Arten solcher Tools: Entweder sind sie wie CDI im Zweifel zu lasch und übersehen womöglich sich andeutende Probleme oder sie sind übermäßig kritisch und warnen auch wenn eigentlich alles in Ordnung ist.

Letztlich sollte man aber auch nicht vergessen, dass der Controller diese Werte ja auch selbst bewertet und zwar in Form des Aktuellen Wertes und der ist bei der einen 63 bei 37 Fehlern, fällt also offenbar pro Fehler um 1 und der Grenzwert ist 0, davon ist der Aktuelle Wert also noch weit entfernt und damit ist das noch nicht kritisch. Bei der anderen ist der Aktuelle Wert sogar noch 98 und damit kaum gefallen (der Ausgangswert dürfte ja vermutlich 100 gewesen sein) und dies obwohl es vermutlich 14 Fehler waren, der Wert fällt also um weit weniger als 1 pro Fehler. Wäre der Aktuelle Wert auf 0 (also den Grenzwert) gefallen, hätte auch CDI den Zustand als Schlecht bewertet.
 
Die Samsung würde ich mal mit h2testw abklopfen und beobachten, ob sich an den Werten was ändert.
1x reallocated bei der Seagate sehe ich jetzt nicht als weiter kritisch an, wobei es wohl keine Momentus gibt, die mit dem ewigen Leben gesegnet wäre.

Die Platten kommen langsam in das Alter, wo die Performance durch Oxidation der Kontakte der Platine zu den Köpfen leiden kann, abhängig von der Lagerung. Das ist ggf. vergleichsweise einfach zu beheben, aber am besten lagert man die Dinger gleich kühl und trocken, damit sie gar nicht auf dumme Ideen kommen.
 
Nachdem Holt dargelegt hat, dass die vom Backblaze-Artikel übernommenen Empfehlungswerte "Blödsinn" sind, (weil vom Hersteller/Festplattenmodell/persönlicher Fehlertoleranz abhängig), korrigiere ich das mal oben, damit es nicht der Nächste unreflektiert übernimmt. - Allgemeingültige Faustregeln zum Festplattentausch wären ja auch zu einfach gewesen.

Mich hat gewundert warum CDI den Parameter 187 trotz einer Menge Fehler noch für Ok hat.
Zur Frage, wie hohe S.M.A.R.T.-Rohwerte zustande kommen... (s.a.: Post#1, Bild 2, Wert #187: gemeldete unkorrigierbare Fehler=720899 in der Dezimalausgabe von Argus)
- Das hängt davon ab, wie der Hersteller Samsung das S.M.A.R.T-Attribut#187 definiert und wird leider selten bekannt gegeben. Ergibt die Hex>Dec-Umrechnung merkwürdige Werte, ziehen wir die Hexadezimalen Rohwerte, S.M.A.R.T-Attributspezifikationen des Herstellers und die Min/Max/Grenzwerte zu Rate.
Hier sind 2 Beispiele für Seagate Festplatten, wie zu hoch erscheinende Rohwerte in Hex umgerechnet und anhand der vorliegenden S.M.A.R.T.-Spezifikation in kleinere Zahlengruppen aufgeteilt werden können. Der Hersteller kann so mehrere Zahlen in einem S.M.A.R.T.-Rohwert speichern.
- Für deine Samsung HD500LJ liegen mir leider keine S.M.A.R.T-Attributspezifikation vor.
Holt vermutet eine Aufteilung des Rohwerts 0xB0003 in 0x000B=11 und 0x0003=3. Das ist höchstwahrscheinlich korrekt.
Ich vermute, dass der Min/Max Wert eine Art Prozentsatz für die noch möglichen unkorrigierbaren ECC-Fehler darstellt, der von 100% auf den Grenzwert 0% absinkt. Darauf komme ich, weil mir die Werte des Parameters #187 von anderen Laufwerken bekannt sind (begrenzt vergleichbar, aber nicht das selbe Laufwerksmodell):

Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0............................................................Device Model: Samsung SSD 860 PRO 256GB (fehlerfreie Samsung SSD)
187 Reported_Uncorrect 0x0032 099 099 000 Old_age Always - 1............................................................Device Model: ST33000651AS (diese Seagate Barracuda XT musste inzwischen ersetzt werden)
187 Reported_Uncorrect 0x0032 098 098 000 Old_age Always - 720899...............................................Device Model: Samsung HD500LJ (deine Festplatte, angefügt zum Vergleich)

Ein Zusammenhang zwischen steigender Ausfallwahrscheinlichkeit von Festplatten und Erhöhung der im Artikel beschriebenen S.M.A.R.T.-Rohwerte besteht dennoch, während andere Rohwerte weniger kritisch sind.
Beim
> Auslesen dieser Werte vorher,
> "Abklopfen" in Form eines vollständigen Schreib-Lese-Tests wie h2testw oder badblocks -b 4096 -ws /dev/sdX,
> Auslesen dieser Werte nachher,
ist also besonders darauf zu achten, ob sich da etwas geändert hat.

Die Empfehlungen habe ich ersetzt mit Links zu den Diagrammen von backblaze. Da kann man eine eigene Meinung bilden. Ob man ein Laufwerk mit erhöhter Ausfallwahrscheinlichkeit weiter betreibt, hängt schließlich auch vom Einsatzzweck/Einsatzzeit/vorhandener Redundanz/- Parität ab. Ein 24/7-Betrieb, wie bei Cloudanbietern - das kommt bei den meisten Benutzern wohl kaum vor.
 
Zuletzt bearbeitet:
Für dich vielleicht, aber CDI sieht das anscheinend nicht so.

Also die mit den wieder zugewiesenen Sektoren ist für mich für die Tonne, die andere würde ich noch nutzen, aber wichtige Daten würde ich den alten Dingern eh nicht mehr anvertrauen.
1-3 wieder zugewiesene Sektoren gehören bei "Sie Geht oder auch nicht" doch gefühlt dazu, die kommen kurz nach Inbetriebnahme und danach ist dann für Jahre Ruhe.....(wobei komischerweise die 8TB Archive mit SMR von dieser Regel - zumindest bei mir - ausgenommen sind.)
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh