Tool für Smart Werte außer CDI?

Nemac · 29.07.2023

Hi,
Hat noch jemand einen Programmvorschlag für ein Tool das SMART Werte anzeigen kann?
Ich nutzte Argus Monitor für Temperaturüberwachung und Lüftersteuerung usw. Das Programm kann aber auch SMART prüfen.

Ich teste gerade alte Platten zum verschenken durch, plötzlich meldet sich Argus mit einem Smart Alarm, Crystaldiskinfo sieht aber nichts

Welches Tool hat nun Recht?

Was stimmt? Und kann mir jemand die Differenz erklären? Was tun? Ein 3. Programm als "Schiedsrichter" nehmen?

danke 🍻

hasentier · 29.07.2023

Na ja, für CDI sind wieder zugewiesene Sektoren eine Meldung wert, aber nicht unkorrigierbare Fehler.
Ansonsten lesen sie die Werte gleich aus, interpretieren sie aber anders.

Nemac · 29.07.2023

So richtig unkritisch sind die 'unkorrigierbaren Fehler.' aber auch nicht oder? Es läuft gerade ein Format, mal sehen wie es danach aussieht.
Einschätzung von euch für die Platte J: noch nutzbar oder Tonne?

hasentier · 29.07.2023

Für dich vielleicht, aber CDI sieht das anscheinend nicht so.

Also die mit den wieder zugewiesenen Sektoren ist für mich für die Tonne, die andere würde ich noch nutzen, aber wichtige Daten würde ich den alten Dingern eh nicht mehr anvertrauen.

Holt · 29.07.2023

Nemac schrieb:
meldet sich Argus mit einem Smart Alarm, Crystaldiskinfo sieht aber nichts
Welches Tool hat nun Recht?

CDI reagiert nur auf bestimmte Attribute wenn es um die Warnung zur Vorsicht geht.

Nemac schrieb:
So richtig unkritisch sind die 'unkorrigierbaren Fehler.' aber auch nicht oder?

Das ist schwer zu sagen, denn es ist meist nicht dokumentiert was die genau bedeuten. Aber beides sind uralte Platten die die vom Hersteller geplante Nutzungsdauer von 5 Jahren schon lange hinter sich haben und HDDs altern übrigens auch, wenn sie nicht genutzt werden. Man kann also nicht einfach die Betriebsstunden durch 8760 Stunden teilen und meinen alles wäre gut, wenn weniger als 5 rauskommt, sondern muss schon auf das Produktionsdatum auf dem Etikett schauen.

corross · 02.08.2023

Empfehlung: spar den Zeitaufwand. Langsame HDDs mit geringer Speicherkapazität braucht heute kaum noch einer. Zudem ist der Zustand beider Festplatten nicht so toll. Problematisch sind besonders wiederzugewiesene Sektoren und unkorrigierbare Fehler. Das muss aber nicht heißen, dass die Platte mit dem einen wiederzugewiesenen Sektor nicht noch ein paar Jahre weiter läuft.

Die Rohwerte werden von CrystalDiskInfo als Hexadezimalzahlen ausgelesen (das ist auch auf Dezimal umstellbar) und von Argus direkt als Dezimalzahlen. Offensichtlich lesen beide Programme dieselben Werte aus, nur die "Interpretation" ist unterschiedlich.

Für Gebrauchtplatten eignet sich, um die S.M.A.R.T-Werte vollständig auszulesen, alternativ die Linux Command Line mit smartctl.
Die kannst du auch direkt in Windows 10/11 nutzen, oder eben auf einem Testsystem eine Distro nach Wahl von einem Live-USB-Stick booten.

Vorgehen zum Auslesen der vollständigen S.M.A.R.T.-Informationen mit Hilfe von Linux commandline:
1. commandline (Terminal) starten (natürlich lassen sich auch meherere Festplatten parallel überprüfen, indem man mehrere Workspaces/Terminals startet).
2. Festplatten auflisten, um die Geräte-ID (also sda/sdb/sdc...) der gewünschten Festplatte anzuzeigen:
fdisk -l
3. S.M.A.R.T. auslesen (angenommen, die Geräte-ID der gewünschten Festplatte ist sdX):
smartctl -a /dev/sdX

OPTIONALE Schritte
nach kopieren der zuvor ausgelesenenen S.M.A.R.T.-Daten aus dem Terminal in eine Textdatei:
Vollständiger Funktionstest
Weil dies eine Weile dauert, besser vorübergehend folgende Stromsparmechanismen abschalten:
> Power Saving>Blank screen: Never
> Automatic suspend: Off

4. vollständiges Löschen der Daten und mehrfaches Überschreiben der Festplatte als Langzeitfunktionstest
...~10h Langzeit Lese-Schreib-Test mit wiederkehrenden Testmustern: 0xaa (10101010), 0x55 (01010101), 0xff (11111111) und 0x00 (00000000).
badblocks -b 4096 -ws /dev/sdX
5. Funktionstest der Interenen Komponenten via smartctl
...ca. 2 min - Test von: Schreibköpfen, Servo, Elektronikfunktion, Festplattencache.
smartctl -t short /dev/sdX
...ca.10min - Herstellerspezische S.M.A.R.T.-Tests und Prüfung der Mechanik.
smartctl -t conveyance /dev/sdX
...ca. 4h Kompletter Scan, um schlechte Sektoren/Fehler zu finden und auszusortieren
smartctl -t long /dev/sdX
... im Anschluss nochmal alle S.M.A.R.T.-Informationen auslesen und mit der vorher erstellten Textdatei vergleichen. Haben sich die S.M.A.R.T.-Werte vorher vs. nachher nicht signifikant verschlechert, kann die betreffende Festplatte weiterverwendet werden und es ist nicht davon auszugehen, dass sie in Kürze kaputt geht. Ansonsten: weg damit.
smartctl -a /dev/sdX

Holt · 02.08.2023

corross schrieb:
Offensichtlich lesen beide Programme dieselben Werte aus, nur die "Interpretation" ist unterschiedlich.

Die S.M.A.R.T. Werte in der Tabelle unten bei CDI stehen ja auch so in den Device Identdaten, nur die Namen muss das Auslesetool selbst aus einer eigenen Hintergrunddatenbank ziehen, da der Controller diese nicht mir überträgt und die Interpretation ist dann natürlich auch eine Sache des Tools. Generell gilt nur, dass ein Wert schlecht ist wenn der Aktuelle Wert oder der Schlechteste Wert auf oder unter dem Grenzwert liegt.

corross · 02.08.2023

Ja, ich vermute, Nemac meint den Unterschied beispielsweise für S.M.A.R.T#187 bzw. BB "unkorrigierbare Fehler":
da steht dann in Bild 2 bei der Samsung HD500LJ bei Argus eine "Vorsicht" Warnung, während für CDI noch alles "Gut" ist mit 720899 bzw. B0003 Fehlern. - Selbe Zahlenwerte (Hex.-Werte von CDM = Dec.-Werte von Argus) und unterschiedliche Interpretation der Programme.

Für SATA/SAS HDD's haben sich Erfahrungswerte von großen Clouddiensten als hilfreich erwiesen, um Abzuschätzen, wie lange die Festplatten wohl noch durchhalten.
So haben laut Backblaze folgende S.M.A.R.T.-Werte besonderen Einfluss auf die Restlebensdauer (Quelle dazu unter https://www.backblaze.com/blog/hard-drive-smart-stats/) mit Empfehlungen aus dem Artikel

#Dec #Hex: Beschreibung. ~~Empfehlung Dec. laut Backblaze~~
5 bzw. 05: Anzahl wiederzugewiesener Sektoren~~. = 1 bis 4 beobachten / >4 tauschen~~
187 bzw. BB: gemeldete unkorrigierbare Fehler. ~~>1 tauschen~~
188 bzw. BC: Befehlszeitüberschreitung. ~~1 bis 13 beobachten / >13 tauschen~~
197 bzw. C5: Aktuell schwebende Sektoren. ~~>1 tauschen~~
198 bzw. C6: Nicht korrigierbare Sektoren. ~~>1 tauschen~~

Edit: die Empfehlungen sind nicht allgemeingültig. Daher gestrichen.

Holt · 02.08.2023

corross schrieb:
ist mit 720899 bzw. B0003 Fehlern.

Die hexadezimal Anzeige macht mehr Sinn, denn es sind sehr wahrscheinlich nicht 720899 Fehler, sondern 0x0B = 11 Fehler einer Art und 3 Fehler eine anderen Art, denn Rohwerte enthalten oft mehr als einen Wert in den unterschiedlichen Bytes, WORDs oder DWORDs. Daher macht die hexadezimale Anzeige meist mehr Sinn, aber man muss sich eben auch ein wenig mit der Sache auskennen und wissen was z.B. ein DWORD ist, sonst sollte man es lieber lassen.

corross schrieb:
187 bzw. BB: gemeldete unkorrigierbare Fehler. >1 tauschen

Da man nicht weiß es diese unkorrigierbaren Fehler bei den jeweiligen Platten genau angeben, kann man dies schwer so pauschal sagen.

corross schrieb:
188 bzw. BC: Befehlszeitüberschreitung. 1 bis 13 beobachten / >13 tauschen

Das ist totaler Blödsinn, denn selbst Probleme mit dem SATA Datenkabel einer anderen Platte am gleichen Controller welches dann ständige Wiederholungen der Übertragung auslöst und damit den SATA Host Controller blockiert, kann zu diesen Befehlszeitüberschreitungen auslösen. Fehler am eigenen Datenkabel oder ggf. der Backplane natürlich auch, aber die sieht man dann am Attribut C7.

corross schrieb:
197 bzw. C5: Aktuell schwebende Sektoren. >1 tauschen

Auch Blödsinn, einmal wird man diese bei Platten in einem ordentlichen RAID nie sehen, da HDDs beim Lesen eines problematischen Sektors einen Lesefehler ausgeben wenn sie den Sektor auch nach wiederholten Versuchen nicht mehr korrekt lesen können und dies wird dann ein schwebender Sektor. Ordentliche RAIDs lesen dann die Redundanz, rekonstruieren daraus die Daten und überschreiben den Sektor auf der Platte die den Lesefehler gemeldet hat. Wird ein schwebender Sektor überschrieben, dann verschwindet es, die Platten prüft in dem Fall auch ob die neuen Daten korrekt gelesen werden können und wenn nicht, dann wird der Sektor durch einen Reservesektor ersetzt. Deshalb sieht man bei den HDDs in so einem ordentlichen RAID nie schwebende Sektoren, denn die werden praktisch sofort wieder überschrieben.

Außerdem sind schwebende Sektoren in einem bestimmten Rahmen normal und die UBER einer HDD spezifiziert wie oft man mit ihnen rechnen muss. Bei einer UBER von 1:10^14 muss man so etwa alle 12TB gelesener Daten mit so einem Fehler und damit schwebenden Sektor rechnen, ohne dass die HDD ihr Spezifikationen verletzten würde. Dazu können auch äußere Faktoren zu schwebenden Sektoren führen, z.B. unerwartete Spannungsabfälle während Schreibvorgängen die dazu führen das nicht der komplette Sektor mit seiner ECC die hinter jedem Sektor steht, geschrieben werden konnte und dann passen die Daten eben nicht zur ECC und die Platten kann den Sektor nicht lesen, da ja die Daten nicht zur ECC passen. Auch Vibrationen und da braucht es gar nicht so viel, können dazu führen das die Köpfe beim Schreiben die Daten der Nachbarspur teilweise überschreiben und bei denen dann die Daten eben auch nicht mehr zur ECC passen, was eben einen unkorrigierbarer Lesefehler zur Folge hat, wenn dieser Sektor dann gelesen wird. NAS und Enterprise HDDs haben Vibraitionssensoren die dies verhindern sollen, indem Schreibvorgänge dann eben unterbrochen werden. Hier ein interessanter Video dazu:

"Shouting in the Datacenter"

corross schrieb:
198 bzw. C6: Nicht korrigierbare Sektoren. >1 tauschen

Der gleiche Mist, da dieser Wert nur anzeigt wie viele schwebenden Sektoren bei letzten Einschalten vorhanden waren. Anders als C5 welches augenblicklich aktualisiert wird, aktualisiert der Controller C6 nur einmal beim Einschalten.

Backbalze Vorschläge mögen für deren sehr spezielle Einsatzbedingungen passen, aber wie alles was diese Firma angeht, sollte man sie nichts generalisieren.

Nemac · 02.08.2023

Genau so war es gemeint, Mich hat gewundert warum CDI den Parameter 187 trotz einer Menge Fehler noch für Ok hat.
Interessant wenn Erfahrungswerte sagen man sollte bei Werten >1 tauschen. Da war die Platte ja wirklich weit drüber.

Holt · 02.08.2023

Nemac schrieb:
Mich hat gewundert warum CDI den Parameter 187 trotz einer Menge Fehler noch für Ok hat.

Weil es für die Bewertung nur relativ wenige Attribute verwendet. Es ist eben schlecht bis gar nicht dokumentiert was der Wert diese Attributes genau aussagt und damit gibt es was die Auswertungen angeht am Ende eben zwei Arten solcher Tools: Entweder sind sie wie CDI im Zweifel zu lasch und übersehen womöglich sich andeutende Probleme oder sie sind übermäßig kritisch und warnen auch wenn eigentlich alles in Ordnung ist.

Letztlich sollte man aber auch nicht vergessen, dass der Controller diese Werte ja auch selbst bewertet und zwar in Form des Aktuellen Wertes und der ist bei der einen 63 bei 37 Fehlern, fällt also offenbar pro Fehler um 1 und der Grenzwert ist 0, davon ist der Aktuelle Wert also noch weit entfernt und damit ist das noch nicht kritisch. Bei der anderen ist der Aktuelle Wert sogar noch 98 und damit kaum gefallen (der Ausgangswert dürfte ja vermutlich 100 gewesen sein) und dies obwohl es vermutlich 14 Fehler waren, der Wert fällt also um weit weniger als 1 pro Fehler. Wäre der Aktuelle Wert auf 0 (also den Grenzwert) gefallen, hätte auch CDI den Zustand als Schlecht bewertet.

hardwear · 02.08.2023

Die Samsung würde ich mal mit h2testw abklopfen und beobachten, ob sich an den Werten was ändert.
1x reallocated bei der Seagate sehe ich jetzt nicht als weiter kritisch an, wobei es wohl keine Momentus gibt, die mit dem ewigen Leben gesegnet wäre.

Die Platten kommen langsam in das Alter, wo die Performance durch Oxidation der Kontakte der Platine zu den Köpfen leiden kann, abhängig von der Lagerung. Das ist ggf. vergleichsweise einfach zu beheben, aber am besten lagert man die Dinger gleich kühl und trocken, damit sie gar nicht auf dumme Ideen kommen.

corross · 03.08.2023

Nachdem Holt dargelegt hat, dass die vom Backblaze-Artikel übernommenen Empfehlungswerte "Blödsinn" sind, (weil vom Hersteller/Festplattenmodell/persönlicher Fehlertoleranz abhängig), korrigiere ich das mal oben, damit es nicht der Nächste unreflektiert übernimmt. - Allgemeingültige Faustregeln zum Festplattentausch wären ja auch zu einfach gewesen.

Nemac schrieb:
Mich hat gewundert warum CDI den Parameter 187 trotz einer Menge Fehler noch für Ok hat.

Zur Frage, wie hohe S.M.A.R.T.-Rohwerte zustande kommen... (s.a.: Post#1, Bild 2, Wert #187: gemeldete unkorrigierbare Fehler=720899 in der Dezimalausgabe von Argus)
- Das hängt davon ab, wie der Hersteller Samsung das S.M.A.R.T-Attribut#187 definiert und wird leider selten bekannt gegeben. Ergibt die Hex>Dec-Umrechnung merkwürdige Werte, ziehen wir die Hexadezimalen Rohwerte, S.M.A.R.T-Attributspezifikationen des Herstellers und die Min/Max/Grenzwerte zu Rate.
Hier sind 2 Beispiele für Seagate Festplatten, wie zu hoch erscheinende Rohwerte in Hex umgerechnet und anhand der vorliegenden S.M.A.R.T.-Spezifikation in kleinere Zahlengruppen aufgeteilt werden können. Der Hersteller kann so mehrere Zahlen in einem S.M.A.R.T.-Rohwert speichern.
- Für deine Samsung HD500LJ liegen mir leider keine S.M.A.R.T-Attributspezifikation vor.
Holt vermutet eine Aufteilung des Rohwerts 0xB0003 in 0x000B=11 und 0x0003=3. Das ist höchstwahrscheinlich korrekt.
Ich vermute, dass der Min/Max Wert eine Art Prozentsatz für die noch möglichen unkorrigierbaren ECC-Fehler darstellt, der von 100% auf den Grenzwert 0% absinkt. Darauf komme ich, weil mir die Werte des Parameters #187 von anderen Laufwerken bekannt sind (begrenzt vergleichbar, aber nicht das selbe Laufwerksmodell):

Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0............................................................Device Model: Samsung SSD 860 PRO 256GB (fehlerfreie Samsung SSD)
187 Reported_Uncorrect 0x0032 099 099 000 Old_age Always - 1............................................................Device Model: ST33000651AS (diese Seagate Barracuda XT musste inzwischen ersetzt werden)
187 Reported_Uncorrect 0x0032 098 098 000 Old_age Always - 720899...............................................Device Model: Samsung HD500LJ (deine Festplatte, angefügt zum Vergleich)

Ein Zusammenhang zwischen steigender Ausfallwahrscheinlichkeit von Festplatten und Erhöhung der im Artikel beschriebenen S.M.A.R.T.-Rohwerte besteht dennoch, während andere Rohwerte weniger kritisch sind.

5 bzw. 05: Anzahl wiederzugewiesener Sektoren. Korrelation Jährliche Ausfallwahrscheinlichkeit zu S.M.A.R.T.-Rohwert#5
187 bzw. BB: gemeldete unkorrigierbare Fehler. Korrelation Jährliche Ausfallwahrscheinlichkeit zu S.M.A.R.T.-Rohwert#187
188 bzw. BC: Befehlszeitüberschreitung. Korrelation Jährliche Ausfallwahrscheinlichkeit zu S.M.A.R.T.-Rohwert#188
197 bzw. C5: Aktuell schwebende Sektoren. Korrelation Jährliche Ausfallwahrscheinlichkeit zu S.M.A.R.T.-Rohwert#197
198 bzw. C6: Nicht korrigierbare Sektoren. Korrelation Jährliche Ausfallwahrscheinlichkeit zu S.M.A.R.T.-Rohwert#198

Beim
> Auslesen dieser Werte vorher,
> "Abklopfen" in Form eines vollständigen Schreib-Lese-Tests wie h2testw oder badblocks -b 4096 -ws /dev/sdX,
> Auslesen dieser Werte nachher,
ist also besonders darauf zu achten, ob sich da etwas geändert hat.

Die Empfehlungen habe ich ersetzt mit Links zu den Diagrammen von backblaze. Da kann man eine eigene Meinung bilden. Ob man ein Laufwerk mit erhöhter Ausfallwahrscheinlichkeit weiter betreibt, hängt schließlich auch vom Einsatzzweck/Einsatzzeit/vorhandener Redundanz/- Parität ab. Ein 24/7-Betrieb, wie bei Cloudanbietern - das kommt bei den meisten Benutzern wohl kaum vor.

Digi-Quick · 01.09.2023

hasentier schrieb:
Für dich vielleicht, aber CDI sieht das anscheinend nicht so.

Also die mit den wieder zugewiesenen Sektoren ist für mich für die Tonne, die andere würde ich noch nutzen, aber wichtige Daten würde ich den alten Dingern eh nicht mehr anvertrauen.

1-3 wieder zugewiesene Sektoren gehören bei "Sie Geht oder auch nicht" doch gefühlt dazu, die kommen kurz nach Inbetriebnahme und danach ist dann für Jahre Ruhe.....(wobei komischerweise die 8TB Archive mit SMR von dieser Regel - zumindest bei mir - ausgenommen sind.)

Suche

Tool für Smart Werte außer CDI?

Nemac

Enthusiast

hasentier

Enthusiast

Nemac

Enthusiast

hasentier

Enthusiast

Holt

Legende

corross

Enthusiast

Holt

Legende

corross

Enthusiast

Holt

Legende

Nemac

Enthusiast

Holt

Legende

hardwear

Enthusiast

corross

Enthusiast

Digi-Quick

Urgestein