HDD defekt? (TrueNAS)

  • Ersteller Gelöschtes Mitglied 319024
  • Erstellt am
G

Gelöschtes Mitglied 319024

Guest
Hallo zusammen,

bei mir läuft ein Eigenbau TrueNAS mit 6x 6TB HDDs als Raid-Z2.

Heute kam folgende Nachricht per E-Mail reingeflogen:
Code:
Pool TANK state is DEGRADED: One or more devices are faulted in response to persistent errors.
Sufficient replicas exist for the pool to continue functioning in a degraded state.
The following devices are not healthy:
- Disk 14984281809371798647 is FAULTED

Code:
smartctl 7.1 2019-12-30 r5022 [FreeBSD 12.2-RELEASE-p2 amd64] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     ST6000VN001-2BB186
Serial Number:    XXXXXXXX
LU WWN Device Id: 5 000c50 0c689b789
Firmware Version: SC60
User Capacity:    6,001,175,126,016 bytes [6.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5425 rpm
Form Factor:      3.5 inches
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Thu Jan 21 16:26:27 2021 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                    without error or no self-test has ever
                    been run.
Total time to complete Offline
data collection:        (    0) seconds.
Offline data collection
capabilities:            (0x73) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    No Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                    General Purpose Logging supported.
Short self-test routine
recommended polling time:    (   1) minutes.
Extended self-test routine
recommended polling time:    ( 698) minutes.
Conveyance self-test routine
recommended polling time:    (   2) minutes.
SCT capabilities:          (0x70bd) SCT Status supported.
                    SCT Error Recovery Control supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   083   064   006    Pre-fail  Always       -       184991608
  3 Spin_Up_Time            0x0003   093   093   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       9
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   068   060   045    Pre-fail  Always       -       17204726282
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       2059
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       9
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   099   099   000    Old_age   Always       -       4295032833
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   064   062   040    Old_age   Always       -       36 (Min/Max 30/38)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       83
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       91
194 Temperature_Celsius     0x0022   036   040   000    Old_age   Always       -       36 (0 25 0 0 0)
195 Hardware_ECC_Recovered  0x001a   083   064   000    Old_age   Always       -       184991608
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       2053 (150 163 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       6745657058
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       6075389068

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%      2059         -
# 2  Extended offline    Completed without error       00%        11         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Die Werte (Spalte RAW_VALUE) habe ich mit denen einer anderen (gleich alten) Platte verglichen:
- Seek_Error_Rate ist um ein vielfaches größer
- Command_Timeout ist hier extrem hoch, bei der anderen Platte 0.
Ansonsten schaut es ziemlich gleich aus.

Ich habe das NAS dann einfach mal rebootet, dann kam folgendes:
Code:
Pool TANK state is ONLINE:
One or more devices is currently being resilvered.
The pool will continue to function, possibly in a degraded state.

Und eine Minute später:
Code:
Pool TANK state is ONLINE:
One or more devices has experienced an unrecoverable error.
An attempt was made to correct the error.
Applications are unaffected.

Habe die Kiste dann mal komplett runtergefahren und aufgemacht.
Alle Kabel sitzen fest. Sieht alles gut aus.

Also hab ich die Kiste wieder hochgefahren und jetzt erhalte ich keine Fehler oder Warnungen mehr.
Der Pool wird ganz normal als ONLINE angezeigt... jetzt bin ich komplett verwirrt.

Ich habe dann einen weiteren SMART short Test mit angestoßen: Completed without error


Hm... also scheint doch alles gut zu sein?
Was sollte ich jetzt machen? Besteht Handlungsbedarf?

Vielen Dank im Voraus.
 
Und heute kam die nächste Mail dass der Pool degraded ist.

Das sagt zpool status:
Code:
  pool: TANK
state: DEGRADED
status: One or more devices are faulted in response to persistent errors.
    Sufficient replicas exist for the pool to continue functioning in a
    degraded state.
action: Replace the faulted device, or use 'zpool clear' to mark the device
    repaired.
  scan: resilvered 66.4M in 00:00:51 with 0 errors on Thu Jan 21 16:44:20 2021
config:

    NAME                                            STATE     READ WRITE CKSUM
    TANK                                            DEGRADED     0     0     0
      raidz2-0                                      DEGRADED     0     0     0
        gptid/95c993b6-1884-11eb-b537-a9437e07b8e9  ONLINE       0     0     0
        gptid/9785337c-1884-11eb-b537-a9437e07b8e9  ONLINE       0     0     0
        gptid/99cb67d9-1884-11eb-b537-a9437e07b8e9  FAULTED      3   878     0  too many errors
        gptid/9a600eb7-1884-11eb-b537-a9437e07b8e9  ONLINE       0     0     0
        gptid/9b546a15-1884-11eb-b537-a9437e07b8e9  ONLINE       0     0     0
        gptid/9c42111b-1884-11eb-b537-a9437e07b8e9  ONLINE       0     0     0

errors: No known data errors

Die HDD wurde erst im Oktober gekauft, sollte also ein Garantiefall sein, oder?
Wer ist dafür zuständig? Der Händler oder Hersteller?
 
Und heute kam die nächste Mail dass der Pool degraded ist.

Das sagt zpool status:
Code:
  pool: TANK
state: DEGRADED
status: One or more devices are faulted in response to persistent errors.
    Sufficient replicas exist for the pool to continue functioning in a
    degraded state.
action: Replace the faulted device, or use 'zpool clear' to mark the device
    repaired.
  scan: resilvered 66.4M in 00:00:51 with 0 errors on Thu Jan 21 16:44:20 2021
config:

    NAME                                            STATE     READ WRITE CKSUM
    TANK                                            DEGRADED     0     0     0
      raidz2-0                                      DEGRADED     0     0     0
        gptid/95c993b6-1884-11eb-b537-a9437e07b8e9  ONLINE       0     0     0
        gptid/9785337c-1884-11eb-b537-a9437e07b8e9  ONLINE       0     0     0
        gptid/99cb67d9-1884-11eb-b537-a9437e07b8e9  FAULTED      3   878     0  too many errors
        gptid/9a600eb7-1884-11eb-b537-a9437e07b8e9  ONLINE       0     0     0
        gptid/9b546a15-1884-11eb-b537-a9437e07b8e9  ONLINE       0     0     0
        gptid/9c42111b-1884-11eb-b537-a9437e07b8e9  ONLINE       0     0     0

errors: No known data errors

Die HDD wurde erst im Oktober gekauft, sollte also ein Garantiefall sein, oder?
Wer ist dafür zuständig? Der Händler oder Hersteller?
Würde bei Seagate anklopfen.

Seriennummercheck auf deren Website -> RMA Antrag stellen.
Manche Hersteller möchten gerne einen SMART Test und dessen Ergebnis mit deren Software haben und stoßen dann einen RMA an.

Da RaidZ2 und Backup mit Sicherheit vorhanden ;) würde ich auch keine Schmerzen haben, den Pool für ne Woche ohne eine der Platten laufen zu lassen (sofern das hier nicht produktiv, d.h. für dein Business oder dgl. ist.

Händler ist eigentlich nie mein Favorit. Denn was passiert meistens? Du schickst dir Platte zum Händler, der Händler schickt sie zum Hersteller, der Hersteller Ersatz zum Händler, der Händler das ganze wieder zu dir...Also im Kreis schicken mit unnötiger Zeitverzögerung.
 
Die Platte solltest Du mal mit den Seatools prüfen, da Seagate in manchen Raw-Werten bestimmte Stellen für sich selbst nutzt, sprich es kommen bei den Rohwerten auf den ersten Blick unsinnige oder hohe Werte heraus, die aber evtl. gar keine Fehler sind. Die Seatools interpretieren diese dann.
Manche der auf 100 normalisierten Werte schauen aber, auf den ersten Blick, auch schon nicht gut aus.

Kabel können übrigens auch Haarbrüche in den Leitungen oder Kontaktprobleme am Kabel zum Stecker haben. Daher bei den Kabeln nicht nur den Sitz der Stecker prüfen, sondern durchaus mal das Sata-Kabel durch ein neues ersetzen. Hatte ich schon mal.
 
Zuletzt bearbeitet:
Die Platten sind via Mini SAS zu 4x SATA Kabeln angeschlossen. Da sind noch zwei Anschlüsse frei.
Ich hab die betroffene Platte jetzt mal umgestöpselt.

Pool wird in TrueNAS jetzt als "unhealthy" angezeigt, obwohl alle 6 Platten online sind.
zpool status sieht auch gut aus. Alles online, keine Fehler.

Komisch... TrueNAS kann sich da wohl auch nicht so ganz entscheiden. :unsure:

Ich habe jetzt mal einen Scrub angestoßen. Mal sehen was dabei raus kommt.
Ansonsten baue ich die Platte aus und lass mal SeaTools drüber laufen.

Aber ich denke es wird wohl darauf hinauslaufen dass ich die Platte zu Seagate schicke.
 
Komisch... TrueNAS kann sich da wohl auch nicht so ganz entscheiden. :unsure:

Ich habe jetzt mal einen Scrub angestoßen. Mal sehen was dabei raus kommt.
Ansonsten baue ich die Platte aus und lass mal SeaTools drüber laufen.

Aber ich denke es wird wohl darauf hinauslaufen dass ich die Platte zu Seagate schicke.

Hat nichts mit einem Web Management Tool zu tun.
ZFS ist sehr tolerant was Fehler angeht. Eine Minute warten ob eine Platte Daten liefert ist für ZFS kein Problem. Auch Checksum Fehler werden zunächst einfach aus Redundanz repariert. Erst wenn die Fehleranzahl zu groß wird (RAM Problem oder defekte Platte) geht die Platte offline.

Wenn mehrere Platten zicken, ist RAM oder PSU zu untersuchen. Bei einer Platte würde ich die auch ausbauen und mit einem Herstellerool testen. Ein Smartcheck kann man voranstellen, ersetzt das aber nicht.
 
Also der Scrub ist durch.
Zeigt wieder Read/Write Fehler an. Aber deutlich weniger.
Statt den vorherigen 878 waren es jetzt 134.

Ich habe die Platte nun ausgebaut und mal an einen Windows PC dran gehängt um Tests mit SeaTools durchzuführen.

Sieht bislang wie folgt aus:
Code:
--------------- SeaTools for Windows v1.4.0.7 ---------------
22.01.2021 19:04:50
Modellnummer: ST6000VN001-2BB186
Seriennummer: XXXXXXXX
Firmware-Revision: SC60
SMART - Gestartet 22.01.2021 19:04:50
SMART - Bestanden 22.01.2021 19:04:57
Kurzer Festplatten-Selbsttest - Gestartet 22.01.2021 19:05:43
Kurzer Festplatten-Selbsttest - Bestanden 22.01.2021 19:06:45
Einfacher Kurztest - Gestartet 22.01.2021 19:08:56
Einfacher Kurztest - Bestanden 22.01.2021 19:10:27

Der erweiterte Test läuft gerade, dauert aber noch 13 Stunden.
Wenn hier auch alles "in Ordnung" ist, dann weiß ich wirklich nicht mehr weiter.

Dann werde ich vermutlich auch relativ schlechte Karten haben, die Platte von Seagate im Rahmen der Garantie ersetzt zu bekommen, oder?

Wenn mehrere Platten zicken, ist RAM oder PSU zu untersuchen.
Bislang ist es nur die eine Platte.
 
Zuletzt bearbeitet von einem Moderator:
Wenn 2 x Seatools kein Problem meldet, würde ich die Platte als ok ansehen. Dann Kabel/Backplane untersuchen, eventuell zum Test Verkabelung mit anderer Platte tauschen (bleibt Problem oder wandert es)
 
Das Kabel habe ich ja bereits getauscht. Es ist die gleiche Platte betroffen, trotz anderem Kabel. o_O
 
Das Kabel habe ich ja bereits getauscht. Es ist die gleiche Platte betroffen, trotz anderem Kabel. o_O
Ist die Platte nicht gerade ausgebaut?

Lass den Test von Seagate noch komplett durchlaufen. Danach kannst du sie ja wieder in den Pool nehmen und, wie gea schon sagte, dass eventuell Betroffene Kabel an eine nicht Betroffene Festplatte anklemmen.

Ist die nun vorher nicht Betroffene Platte auffällig -> Kabel mit großer Wahrscheinlichkeit.
 
Ja die Platte ist gerade ausgebaut. Aber ich hab das mit dem Kabel getestet, bevor ich sie ausgebaut habe.

Ich habe die Kabel von zwei Platten vertauscht. Es ist immer die gleiche Platte die Zicken macht.
Die andere läuft aktuell mit dem anderen Kabel - ohne Probleme.

Ich denke also nicht dass es am Kabel liegt.
 
Wenn 2 x Seatools kein Problem meldet, würde ich die Platte als ok ansehen. Dann Kabel/Backplane untersuchen, eventuell zum Test Verkabelung mit anderer Platte tauschen (bleibt Problem oder wandert es)
Das waren in diesem Falle aber nur die Kurztests!
Wenn die keinen Fehler finden heißt das noch lange nicht, daß die HDD Fehlerfrei ist!
 
Kurztest bringt nichts.

Ich mache immer WD datalive intensive tests. Die laufen 1-2 Tage und geben recht zuverlässige Ergebnisse und können auch gefundene Probleme eventuell reparieren.
 
Backplane ist ein guter Punkt. Bei mir ist eine 6x2,5" nach ein paar Monaten defekt gegangen. Zuerst hat ZFS bei einer SSD gemuckt, dann etwas später auch noch bei einem 2. und 3. Schacht. Zum Glück waren das alles die richtigen Mirror-Geräte. Backplane raus und SSDs direkt angeschlossen: seitdem Ruhe im Karton, läuft sauber.
 
Ich habe keine Backplane verbaut.
Die Platten hängen via mini SAS zu 4x SATA Kabel an einem HBA.
 
Also wenn zwei Langzeittests ohne Auffälligkeiten waren, dürfte es in der Tat schwierig werden, Seagate zu einem Austausch zu bewegen.

Würde daher wohl erstmal den Pool laufen lassen und beobachten.
Sprich: Platte wieder einbauen und im Zpool wieder einbinden, aber die Kabel über Kreuz getauscht lassen. Das Kabel, welches an der vermeintlich defekten HDD war, an eine unauffällige hängen und das Kabel einer unauffälligen HDD an die auffällige hängen. Ganz normal nutzen, beobachten und abwarten.

Ich weiß, ist ein doofes Gefühl, was immer im Hinterkopf ist. Und du könntest natürlich versuchen Seagate zu einem Tausch zu bewegen, aber ich befürchte, dass die sagen: Die Tests waren mit den Seatools unauffällig, es liegt kein Defekt und somit RMA Grund vor. Ergo: Wir tauschen nicht. Aber sollten wieder etwaige Fehler auftreten, unbedingt Screenshots von den Fehlermeldungen / zpool Meldungen machen.

Welche Platte ist eigentlich konkret verbaut? Etwa eine mit SMR?
 
Nein kein SMR. Ich verwende nur CMR Platten.
Verbaut sind 4x Seagate IronWolf 6TB ST6000VN001 (Alle im Oktober gekauft) und zwei deutlich ältere WD Red 6TB WD60EFRX.

Die Platte wieder einbauen führt innerhalb von wenigen Stunden wieder zu Fehlern und einem degraded Pool. Da kann ich die Platte doch genau so gut auch einfach draußen lassen, oder?

Ich genehmige mir noch ein paar Tage Bedenkzeit, aber vermutlich werde ich eine weitere HDD als Ersatz kaufen und diese einbauen. Wieder 160€... :cautious:
Dann bin ich wieder auf der sicheren Seite und kann mich in aller Ruhe mit der vermutlich fehlerhafte HDD beschäftigen.
Falls die von Seagate dann doch ausgetauscht wird, lege ich sie einfach als Reserve auf die Seite.
 
Nein kein SMR. Ich verwende nur CMR Platten.
Verbaut sind 4x Seagate IronWolf 6TB ST6000VN001 (Alle im Oktober gekauft) und zwei deutlich ältere WD Red 6TB WD60EFRX.

Die Platte wieder einbauen führt innerhalb von wenigen Stunden wieder zu Fehlern und einem degraded Pool. Da kann ich die Platte doch genau so gut auch einfach draußen lassen, oder?

Ich genehmige mir noch ein paar Tage Bedenkzeit, aber vermutlich werde ich eine weitere HDD als Ersatz kaufen und diese einbauen. Wieder 160€... :cautious:
Dann bin ich wieder auf der sicheren Seite und kann mich in aller Ruhe mit der vermutlich fehlerhafte HDD beschäftigen.
Falls die von Seagate dann doch ausgetauscht wird, lege ich sie einfach als Reserve auf die Seite.
Oder mach einfach nen RMA bei Seagate auf. Sichere die Screenshots, reiche die mit ein und sag direkt, dass dein Pool ständig in den Degraded Status geht. Dann schau, wie sich Seagate entscheidet.

Mehr als ablehnen können die auch nicht. Oder eben doch über den eigentlichen Händler (sofern der direkt Ersatz rumschickt und nicht Wochen ins Land vergehen).
 
Das ist jetzt vielleicht ein bisschen arg off-topic, aber kann hier vielleicht jemand einen Adapter empfehlen damit ich 3,5" SATA HDDs via USB am PC anschließen kann?
Ich will nicht immer unter den Tisch kriechen, das Gehäuse aufmachen und die Platte da rein fummeln. :LOL:
 
Ich nehme da immer Dockingstations z.B.
 
Ich wollte hier nur nochmal kurz ein Update zu dem Fall hinterlassen.

Ich wusste wirklich nicht mehr was ich sonst noch probieren hätte können, also habe ich die Platte kurzerhand zu Seagate geschickt.
Heute habe ich eine Versandmitteilung bekommen.
Sie haben mir sogar eine IronWolf Pro geschickt, obwohl es ursprünglich eine "normale" war.

Es scheint also wirklich die Platte gewesen zu sein, aber woran es jetzt genau lag weiß ich leider nicht.
Vielleicht bekomme ich dazu ja noch eine Nachricht, dann werde ich es noch schnell editieren.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh