ZFS meldet Fehler, was ist los?

LL0rd · 20.04.2020

Hallo Leute,

ich brauche mal einen Tipp von euch. Ich setze gerade ein neues Pool auf. Das Pool besteht aus 4x 4TB Festplatten. 2x Seagate SAS Platten, die älter sind und 2 neue WD RED. Beim Kopieren der Daten auf das Array bekomme ich allerdings Fehler im "zpool status".

Code:

    NAME        STATE     READ WRITE CKSUM
    data1       DEGRADED     0     0     0
      raidz1-0  DEGRADED     0     0     0
        sdf     ONLINE       0     0     0
        sdg     ONLINE       0     0     0
        sdk     ONLINE       0     0     0
        sde     FAULTED      1   167     0  too many errors

errors: No known data errors

Betroffen ist eine der neuen Platten. Ich verstehe nicht, wo das Problem sein kann. Im SMART sehe ich keine Fehler:

Code:

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD40EFAX-68JH4N0
Serial Number:    WD-WX42D10LLE54
LU WWN Device Id: 5 0014ee 267ac9799
Firmware Version: 82.00A82
User Capacity:    4.000.787.030.016 bytes [4,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Form Factor:      3.5 inches
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Mon Apr 20 15:04:53 2020 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   208   208   021    Pre-fail  Always       -       2583
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       5
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       28
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       5
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       2
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       3
194 Temperature_Celsius     0x0022   113   112   000    Old_age   Always       -       34
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

Die Platte ist momentan an einem SAS Controller im IT Mode angeschlossen. Nachdem das erste Mal die Fehler aufgefallen sind, habe ich die komplette Platte mit "HDD Low Level Format" mit nullen überschrieben und es gab keine Fehler, und der Smart Status war OK. Dann habe ich einen anderen Port des SAS Controllers ausprobiert (anderes Kabel), same. Und direkt an dem SATA Controller des MB gab es wieder Fehler. Der SMART-Status scheint OK zu sein, deshalb verstehe ich nicht, was da schief läuft und was ich machen kann.

mike03 · 20.04.2020

Kann Dir zwar nicht helfen, aber 4 Platten in einem Raidz1 sind ungünstig, entweder 3 oder 5. Oder Raidz2, da stimmt es wieder. Hat aber mit der Fehlermeldung nichts zu tun.
Gruß Mike

Techlogi · 20.04.2020

Kommt der Fehler beim Rebuild?

WD Red: Manche Festplatten nutzen SMR ohne Kennzeichnung

Einige Festplatten der für NAS bestimmten Serie WD Red nutzen die Aufzeichnungstechnik SMR, ohne dass Western Digital dies angibt.

www.computerbase.de

WD and Seagate are _both_ shipping drive-managed SMR (DM-SMR) drives which don't report themselves as SMR when questioned via conventional means. What's worse, they're shipping DM-SMR drives as "RAID" and "NAS" drives This is causing MAJOR problems - such as the latest iteration of WD REDs (WDx0EFAX replacing WDx0EFRX) being unable to be used for rebuilding RAID[56] or ZFS RAIDZ sets: They rebuiild for a while (1-2 hours), then throw errors and get kicked out of the set.

LL0rd · 20.04.2020

Techlogi schrieb:
Kommt der Fehler beim Rebuild?

Sowohl beim Resilvering. Jetzt aktuell habe ich den Pool komplett neu aufgesetzt und dann angefangen Daten drauf zu spielen.

Techlogi · 20.04.2020

Das hört sich doch sehr nach den geschildertem Problem an, siehe der Link von Computerbase.
Abhilfe schaffen dann nur andere Platten ohne (DM-)SMR, also zB die WD40EFRX bzw. am besten das Seagate Modell, welches du schon verbaut hast.

LL0rd · 20.04.2020

Hmm.... die sdk Platte ich die baugleiche Platte. Ich verstehe nicht, wieso die dann sauber läuft.
Die anderen Platten sind ST4000NM0023, die wollte ich nach und nach auch durch WD-Red ersetzen.

Techlogi · 20.04.2020

Kannst du, solltest dann aber die älteren WD40EFRX und nicht die WD40EFAX nehmen.
Von Platten mit SMR ist nur eins zu halten: Abstand

Ob "Mischbetrieb" von alte Seagate + neue WD ein Problem ist, kann ich allerdings nicht sagen. Dazu wird sich aber sicher noch jemand melden.

Ceiber3 · 20.04.2020

Das sind alles SMR Platten ?

LL0rd · 20.04.2020

Eigentlich war die Idee, die 4x 4TB Platten zu bilden und dazu noch 3x 10TB hinzuzufügen, beides als RaidZ1.

2 der 10TB Platten sind WD100EMAZ-00WJTA0, bei denen ich keine Ahnung habe, ob die SMR nutzt oder nicht.
Die Seagate ist eine ST10000DM0004-1ZC101 Platte und die hat SMR.

Ceiber3 · 20.04.2020

Die Seagate ST10000DM0004 ist normal CMR. Das ja die 10 TB Barracuda Pro. Die ist auch rund 50 bis 70 MB/s schneller als die WD100EMAZ aus der WD Elements.

gea · 20.04.2020

Ich würde erst mal einen low level Intensiv Test machen z.B. WD data lifeguard. Ist der ok, Plattenanschlüsse tauschen (defektes Kabel, Backplane). RAM ist auch eine häufige Ursache, dann sollten die Errors aber auf mehreren Platten auftauchen.

SMR kann ein Problem sein, wenn die Platte zulange braucht. Die default Timeouts bei ZFS sind mit 60s aber sehr hoch. Das sollte eher ein Peformanceproblem ergeben als ein too many errors (solange man sync nicht aktiviert).

Anzahl der Platten im Raid-Z ist unkritisch, mit Compress völlig egal. Da gibt es keine optimale Anzahl mehr.

Die meisten Smartwerte sind auch keine echten Fehler sondern Zähler für Ereignisse, Ist wie zu hoher Blutdruck der eine künftige Erkrankung ahnen läßt. ZFS Fehler hingegen sind echte Fehler die aufgetreten sind. ZFS jat da erheblich mehr Möglichkeiten tatsächliche Fehler und Probleme zu entdecken.

Firebl · 21.04.2020

Ist das nicht genau der Bug der bei Verwendung der neuen EFAX, in diesem Fall WD40EFAX (SMR), in Kombination von ZFS auftritt?

LL0rd schrieb:
2 der 10TB Platten sind WD100EMAZ-00WJTA0, bei denen ich keine Ahnung habe, ob die SMR nutzt oder nicht.
Die Seagate ist eine ST10000DM0004-1ZC101 Platte und die hat SMR.

es gibt keine 8/10/12-TB-SMR-HDD(Stand 04/2020). Das ist eine BarraCuda Pro. BarraCudaPro sind alle CMR.

Wie du hier nachlesen kannst sind die neuen SMR-HDD garnicht schlecht. Nur eben nicht für ZFS oder hohe Transferraten oberhalb 200mb/s.

LL0rd · 21.04.2020

Also jetzt mal ein kleines Update. Ich habe nun je zwei baugleiche Platten zu einem Mirror hinzugefügt und dann beide mirrors als stripe:

Code:

  pool: data1
 state: ONLINE
  scan: scrub repaired 0B in 0 days 04:25:19 with 0 errors on Tue Apr 21 12:51:06 2020
config:

    NAME        STATE     READ WRITE CKSUM
    data1       ONLINE       0     0     0
      mirror-0  ONLINE       0     0     0
        sdk     ONLINE       0     0     0
        sde     ONLINE       0     0     0
      mirror-1  ONLINE       0     0     0
        sdf     ONLINE       0     0     0
        sdg     ONLINE       0     0     0

errors: No known data errors

Etwa bei 2/3 der Daten gab es keine Fehler. Zum Test habe ich sde, was bei mir die Fehler verursacht hat, offline genommen. Als das letzte TB kopiert war, habe ich sde dann online genommen, resivern lassen und dann ein scrub auf dem pool durchgeführt. Also so scheint alles stabil zu laufen.

gea schrieb:
SMR kann ein Problem sein, wenn die Platte zulange braucht. Die default Timeouts bei ZFS sind mit 60s aber sehr hoch. Das sollte eher ein Peformanceproblem ergeben als ein too many errors (solange man sync nicht aktiviert).

Code:

NAME   PROPERTY  VALUE     SOURCE
data1  sync      standard  default

sync ist Standard. Ob es daran liegt?!?

gea schrieb:
Ich würde erst mal einen low level Intensiv Test machen z.B. WD data lifeguard. Ist der ok, Plattenanschlüsse tauschen (defektes Kabel, Backplane). RAM ist auch eine häufige Ursache, dann sollten die Errors aber auf mehreren Platten auftauchen.

Naja, mit Nullen habe ich die Platte schon komplett überschrieben. Spätestens dann hätten Fehler auftauchen müssen. Oder SMART Werte sich verschlechtern. Da war aber nichts.

Wie gesagt, ich habe die Platte am SAS Controller im IT Modus an verschiedenen Ports getestet und somit auch an unterschiedlichen Kabeln. Außerdem noch am SATA Port des Mainboards. Same.

Der RAM der Kiste ist durchgetestet.

gea · 22.04.2020

Nullen Schreiben ist eine Methode zum sicheren Löschen, nicht zum intensiven Testen. Die Herstellertools wie data lifeguard machen das besser mit einen Schreib/Lesetest.

LL0rd · 22.04.2020

gea schrieb:
Nullen Schreiben ist eine Methode zum sicheren Löschen, nicht zum intensiven Testen. Die Herstellertools wie data lifeguard machen das besser mit einen Schreib/Lesetest.

Mit welcher Begründung soll das Hersteller-Tool (in diesem Fall) besser geeignet sein, als die Platte mit nullen zu überschreiben?
In dem ZFS-Fehler werden hauptsächlich Schreibfehler gemeldet. Entweder gibt es die auch beim Schreiben von Nullen oder eben nicht.

gea · 22.04.2020

Beim einfachen Schreiben findet keine Prüfung statt ob das erfolgreich war. Deshalb muss man jedesmal nach dem Scheiben prüfen ob das auch gelesen werden kann und das nicht mit einheitlich Nullen. Die Hersteller Tools können das und dann nicht nur Fehler erkennen sondern auch reparieren/ den Plattenbereich sperren.

Suche

ZFS meldet Fehler, was ist los?

LL0rd

Experte

mike03

Enthusiast

Techlogi

Legende

WD Red: Manche Festplatten nutzen SMR ohne Kennzeichnung

LL0rd

Experte

Techlogi

Legende

LL0rd

Experte

Techlogi

Legende

Ceiber3

Urgestein

LL0rd

Experte

Ceiber3

Urgestein

gea

Urgestein

Firebl

Redakteur

LL0rd

Experte

gea

Urgestein

LL0rd

Experte

gea

Urgestein

Ähnliche Themen