neue Platten für ein NAS

N

nismo2000

Guest
Hallo,

bei meinem Eigenbau NAS (Xeon E3 1230 v3, ECC-RAM, ZFS (RaidZ1) mit FreeBSD) werden die Platten langsam alt, eine davon ist vor ein paar tagen ausgefallen. Backup ist 2 fach vorhanden und aktuell. Garantie ist bei allen vorbei, so denke ich über eine Neuanschaffung der Platten nach. Zurzeit sind 3x4TB WD-Red verbaut. Welcher Hersteller/Modell ist zu empfehlen?

- 4-6 TB gross
- Geschwindigkeit/Lautstärke/Stromverbrauch etc... völlig egal
- Es wird eher wenig geschrieben/gelesen auf dem NAS - also geringe workloads
- Die Platten gehen nie in Standby und der Server läuft 24/7

Die Platten sollen lange! halten - also geringste Ausfallwahrscheinlichkeit

Danke!
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Was spricht wieder gegen WD Red? Und wieso alle wechseln, wenn nur eine Probleme macht?
 
Nach einem Neustart war die Platte wieder da und funktioniert wieder...

smart

Code:
smartctl 7.0 2018-12-30 r4883 [FreeBSD 12.0-RELEASE-p7 amd64] (local build)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Red
Device Model:     WDC WD40EFRX-68WT0N0
Serial Number:    WD-WCC4E0184653
LU WWN Device Id: 5 0014ee 2b3beaf99
Firmware Version: 80.00A80
User Capacity:    4.000.787.030.016 bytes [4,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Sat Aug 24 13:09:58 2019 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00)	Offline data collection activity
					was never started.
					Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(53160) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   2) minutes.
Extended self-test routine
recommended polling time: 	 ( 532) minutes.
Conveyance self-test routine
recommended polling time: 	 (   5) minutes.
SCT capabilities: 	       (0x703d)	SCT Status supported.
					SCT Error Recovery Control supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       10
  3 Spin_Up_Time            0x0027   224   175   021    Pre-fail  Always       -       5766
  4 Start_Stop_Count        0x0032   092   092   000    Old_age   Always       -       8733
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   198   198   000    Old_age   Always       -       42
  9 Power_On_Hours          0x0032   051   051   000    Old_age   Always       -       36048
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       1361
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       514
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always       -       625043
194 Temperature_Celsius     0x0022   120   110   000    Old_age   Always       -       32
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%     20157         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Nach paar Minuten war die Platte plötzlich weg und unter /var/log/messages hatte ich diese Meldung

Code:
Aug 24 12:54:13 server kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 28 80 be ff 40 cd 01 00 00 00 00
Aug 24 12:54:13 server kernel: (ada1:ahcich1:0:0:0): CAM status: ATA Status Error
Aug 24 12:54:13 server kernel: (ada1:ahcich1:0:0:0): ATA status: 41 (DRDY ERR), error: 10 (IDNF )
Aug 24 12:54:13 server kernel: (ada1:ahcich1:0:0:0): RES: 41 10 80 be ff 40 cd 01 00 00 00
Aug 24 12:54:13 server kernel: (ada1:ahcich1:0:0:0): Retrying command, 3 more tries remain
Aug 24 12:54:20 server kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 28 80 be ff 40 cd 01 00 00 00 00
Aug 24 12:54:20 server kernel: (ada1:ahcich1:0:0:0): CAM status: ATA Status Error
Aug 24 12:54:20 server kernel: (ada1:ahcich1:0:0:0): ATA status: 41 (DRDY ERR), error: 10 (IDNF )
Aug 24 12:54:20 server kernel: (ada1:ahcich1:0:0:0): RES: 41 10 80 be ff 40 cd 01 00 00 00
Aug 24 12:54:20 server kernel: (ada1:ahcich1:0:0:0): Retrying command, 2 more tries remain
Aug 24 12:54:27 server kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 28 80 be ff 40 cd 01 00 00 00 00
Aug 24 12:54:27 server kernel: (ada1:ahcich1:0:0:0): CAM status: ATA Status Error
Aug 24 12:54:27 server kernel: (ada1:ahcich1:0:0:0): ATA status: 41 (DRDY ERR), error: 10 (IDNF )
Aug 24 12:54:27 server kernel: (ada1:ahcich1:0:0:0): RES: 41 10 80 be ff 40 cd 01 00 00 00
Aug 24 12:54:27 server kernel: (ada1:ahcich1:0:0:0): Retrying command, 1 more tries remain
Aug 24 12:54:46 server kernel: ahcich1: Timeout on slot 29 port 0
Aug 24 12:54:46 server kernel: ahcich1: is 00000000 cs 20000000 ss 00000000 rs 20000000 tfd 10c1 serr 00000000 cmd 0000dd17
Aug 24 12:54:46 server kernel: ahcich1: Error while READ LOG EXT
Aug 24 12:54:46 server kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 28 70 15 00 40 ce 01 00 00 00 00
Aug 24 12:54:46 server kernel: (ada1:ahcich1:0:0:0): CAM status: ATA Status Error
Aug 24 12:54:46 server kernel: (ada1:ahcich1:0:0:0): ATA status: 00 ()
Aug 24 12:54:46 server kernel: (ada1:ahcich1:0:0:0): RES: 00 00 00 00 00 00 00 00 00 00 00
Aug 24 12:54:46 server kernel: (ada1:ahcich1:0:0:0): Retrying command, 3 more tries remain
Aug 24 12:55:19 server kernel: ahcich1: AHCI reset: device not ready after 31000ms (tfd = 00000080)
Aug 24 12:55:41 server kernel: ada1 at ahcich1 bus 0 scbus1 target 0 lun 0
Aug 24 12:55:41 server kernel: ada1: <WDC WD40EFRX-68WT0N0 80.00A80> s/n WD-WCC4E0184653 detached
Aug 24 12:55:42 server kernel: (ada1:ahcich1:0:0:0): Periph destroyed
Aug 24 12:55:42 server ZFS[1111]: vdev state changed, pool_guid=$12681075124814875973 vdev_guid=$2969774424532782106
Aug 24 12:55:42 server ZFS[1112]: vdev is removed, pool_guid=$12681075124814875973 vdev_guid=$2969774424532782106
Aug 24 12:55:42 server ZFS[1113]: vdev state changed, pool_guid=$12681075124814875973 vdev_guid=$2969774424532782106
Aug 24 12:55:47 server kernel: (aprobe0:ahcich1:0:0:0): NOP FLUSHQUEUE. ACB: 00 00 00 00 00 00 00 00 00 00 00 00
Aug 24 12:55:47 server kernel: (aprobe0:ahcich1:0:0:0): CAM status: ATA Status Error
Aug 24 12:55:47 server kernel: (aprobe0:ahcich1:0:0:0): ATA status: d1 (BSY DRDY SERV ERR), error: 04 (ABRT )
Aug 24 12:55:47 server kernel: (aprobe0:ahcich1:0:0:0): RES: d1 04 ff ff ff ff ff ff ff ff ff
Aug 24 12:55:47 server kernel: (aprobe0:ahcich1:0:0:0): Error 5, Retries exhausted
Aug 24 12:55:47 server kernel: (aprobe0:ahcich1:0:0:0): NOP FLUSHQUEUE. ACB: 00 00 00 00 00 00 00 00 00 00 00 00
Aug 24 12:55:47 server kernel: (aprobe0:ahcich1:0:0:0): CAM status: ATA Status Error
Aug 24 12:55:47 server kernel: (aprobe0:ahcich1:0:0:0): ATA status: d1 (BSY DRDY SERV ERR), error: 04 (ABRT )
Aug 24 12:55:47 server kernel: (aprobe0:ahcich1:0:0:0): RES: d1 04 ff ff ff ff ff ff ff ff ff
Aug 24 12:55:47 server kernel: (aprobe0:ahcich1:0:0:0): Error 5, Retries exhausted
An der Platte scheint es nicht zu liegen.. Controller? Kabel?
 
Das SATA Datenkabel ist es nicht: 198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0

Damit gab es also nie Probleme. Eher gibt es Probleme mit der Spannungsversorgung: 192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 514
Die sind unerwartete Spannungsabfälle, i.d.R. bei denen die Köpfe nicht schon sowieso geparkt waren, was ja bei dem Modell schnell passiert und daher würde ich mal da genauer nachsehen.

Ersetzen würde ich sie aber schon, weil die spezifizierten Load/Unload Zyklen (Parken der Köpfe) aufgebraucht sind:193 Load_Cycle_Count 0x0032 001 001 000 Old_age Always - 625043

Nimm als Ersatz eine NAS Platte, entweder wieder eine WD Red, die Seagate IronWolf oder von Toshiba die N300.
 
Danke, Holt

Habe die Platte gegen eine andere, alte WD Red getauscht. Läuft wieder, resilvering ist durch. Werde alle 3 bald ersetzen.
 
Hab die Platine der defekten Platte mal abgeschraubt, die Kontakte zu den Schreib-/Leseköpfe sehen genau so aus wie auf dem Link unten.

Korrodierte Kontaktpads auf der HDD-Platine - wie entsteht sowas? - Mikrocontroller.net

Kann das die Ursache sein?

----------------------

Plattentausch..

Es waren ursprünglich 4 Platten, unterschiedliche alter. Die ersten 2 waren aus 2014, 2 weitere aus ende 2015. 2017 wurde eine aus 2015 auf Garantie getauscht. Eine von 2014 wurde eingelagert, die andere aus 2014 ist die oben genannte, defekte. Die wurde jetzt gegen die gelagerte getauscht. Somit hab ich jetzt eine 5 Jahre alte mit 7000 Betriebsstunden, eine aus 2015 mit 30'000 Stunden und eine aus 2017 mit 17'000 Stunden im System.

was würde mehr Sinn machen (Im gleichen Zug will ich den Pool auf netto 12TB aufstocken:

Die alten 3x4TB gegen neue 3x6TB tauschen und weiter als RaidZ1 laufen lassen

Zusätzlich 2x4TB kaufen, und alle 5 in einem RaidZ2 laufen lassen und nach und nach defekte durch neue 4TB austauschen.
 
Zuletzt bearbeitet:
Ich denke mal bei fünf Jahre alten Festplatten machen drei neue 6TB sinn. Die alten können natürlich noch etwas halten, müssen aber nicht.
 
Was spricht wieder gegen WD Red? Und wieso alle wechseln, wenn nur eine Probleme macht?

Mir sind in den letzen 3-5 Jahren von Seagate gar keine NAS HDDs ausgefallen, von den WD Red hingegen zahlreiche.

Die Begeisterung darüber hält sich aus nachvollziehbaren Gründen relativ in Grenzen, WD Red kauf ich nach zwecks Ersatz für auszutauschende WD Red.

Bei Neukauf/Austausch aller HDDs würde ich aktuell die Seagate ganz klar vorziehen.
 
Mir sind in den letzen 3-5 Jahren von Seagate gar keine NAS HDDs ausgefallen, von den WD Red hingegen zahlreiche.

Die Begeisterung darüber hält sich aus nachvollziehbaren Gründen relativ in Grenzen, WD Red kauf ich nach zwecks Ersatz für auszutauschende WD Red.

Bei Neukauf/Austausch aller HDDs würde ich aktuell die Seagate ganz klar vorziehen.

Bei mir laufen auch noch alle. Egal ob in PC's Notebooks oder Nas oder Server. Kumpel von mir hat 8x 6 TB WD Red Pro und davon sind schon 3 gestorben in 3 Jahren. Musste sie alle auf Garantie tauschen lassen. Hat jetzt die 8x 6 TB ausgebaut und gegen 8x 16 TB IronWolf getauscht. Die 6 TB WD RED Pro wird er einige verkaufen und paar in sein PC einbauen.
 
Das "ulkige" ist ja auch, dass die WD RED bis auf eine quasi durch die Bank wenige Wochen/Monate nach Ablauf der Garantie ausgefallen sind.

Genau eine habe ich auf Garantie getauscht bekommen, bei den anderen war Neukauf angesagt. :wall:

Edit:

Die ich vergangene Woche getauscht habe, ist im August 2015 gebaut worden.

Immer unter optimalen Bedingungen gelaufen, also klimatisierter Server-Schrank.
 
Zuletzt bearbeitet:
Eine von 2014 wurde eingelagert
HDDs altern auch, wenn sie nicht benutzt werden, so kann z.B. Korrosion eben auch bei eingelagerten Platten auftreten und sind daher nur beschränkt lagerbar. Dazu schreibt Seagate z.B. hier und auch in einigen anderen Product Manuals:
Und außerdem:
Wenn also die Lagerbedingungen nicht eingehalten werde, sind 90 Tage und zwar in der ungeöffneten Originalverpackung, sonst bestenfalls 1 Jahr. Nach dem Öffnen sollten HDD nicht länger als 30 Tage stromlos sein.

Bei der neuen Barracuda Pro 10TB mit Heliumfüllung schreibt Seagate:
Also hier nur ein halbes Jahr in der ungeöffneten originalen Versandverpackung von Seagate und sonst 2 Monate, nur bei optimalen Bedingungen bis zu einem Jahr.

HGST schreibt für die meisten Modelle wie z.B. für die Megascale:
Das bedeutet nicht, dass die HDDs dann automatisch Schaden nehmen oder gar komplett kaputt sind, wenn man diese Vorgaben nicht einhält. Aber ganz ignorieren sollte man es nicht, denn im Thread Festplatten sterben wie die Fliegen - was mache ich falsch? sind jemandem der ein halbes Jahr im Ausland war, binnen 3 Monaten 4 HDDs gestorben. Die HDDs waren wohl in einem NAS im Keller, also nicht unter optimalen Bedingungen gelagert und natürlich müssen solche Angaben auch unter den ungünstigsten der erlaubten Bedingungen noch eingehalten werden. Unter optimalen Bedingungen dürften die Platten auch eine weitaus längere Zeit ohne Probleme überstehen.

Die alten 3x4TB gegen neue 3x6TB tauschen und weiter als RaidZ1 laufen lassen

Zusätzlich 2x4TB kaufen, und alle 5 in einem RaidZ2 laufen lassen und nach und nach defekte durch neue 4TB austauschen.
Also ich würde die 3x6TB als sinnvoller ansehen. Einmal weil weniger Platten auch weniger Strom brauchen und dann aber auch, weil man meines Wissens nach bei den ZFS RAIDs immer noch keine weiteren Platten wirklich ins RAID integrieren kann, die werden nur wie bei JBOD (BIG) angeklebt und genießen nicht den gleichen Schutz wie die alten RAID Member Platten. Man kann aber sehr wohl die Platten durch größere Ersetzen, also jeweils eine, dann Rebuild dann die nächste.
 
Danke für die Tipps. Dass das lange Lagern sicher nicht optimal ist, dessen war ich mir bewusst. Die Platte mit Korrosion auf der Platine war von 2014 bis vor wenige Tage im Dauereinsatz. Feuchtigkeit im Keller ist <70%.

Ich werde mir 3x6TB Ironwolf zulegen und die Platten nacheinander tauschen und dann den Pool vergrössern.
 
70% ist aber deutlich mehr als die <40% die von Seagate als optimale Bedingungen genannt werden: "unpackaged under optimal environmental conditions (25°C, <40% relative humidity non-condensing"
 
Wie alt waren deine Festplatten?

Die WD Red in deinem Post hat einen LoadCycleCount von über 600k und ist damit afaik weit außerhalb der Spezifikation. Dass diese ausfällt ist somit nicht vollkommen überraschend.
Bei den nächsten Platten einfach darauf achten dass IntelliPark entweder ordentlich funktioniert (nicht alle 8 Sekunden den Lesekopf parkt) oder falls nicht manuell deaktivieren:
https://wiki.ubuntuusers.de/Archiv/WD_IntelliPark/

Hatte bei meinen beiden 2TB in der Workstation (Baujahr 2010) das IntelliPark feature komplett deaktiviert und diese funktionieren nun immer noch. (Gesamte Laufzeit bei beiden ca. 1 Jahr, LoadCycleCount ist auch nur bei einer niedrigen vierstelligen Zahl)
(Auch wenn ich natürlich für den Server den ich gerade aufbaue neue Platten kaufe, Nach einer knappen Dekade wird es auch Zeit ;)!

Mfg
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh