5 * HDD raid5 an e-sata funktioniert nicht richtig - wie beheben?

me777

Enthusiast
Thread Starter
Mitglied seit
07.04.2009
Beiträge
403
System: Debian 10 "Buster", Xeon E3-1240Lv5, Asus P10S-E/4L, 32GB DDR4-2133 ECC, 6*8TB WD RED als ZFS Raidz2 mit Verschlüsselung (am Mainboard), 5*8TB Platten an inline 76696B e-sata-Karte und e-sata-Multiplier lycom ST-172RM

Ich hatte große Probleme als ich ein per e-sata angeschlossenes Software Raid0 (3 8TB Platten) auf Raid5 (5 Platten) hochgestuft habe. Auf den externen Platten ist über dem Raid ein luks und darüber ein ext4.
Beim rsync von ZFS Snapshot auf die externen Platten ist das io-wait sehr schnell auf 90% CPU angewachsen und das rsync, luks und raid sind eingefroren. rsync killen hat auch nichts gebracht das io-wait ging nicht runter.

Ich habe den Verdacht das entweder die sata Karte oder der Multiplier schuld sind, da das raid5 an einem anderen PC direkt am Mainboard läuft und zumindest das rsync über nfs plausible Datenraten für 1G Ethernet bringt.

Eigentlich hätte ich gerne die Lösung mit dem e-sata da ich keinen extra PC für das Backup haben will (ist ein sekundäres Backup das monatlich oder so gemacht wird und dann räumlich getrennt aufbewahrt werden soll)
Ich denke nicht das eine Platte kaputt ist.
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Es sind immernoch Fehler aufgetaucht und 2 von den Festplatten haben auf SATA2 zurück geschaltet.
Aber ich habe einen Verdacht: es ist ein 5in3 Backplane Modul dazu gekommen, knapp vor den zusätzlichen Festplatten.
Jetzt sind die Platten ohne die Backplane angeschlossen und bis jetzt keine Fehlermeldung...
Hätte ich viel früher testen sollen.

- - - Updated - - -

Der PC mit den Festplatten hat sich aufgehängt, ohne die Backplane... wieder 100% iowait. (aber die ATA Fehlermeldungen sind nicht mehr gekommen)
Kann ne Festplatte abschalten wenn die zu warm wird?
Wenigstens hat es nur den extra PC erwischt nicht den ganzen Fileserver.
 
Welche Festplatten verwendest Du denn konkret? Nicht das es welche mit SMR sind, die können beim Schreiben sehr lahm werden, sobald die paar GB OnDisk Cache voll sind.
 
Seagate Archive HDD, das müssten noch die V1 sein.
Und die haben SMR. kann es daran liegen?
 
Das würde ich vermuten. HDDs mit SMR sind für diese Anwendungen nicht geeignet, die sind für Cool und Cold Data, also Daten die sich kaum oder gar nicht ändern, während Dein Anwendung eher eine schreibintensive zu sein scheint.
 
Warum hast du überhaupt Archiv Festplatten gekauft ? Weil günstiger als die Nas ?
 
Naja, die Daten sind cold wenn die Platten erstmal beschrieben sind.
Dann sollen die sogar ganz aus geschaltet werden.
Gearbeitet wird mit den Daten auf den Platten nicht.

Kann es sein das das software raid5 mist baut und daten hin- und herschaufelt statt einfach zu schreiben und es so zu lassen? weil raid5 und die Backplane sind eigentlich die Änderungen zu meinem vorherigen Setup das funktioniert hat.

Habe ich da in falsche Hardware investiert? Oder muss ich nur anders vorgehen?

Und ja, die Platten waren günstiger.
 
Wieso sollte ein RAID Daten hin- und herschaufeln? Sowas macht kein RAID, außer beim Growing, wenn dabei eine Platte hinzugefügt wird. Die SMR Platten machen sowas aber, die schaufeln nämlich im Idle die Daten vom OnDisk Cache auf ihre endgültigen Positionen. Du kannst froh sein ein SW RAID gebaut zu haben, bein HW RAID Controller wirft HDDs die nach i.d.R. 8s nicht geantwortet haben, nämlich als defekt aus dem RAID und diese 8s können die Platten mit SMR leicht überschreiten.

Die Hardware ist nicht gerade glücklich gewählt, aber wenn es funktioniert, selbst wenn es lange dauert, dann kannst Du die Platten dafür nehmen, es ist ja nur einmalig und da muss man dann eben genug Geduld haben. Auf die Performance beim Lesen wirkt sich SMR ja nicht aus.
 
Danke für die Info.
Das die SMR die Daten erst in einen Cache schreiben habe ich nicht gewusst, sonst hätte ich etwas mehr ausgegeben.

Trotzdem habe ich noch ein Problem: eine der Platten hat ne Macke, die ist 2 mal "verschwunden" also habe ich die raus geschmissen.
Zum Testen ist die jetzt an einem Windows PC, der hat die auch nur manchmal angezeigt. Aber beim 4. Versuch ist die Platte wieder da und scheint zu funktionieren auch smart sagt alles ok? Wie testet man sowas?

Während dessen unter linux und software raid: die restlichen 4 Platten laufen ohne Fehlermeldung, wenigstens etwas.


Ich bin fast so weit die ganzen Seagate Archive Platten in die Tonne zu kloppen. Oder zumindest anzufangen Ersatz zu planen.

Was währen denn "brauchbare" Platten um ein Backup offline aufzubewahren? Ich sehe eben das WD RED 8TB relativ guten Preis/GB haben, die sind auch meine normalen Platten.
Aber 5*200€...
Bandlaufwerke sind noch teurer (und die Backups sind nicht so einfach zu prüfen)
 
Dann poste doch bitte mal den Screenshot von CrystalDiskInfo für die Platte, ziehe aber bitte das Fenster soweit auf, dass alle Attribute und auch die Rohwerte vollständig sichtbar sind, also keine Scrollbalken mehr erscheinen. Bitte mache den Screenshot aus Windows und nicht mit einer Kamera vom Bildschirm und nur den Screen von CrystalDiskInfo, mit Alt+Druck erzeugt Windows einen Screenshot des aktiven Fensters in der Zwischenablage oder probiere mal die Tastenkombination: 'Windows Taste + Shift + S'.
 
cdi.JPG
meine Diagnose: das ist der Übeltäter.
komisch nur das smartctrl gasagt hat das insgesamt alles ok ist (dabei stehen da auch die 69 fehlerhaften sektoren)...

da muss ich mir wohl bessere festplatten kaufen.
damit ist es denke ich erledigt
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.19.0-5-amd64] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, smartmontools

=== START OF INFORMATION SECTION ===
Model Family: Seagate Archive HDD
Device Model: ST8000AS0002-1NA17Z
Serial Number: Z840AB93
LU WWN Device Id: 5 000c50 08731ed32
Firmware Version: AR15
User Capacity: 8.001.563.222.016 bytes [8,00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 5980 rpm
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2, ACS-3 T13/2161-D revision 3b
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is: Tue Sep 3 19:05:10 2019 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 0) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 952) minutes.
Conveyance self-test routine
recommended polling time: ( 2) minutes.
SCT capabilities: (0x30a5) SCT Status supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 090 081 006 Pre-fail Always - 167230152
3 Spin_Up_Time 0x0003 093 091 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 61
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 083 060 030 Pre-fail Always - 4496796060
9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 2007
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 57
183 Runtime_Bad_Block 0x0032 096 096 000 Old_age Always - 4
184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
188 Command_Timeout 0x0032 100 100 000 Old_age Always - 4295032833
189 High_Fly_Writes 0x003a 077 077 000 Old_age Always - 23
190 Airflow_Temperature_Cel 0x0022 076 050 045 Old_age Always - 24 (Min/Max 23/24)
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 95
193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 189
194 Temperature_Celsius 0x0022 024 050 000 Old_age Always - 24 (0 17 0 0 0)
195 Hardware_ECC_Recovered 0x001a 117 099 000 Old_age Always - 167230152
197 Current_Pending_Sector 0x0012 069 069 000 Old_age Always - 10176
198 Offline_Uncorrectable 0x0010 069 069 000 Old_age Offline - 10176
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 9
240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 1637 (208 124 0)
241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 147019384039
242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 104960892267

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 2000 -

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
 
meine Diagnose: das ist der Übeltäter.
Die hat viele schwebende Sektoren und Schwebende Sektoren sind einfach nur Sektoren deren Daten nicht mehr zur ECC passen die hinter jedem Sektor steht und die mit deren Hilfe auch nicht mehr korrigiert werden können. Da die korrekten Daten nicht mehr feststellbar sind, gibt die Platte statt falscher Daten einen Lesefehler als Antwort wenn man versucht diese schwebenden Sektoren zu lesen. Das kann auch anderen Gründe als defekte Oberflächen haben, z.B. einen Stromausfall während eines Schreibvorgang der dazu führt, dass eben nicht die ganze Daten plus der neuen ECC geschrieben wurden oder wegen eines Stoßes oder Vibrationen ist der Kopf beim Schreiben aus der Spur gekommen und hat Daten auf der Nachbarspur überschrieben. Auch arbeiten HDDs nicht 100%ig und die Hersteller geben die Fehlerhäufigkeit auch in Form der UBER an, wobei eine UBER von 1:10^14 bedeutet, dass je 10^14 gelesener Bits was etwa 12TB gelesener Daten entspricht, ein Lesefehler und damit schwebender Sektor im Rahmen der Erwartungen liegt.

Die Controller merken sich die schwebenden Sektoren und prüfen die Daten nach dem erneuten Schreiben auf diese Sektoren, dann verschwinden diese einfach oder werden eben durch Reservesektoren ersetzt, was bei dieser Platte noch nicht der Fall war.

Die schwebenden Sektoren würde eine schlechte Leseperformance erklären, aber vielleicht ist es bei SMR Platten auch so, dass dies auf die Schreibperformance schlägt, denn es müssen ja die Daten der Spuren gelesen werden die nachher überschrieben werden und dann werden diese Daten wieder zurückgeschrieben. Die Anzahl ist recht hoch, die Platte würde ich austauschen.
komisch nur das smartctrl gasagt hat das insgesamt alles ok ist (dabei stehen da auch die 69 fehlerhaften sektoren)...
Nein, die Anzahl steht im Rohwert, also bei CDI wie bei smartctrl ganz rechts:
"197 Current_Pending_Sector 0x0012 069 069 000 Old_age Always - 10176"

Im übrigen nimmt smartctrl keine Bewertung des Zustandes vor und diese Aussage ist von der Platte selbst:
"SMART Error Log Version: 1
No Errors Logged"

da muss ich mir wohl bessere festplatten kaufen.
Nimm NAS oder Surveillance Platten, die haben meines Wissens nach allesamt kein SMR, auch wenn Gerüchte von SMR bei einigen WD Red wissen wollen.
 
ok, nach vielen Versuchen und Hardware hin und her tauschen habe ich die Fehler gefunden:
Die Festplatte mit den ausstehenden Sektoren funktioniert nicht richtig, die verschwindet manchmal einfach bzw reagiert nicht mehr.
Ein 2. Fehler war an einem der sata Kabel. Das waren 5 neue 10cm Kabel von delock, jetzt habe ich längere Kabel die noch da waren eingebaut und die anderen 4 Festplatten laufen jetzt. (bzw liefen weil die Sicherung entzwischen ohne weitere Probleme durch ist)

Also was habe ich gelernt: Bei Funk ist es immer die Antenne und bei Festplatten das Kabel....:fresse:
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh