Hallo liebes Forum,
ich habe einen Server mit Adaptec Raid im privaten Einsatz und dieser hat vor einigen Tagen einen Ausfall gehabt. Beim Rebuild brauche ich eure Hilfe.
Aber der Reihe nach:
Hardware
Der Server wurde in der Firma ausgesondert und seitdem habe ich ihn bei mir. Die Festplatten stammen auch aus der Firma, 8 Stück HGST mit 4TB, SATA. Ich habe auch noch einige Ersatzplatten, allerdings nur 4xSATA, 6xSAS.
Das Raid (adaptec ASR-5805Z) besteht aus 8 Festplatten in Raid 50 (d.h. 2x Raid 5 mit je 4 Platten). Verwendet wurde es so, dass ich den Server alle paar Tage angeschaltet habe, um Dateien darauf zu laden. Nichts wirklich wichtiges, das meiste lässt sich leicht wiederherstellen, aber etwas Arbeit steckt doch dahinter.
Die letzte normale Verwendung/der Ausfall
Beim letzten Mal habe ich den Server wie gewohnt gestartet und auf dem PC per sshfs eingebunden. Ebenso per ssh darauf ein Update durchgeführt (Gentoo Linux; emerge -DNuq world). Nachdem das Update durchgelaufen war und die Daten kopiert waren, habe ich ihn heruntergefahren (Befehl poweroff). Dabei habe ich nicht bemerkt, dass da zwei Downloads vom PC direkt in den per sshfs eingebundenen Ordner noch liefen. Sind also unvollständig, ist nicht weiter schlimm.
Als ich den das nächste Mal anschaltete, merkte ich, dass er nicht wie gewohnt per ssh erreichbar war. Wegen Problemen mit dem Dateisystem konnte er die entsprechenden Konfigurationsdateien nicht lesen bzw. Dienste nicht starten. Ich habe fsck.ext4 auf /dev/sda3 durchgeführt, die Partition ist 100GB groß; dabei fanden sich so viele Problemstellen, die es zu korrigieren galt, dass ich ein Gewicht auf die entsprechende Taste gelegt habe. Das hat das Problem leider nicht behoben. Das System war so kaputt, dass selbst die Konsolenausgabe durch Sonderzeichen o.ä. unleserlich wurde. Ich glaube, dies bereits per USB-Live-System durchgeführt zu haben, bin mir aber nicht mehr sicher.
Im ausgeschalteten Zustand habe ich eine Platte herausgezogen und wieder eingesteckt, ohne genaueren Grund.
Mit einem Linux vom USB-Stift habe ich dann ein badblocks ausgeführt (auf der Partition des Raid, nicht irgendwie nebenher). Bei der Bootpartition ging alles glatt, aber bei 80% von /dev/sda3 find das Gerät an zu piepen. Badblocks fand keine Fehler. Die große Partition danach (sda4; 20TB) habe ich nicht geprüft.
Adaptec RAID Configuration Utility
Beim Booten zeigt er mir, nachdem ich Strg+A gedrückt habe, folgendes - anhand von Handyfotos rekonstruiert:
In der Array Configuration Utility zeigt er mir auch das Array mit entsprechendem Typ und Größe.
Bei den Eigenschaften (Array Properties) steht
Schaue ich bei den jeweiligen Array Membern, d.h. den jeweiligen Raid5-Arrays, sehe ich beim ersten (Array-255) den gleichen Status, beim zweiten (Array-254)
Die Platten habe ich alle verifiziert (Verify Disk Media) und bei genau dieser gab es einen Fehler. Der Fortschritt beim Prüfen der Platte wurde ganz langsam und dann diese Fehlermeldung:
Während ich alle Platten überprüft habe, ist der Fortschritt bei Build/Verify von 62% auf 64% gestiegen, aber seitdem tut sich da nichts. Der Server ist aber auch nicht ununterbrochen an, nur zum Verifizieren der Platten, was jeweils 8-10 Stunden dauert.
Nach vielem Recherchieren habe ich (im ausgeschalteten Zustand) diese Festplatte entfernt und durch eine Ersatzplatte ersetzt (gleiche Zahl Bytes und Sektoren lt. fdisk). Nach erneutem Booten in das Raid-Bios habe ich diese Platte verifiziert (alles in Ordnung) und eigentlich erwartet, dass das Rebuild nun von alleine läuft.
In der Liste der Arrays (Manage Arrays -> List of Arrays -> Array Properties -> Array Properties vom 2. Raid 5) steht immer noch
In der Liste der Arrays habe ich beim Raid 50 mit Strg+R versucht, einen Rebuild anzustoßen, es kam jedoch die Fehlermeldung
An ein Force Online habe ich mich nicht herangetraut, um nicht irgendwas kaputt zu machen.
Der Status des Raid 50 bzw. des ersten Raid 5 ist gerade während ich das hier schreibe auf
Komisch, dass er nicht von vorne angefangen hat. Ich werde den Server bald ausschalten müssen (Homeoffice).
Was könnt ihr mir empfehlen, um das System wieder flott zu kriegen? Welche Informationen werden noch benötigt? Der Build/Verify-Status ist ja für das Raid 50 und das erste Raid 5 gleich, worauf bezieht sich die Prozentangabe nun genau? War es kontraproduktiv, die Festplatte zwischendurch zu tauschen?
Falls die Lösung darin bestehen sollte, die Platten in ein anderes System einzubauen oder die Daten rüberzukopieren, ich habe noch weitere Server mit Raid-Karten zur Verfügung, aber nur 6xSAS 4TB und 4xSATA 4TB (eine davon ist als Ersatzplatte bereits im Problem-Server).
ich habe einen Server mit Adaptec Raid im privaten Einsatz und dieser hat vor einigen Tagen einen Ausfall gehabt. Beim Rebuild brauche ich eure Hilfe.
Aber der Reihe nach:
Hardware
Der Server wurde in der Firma ausgesondert und seitdem habe ich ihn bei mir. Die Festplatten stammen auch aus der Firma, 8 Stück HGST mit 4TB, SATA. Ich habe auch noch einige Ersatzplatten, allerdings nur 4xSATA, 6xSAS.
Stellvertretend für die anderen Platten hier Platte 1:
Hersteller: HGST
Aufdruck:
AUG-2014
0F14681MPK5800P48
P/N:0F14681
S/N:PCGH4LEN
CAPACITY:4TB
MLC:MPK580
FW:580
LBA:7,814,037,168 SECTORS
CHS:16383/16/63
RATED:5v 450mA, 12V 850mA DC=
HDS724040ALE640
SATA 6.0 Gb/s
Type DK7SAF400
RPM:7200RPM
C P/N:H3D40006472SE
E182115T
fdisk:
Festplatte /dev/sdc: 3,7 TiB, 4000787030016 Bytes, 7814037168 Sektoren
Festplattenmodell: 724040ALE640
Einheiten: Sektoren von 1 * 512 = 512 Bytes
Sektorgröße (logisch/physikalisch): 512 Bytes / 4096 Bytes
E/A-Größe (minimal/optimal): 4096 Bytes / 4096 Bytes
Ich habe alle Festplatten an einem PC angeschlossen und mit badblocks geprüft und von allen die Daten wie oben.
Hersteller: HGST
Aufdruck:
AUG-2014
0F14681MPK5800P48
P/N:0F14681
S/N:PCGH4LEN
CAPACITY:4TB
MLC:MPK580
FW:580
LBA:7,814,037,168 SECTORS
CHS:16383/16/63
RATED:5v 450mA, 12V 850mA DC=
HDS724040ALE640
SATA 6.0 Gb/s
Type DK7SAF400
RPM:7200RPM
C P/N:H3D40006472SE
E182115T
fdisk:
Festplatte /dev/sdc: 3,7 TiB, 4000787030016 Bytes, 7814037168 Sektoren
Festplattenmodell: 724040ALE640
Einheiten: Sektoren von 1 * 512 = 512 Bytes
Sektorgröße (logisch/physikalisch): 512 Bytes / 4096 Bytes
E/A-Größe (minimal/optimal): 4096 Bytes / 4096 Bytes
Ich habe alle Festplatten an einem PC angeschlossen und mit badblocks geprüft und von allen die Daten wie oben.
Die letzte normale Verwendung/der Ausfall
Beim letzten Mal habe ich den Server wie gewohnt gestartet und auf dem PC per sshfs eingebunden. Ebenso per ssh darauf ein Update durchgeführt (Gentoo Linux; emerge -DNuq world). Nachdem das Update durchgelaufen war und die Daten kopiert waren, habe ich ihn heruntergefahren (Befehl poweroff). Dabei habe ich nicht bemerkt, dass da zwei Downloads vom PC direkt in den per sshfs eingebundenen Ordner noch liefen. Sind also unvollständig, ist nicht weiter schlimm.
Als ich den das nächste Mal anschaltete, merkte ich, dass er nicht wie gewohnt per ssh erreichbar war. Wegen Problemen mit dem Dateisystem konnte er die entsprechenden Konfigurationsdateien nicht lesen bzw. Dienste nicht starten. Ich habe fsck.ext4 auf /dev/sda3 durchgeführt, die Partition ist 100GB groß; dabei fanden sich so viele Problemstellen, die es zu korrigieren galt, dass ich ein Gewicht auf die entsprechende Taste gelegt habe. Das hat das Problem leider nicht behoben. Das System war so kaputt, dass selbst die Konsolenausgabe durch Sonderzeichen o.ä. unleserlich wurde. Ich glaube, dies bereits per USB-Live-System durchgeführt zu haben, bin mir aber nicht mehr sicher.
Im ausgeschalteten Zustand habe ich eine Platte herausgezogen und wieder eingesteckt, ohne genaueren Grund.
Mit einem Linux vom USB-Stift habe ich dann ein badblocks ausgeführt (auf der Partition des Raid, nicht irgendwie nebenher). Bei der Bootpartition ging alles glatt, aber bei 80% von /dev/sda3 find das Gerät an zu piepen. Badblocks fand keine Fehler. Die große Partition danach (sda4; 20TB) habe ich nicht geprüft.
Adaptec RAID Configuration Utility
Beim Booten zeigt er mir, nachdem ich Strg+A gedrückt habe, folgendes - anhand von Handyfotos rekonstruiert:
Code:
<Technische Daten, Seriennummern...>
Following Arrays have Missing or Rebuilding or Failed Members and are degraded:
Array#0-RAID-0
Array-254-RAID-5
Press <Enter> to accept current configuration...
<Enter> Pressed. The current Configuration is accepted.
Array#0 - RAID-50 20 TB Build/Verify
1 Array(s) found
Bei den Eigenschaften (Array Properties) steht
Array Status: Build/Verify 62%
Schaue ich bei den jeweiligen Array Membern, d.h. den jeweiligen Raid5-Arrays, sehe ich beim ersten (Array-255) den gleichen Status, beim zweiten (Array-254)
Array Status: DEGRADED
und eine der Platten in der Liste der Array Member ist ausgegraut. Zufälligerweise genau die Festplatte, die ich rausgezogen und reingesteckt hatte (siehe oben). Das kommt mir merkwürdig vor, daher erwähne ich das. Die Platten habe ich alle verifiziert (Verify Disk Media) und bei genau dieser gab es einen Fehler. Der Fortschritt beim Prüfen der Platte wurde ganz langsam und dann diese Fehlermeldung:
Code:
Unexpected SAS Command Failed
SAS Device #: 5
SAS CDB Sent: 8F 00 00 00 00 00 00 20 BD F4 00 00 0F FF 00 00 <- ging aus dem ASCII-Art-Formular heraus in die nächste Zeile
Sense Key: 0Eh - Miscompare
Sense Code: 00h
Sense Code Qualifier: 00h
Press Esc to continue
Während ich alle Platten überprüft habe, ist der Fortschritt bei Build/Verify von 62% auf 64% gestiegen, aber seitdem tut sich da nichts. Der Server ist aber auch nicht ununterbrochen an, nur zum Verifizieren der Platten, was jeweils 8-10 Stunden dauert.
Nach vielem Recherchieren habe ich (im ausgeschalteten Zustand) diese Festplatte entfernt und durch eine Ersatzplatte ersetzt (gleiche Zahl Bytes und Sektoren lt. fdisk). Nach erneutem Booten in das Raid-Bios habe ich diese Platte verifiziert (alles in Ordnung) und eigentlich erwartet, dass das Rebuild nun von alleine läuft.
In der Liste der Arrays (Manage Arrays -> List of Arrays -> Array Properties -> Array Properties vom 2. Raid 5) steht immer noch
Array Status: Degraded
und bei den Array Members ist die neue Platte nicht aufgeführt, nur "Inaccessible Disk". Ich habe diese auch initialisiert (siehe Thread https://www.hardwareluxx.de/communi...ht-erkannt-raid-rebuild-schlaegt-fehl.910627/ ) und seitdem auch neu gestartet, allerdings hat das nicht weiter geholfen. In der Liste der Arrays habe ich beim Raid 50 mit Strg+R versucht, einen Rebuild anzustoßen, es kam jedoch die Fehlermeldung
Code:
Rebuild failed.. Not degraded/sub-optimal
Der Status des Raid 50 bzw. des ersten Raid 5 ist gerade während ich das hier schreibe auf
Build/Verify 65%
gestiegen, der Status des zweiten Raid 5 ist weiter auf Degraded und die neue Festplatte ist "Inaccesible". Komisch, dass er nicht von vorne angefangen hat. Ich werde den Server bald ausschalten müssen (Homeoffice).
Was könnt ihr mir empfehlen, um das System wieder flott zu kriegen? Welche Informationen werden noch benötigt? Der Build/Verify-Status ist ja für das Raid 50 und das erste Raid 5 gleich, worauf bezieht sich die Prozentangabe nun genau? War es kontraproduktiv, die Festplatte zwischendurch zu tauschen?
Falls die Lösung darin bestehen sollte, die Platten in ein anderes System einzubauen oder die Daten rüberzukopieren, ich habe noch weitere Server mit Raid-Karten zur Verfügung, aber nur 6xSAS 4TB und 4xSATA 4TB (eine davon ist als Ersatzplatte bereits im Problem-Server).