MegaRAID 9280: missing drives

rumpumpel1

Neuling
Thread Starter
Mitglied seit
23.03.2013
Beiträge
6
Hallo,

ich betreibe seit einem Jahr ein RAID6 bestehend aus einem LSI MegaRAID SAS 9280-16i4e mit 16 x WD4000FYYZ. Das System ist ein Ubuntu 14.04. Den Rechner hatte ich zwar immer mal wieder nach einem kernel Update rebootet aber nie ausgeschaltet. Heute habe ich ein Kaltstart gemacht mit dem Ergebnis dass row 0 als missing angezeigt wurde. Also habe ich meine Ersatzplatte reingesteckt und dachte mit einem Rebuild wäre es erledigt. Nun zeigte das RAID row 0,4 und 5 als missing. Im Detail sieht das so aus:

TOPOLOGY :
========

-------------------------------------------------------------------------
DG Arr Row EID:Slot DID Type State BT Size PDC PI SED DS3 FSpace
-------------------------------------------------------------------------
0 - - - - RAID6 OfLn N 50.934 TB dflt N N none N
0 0 - - - RAID6 Dgrd N 50.934 TB dflt N N none N
0 0 0 - - DRIVE Msng - 3.637 TB - - - - -
0 0 1 245:5 22 DRIVE Onln N 3.637 TB dflt N N none -
0 0 2 245:6 23 DRIVE Onln N 3.637 TB dflt N N none -
0 0 3 245:7 24 DRIVE Onln N 3.637 TB dflt N N none -
0 0 4 - - DRIVE Msng - 3.637 TB - - - - -
0 0 5 - - DRIVE Msng - 3.637 TB - - - - -
0 0 6 245:2 27 DRIVE Onln N 3.637 TB dflt N N none -
0 0 7 245:3 28 DRIVE Onln N 3.637 TB dflt N N none -
0 0 8 245:12 29 DRIVE Onln N 3.637 TB dflt N N none -
0 0 9 245:13 30 DRIVE Onln N 3.637 TB dflt N N none -
0 0 10 245:14 31 DRIVE Onln N 3.637 TB dflt N N none -
0 0 11 245:15 32 DRIVE Onln N 3.637 TB dflt N N none -
0 0 12 245:8 33 DRIVE Onln N 3.637 TB dflt N N none -
0 0 13 245:9 34 DRIVE Onln N 3.637 TB dflt N N none -
0 0 14 245:10 35 DRIVE Onln N 3.637 TB dflt N N none -
0 0 15 245:11 36 DRIVE Onln N 3.637 TB dflt N N none -
-------------------------------------------------------------------------



PD LIST :
=======

-----------------------------------------------------------------------------
EID:Slt DID State DG Size Intf Med SED PI SeSz Model Sp
-----------------------------------------------------------------------------
245:0 25 UGood F 3.637 TB SATA HDD N N 512B WDC WD4000FYYZ-01UL1B2 U
245:1 26 UBad - 3.637 TB SATA HDD N N 512B WDC WD4000FYYZ-01UL1B2 U
245:3 28 Onln 0 3.637 TB SATA HDD N N 512B WDC WD4000FYYZ-01UL1B2 U
245:5 22 Onln 0 3.637 TB SATA HDD N N 512B WDC WD4000FYYZ-01UL1B2 U
245:6 23 Onln 0 3.637 TB SATA HDD N N 512B WDC WD4000FYYZ-01UL1B2 U
245:7 24 Onln 0 3.637 TB SATA HDD N N 512B WDC WD4000FYYZ-01UL1B2 U
245:2 27 Onln 0 3.637 TB SATA HDD N N 512B WDC WD4000FYYZ-01UL1B2 U
245:8 33 Onln 0 3.637 TB SATA HDD N N 512B WDC WD4000FYYZ-01UL1B2 U
245:9 34 Onln 0 3.637 TB SATA HDD N N 512B WDC WD4000FYYZ-01UL1B2 U
245:10 35 Onln 0 3.637 TB SATA HDD N N 512B WDC WD4000FYYZ-01UL1B2 U
245:11 36 Onln 0 3.637 TB SATA HDD N N 512B WDC WD4000FYYZ-01UL1B2 U
245:12 29 Onln 0 3.637 TB SATA HDD N N 512B WDC WD4000FYYZ-01UL1B2 U
245:13 30 Onln 0 3.637 TB SATA HDD N N 512B WDC WD4000FYYZ-01UL1B2 U
245:14 31 Onln 0 3.637 TB SATA HDD N N 512B WDC WD4000FYYZ-01UL1B2 U
245:15 32 Onln 0 3.637 TB SATA HDD N N 512B WDC WD4000FYYZ-01UL1B2 U
-----------------------------------------------------------------------------

Die Platte in row 0 wird gar nicht mehr gefunden. Ich habe sie mal in einen anderen Linux Rechner eingebaut um zu testen, ob sie denn noch erkannt wird. Ja sie wird erkannt, man kann mit fdisk darauf zugreifen. Also habe ich sie wieder ins RAID eingebaut und geschaut, ob ich die SMART Daten auselesen kann. Das Kommando lief in einen Timeout und hat nichts ausgelesen. Kabel tauschen hat auch nichts geholfen. Dann habe ich alle Platten des RAIDs abgehängt und eine andere Platte an port 0 angeschlossen: diese hat der Controller erkannt. Ich vermute mal, dass es doch an der Platte liegt.
Was aber ist mit den beiden anderen missing drives im Status UGood und UBad. Weiss jemand wie ich die wieder dem RAID hinzufügen kann, wenigstens die eine im Status UGood damit das RAID wieder funktioniert ?
Weiss jemand warum überhaupt der Controller die Platten als missing deklariert ?

Bin für jeden Tip dankbar.
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Hi,

Also erstmal zu UGood und UBad... U steht hierbei für Unconfigured, dh. keine Konfiguration auf der HDD vorhanden, bzw. der raidcontroller erkennt sie nicht. Good heißt, dass die Festplatte keine Probleme macht und für eine Konfiguration bereit steht. Bad heißt, dass die Festplatte ausgefallen ist oder SMART Fehler hat und ohne reset nicht wieder eingebunden werden kann. Leider ist es oft typisch, dass Festplatten nach einem Kaltstart ausfallen, wenn sie davor lange und intensiv gelaufen sind.

Ich würde jetzt alle Festplatten einzeln an den raidcontroller anschließen und somit prüfen ob wirklich die ausgefallenen Platten Fehler aufweisen. raidcontroller sind da etwas genauer wenn es um die Protokolle geht. In einem Feldtest konnte ich auch schon nachvollziehen, dass Festplatten am normalen Intel controller funktioniert haben und am raidcontroller nicht. Bei einigen Platten hatte (mindestens) wie von dir beschrieben die SMART auslese nicht mehr funktioniert. Die HDDs haben am Intel controller funktioniert am hwraid jedoch nicht.

Sollten alle Festplatten wieder erkannt werden solltest du versuchen die Config neu einzulesen, weil dir 3 Platten fehlen... also ein recovery würde nichts bringen. Beim Raid 6 dürfen 2 Festplatten ausfallen. Bei 3 ist das Raid also praktisch kaputt, insofern du nicht eine weitere Platte wieder eingebunden bekommst. Sollte das Raid wieder laufen würde ich vermutlich eher ein Backup als ein Recovery vorschlagen, insofern das möglich ist.

Hast du auch regelmäßig die Protokolle kontrolliert?, weil für gewönhlich fällt so ein Raid nicht von jetzt auf nachher aus.
 
Zuletzt bearbeitet:
So, nach vielen Stunden googlen und Doku lesen hat sich das Problem etwas entschärft. Ich bin fälschlicherweise davon ausgegangen das der 9280 die gleiche Nummerierung macht wie mein alter 3ware 9650SE-16ML. Mit anderen Worten: beim Wechsel der defekten Platte in row 0 habe ich die falsche Platte gezogen. Das erklärt zwar nicht warum der Kontroller dann gleich 2 Platten als missing deklariert hat. Da diese beiden Platten auch keine Auffälligkeiten in den SMART Daten hatten habe ich sie einfach in das Array wieder eingefügt und Online gesetzt. Danach konnte ich die richtige Platte tauschen und wenn der Rebuild bis heute abend fertig ist, kann ich wieder ruhig schlafen.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh