RAID-Controller schafft es nicht, die einzelnen Platten zu synchronisieren

DoubleJ

Redakteur , Moderator
Thread Starter
Mitglied seit
02.01.2004
Beiträge
9.605
Ort
Südhessen
So, anfangs war ich ja richtig glücklich mit meinem 9650se, aber jetzt treibt er mich zum Wahnsinn. Angefangen hat wohl alles damit, dass ich mal den Reset-Knopf drücken musste, weil das System hängen geblieben ist. Seitdem häufen sich Fehler im Dateisystem; Ich könnte chkdsk im 30min-Takt ausführen.

Ja gut, probiert man halt mal ein verify:
May 14, 2007 08:44.57AM (0x04:0x000C): Initialize started: unit=0
May 14, 2007 08:44.40AM (0x04:0x002A): Verify failed: unit=0
May 14, 2007 08:44.40AM (0x04:0x002A): Verify failed: unit=0
May 14, 2007 08:44.36AM (0x04:0x0036): Verify fixed data/parity mismatch: unit=0
May 14, 2007 08:44.32AM (0x04:0x0036): Verify fixed data/parity mismatch: unit=0
May 14, 2007 08:44.28AM (0x04:0x0036): Verify fixed data/parity mismatch: unit=0
May 14, 2007 08:44.24AM (0x04:0x0036): Verify fixed data/parity mismatch: unit=0
May 14, 2007 08:44.20AM (0x04:0x0036): Verify fixed data/parity mismatch: unit=0
May 14, 2007 08:44.16AM (0x04:0x0036): Verify fixed data/parity mismatch: unit=0
May 14, 2007 08:44.16AM (0x04:0x0029): Verify started: unit=0
May 14, 2007 08:18.21AM (0x04:0x0007): Initialize completed: unit=0
May 14, 2007 12:06.27AM (0x04:0x000C): Initialize started: unit=0
May 14, 2007 12:06.27AM (0x04:0x002A): Verify failed: unit=0
May 14, 2007 12:06.27AM (0x04:0x002A): Verify failed: unit=0
May 14, 2007 12:06.23AM (0x04:0x0036): Verify fixed data/parity mismatch: unit=0
May 14, 2007 12:06.19AM (0x04:0x0036): Verify fixed data/parity mismatch: unit=0
May 14, 2007 12:06.15AM (0x04:0x0036): Verify fixed data/parity mismatch: unit=0
May 14, 2007 12:06.11AM (0x04:0x0036): Verify fixed data/parity mismatch: unit=0
May 14, 2007 12:06.07AM (0x04:0x0036): Verify fixed data/parity mismatch: unit=0
May 14, 2007 12:06.03AM (0x04:0x0036): Verify fixed data/parity mismatch: unit=0
May 14, 2007 12:05.59AM (0x04:0x0036): Verify fixed data/parity mismatch: unit=0
May 14, 2007 12:05.59AM (0x04:0x0029): Verify started: unit=0

Verify bricht ab, Initialisierung startet. Initialisierung ist fertig, jetzt sollten eigentlich wieder alle Daten "geordnet" sein. Denkste! Verify gestartet, bricht wieder ab -> Initialisierung geht wieder von vorne los.

Habe parallel zu dem Thread hier schon ein Support-Ticket bei 3ware laufen, warte da aber noch auf eine Antwort, sodass ich hier auch mal fragen wollte.
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
aktuellste firmware und treiber sind drauf?

wird der chip vielleicht zu heiß? (meinen promise muss ich mit nem lüfter kühlen!)

ansonsten is der raid controller wohl defekt denk ich
 
aktuellste firmware und treiber sind drauf?

natürlich

wird der chip vielleicht zu heiß? (meinen promise muss ich mit nem lüfter kühlen!)

den kühler kann man keine 10sek anfassen, wird also recht warm, ja. was heißt du "musstest"? hat er sonst auch fehler produziert?

ansonsten is der raid controller wohl defekt denk ich

wahnsinn, da hol ich mir n hardware-controller um mir die (vermeintlichen?) probleme mit nem software-raid zu sparen und dann stirbt der conti den hitzetod? :hmm: (hät ich mir lieber n einfachen controller geholt, da hätte wenigstens auch keine cpu überhitzen können - wenn es denn wirklich daran liegt... was ich irgendwie noch nicht wahr haben will)
 
Zuletzt bearbeitet:
den kühler kann man keine 10sek anfassen, wird also recht warm, ja. was heißt du "musstest"? hat er sonst auch fehler produziert?

fehler nicht - aber der ganze pc is gefreezt ...

wahnsinn, da hol ich mir n hardware-controller um mir die (vermeintlichen?) probleme mit nem software-raid zu sparen und dann stirbt der conti den hitzetod? :hmm: (hät ich mir lieber n einfachen controller geholt, da hätte wenigstens auch keine cpu überhitzen können - wenn es denn wirklich daran liegt... was ich irgendwie noch nicht wahr haben will)

ne sollte ja nicht sein aber wo HW ist da kann was eingehen *g*
und SW raid is nicht so schlecht wie es oft behauptet wird
"last word spoken in filesystems: zfs" (ersetzt auch raidcontroller :p )
 
Zuletzt bearbeitet:
Den Support von 3ware hab ich mir aber auch besser vorgestellt...

Kindly update your controller codeset to the latest 9.4.1.1. Also the WD drives have known issues kindly update the drive firmware to the latest.
 
Ich sehe grade, das Du die WD5000YS RE2 hast ?? Dann flashe bitte unbedingt die neuste WD-Firmware ! Diese behebt nämlich das Problem, das sich die Platte ohne erkennbaren Grund aus dem RAID-Array abmeldet !

Was war an meiner Fehlerbeschreibung so undeutlich? Habe ich irgendwas davon geschrieben, dass die Platten aus dem Array fliegen? :wall:

Controller hat die neuste Firmware und das neuste BIOS, neuste Treiber sind sowieso installiert, Festplatten haben auch die neuste Firmware... das sind doch die Standard-Sachen, die man zu erst probiert -.-
 
Zuletzt bearbeitet:
Sorry, das ich Dir den Tipp gegeben habe, werde mich dazu halt nicht näher äussern. Nur noch das eine: Meldet sich eine Platte kurzfristig aus dem Array ab und wird nicht mehr richtig initialisiert, so treten halt Dateifehler auf.
Viel Glück noch bei der Fehlerbehebung!
 
Sorry, das ich Dir den Tipp gegeben habe

Sorry, dass war nichts gegen dich, bin aber grad ziemlich auf 180 -.- Fehlt nurnoch, dass mir jemand dazu rät, Windows neu zu installieren :shot:

Nur noch das eine: Meldet sich eine Platte kurzfristig aus dem Array ab und wird nicht mehr richtig initialisiert, so treten halt Dateifehler auf.

Würde eine Platte aus dem Array verschwinden, würde das nicht geschehen, ohne das es in der Log-Datei vermerkt wird. Und ich habe das komplette Log oben geposted.

Aber so langsam zweifel ich stark an dem Support von 3ware.
Jetzt hab ich die Antwort bekommen, ich solle doch mal die Platte an Port 0 tauschen, die sei vermutlich defekt. Soll ich denen beim Support mal verraten, dass das unit=0 für die logische Unit und nicht für die einzelnen Platten steht? :hmm: Schicken die beim Support jetzt solange ihre Standardantworten raus, bis ich hier 10 neue Platten und 5 neue Controller liegen habe? Verdammt nochmal, meine Meinung von 3ware hat innerhalb von 20h eine 180°-Wendung gemacht... :mad: :mad:
 
Zuletzt bearbeitet:
huh, das hätte ich fast als erstes gecheckt: die platten... ;)

gruß
hostile
Hinzugefügter Post:

sieht doch fast nach ner adresse aus, hm?

gruß
hostile

edit: oh muss mich korrigieren, ist wohl eher keine adresse. :d nichts für ungut ;)
 
Zuletzt bearbeitet:
lol
frag mal freundlich nach welche der 3 platten defekt sein soll

ich hatte schon mehrmals mit dem 3ware support zu tun, die ersten paar antworten sind 0815, aber irgendwann erwischst nen techniker der sich auskennt *g*
 
Hi,
hast du schon mal auf dieser Seite nachgelesen.
Es wurde ein Fehler festgestellt aber automatisch behoben ?!?!?

https://twiki.cern.ch/twiki/bin/view/FIOgroup/DiskPrbTw

Hab nochwas gefunden:

The 3ware RAID controller supports a feature called dynamic sector repair to allow the unit to recover from certain drive errors that would normally result in a degraded array situation. For redundant arrays such as RAID 1, 10, 50, and 5, the 3ware RAID controller essentially has two copies of the users data available. If a read command to a sector on a disk drive results in an error, it reverts to the redundant copy in order to satisfy the host’s request. At this point, the 3ware RAID controller has a good copy of the requested data in its cache memory. It will then use this data to force the failing drive to reallocate the bad sector, which essentially repairs the sector. When a sector repair occurs, the user is notified by this AEN.

The fact that a sector repair AEN has been sent to the user is an indication of the presence of grown defects on a particular drive. While typical modern disk drives are designed to allow several hundred grown defects, special attention should be paid to any drive in an array that begins to indicate sector repair messages. This may be an indication of a drive that is beginning to fail. The user may wish to replace the drive, especially if the number of sector repair errors exceeds 3 per month.
 
Zuletzt bearbeitet:
Was hat das mit meinem Problem zu tun?

Wenn ich mir das Errorlog runterlade, stehen da u.a. so "lustige" Sachen wie:
Send AEN (code, time): 0x217, 05/14/2007 14:49:18

Buffer ECC error not corrected

(EC:0x217, SK=0x04, ASC=0xff, ASCQ=0xff, SEV=01, Type=0x70)

drin. Mit Buffer ist wohl der RAM auf dem Controller gemeint... Mal sehen was der Support dazu sagt. Inzwischen glaub ich auch immer mehr, dass der Controller hinüber ist :(
 
Anhand der Fehlermeldung würde ich auch auf Speicher tippen.
Denke der hat zuviele, die er durch den ECC Chip nicht mehr korrigieren kann,
oder der ECC Chip hat ne Meise.
 
Buffer ECC error not corrected

The error means that the onboard cache has failed. Please replace the controller.

Frag mich jetzt nurnoch "warum?". Pech gehabt? Zu heiß geworden? Der RAM sollte ja eigentlich einiges abkönnen...
 
Zuletzt bearbeitet:
Hast du vielleicht den Systembus für PCIe übertaktet?

nein :stupid: ich hab auch sonst nicht irgendwelche abenteuerlichen experimente gemacht

Nachtrag:

There are many reasons including the ventilation, system panic, power supply etc will cause the onboard cache to fail.

So langsam zweifel ich aber daran, ob der cache wirklich kaputt ist oder ob er halt "nur" mal fehlerhaft gearbeitet hat (als ich den reset machen musste)... naja, wie dem auch sei, ich hab ne RMA-anfrage eröffnet - amcc scheint ja zum glück vorabtausch zu machen... der support hinterlässt trotzdem einen faden beigeschmack. so richtig kompetent war m.e. keine der antworten, die ich bekommen habe. hoffentlich läuft wenigstens der umtausch besser ab - ich werde berichten... ;)
 
Zuletzt bearbeitet:
Und wie siehts jetzt aus mit dem Controller ?
Schon wieder einen neuen aus der RMA bekommen?
 
Ok, mal ne kurze Chronik:

15.05.07: Erste RMA-Anfrage an AMCC
15.05.07: Formular von AMCC per e-Mail zugeschickt bekommen, ausgefüllt, zurückgeschickt
21.05.07: Versandbestätigung (UPS) des Austauschcontrollers -> AMCC macht einen Vorabtausch

...Fortsetzung folgt... ;)
 
Ja, hab den neuen Controller jetzt eingebaut. Funktioniert einwandfrei, wird jetzt aber auch aktiv gekühlt (120mm Fan im Seitenteil @ 850rpm). Der Kühlkörper wird jetzt nurnoch handwarm (vorher hat man sich dran verbrannt...). Mich wundert es, dass in der hardwareluxx printed stand, dass der kühlkörper "nicht sonderlich warm wurde" - von einer aktiven Belüftung war dort nicht die Rede (aber vielleicht wars ein offener Aufbau?).

Naja, wie dem auch sei... Was mich jetzt noch geärgert hat ist, dass der Versand nach Belgien (AMCC) 16€ gekostet hat. Da ich den Controller noch keine 6 Monate habe, hät ich das lieber über Gewährleistung, sprich Händler, laufen lassen sollen. Ok, dann hätte ich keinen Vorabtausch gehabt, aber genutzt hat mir der kaputte Controller ja eh nichts mehr (außer ich hätte systematisch meine Daten zerstören wollen)

Einen faden Bei- oder inzwischen eher Nachgeschmack hinterlässt aber der 3ware (Web-)support, der mir in keinster Weise kompetent erschien.
 
Zuletzt bearbeitet:
Was sprach den generell mal gefragt gegen einen HW-Controller 4 Port, Areca 1210 ? der ja ungefair das gleiche kostet. Und taugt halt noch was für SSDs.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh