LSI 9260-8i - Unexpected sense: PD Power on, reset, or bus device reset occurred

redfire7

Neuling
Thread Starter
Mitglied seit
01.10.2009
Beiträge
63
Asus F1A75M, A6 3650, 8gb Ram

Der Raidcontoller ist ein LSI 9260-8i mit Sas-Expander RES2SV240

Ziel konstelation
4x500 Samsung 502HJ Raid10 für OS <- Läuft ohne probleme
4x750 Samsung 753LJ Raid5 für Daten <- Problem
8x1500 WD15EADS Raid5 für Daten <- Problem

Bei viel (Schreib)Zugriff auf das Betroffene Raid kommt das zu massenweisen Warnings :

[Warning, 1]Controller ID: 0 Command timeout on PD: PD
= Port 0 - 3:1:22 - No addtional sense information, CDB = 0x2a 0x00 0x01 0xd8 0x20 0x80 0x00 0x00 0x80 0x00, Sense = , Path = 50:01:e6:70:02:a1:6f:f6


Nach dem das 5-15 mal kam kommt diese Warnung:

[Warning, 1] Controller ID: 0 PD Reset: PD
= Port 0 - 3:1:22, Error = 3, Path = 50:01:e6:70:02:a1:6f:f6

und der Controller setzt das entsprechende laufwerk auf offline
->
599 [Critical, 2] 2011-12-02, 21:41:45 Controller ID: 0 VD is now DEGRADED VD
1

Leider bin ich mittlerweile mit meinem Latein am Ende:
Ich hab die Kabel gewächselt, Alles neu installiert, Neuste FW drauf gespielt...
Ich frage mich warum die Samsung 502HJ ohne Probleme laufen.

Vll hat jemand eine idee woran es liegen könnte ?
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Laufwerke einzeln am "normalen" SATA Controller mit den Herstellertools auf Fehler überprüft?
Laufwerke einzeln am "normalen" SATA Controller gebencht , zB. mit HDTune?
 
hab alle der 8 WDs getestet mit dem Herstellertool -> keinerlei fehler gefunden dabei hingen sie jedoch am Onboard controller
wenn ich nur ein read test mache ist alles tutti 500mb/s lesen wenn jedoch der fehler auftritt -> leserate auf 10mb/s und da bleibt die rate bis er
[Information, 0] Controller ID: 0 Unexpected sense: PD
= - Power on, reset, or bus device reset occurred, CDB = , Sense =
 
hmm... was sagt der lsi support dazu?

ich glaube nicht das du den Fehler ohne grosse Austauschaktion finden wirst
 
leider sind die hdds nicht auf der kompatibilitätsliste

was ich wundert ist das die 500er platten ohne probleme gehen
ist vll doch der controller defekt ?
 
Diese Art von Meldungen hatte ich an einem perc 5i als ich da die Samsung HD154ui (= EcoGREEN) dran hatte....
wobei weder deine Samsung Platten noch die WDs zu der Kategorie "Green" gehört.
Es wird ja damit geworben, daß diese Platten ein eigenes Powermanagement drin haben, und ich denke mal, daß der Perc damit Probleme hatte.

Wie sehen denn die SMART Werte der Platten aus (nofalls wieder am interen SATA Controller auslesen)
gibt der Megaraid Storage Manager selbst evtl. im Status der einzelnen Platten sowas wie "pred Failure Count = grösser 0" raus

ich habe selber 2 Raids aus 753LJ am Perc in Betrieb > No Problem
 
die wd´s sind green platten !

also ich kann den eintrag "pred Failure count" nicht finden oO?
hier sind mal 2 hdds:

CountHD Tune: SAMSUNG HD753LJ Health

ID Current Worst ThresholdData Status
(01) Raw Read Error Rate 100 98 51 0 Ok
(03) Spin Up Time 76 76 11 7940 Ok
(04) Start/Stop Count 99 99 0 1374 Ok
(05) Reallocated Sector Count 100 100 10 0 Ok
(07) Seek Error Rate 100 100 51 0 Ok
(08) Seek Time Performance 100 100 15 0 Ok
(09) Power On Hours Count 98 98 0 8071 Ok
(0A) Spin Retry Count 100 100 51 0 Ok
(0B) Calibration Retry Count 100 100 0 0 Ok
(0C) Power Cycle Count 99 99 0 1373 Ok
(0D) Soft Read Error Rate 100 99 0 0 Ok
(B7) (unknown attribute) 100 100 0 0 Ok
(B8) (unknown attribute) 100 100 99 0 Ok
(BB) (unknown attribute) 100 100 0 172 Ok
(BC) (unknown attribute) 100 100 0 0 Ok
(BE) Airflow Temperature 69 48 0 522125343 Ok
(C2) Temperature 69 46 0 522125343 Ok
(C3) Hardware ECC Recovered 100 100 0 460 Ok
(C4) Reallocated Event Count 100 100 0 0 Ok
(C5) Current Pending Sector 100 100 0 0 Ok
(C6) Offline Uncorrectable 100 100 0 0 Ok
(C7) Ultra DMA CRC Error Count 100 100 0 5 Ok
(C8) Write Error Rate 100 100 0 0 Ok
(C9) TA Counter Detected 253 253 0 0 Ok

Power On Time : 8071
Health Status : Ok

HD Tune: SAMSUNG HD753LJ Health

ID Current Worst ThresholdData Status
(01) Raw Read Error Rate 100 100 51 0 Ok
(03) Spin Up Time 79 79 11 7110 Ok
(04) Start/Stop Count 99 99 0 1435 Ok
(05) Reallocated Sector Count 100 100 10 1 Ok
(07) Seek Error Rate 100 100 51 0 Ok
(08) Seek Time Performance 100 100 15 0 Ok
(09) Power On Hours Count 98 98 0 8873 Ok
(0A) Spin Retry Count 100 100 51 0 Ok
(0B) Calibration Retry Count 100 100 0 2 Ok
(0C) Power Cycle Count 99 99 0 1435 Ok
(0D) Soft Read Error Rate 100 100 0 0 Ok
(B7) (unknown attribute) 100 100 0 0 Ok
(B8) (unknown attribute) 100 100 99 0 Ok
(BB) (unknown attribute) 100 100 0 0 Ok
(BC) (unknown attribute) 100 100 0 0 Ok
(BE) Airflow Temperature 67 38 0 555810849 Ok
(C2) Temperature 67 36 0 555810849 Ok
(C3) Hardware ECC Recovered 100 100 0 22 Ok
(C4) Reallocated Event Count 100 100 0 0 Ok
(C5) Current Pending Sector 100 100 0 0 Ok
(C6) Offline Uncorrectable 100 100 0 0 Ok
(C7) Ultra DMA CRC Error Count 100 99 0 0 Ok
(C8) Write Error Rate 100 100 0 0 Ok
(C9) TA Counter Detected 253 253 0 0 Ok

Power On Time : 8873
Health Status : Ok
 
Hm...sieht nicht allzu gut aus, vor allem, wenner dir das Raid rauswirft. Habe übrigens auch den 9260er, ein Raid5 aus 3x 5K3000ern dran, habe aber bisher ausgenommen dieser Meldungen: http://www.hardwareluxx.de/communit...sas-sata-pcie-5-a-793769-44.html#post17999025 bisher keine schlimmeren Meldungen bekommen. Was hast du alles so an Firmware/Software/Treibern drauf...?

Raid5 ist natürlich auch etwas anderes als ein Raid10, möglicherweise liegt es genau daran, weshalb es mit den 500er Samsungs geht und mit den anderen Platten nicht... Hast du evtl. noch ein paar Platten zum Testen da? Hängen die 500er Samsungs evtl. direkt am Controller und alle anderen Platten am Expander? Möglicherweise will der Expander nicht so recht mitspielen... Also noch etwas mehr Infos zur Konfiguration wären ganz hilfreich... ;)
 
Ich habe die 750er samsung und die 1500er bereits mit und ohne Expander getestet
aber ich werden aus den 750ern mal ein raid 10 erstellen mal schauen was er dann sagt

aber das mit TLER ist keine schlechte idee das könnte sein denn die platte geht ja timeout
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh