Problem mit HBA (M1015 und H200)

Turboschnecke

Enthusiast
Thread Starter
Mitglied seit
18.05.2011
Beiträge
259
Ort
PAF
Servus,

ich habe ein Supermicro X11SSM-F, zwei M1015 und einen H200.

Bisher war es so: Ich hatte beide M1015 im Server, geflashed auf IT und im ESXi einer OmniOS (NappIt) durchgereicht. Das hat auch in etwa zwei Monate funktioniert. Dann war von einem Tag auf den anderen der ZFS Pool degraded, weil die Hälfte der Platten gefehlt haben. Die NappIt ließ sich dann auch nicht mehr starten, weil ein M1015 plötzlich nicht mehr durchgereicht wurde. Ich dachte, wahrscheinlich ist das Ding defekt, weil ich habe auch das Problem, dass ich im Case (Inter-Tech 88887120) in einen bestimmten Slot keine HDD reinstecken konnte. Sobald ich das gemacht habe, gab es im OmniOS Fehler am laufenden Band...
Daraufhin habe ich mal einen H200 erworben, auch auf IT geflashed und an OmniOS durchgereicht. Das hat jetzt dann auch 3 Tage funktioniert und jetzt hab ich das gleiche Problem. Es fehlen immer die Festplatten, die an diesem Controller hängen.

Hab die Kabel getauscht (was vorher an M1015 hing, hing dann am H200 und umgekehrt), aber es werden immer nur die Festplatten am M1015 gefunden. Hab auch die Slots mal getauscht, bringt aber auch nix. Es geht immer nur der M1015. Der blinkt dann auch fleißig. Der ausgetauschte M1015 blinkt gar nicht, weiß aber auch nicht, ob das wirklich was aussagt. Aber wenn der steckt, hab ich im ESXi plötzlich Unmengen an PCI Geräten, die ich durchreichen kann und die mit LSI2008 gelabelt sind. Beim funktionierenden M1015 und beim Dell H200 gibt es nur einen Eintrag.

Kabel untereinander getauscht, Slots getauscht, aber nix hilft...

Jemand noch eine Idee, was es sein könnte? NT würde ich ausschließen, weil es ja zwei Monate funktioniert hat und die Bays leuchten auch alle. Strom dürfte es also nicht sein. Dass beide Controller defekt sind, fände ich auch etwas seltsam. Der M1015 war ein neuer aus China (zusammen mit dem anderen gekauft) und der H200 hab ich gebraucht bei Servershop24 gekauft.

Mir gehen solangsam die Ideen aus...
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
sind die fehlenden HDDs immer auf der gleichen SATA Backplane?
ich musste von Inter-Tech beide Backplanes tauschen lassen weil der Molex Stromstecker schlecht verlötet wurde. ideal sind die neuen auch nicht (ich würde andere Buchsen verwenden), aber aktuell ist es stabil
 
Ne, sind sie nicht. Es sind immer die HDDs, die nicht am M1015 hängen, die fehlen. Standardmäßig hatte ich die erste und zweite Reihe von oben am M1015 und die dritte und vierte am zweiten M1015 bzw am H200. Wenn ich das dann getauscht habe auf dritte und vierte und erste und zweite, waren die vorher verschwundenen HDDs sichtbar und die, die ich vorher gesehen habe, waren weg.

Strommäßig leuchten die Bays auch normal (würde ich sagen).
 
Ich hatte in meinem X11SSM-F das Problem, dass ein ungeflashter H310i ums Verrecken nicht laufen wollte. Die Kiste bootete nichtmal richtig. 2 verschiedene H200er funktionieren hingegen problemlos.
 
Da es schon funktioniert hat, liegt der Fehler woanders oder es ist eine Kombination mehrerer Probleme.
Man könnte jetzt solange etwas tauschen oder wegnehmen bis es geht.

Der Fehler muss entweder am Board incl CPU/RAM, am Controller, Kabel, Backplane oder PSU liegen. Der schnellste Weg dürfte zum Start ein Minimalconfiguration sein, also alles wegnehmen was Strom benötigt und man nicht braucht. Dann an jedem Controller je eine Platte direkt per miniSAS -> Sata Kabel anschliessen (ohne Backplane).

Beim Booten dann kontrollieren ob alle HBA erkannt werden und jeweils eine Platte zeigen. Macht es hier bereits Probleme, ein anderes Board oder PSU testen. Dann die Backplane zustecken und Platten da testen. Das erweitern bis der Fehler auftritt.
 
Ok, d.h. Urlaub nehmen und weiter rumspielen :d
Ein miniSAS auf SATA Kabel hab ich eh nicht. Müßte ich also erstmal besorgen. Aber ich kanns mal mit weniger Platten probieren und schauen, was dann so erkannt wird

Edit: Also wenn ich an jede Backplane nur eine HDD hänge, werden immer nur die erkannt, die am M1015 hängen... Damit würde ich Backplane erstmal ausklammern. Kabel dürfte es auch nicht sein, weil am M1015 gehts ja damit dann immer.
Der H200 blinkt, also ist er auf jeden Fall nicht komplett tod.

Macht es einen großen Unterschied, wo ich den reinstecke? Der M1015 steckt im obersten x4-Steckplatz, der andere steckte erst im x16, dann im zweiten x4. Aber hat scheinbar nichts gebracht. Extra Strom brauchen die Dinger ja auch nicht oder?

Edit2:
SAS2FLSH.JPGSAS2FLSHP19.JPG
Es werden mir auch beide angezeigt. Wobei Nummer1 eigentlich ein H200 ist (wird in ESXi auch so angezeigt). Oder passt hier schon was nicht? Das einzige, was mir noch aufgefallen ist, dass der Befehl schon lange braucht, bis er durch ist. So 10-15s habe ich locker gewartet. Ist das normal?
 
Zuletzt bearbeitet:
Heute kommt irgendwann so ein miniSAS auf 4xSATA Kabel.
Momentan hängt an beiden Controllern je zwei Backplanes (jeder miniSAS ist belegt) und an jeder Backplane hängt je eine Platte. Ich hab jetzt nur den ESXi Installer gerade auf nem Stick gehabt (auf dem anderen ist noch FreeDOS zum Flashen der IT Firmware) und dort werden mir alle vier HDDs zum installieren angezeigt. Unter NappIt habe ich aber nur zwei HDDs angezeigt bekommen und das waren die, die am M1015 hängen.
Ich bin davon ausgegangen, dass ich unter OmniOS einfach den anderen Controller (H200) nutzen kann, ohne was zu machen. Zwei Tage hat es ja auch geklappt.
Wollte heute abend nochmal ein LiveLinux probieren, ob ich da alle HDDs angezeigt bekomme. Aber was mache ich, wenn ich die da wirklich sehe? Dann kann es ja eigentlich nur an OmniOS liegen oder?
Würde ich im ESXi irgendwo die Controller und HDDs sehen, wenn ich die Controller nicht an die OmniOS VM durchreiche?
 
Ähm, den anderen Controller hast du aber schon extra durchgereicht, oder? Zuerst musst du in ESXi allgemein den Controller fürs Passthrough erlauben, dort siehst du ihn auch wenn er erkannt ist. Und dann noch in der VM Passthrough aktivieren.
Ich weiß, dass du das natürlich beim ersten Controller schon gemacht hattest. Nur nochmal der Hinweis, nicht dass du das vergessen hattest.
 
Ne, habs bei beiden gemacht. Nach Slottauschs musste ich es eh machen, weil NappIt nicht mehr gestartet ist. Die ID vom Controller bzw. vom Steckplatz war dann eine andere usw.

Aber gibt es in ESXi eine andere Stelle, wo ich die HDDs sehen könnte? Irgendwo bei den Speicherorten? Bin in ESXi noch nicht wirklich fit
 
Sobald Passthrough an ist nicht mehr.
Wenn Du Passthrough deaktivierst, kannst Du die angeschlossenen Platten als Speicherort einstellen.
 
Dann probiere ich das heute Abend einmal und schau, ob ich im ESXi dann alle 12 HDDs sehe oder ob die da auch schon fehlen
 
beim Booten meldet sich doch der HBA.
Mit CTRL-C (glaube ich) kommt man ins Bios des HBA. Da müssten auf jeden Fall alle Platten da sein.
 
Bei Änderungen rund um Passthrough hab ich mir angewöhnt, erst natürlich die (neue) Hardware in ESXi für Passthrough zu konfigurieren und dann in den VM-Einstellungen alle Pasthrough Geräte erst zu löschen, das zu speichern, und dann die sauber wieder neu zu konfigurieren und natürlich das auch zu speichern. Alles andere führte gerne mal zu Kuddelmuddel, weil sich manchmal eben wohl die PCIe-IDs ändern, wenn man was dazu steckt bzw. rauszupft.
 
@Gea: Das BIOS habe ich nicht mit geflashed. Zum einen weil dann das booten flotter gehen sollte und zum anderen, weil ich es nicht mehr geschafft habe ins normale BIOS rein zu kommen. Ich meine auch, dass dann irgendwann auch eine Fehlermeldung wegen der ganzen OPROMS kam. Im SAS2FLASH werden mir auch beide Controller angezeigt. Habe nur nix gefunden, wo mir auch die HDDs angezeigt werden würden.

Kommt OmniOS damit zu recht, dass plötzlich ein Controller weg ist und ein neuer auftaucht? Zwei Tage ging es ja. Was mir noch aufgefallen ist, dass beim booten bevor der Hostname und der Login in der Console auftauchen, etwas steht von "One or mor I/O devices are retired". Kann aber nicht sagen, ab wann das da stand...

@Besterino: Das Kuddelmuddel habe ich auch schon gehabt. Plötzlich waren bei den Passthrough Geräten zweimal dieselbe ID drin und ich konnte es nicht mehr ändern. Da hat dann nur rauslöschen, speichern, neu hinzufügen und wieder speichern geholfen.
 
Ok, dann ist das nur der Pool, der degraded bzw faulted ist

Also als nächstes nochmal ein LiveLinux testen, ob da beide Controller und alle HDDs auftauchen, dann nochmal im ESXi. Und falls es in beiden Fällen so ist, setz ich nochmal eine neue OmniOS VM auf. Kann ich da wieder dein Template nehmen oder sollte ich besser eine Installation machen?
 
"One or more I/O devices are retired" kann man resetten (siehe mein Oracle Link).
Wenn man OmniOS/ Solaris neu aufsetzt oder mein Template neu installiert ist der Fehler natürich auch weg.
 
GParted Live Linux sieht HDDs an beiden Controllern und erkennt diese auch korrekt.
In ESXi - wenn ich Passthrough deaktiviert habe - werden mir unter Speicher / Adapter beide Controller angezeigt
Geräte.JPG
und unter Geräte tauchen auch alle vier HDDs auf. Allerdings wird nur bei zweien die korrekte Größe angezeigt, bei zwei anderen steht da 0. Aber den Typ zeigt es korrekt an.
Adapter.JPG

Als nur beim LSI das Passthrough noch deaktiv war, hatte ich auch nur die 0er Platten. Jetzt mit dem Dell sind zwei mit Größe aufgetaucht. Wie kriege ich raus, an welchem Controller die hängen? Oder kann ich irgendwo die Seriennummer auslesen?
 
Sind die im ESXi schon enthalten? Ich weiß, welche HDDs an welcher Backplane hängen, aber ich seh im ESXi bei den Geräten nicht, wo die HDD dran hängt. Wäre interessant, ob die 0er HDDs am Dell hängen oder am M1015. Eigentlich sollte man da wohl die korrekte Größe sehen oder?

Morgen werde ich auf jeden Fall nochmal eine neue OmniOS VM erstellen und schauen, ob die die beiden Controller mit HDDs erkennt oder nicht.
 
Ich hab heute wieder alle HDDs in die Bays geschoben und in ESXi wurden dann auch alle HDDs korrekt angezeigt. Unter OmniOS hat dann wieder der zweite Controller gefehlt, nachdem ich Passthrough wieder aktiviert hatte. Hab die VM gelöscht und neu aus Geas Template erzeugt, die Controller durchgereicht und da klappt jetzt wieder alles auf Anhieb...
Werde das ganze jetzt mal beobachten, ob ich das gleiche Problem in ein paar Tagen wieder habe oder ob es jetzt endlich mal funktioniert :)

Danke an alle!
 
Totale Scheisse...

Gestern abend lief noch alles. Server runter gefahren. Heute morgen angemacht, weil ich sehen wollte, ob es immer noch klappt: in der OmniOS VM fehlen wieder die Hälfte der HDDs. Host runtergefahren, nochmal die Bays kontrolliert und wieder angemacht. Die OmniOS VM lässt sich nicht starten, weil der H200 plötzlich kein Passthrough mehr hat. Wieder aktiviert, dann kommt jetzt wieder die Meldung wegen den retired Devices und die HDDs fehlen immer noch :( :( :(
 
OmniOS/ Solaris bzw der Fehler Management Dienst fmd blockiert die Geräte wenn mehrfach Fehler auftreten.

Man kann den Fehlerhinweis zwar resetten (mit der Geräteinfo aus dem FMD/System-log siehe mein früherer Oracle Link) oder ein früheres BE booten oder aber den FMD deaktivieren. Das kuriert aber nur die Symptome, nicht die Ursache.

Was man noch versuchen könnte, wäre überall die gleiche/ neueste Firmware erneut aufzuspielen bzw Slots zu wechseln.
 
Das zurücksetzen würde nur was bringen, wenn ich auch den Pool wieder da habe. Aber der ist faulted, wenn die Hälfte der HDDs fehlt.

Firmware ist auf beiden Controllern P20 drauf. Weiter oben war auch Screenshot vom SAS2FLASH Tool.

Der H200 steckt momentan im Slot, wo früher immer der M1015 steckte und der M1015 steckt in einem neuen Slot. Aber in OmniOS werden wieder nur die HDDs angezeigt, die am M1015 hängen...

Ich installier heute OmniOS nochmal baremetal und schau, ob das morgen dann auch noch geht oder ob dann auch wieder der H200 verschwindet.
 
Das zurücksetzen würde nur was bringen, wenn ich auch den Pool wieder da habe. Aber der ist faulted, wenn die Hälfte der HDDs fehlt.

Firmware ist auf beiden Controllern P20 drauf. Weiter oben war auch Screenshot vom SAS2FLASH Tool.

Der H200 steckt momentan im Slot, wo früher immer der M1015 steckte und der M1015 steckt in einem neuen Slot. Aber in OmniOS werden wieder nur die HDDs angezeigt, die am M1015 hängen...

Ich installier heute OmniOS nochmal baremetal und schau, ob das morgen dann auch noch geht oder ob dann auch wieder der H200 verschwindet.

Zurücksetzen heißt, dass der geblockte HBA wieder aktiviert wird (Meldung "One or more I/O devices are retired" ). Man kann auch eine frühere Bootumgebung booten bei der der H200 noch nicht geblockt war. Der Pool ist dann sofort wieder online.

Beseitigt aber wie gesagt nicht die Ursache die dazu führt dass der H200 Fehler macht und dann geblockt wird, Diese Ursache muss man finden und beseitigen. Eventuell ist aber der H200 auch einfach nur defekt. Eventuell dann mal einen Lüfter drauf halten falls es ein Temperaturproblem ist.
 
Okay, dann hatte ich das missverstanden. Ich hatte es so aufgefasst, dass es da nur um die HDDs geht.

Ich hab jetzt nochmal rumgespielt und ich glaube, es ist ein Kombination aus Fehler vor dem PC und irgendwas im ESXi bzw OmniOS:
Ich habe das Problem nur, wenn ich im IPMI den Server herunter fahre. Meist drücke ich den Ein/Aus-Schalter am Gehäuse oder hab direkt im ESXi das Herunterfahren angeklickt. Aber wenn ich es über IPMI mache, ist danach der H200 in der VM weg und das Passthrough für den Controller deaktiviert.

Muss mir also angewöhnen, es nicht über das IPMI zu machen...
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh