X9DR3-F CPLD CATERR - Asserted

Steggi

Enthusiast
Thread Starter
Mitglied seit
31.12.2010
Beiträge
3.483
Nabend,

seit gestern macht einer meiner ESXi Hosts gehörig Zicken.

Ausgangssituation:

SM X9DR3-F, aktuelles BIOS & IPMI Firmware, 2x Xeon E5-2680, 160GB RAM, Areca 1231ML via Passthrough an VM durchgereicht, ESXi 6.0 aktueller Patchlevel.

Das ganze lief bis gestern problemlos. Dann gab es allerdings in der VM, an die der Controller durchgereicht wurde I/O Error beim Zugriff auf das RAID 10, dass der Areca bereitstellt. Ein Zugriff auf den Controller über seine eingebaute NIC endete im Timeout.
VM ausgeschaltet, Controller wieder erreichbar. VM wieder eingeschaltet, Controller immer noch erreichbar. Soweit so gut.

Dann folgen im Laufe des heutigen Tages sporadische Freezes des gesamten ESXi Hosts.
Im Event Log vom IPMI gibts dann die folgenden Fehler

cpldcaterr8cuqi.png


Dieser Fehler wird, soweit ich das reproduzieren konnte, anscheinend fast immer dann erzeugt, wenn der ESXi die VM starten will, die den Areca Controller durchgereicht bekommt.

Was ich bereits gemacht habe:

Memtest über die 160GB RAM --> ohne Fehler
RAM komplett ausgetauscht --> Die neuen 128GB laufen nach einer Stunde Memtest bis jetzt auch ohne Fehler
ESXi 6.5 auf einem anderen Stick frisch installiert --> Freezed auch
RAID Controller raus --> Host freezed nicht mehr
Controller + Laufwerke auf einem anderen Board (ohne ESXi dazwischen) --> läuft stabil

Was ich vielleicht noch erwähnen sollte, das Board hat schon seit dem ich es habe (gebraucht), die Angewohnheit nach einem Kaltstart oder Reset mit "System Initializing... 2F" im POST hängen zu bleiben und ich muss einen Reset machen, damit es dann läuft. Angeblich ein Problem mit dem RAM, dass ich aber nicht nachvollziehen kann. Memtest meldet keine Fehler und Kingston garantiert mir, dass die KVR13LR9D4/16HM auf dem Brett laufen.

Hab so langsam das Gefühl, dass das Board jetzt einen weg hat :(
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Spaßeshalber den Controller noch in eine andere vm schieben. Evtl hat die VM ne Macke. Aber das ist nur rimstochern.
Alternativ - um einfach den Fehlerteufel weiter einzugrenzen spaßeshalber Mal mit nem anderem hypervisor testen.

Gesendet von meinem XT1635-02 mit Tapatalk
 
Zuletzt bearbeitet:
Hallo

interessanterweise habe ich bei einem Server ein ähnliches Problem mit ähnlicher Ausstattung.

Supermicro X9DRI-F , Areca 1883

Lief bis letzte Woche problemlos, dann plötzlich unregelmäßig CPLD CATERR Fehler im IPMI Log , alle VMs Host reagiert nur noch auf Reset.

Das Einzige was ich in letzter Zeit "geändert" habe, war VEEAM 9.5 zu aktualisieren.
RAM hatte ich getauscht, das kann es nicht sein.
ESX gestern auf 6.5 geupdatet, bislang lein Hänger, aber das hat nichts zu sagen, tritt so einmal am Tag auf

Setz du hier auch VEEAM ein ?
 
Zuletzt bearbeitet:
Spaßeshalber den Controller noch in eine andere vm schieben.

Hab ich bis jetzt noch nicht probiert, kann ich aber nachher in ner ruhigen Minute mal testen.

Alternativ - um einfach den Fehlerteufel weiter einzugrenzen spaßeshalber Mal mit nem anderem hypervisor testen.

Kann mir zwar nicht wirklich vorstellen, was der ESXi damit als Hypervisor da jetzt ganz plötzlich für ein Problem verursachen soll, lief ja seit Ewigkeiten, aber kann ich ja auch mal probieren

Supermicro X9DRI-F

Bis auf die fehlenden SCU, die das X9DR3-F noch mitbringt, ist das Brett identisch mit meinem. Die SCU ist bei mir übrigens deaktiviert, seit dem der Areca anfang des Jahres eingebaut wurde.

ESX gestern auf 6.5 geupdatet, bislang lein Hänger, aber das hat nichts zu sagen, tritt so einmal am Tag auf

Also ohne das du das auf bestimmte Aktionen eingrenzen kannst? Bei mit freezed der Host (und alle VMs die da sonst schon/noch drauf laufen) sobald die VM eingeschaltet wird, die den Controller durchgereicht bekommt.

Setz du hier auch VEEAM ein ?

Nein, aber auf der besagen VM teste ich seit etwa 3 Wochen Arcserve UDP 6.5
Da die VM den Host aber bereits abschießt, während die VM eigentlich ihren POST machen sollte, und damit das OS der VM noch gar nicht läuft, schätze ich mal nicht, dass es ein Problem mit Software innerhalb der VM ist.
 
Hier mal die Ergebnisse der Tests von heute Abend mit frischem ESXi 6.5, RAM in Minimalbestückung (2x 16GB DIMMs pro CPU) sowie CMOS und IPMI Reset.
Die VM, an die die Hardware durchgereicht wird, ist ebenfalls neu angelegt (allerdings ohne OS).

Areca Controller in andere VM durchreichen --> Host freezed
Areca 1231ML durch Areca 1280ML ausgetauscht (baugleicher Controller mit 24 statt 12 Ports) --> Host freezed
CPUs untereinander getauscht --> Host freezed
Controller in anderem PCIe Slot (CPU2) --> Host freezed
Controller in anderem PCIe Slot (CPU1) --> Host freezed
Qlogic FC HBA an VM durchgereicht (CPU1) --> Host freezed + PSOD
LSI 8344 an VM durchgereicht (CPU2) --> Läuft auch nach dem 5ten AN/AUS der VM noch
Onboard SCU an VM durchgereicht --> Läuft auch nach dem 5ten AN/AUS der VM noch
FC HBA + LSI 8344 + SCU an VM durchgereicht --> Läuft, endet aber nach einigen Sekunden in einem weiteren PSOD

*SEUFZ* So langsam gehen mir die Ideen aus :wut:
 
Lösung gefunden :)

Man logge sich via SSH / Shell auf dem ESXi ein, und füge folgenden Einzeiler in die Datei /etc/vmware/passthru.map ein um einen Areca Controller crashfrei durchzureichen.

Code:
17d3  ffff  d3d0   false

Zur Erklärung der Datei:

# passthrough attributes for devices
# file format: vendor-id device-id resetMethod fptShareable
# vendor/device id: xxxx (in hex) (ffff can be used for wildchar match)
# reset methods: flr, d3d0, link, bridge, default
# fptShareable: true/default, false

Fragt mich bitte nicht, warum das Passthrough von heut auf Morgen nicht mehr funktionierte, da der Host ja schon länger unter 6.0 lief, aber mit dieser Lösung klappts jetzt zumindest wieder (reproduzierbar unter 6.0 und 6.5) :)

Es scheint wohl ein generelles Problem seit ESXi 6.x zu sein, dass das Passthrough Probleme bereitet.
Siehe hier --> ESXi 6.0 U2, Passthrough Video Card, Hang/Freeze |VMware Communities
Oder hier --> VM with passthrough entire ESXi box when shutdown/rebooting guest | ServeTheHome and ServeThe.Biz Forums
Oder hier --> VM with passthrough entire ESXi box when shutdown/rebooting guest | [H]ard|Forum
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh