ESXI hängt sich komplett auf

exelzur

Enthusiast
Thread Starter
Mitglied seit
01.06.2010
Beiträge
925
Moin,

Habe mal ein Problem, Mein ESXI verliert bei Last ( 2 Windows 7 Maschinen ) seine Verbindungen per Angeschlossener Tastatur kann ich den Reboot ausführen aber über das netz keine Chance.

Hier die Hardware:

2 x E5530 auf einem Supermicro X8DTH
1x 1TB Platte ( Für die VM's )
1x 120 GB SSD ( ungenutzt )
1x 60 GB SSD als Cache
20 GB Ram wird aber bald auf 32 GB gerüstet
Es ist ein Bequiet Netzteil was Leider dem SSI Standard nicht entspricht, wäre das eventuell das Problem?

Wo kann ich nachgucken warum das System seine Verbindungen verliert? bin leider ein Neuling in dem Thema. Oder Anders gesagt wie finde ich den Fehler am "besten"?

Aso ESXI 6.0.0
Also das Problem kommt immer noch mit dem Release Build 3073146

Wie kann ich nachgucken wo genau das "aufhängen" passiert?
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
ja, mangelnde Versorgung der CPU kann das Problem verursachen - ich würde hier ggf. mal nativ Windows installieren und dann mit Prime und SuperPi die ganzen Lasttests fahren - dann merkt man schnell ob das Problem auftaucht wenn die CPU volle Leistung zieht.
Wenn Du keinen Adapter hast, oder das Netzteil einfach nicht die Leistung bringt hilft nur tauschen.
 
Okay, bin mir halt nicht bewusst inwiefern die Pin belegung eine Rolle Spielt. Aktuell läuft das System mit Ultimate Boot CD, und macht einen Blend test. Keine Probleme, Ram wird nur teils 60C warm. Oder ob ESXI probleme hat...ist auf einem 4gb Stick installiert. Würde sonst zu XEN wechseln.



anbei mal die Sensor Liste:

CPU1 Temp Normal Low
CPU2 Temp Normal Low
System Temp Normal 35 degrees C
CPU1 Vcore Normal 1 Volts
CPU2 Vcore Normal 1.016 Volts
CPU1 VTT Normal 1.112 Volts
CPU2 VTT Normal 1.128 Volts
CPU1 DIMM Normal 1.52 Volts
CPU2 DIMM Normal 1.52 Volts
+1.5V Normal 1.512 Volts
+1.8V Normal 1.824 Volts
+5V Normal 5.152 Volts
+12V Normal 12.137 Volts
+1.1V Normal 1.112 Volts
+3.3V Normal 3.216 Volts
+3.3VSB Normal 3.264 Volts
VBAT Normal 3.264 Volts
Fan1 Not Available No Reading
Fan2 Not Available No Reading
Fan3 Normal 1890 RPM
Fan4 Not Available No Reading
Fan5 Normal 1755 RPM
Fan6 Normal 1620 RPM
Fan7 Normal 2160 RPM
Fan8 Normal 2295 RPM
Intrusion Detected
PS Status OK
P1-DIMM1A Temp Not Available No Reading
P1-DIMM1B Temp Not Available No Reading
P1-DIMM2A Temp Normal 56 degrees C
P1-DIMM2B Temp Not Available No Reading
P1-DIMM3A Temp Normal 56 degrees C
P1-DIMM3B Temp Not Available No Reading
P2-DIMM1A Temp Not Available No Reading
P2-DIMM1B Temp Not Available No Reading
P2-DIMM2A Temp Normal 46 degrees C
P2-DIMM2B Temp Not Available No Reading
P2-DIMM3A Temp Normal 46 degrees C
P2-DIMM3B Temp Not Available No Reading
 
Zuletzt bearbeitet:
Okay, bin mir halt nicht bewusst inwiefern die Pin belegung eine Rolle Spielt.
Wenn das Mainboard 2x8 Pin für die Stromversorgung besitzt, gibt es da schon einen Grund für. Zwei CPUs benötigen eben eine höhere Stromstärke als eine CPU, und wenn die CPU eine höhere Stromstärke zieht als das Netzteil über 2x4 Pin liefern kann, gibt es eben solche Fehler, die nur dann auftreten, wenn die CPUs durch was auch immer belastet werden und mehr Strom ziehen.

Also: Netzteil mit 2x8 Pin anschaffen, dann sehen wir weiter.
 
den Blend test kenn ich jetzt nicht, aber nicht alle Tests lasten die Systeme gleich aus - manchmal sind Systeme bei bestimmten Last-Tests stabil und sobald was anderes passiert ->zack weg.
Wie gesagt, im Zweifel würde ich erst einmal probieren, die PINs voll zu belegen, sei es mit Adaptern oder einem neuen Netzteil - danach kann man immernoch auf XEN wechseln... wobei ja nicht gesagt ist, das Dein Problem dort auch auftritt. - wenn es ein Problem mit dem Stick sein sollt, auf dem der ESXi installiert ist, würdest Du aber auch lokal an der Maschine nichts mehr ändern können.

Wenn Du sehen willst, was der ESX(i) gerade macht, kannst Du mit "Alt" + "F12" Dir das anzeigen lassen - mit "Alt" + "F2" kommst Du zum Mainscreen zurück.
 
Also der Blend test kommt von Prime95 ;)

There are several options for the torture test (menu option 15).
Small FFTs (option 1) to stress the CPU (option 1)
In-place large FFTs (option 1) to test the CPU and memory controller
Blend (option 3) is the default and constitutes a hybrid mode which stresses the CPU and RAM.


Diesen Simultantest wo CPU's und Ram gestresst werden. Diesen Test habe ich jetzt 8 Stunden laufen lassen.... Alles Top. Jetzt geht Memtest86+ ins rennen obwohl ja ECC fehler im Bios gespeichert werden müssen oder ein Event im BNC


Habe mir jetzt den Adapter bestellt bei Ama... aber so wirklich den Fehler nachproduzieren kriege ich einfach nicht hin...

Danke schon mal für die Infos, Ja der ESXI macht ja entweder garnichts mehr, oder Purple Screen wo ich mit alt f 12 nicht mehr hinkomme.
 
Schau doch mal in die Logs?
Der ESXi loggt doch diverses Zeug in seinen Logfiles. Diese sind zwar klar nach einem Reboot verschwunden, aber dafür hat der Hersteller nen Syslog Server vorgesehen -> sprich lass die Logs gegen Syslog laufen und analysier einfach die Zeiten, wo der Host abschmiert.
Ebenso wäre es möglich, die Logfiles einfach auf das lokale (oder Remote SAN/NAS) Storage zu kippen, dann bleiben sie ebenso nach dem Boot vorhanden.

Viel mehr kann man eigentlich nicht sagen.

PS: ich vermute, es liegt nicht am NT ;) Denn normal sind Dauervolllastszenarien nicht primär das Problem, da diese sowieso selten bis nicht auftreten sollten. Meine Vermutung bei der Thematik ist wenn überhaupt ein Teillastproblem. Sprich die Hütte, sofern das stimmt, könnte tendentiel bei Lastwechseln abschmieren... Sowas ist bspw. bei OC im Heimbereich teilsweise gang und gebe, da man so ein Verhalten sehr schwer nachstellen oder "hin-Primen" kann. Die Tools erzeugen ja idR alle samt Volllast, im Regulären Betrieb gibts idR aber nur Lastspitzen und dann nen Wechsel.

Ggf. sind/ist auch der Stromsparmodus ein Problem bei dir. Das könntest du temporär mal deaktivieren, zusätzlich noch im ESXi das Teil auf Höchstleistung festziehen... Dann sollte die CPU nicht mehr zwischen den verschiedenen Taktstufen hin und her schwenken. Ggf. noch den Turbo (sofern vorhanden) im Bios/UEFI deaktivieren, damit die Taktfrequenz fix bleibt und dann mal gucken...

Es gibt/gab mal Probleme mit neuerer Hardware und alten NTs bei einigen Stromspartechniken der neuen Plattformen. Ich meine das kam mit den ersten Haswell CPUs auf. Deine CPUs sind allerdings weit älter und sollten damit weniger ein Problem haben.
Was natürlich auch immer sein kann, das NT kann die Lastspitzen nicht schnell genug abfedern -> möglich zumindest. Hier hilft nur Gegentest mit einem anderen NT. Rein an den Steckern liegt es nicht. Wenn das Board nicht vorsieht, ohne 2x8Pin EPS Stecker zu booten, dann tut es das auch nicht. Warscheinlich wird einfach intern der Stecker gebrückt sein. Damit geht mehr Energie durch das 4Pin Kabel, sofern das NT aber genügend Bumms hat und diese Leistungen abdecken kann, ist das primär auch kein Problem. Wichtig dabei ist bestenfalls noch, dass die Kabel für die Leistung ausgelegt sind -> sprich werden diese warm, sollte man tunlichst das NT tauschen ;)


Purplescreen kommt auch gern mal von komischen Treibern... ;) Muss also nicht zwingend was mit Hardware zu tun haben. Leider sind die Fehlermeldungen nicht so wirklich explizit aufschlussreich. Ggf. bekommst du aber was aus den Logs raus, wenn du diese analysierst. Da sollte zumindest drin stehen, was unmittelbar vor dem Absturz passiert ist.
 
Das mit den unterschiedlichen Lastspitzen stimmt, dafür haben wir dann damals für ein paar Spezial-Systeme nativ auf der Hardware Linux bzw. Windows installiert und nach den Modifikationen dann Boinc mit unterschiedlichen Programmen laufen lassen, jede lastet hier unterschiedlich RAM und CPU aus, sodas man hier ggf. eher ein Lastszenario nachstellen kann, welches man später auch erwarten wird.
 
Purple Screen kannte ich zu genüge..das einzige, was wirklich geholfen hat, war damals ein BIOS Update.
ist das bei dir aktuell ?
 
Ja sogar das IMPI ist aktuell ;), warte immer noch auf den adapter... PCIE => CPU

Hatte jetzt mal Xen drauf und gerade teste ich mal Proxmox letzteres Super stabil. Mich lässt das gefühl nicht kalt das es mit ESXI zu tun hat.

Aber erstmal der adapter druff ;)
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh