Hallo Zusammen
Für mein Homelab (19" Rack im Keller) habe ich im Herbst 2022 u.a. 3 Stk. SuperMicro MBD-X11SCL-IF Mainboards gekauft. Alle 3 Boards haben die gleiche CPU/RAM/Lüfter/10GE Karte verbaut. Es ist das aktuellste BIOS installiert (vom 2022).
BIOS-Settings sind default.
Auf einem Board läuft OPNsense und auf den beiden anderen Proxmox (Cluster).
Seit Beginn erlebe ich immer wieder Komplett-Freezes. Bei allen 3 Boards. (Muss das Board jeweils resetten. Immerhin geht das auch über IPMI.)
Bei der Erstinstallation hatte ich es einmal. Da dachte ich mir noch nicht viel dabei. Dann lief es viele Wochen stabil. Plötzlich wieder ein Freeze aus heiterem Himmel.
Da es recht selten passiert, konnte ich noch kein wirkliches Muster erkennen. Es geschah aber mal in der Aufstartphase, mal im IDLE-Mode, mal beim Updaten von Files. Aber meines Wissens nicht wirklich unter Volllast. (Ich habe zu Beginn auch ein Burn-In durchgeführt, den alle 3 Boards ohne Probleme überstanden haben. Also Memory und CPU scheinen eigentlich ok zu sein.)
Heute wollte ich meine beiden Proxmox-Installationen auf Version 8 updaten. Und da habe ich nun an einem Abend schon 2 Freezes (pro Motherboard) gesehen. z.T. erst 15 Min. nach dem Reboot und ohne Last (keine VMs aktiv).
Einziger Anhaltspunkt ist das "Health-Log", welches ich via IPMI anzeigen lassen kann. Dort sehe ich zumindest den Freeze, aber leider ohne weitere Infos. Hier ein Beispiel eines dieser Logs:
CATERR steht glaub für "Catastrophic Error"
Der Quelle, die diesen Fehler gemeldet hat, ist der Prozessor. Aber eben...mehr weiss ich nicht. Ist der Prozessor der Auslöser oder einfach der, der als letztes dem IPMI noch etwas meldet?
Im Internet habe ich leider nichts dazu gefunden.
Bei meiner CPU handelt es sich um ein Intel i3-9300T, da dieser noch ECC unterstützt. Die T-Variante ist nicht sehr verbreitet. Es sollte aber die stromsparendste sein.
Da das Problem leider nicht reproduzierbar ist und manchmal monatelang nicht auftritt, kann ich auch schwer nach dem Ausschlussverfahren einfach Komponenten austauschen. (Abgesehen davon, dass dies auch recht ins Geld geht.)
Ich weiss, die Chancen sind bei diesen Infos sehr klein. Aber hat evtl. jemand Ideen, wie man das besser eingrenzen könnte? Oder wo man unter Debian evtl. Logs findet, die kurz vor dem Freeze geschrieben wurden und möglicherweise eine heisse Spur ergeben.
Bin um jeden Input dankbar!
Für mein Homelab (19" Rack im Keller) habe ich im Herbst 2022 u.a. 3 Stk. SuperMicro MBD-X11SCL-IF Mainboards gekauft. Alle 3 Boards haben die gleiche CPU/RAM/Lüfter/10GE Karte verbaut. Es ist das aktuellste BIOS installiert (vom 2022).
BIOS-Settings sind default.
Auf einem Board läuft OPNsense und auf den beiden anderen Proxmox (Cluster).
Seit Beginn erlebe ich immer wieder Komplett-Freezes. Bei allen 3 Boards. (Muss das Board jeweils resetten. Immerhin geht das auch über IPMI.)
Bei der Erstinstallation hatte ich es einmal. Da dachte ich mir noch nicht viel dabei. Dann lief es viele Wochen stabil. Plötzlich wieder ein Freeze aus heiterem Himmel.
Da es recht selten passiert, konnte ich noch kein wirkliches Muster erkennen. Es geschah aber mal in der Aufstartphase, mal im IDLE-Mode, mal beim Updaten von Files. Aber meines Wissens nicht wirklich unter Volllast. (Ich habe zu Beginn auch ein Burn-In durchgeführt, den alle 3 Boards ohne Probleme überstanden haben. Also Memory und CPU scheinen eigentlich ok zu sein.)
Heute wollte ich meine beiden Proxmox-Installationen auf Version 8 updaten. Und da habe ich nun an einem Abend schon 2 Freezes (pro Motherboard) gesehen. z.T. erst 15 Min. nach dem Reboot und ohne Last (keine VMs aktiv).
Einziger Anhaltspunkt ist das "Health-Log", welches ich via IPMI anzeigen lassen kann. Dort sehe ich zumindest den Freeze, aber leider ohne weitere Infos. Hier ein Beispiel eines dieser Logs:
CATERR steht glaub für "Catastrophic Error"
Der Quelle, die diesen Fehler gemeldet hat, ist der Prozessor. Aber eben...mehr weiss ich nicht. Ist der Prozessor der Auslöser oder einfach der, der als letztes dem IPMI noch etwas meldet?
Im Internet habe ich leider nichts dazu gefunden.
Bei meiner CPU handelt es sich um ein Intel i3-9300T, da dieser noch ECC unterstützt. Die T-Variante ist nicht sehr verbreitet. Es sollte aber die stromsparendste sein.
Da das Problem leider nicht reproduzierbar ist und manchmal monatelang nicht auftritt, kann ich auch schwer nach dem Ausschlussverfahren einfach Komponenten austauschen. (Abgesehen davon, dass dies auch recht ins Geld geht.)
Ich weiss, die Chancen sind bei diesen Infos sehr klein. Aber hat evtl. jemand Ideen, wie man das besser eingrenzen könnte? Oder wo man unter Debian evtl. Logs findet, die kurz vor dem Freeze geschrieben wurden und möglicherweise eine heisse Spur ergeben.
Bin um jeden Input dankbar!