Wieder mal was neues von meiner Seite.
Zuerst eher eine weitere Bestätigung und keine News:
Am Wochenende habe ich endlich mal meine OPNsense Firewall von 22.7.11 auf 23.7.6 upgedated, was ein Major Update (mit mehreren Reboots) bedeutete.
Bekanntlich läuft meine OPNsense auch auf einem dieser 3 Supermicro Boards. Den letzten Freeze hatte ich dort vor fast einem Jahr, obwohl die Firewall in dieser Zeit 24h in Betrieb war. Also sehr stabil. Der Unterschied hier lag daran, dass ich eben nie einen grösseren Update durchgeführt habe und das ist ja unterdessen DAS Merkmal für ein Freeze zu erhalten.
Und tja, was soll ich sagen? Schon während dem Update (es waren mehrere Zwischenschritte nötig) gabs ein Freeze! Nicht, dass mich das jetzt überraschte. Aber dass es so schnell kam war etwas unüblich. (Seit diesem Freeze läuft das Teil wieder normal stabil...und so wird es wohl auch bleiben, bis ich wieder ein OS-Update durchführen muss.)
Also nur so am Rande, dass die Freeze auch dort immer noch geschehen. (Und dies ist ja FreeBSD und nicht Debian/Ubuntu)
Nun aber wieder zu meinem (immer noch) Proxmox-Testserver. Eigentlich bin ich ja praktisch alle kritischen Komponenten durchgegangen bzw. habe sie ersetzt/aktualisiert (Memory, CPU und auch BIOS). Ohne Erfolg.
Gestern kam mir aber doch noch was in den Sinn: In allen drei Supermicro Servern habe ich die gleiche PCI-Netzwerkkarte verbaut (und auch im Einsatz): Eine
Broadcom NetXtreme II BCM57810 Dual 10 Gigabit Ethernet Karte. In allen 3 Systemen habe ich diese Karte als Bonding konfiguriert und nie Probleme (Stabilität oder Performance) bemerkt. Sowohl FreeBSD (OPNsense), wie auch Proxmox (Debian) oder Ubuntu haben die Karte automatisch erkannt und ich musste nur das Bonding konfigurieren.
Etwas, was in allen 3 betroffenen Systemen vorkommt, müsste man eigentlich ins Troubleshooting aufnehmen. Ich habe diese Karte aber eigentlich nie in Verdacht gehabt. Vermutlich, weil sie ja normal funktionierte.
Also habe ich sie gestern mal aus dem Test-Server entfernt und danach Proxmox wieder mal komplett neu installiert (um den Freeze zu forcieren) und am Ende mein top-Befehl gestartet und bin dann ins Bett.
Erste Erkenntnis:
Nach 15 Std. uptime ohne diese Karte habe ich noch kein Freeze erhalten! Ich denke, der wäre längst überfällig. Natürlich ist dieser eine Test jetzt noch nicht ausschlaggebend, aber gibt mir doch wieder etwas Hoffnung. (Aktuell installiere ich grad Fedora Server auf diesem Server, damit ich auch mal noch ein weiteres Linux getestet habe.)
Wenn ich dann morgen Abend (nach weiteren 12-15 Std.) immer noch kein Freeze habe, würde diese Karte langsam zum Hauptverdächtigen werden.
Obwohl ich noch kein abschliessendes Urteil fällen kann, mache ich mir natürlich schon mal meine ersten Gedanken:
- Die Karte war bei allen Freezes in dem jeweiligen System eingebaut. (Aber nicht immer war das Netzwerk konfiguriert! Dies spielt offenbar keine Rolle.)
- Bei einer solchen Karte können zwei Dinge buggy sein: Die Firmware oder der (Linux) Treiber. Mein Gefühl geht eher in Richtung Firmware, denn die Treiber waren ja immer unterschiedlich: (FreeBSD 1 Jahr alt/aktuell, Debian 1 Jahr alt/aktuell, Ubuntu 1 Jahr alt/aktuell). Das würde mich wundern, wenn ALLE diese Treiber immer den gleichen Bug hätten. Hingegen die Firmware (in der Karte) wäre ja bei allen 3 Karten identisch und evtl. veraltet, weil es diese Karten schon einige Jahre gibt.
- (Gerade noch in den Sinn gekommen!) Könnten die eingesteckten SFP+ Module evtl. auch eine Rolle spielen und vielleicht gar nicht die Karte selber??
Leider sehe ich bezüglich Firmware-Update die Chancen eher schlecht, weil es eine OEM-Karte ist. BCM57810 wurde zuerst von der Firma Broadcom und dann später von der Firma Qlogic gebrandet. (Marvell ist glaub auch noch involviert)
Dieser Chip (oder Karte) wird auch von Dell, HP und früher glaub Lenovo verkauft. Deshalb findet man im Internet leider viele, sehr unterschiedliche Referenzen. Welche (aktuelle) Firmware ich aber jetzt wo finde und ob sie überhaupt bei meiner Karte funktioniert, ist schwierig zu sagen und könnte eine grosse Herausforderung werden. Zumindest bin ich da noch nicht wirklich fündig geworden.
Zuerst werde ich jetzt mal weiter testen, damit ich wirklich keine Freezes mehr sehe und dann wohl diese Karte als Ursache bezeichnen kann. Das wäre natürlich ein Riesenfortschritt und würde das Problem MASSIV eingrenzen. Aber gelöst hätte ich es natürlich noch nicht.
Hier schon vorab noch paar Infos zu dieser Karte (vom produktiven Proxmox/Debian System):