Supermicro MBD-X11SCL-IF Mainboard: Sporadische Freezes

Als "Geheimtipp", ähnlich wie auch bei den Mellanox ConnectX-3, ConnectX-3 Pro und ConnectX-4, könnte man die ganzen OEM Varianten von HP, Dell, Cisco und Oracle hernehmen. Die werden auf eBay gerade zu verramscht und lassen sich offenbar mit wenig Aufwand auch in eine "originale" Broadcom/QLogic/Marvell umflashen.
Würde mein Freeze-Problem auch mit dem Firmware-Update der Broadcom-Karte nicht verschwinden, würde ich wohl andere LAN-Adapter kaufen müssen. Und da wäre meine Entscheidung unterdessen klar bei der Mellanox ConnectX-3 Pro oder wenn man weniger Features benötigt, die ConnectX-3. (Gehört unterdessen ja Nvidia)
Auf jeden Fall zeigt sich wieder, dass man darauf achten sollte, ob man die Karte mit aktuellen Firmware/Treiber updaten kann.

Übrigens: Gestern Abend Proxmox 8 wieder neu installiert und den top-Befehl laufengelassen. Seit über 17 Std. noch kein Freeze!
Leider kann ich den Freeze ja nicht 100% reproduzieren, aber die Wahrscheinlich nach einer OS-Installation und <12 Std. ist sehr sehr hoch.

Ich werde nun noch die anderen beiden Karten updaten (sind leider grad in Betrieb) und dann beobachten bzw. einfach davon ausgehen, dass das Problem behoben ist.
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
AARGH :poop:
Vor ein paar Minuten wieder ein Freeze bekommen!

Habe gestern die LAN-Karte auch auf meinem (eigentlich produktiven) Proxmox 1 Server aktualisiert und dann (wegen einem früheren UEFI/GRUB Bootloader-Problem) den Proxmox komplett neu installiert und die wichtigsten Basiskonfigurationen durchgeführt. (aber keine VM gestartet.)
Heute morgen wollte ich mich der weiteren Konfiguration widmen. Proxmox 1 lief da schon seit ca. 12+ Std. seit der gestrigen Neuinstallation (mit der aktualisierten LAN-Karte).
Alles sah eigentlich noch gut aus. (Auch der zweite Proxmox, den ich ja als erstes aktualisiert hatte, läuft nun bereits seit ca. 32 Std. im idle ohne Freeze.)

Als ich vorhin eine erste Test VM (Container) erstellen wollte, war dann nach einer Weile die Connection zum Proxmox weg. Und ich habs dann schon befürchtet: Im Log ist wieder ein Freeze drin. (Musste den Server neu starten.)

Somit scheint das Problem leider immer noch vorhanden zu sein. Da der Freeze ja nicht so gut zu reproduzieren ist, kann ich nicht mal sagen, ob es zumindest besser wurde oder ob das einfach Zufall war.
Dass der zweite Proxmox nach 32 Std. noch läuft, ist sicher eher ungewöhnlich von meinen bisherigen Erfahrungen. Und auch der jetzt abgestürzte Proxmox 1 Server hielt doch länger durch, als was sonst "üblich" war.
Somit könnte ich sagen, es wurde besser. Aber wirklich untermauern kann ich das leider noch nicht. Dafür habe ich noch zuwenig Fälle mit der aktualisierten LAN-Karte.
Und ob jetzt das Erstellen des Containers etwas ausgelöst hat oder das einfach zufällig von der Zeit geschah, weiss ich auch nicht.

Aber egal, ob es jetzt "besser" wurde oder nicht: Der Freeze ist immer noch da und somit sind diese Systeme für mich nicht vertrauenswürdig/stabil. Ich könnte damit leben (ging jetzt auch 1 Jahr), aber macht definitiv kein Spass.

Noch schlimmer...ich kann im Moment nicht mal 100% sagen, dass es wirklich an der LAN-Karte liegt. Ja, ich habe 2 Tests OHNE LAN-Karte durchgeführt und kein Freeze erhalten. Aber das muss nichts heissen. 2x ist halt einfach noch zuwenig, um ein Urteil zu bilden.

Wie schon in der letzten Nachricht erwähnt, werde ich nun wohl eine Mellanox ConnectX-3 Pro (oder ohne Pro) Dual 10GE (SFP+) Karte suchen (günstig) und dann erneut testen. Dies wird mich vermutlich wieder einige Zeit kosten, weil ich dann mehrere Tests über Tage durchführen möchte. Man hat ja jetzt gesehen, dass selbst 12 oder gar 32 Std. noch nicht aussagekräftig sind.

Falls jemand einen Tipp für eine solche LAN-Karte hat, die man auch auf eine aktuelle Firmware upgraden kann, dann her damit. 8-)
 
Wie schon in der letzten Nachricht erwähnt, werde ich nun wohl eine Mellanox ConnectX-3 Pro (oder ohne Pro) Dual 10GE (SFP+) Karte suchen (günstig) und dann erneut testen. Dies wird mich vermutlich wieder einige Zeit kosten, weil ich dann mehrere Tests über Tage durchführen möchte. Man hat ja jetzt gesehen, dass selbst 12 oder gar 32 Std. noch nicht aussagekräftig sind.
Je nachdem was du für die ConnectX-3 pro bezahlen würdest:

Bedenke dass es um die 90€ schon ConnectX-4 (CX4121A) gibt. Besser, schneller, weiter, neuer, etc... diesdas ;)
 
Bedenke dass es um die 90€ schon ConnectX-4 (CX4121A) gibt. Besser, schneller, weiter, neuer, etc... diesdas ;)
Bei Technologie generell bin ich sonst natürlich schon eher für das Neuere.
Aber hier konkret geht es vorallem um Stabilität. Es handelt sich ja "nur" um ein Homelab und die (Dual) 10GE sind schon mehr als schnell genug für mich. Und da ich kein Profi-Netzwerk-Engineer bin, werde ich wohl nie alle Features ausreizen (wollen).

Und eine Karte (Chipsatz), welche schon 10+ Jahre in allen Datacenter der Welt im Einsatz ist/war, ist vermutlich von der Kompatibilität und Stabilität besser, als etwas neueres. Es ist wahrscheinlich egal, ob man jetzt mit FreeBSD, Debian, CentOS oder was auch immer bootet (auch etwas ältere Kernel-Versionen), die Karte wird vermutlich out-of-the-box erkannt.
Zudem sind bei einer so alten Karte vermutlich mehr Firmware-Updates (und somit Bugfixes für auch exotischere Probleme...naja...ausser meines...hüstel hüstel) verfügbar.
Und vom etwas niedrigeren Preis wollen wir gar nicht reden. (Spielt jetzt bei einer Karte eher eine kleinere Rolle, aber wenn man dann mehrere möchte, dann schon.)

Ausser die ConnextX-4 bietet jetzt technisch einen enormen Mehrwert (für mich). Aber den sehe ich grad nicht. Mehr als 10GE brauche ich nicht.
Einzig die Hitzeentwicklung und der Stromverbrauch wären jetzt Faktoren, die mich überzeugen könnten. Aber ich vermute, dass da zwischen der 3 und 4 keine Welten liegen.


Eine ganz andere Frage:
Die Dual ConnectX-3 Pro gibt es auf eBay aus Deutschland für ca. € 79 und aus China für ca. $ 39. Deutschland wäre wohl in einigen Tagen hier, aus China dauerts meist ca. 2-3 Wochen.
Da es ja noch nicht klar ist, ob die Mellanox mein Freeze-Problem löst, möchte ich natürlich nicht sofort 3 Stück kaufen, sondern mal mit einer Karte testen. Wenn es nichts bringt, habe ich wenigstens nur eine Karte umsonst gekauft.
Da ich die Tests gerne so schnell als möglich beginnen möchte, wäre die (teurere) Wahl aus Deutschland sinnvoll. Aber wenn es dann funktionieren sollte, würde ich wohl die restlichen 2 aus China bestellen. Da warte ich dann aber wieder lange. UND es gibt ein Restrisiko, dass sich die Karten aus Deutschland und China evtl. leicht unterscheiden (vielleicht OEM vs HP etc.)
Deshalb frage ich mich, ob ich nicht grad 3 Stück aus China bestellen sollte (=ca. $117 = ca. € 110). Ich müsste zwar für die Tests länger warten, hätte aber dann bereits alles bei mir. Wenn der Test erfolgreich ist, könnte ich sofort alle verbauen. Zudem ist die Chance höher, dass alle 3 Karten bei mir gleich funktionieren (bzw. sich mit welcher Firmware auch immer, updaten lassen).
Wenn der Test wieder Freeze erzeugt, habe ich natürlich € 110 in den Sand geworfen, anstatt "nur" € 79 (und musste auch länger darauf warten.)

Weiss jemand, ob man alle ConnectX-3 Pro mit der aktuellen Nvidia Firmware updaten kann, oder ob ich dann wieder so Probleme mit der PCI Device ID bekommen werde?. Abhängig ob die Karte OEM oder HP oder was auch immer ist.? Die meisten ConnectX-3 Pro Karten auf eBay scheinen OEM (universal?) zu sein. Es tauchen aber immer mal wieder solche mit HP auf.
 
P.S.: Habe nun die 3 ConnectX-3 Pro aus China (eBay) bestellt. Werde mich hier wieder melden, wenn die eingetroffen sind. :sneaky:
 
So, wieder mal ein Lebenszeichen von mir.
Gestern kamen die 3 bestellten Mellanox ConnectX-3 Pro Karten aus China an. (paar Tage früher als angekündigt, aber so im typischen Bereich bei kostenlosen Chinaversand)

Verpackung und Inhalt wie erwartet:
mellanox1.jpg


mellanox2.jpg


Habe die Karte in mein Proxmox Node 2 Rechner installiert, der ja in den letzten Wochen zu meinem Test-Server degradiert wurde.

Beim Bonding musste ich neue NIC Namen angeben, die für mich auf den ersten Blick etwas ungewohnt waren:
1699814056065.png

(Bei der Broadcom Karte waren die Dual Ports einfach mit der Zahl 0 und 1 am Ende gekennzeichnet, hier wird beim Port 2 ein "d1" angehängt...naja...)

Konnte via NVDIA Seite die "aktuellste" Firmware runterladen und erfolgreich installieren. Die Version ist von 2.34 auf 2.42 gestiegen, aber stammt trotzdem aus dem Jahr 2017. (Da war die Broadcom Firmware etwas neuer.) Aber egal...wenn die Firmware stabil ist, muss man ja keine neue releasen. Zudem ist die Karte aus dem 2016. Das ist normal, dass das nicht mehr gross gepflegt wird. (Dafür hat sie mich auch nur $39 gekostet.)

Hier noch paar weitere Infos:
1699814337863.png


1699814361002.png


Ein iPerf3 Speed-Test zwischen Proxmox 1 Host und dem Proxmox 2 Host (über ein Switch) ergab die erwarteten Werte und unterschied sich nicht von der vorherigen Karte:
1699814531518.png

(Auch die CPU Utilization, falls die stimmt, ist praktisch identisch.)

Ich habe die Gelegenheit genutzt, noch ein Stromverbrauch mit der alten Karte und der neuen Karte zu vergleichen. Im idle Modus (Proxmox läuft, keine VMs gestartet. Kein Netzwerkverkehr.) war die Mellanox ca. 3 W höher. Während dem iPerf3 Test lagen die Werte jedoch wieder ähnlich wie bei der Broadcom-Karte.
Übrigens...zwischen idle und iPerf3 Test gönnt sich das System ca. +14 W mehr. Wieviel dabei auf das iPerf Programm (CPU) und auf die LAN-Karte geht, weiss ich nicht, da ich den Stromverbrauch des ganzen Systems gemessen habe.
Aktuell verbraucht dieser Server im Idle (Proxmox läuft, ein Debian Container und eine Windows 11 VM läuft, werden aber nicht aktiv genutzt) ca. 25-40 W (schwankend).

Das Wichtigste sind natürlich meine Freezes. Ich habe Proxmox komplett neu installiert, somit sollte ich wieder den Freeze in "einigen" Stunden forcieren können. Das letzte Mal ist es ja leider erst nach über 20 Std. geschehen, somit lasse ich mir jetzt Zeit, bevor ich mich zu früh freue.
Ich kann ja eh nicht viel machen, als mit dem System einfach so zu arbeiten, als ob es stabil wäre. Wenn der Freeze dann irgendwann kommt, dann weiss ich, dass die ganze Sache nichts gebracht hat. Dann gebe ich definitiv auf bzw. akzeptiere das Problem einfach.

Werde mich somit in den nächsten Tagen mal wieder melden. Je länger es dauert, desto höher die Chancen für ein positives Feedback. :giggle:
 
Zuletzt bearbeitet:
Danke für deinen ausführlichen Thread. Nehme ich richtig an, dass alles ohne freeze läuft, seitdem die alten Netzwerkkarten raus sind?
 
Ja, die zwei (von 3) Mellanox-Karten in den Proxmox Servern (Debian 12) habe ich bereits Mitte November ausgetauscht und seitdem keine Freezes erlebt, obwohl ich in dieser Zeit Proxmox mal aktualisierte (inkl. Kernel-Update, was ja oft erst den Freeze dann verzögert ausgelöst hat.)
Die 3. Mellanox-Karte (für meine OPNsense Firewall/Router) habe ich erst vor ein paar Tagen ausgetauscht, weil ich sehr viel Respekt davor hatte. Dieser Server ist das Herz in meinem Homelab...ohne ihn habe ich praktisch keine Connectivity. Zudem läuft OPNsense ja auf FreeBSD, was nochmals etwas einschränkend bezüglich Tools/Treiber ist.)
Mit etwas Biegen und Brechen (Mellanox-Karte wurde unter FreeBSD zwar erkannt, aber die Treiber nicht geladen) hab ich es dann doch hingekriegt. Seit dem läuft also auch mein OPNsense-Server mit der Mellanox-Karte. (Ein grösserer OPNsense Update musste ich noch nicht machen, somit kann ich noch nicht viel über Freeze-Erfahrungen berichten. Bin aber sehr zuversichtlich.)

Alle 3 Karten wurden auf die neueste Firmware upgedated (NVIDIA Firmware, aber Stand 2017). Denke aber nicht, dass es zwingend nötig gewesen wäre.
Die Mellanox-Karten funktionieren bis jetzt (vorallem Erfahrungen mit Debian) eigentlich genau gleich gut wie die Broadcom-Karten. Also von der Performance (iPerf3) bekomme ich die gleichen 10Gbs Werte, wie bei den alten Karten.
Die Mellanox-Karten verbrauchen aber etwas mehr Strom (ca. 5-10W mehr als die Broadcom-Karten, vorallem unter Last), was für mich ein kleiner Mangel ist, da ich eigentlich recht stolz auf den geringen Stromverbrauch dieses Supermicro-Servers war. Bei 3 Karten sind das dann halt doch wieder fast 30W mehr Verbrauch im Rack, ohne ein Mehrwert gegenüber der Broadcom-Karten (ausser keine Freezes mehr :ROFLMAO:).
Aber tja...ich kann damit leben.

Mein bisheriges Fazit: Beide Karten sind zwar alt, aber günstig zu bekommen und sicher eine ausgezeichnete Wahl für 10GE (sogar Dual-Port).
Ich würde die Broadcom-Karten leicht bevorzugen, da sie weniger Strom verbrauchen und auch unter FreeBSD ohne eine Anpassung sofort geladen werden. Zudem gibt es etwas neuere Firmware (2021). Der Firmware-Update Prozess ist jedoch recht kompliziert. Leider haben aber diese Karte bei mir ja dieses Freeze-Problem. Das muss natürlich nicht bei jeder Hardware-Konfiguration auftreten. Bei meinem Supermicro-Mainboard war es leider der Fall. (Und ich hatte letzthin sogar in meinem TrueNAS-Server mit einem ganz anderen Fujitsu-Mainboard auch das allererste mal ein Freeze! Also offenbar nicht nur mit Supermicro.)
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh