[Sammelthread] Der 100Gbit Netzwerk Thread, ein bisschen 40gbit und „beyond“ ;)

Da musst du nix machen. Wenn ein QSFP+ Modul drin steckt ist der -1 Port 40GB und -2 -3 -4 sind inaktiv. Wenn ein Breakoutkabel im Port steckt sind -1 -2 -3 und -4 10GB Ports.
Dann erkennt mein proxmox das nicht vernünftig :(
Was muss ich tun damit die beiden physischen ports im proxmox als einzelne pcie devices auftauchen?
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Was muss ich tun damit die beiden physischen ports im proxmox als einzelne pcie devices auftauchen?
als... pcie devices? Was hast du vor? Willst du Ports direkt an VMs durchreichen? Dann brauchst du virtual functions und SR-IOV


Bist du sicher dass enp6s0 und enp6s0d1 die richtigen devices sind? Bei mir haben ConnectX Karten im Proxmox üblicherweise längere Namen, ich müsste aber schauen ob das für ConnectX-3 auch so ist.
 
Hast Du denn schon einen? :d
Nein, aber ich "brauche" ja (derzeit) keinen ;)
Ich quäle mich tatsächlich mit der Direktverbindung rum, via CWDM-Module auf simplex-OS2-LC. Geht, geht nicht, geht... Dauert manchmal eine gute Stunde, bis die stabile und dauerhafte Verbindung steht. Evtl. ist ja nur ein Kabel nicht in Ordnung, aber bin noch zu faul für intensive Fehlersuche. In den letzten Wochen stand das allgemeine Hardwareupgrade der Workstation im Vordergrund, also vielleicht in den kommenden Wochen wieder 100G als Thema ;)

Edit: Evtl ist der was für Dich?
6x40G+2x100G
 
Zuletzt bearbeitet:
Einen Mellanox SN2100 (16x100G, irgendwo 35W IDLE wenn ich mich recht entsinne) kriegt man, wenn man auf der Hut ist, ein paar Mal im Jahr so um die 1000€-1200€ gebraucht... Das ist mE der deutlich bessere Deal, also das Mikroshit Ding. Wenn man schon ~800€ in einen 100G Switch investiert, dann lieber noch ein paar Monate länger mit 10G rumkrebsen, als das Geld so zu verbrennen :)
Wenn du mal einen siehst für den Kurs, gerne in den Marktplatzlinkthread hauen und hier vermerken, der kann dann sicherlich auch 4x25G Breakout, was für mich sehr interessant und lecker wäre.
 
…4x Breakout (25 oder 10gb) kann angeblich der „Mikroshit“ auch…
 
…4x Breakout (25 oder 10gb) kann angeblich der „Mikroshit“ auch…
Ich kauf mir aber keinen halbgaren Murksotik für 700 Tacken, mir gehts eher um Features als Ports, und die Features beim Mikro gehen oftmals nicht oder nicht in Hardware. Der Melli kann RoCE und Openflow, neben anderen Nettigkeiten wie MP-BGP (eher selten bei Switchen), ist der einfach superior im Vergleich zum CRS504.
 
als... pcie devices? Was hast du vor? Willst du Ports direkt an VMs durchreichen? Dann brauchst du virtual functions und SR-IOV


Bist du sicher dass enp6s0 und enp6s0d1 die richtigen devices sind? Bei mir haben ConnectX Karten im Proxmox üblicherweise längere Namen, ich müsste aber schauen ob das für ConnectX-3 auch so ist.
Ja, schon ziemlich. Ich hab jetzt pro physischem Port eine VF aktiviert, inkl SR-IOV:
lspci | grep Ethernet
Code:
04:00.0 Ethernet controller: Intel Corporation I210 Gigabit Network Connection (rev 03)
05:00.0 Ethernet controller: Intel Corporation I210 Gigabit Network Connection (rev 03)
06:00.0 Ethernet controller: Mellanox Technologies MT27500 Family [ConnectX-3]
06:00.1 Ethernet controller: Mellanox Technologies MT27500/MT27520 Family [ConnectX-3/ConnectX-3 Pro Virtual Function]
06:00.2 Ethernet controller: Mellanox Technologies MT27500/MT27520 Family [ConnectX-3/ConnectX-3 Pro Virtual Function]
24:00.0 Ethernet controller: Intel Corporation I350 Gigabit Network Connection (rev 01)
24:00.1 Ethernet controller: Intel Corporation I350 Gigabit Network Connection (rev 01)
24:00.2 Ethernet controller: Intel Corporation I350 Gigabit Network Connection (rev 01)
24:00.3 Ethernet controller: Intel Corporation I350 Gigabit Network Connection (rev 01)
61:00.0 Ethernet controller: Intel Corporation 82599ES 10-Gigabit SFI/SFP+ Network Connection (rev 01)
61:00.1 Ethernet controller: Intel Corporation 82599ES 10-Gigabit SFI/SFP+ Network Connection (rev 01)

Unter ip a s sieht das ganze dann so aus:
Code:
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 scope host lo
valid_lft forever preferred_lft forever
inet6 ::1/128 scope host 
valid_lft forever preferred_lft forever
2: eno1: <NO-CARRIER,BROADCAST,MULTICAST,UP> mtu 1500 qdisc mq state DOWN group default qlen 1000
link/ether 3c:ec:ef:43:d8:5a brd ff:ff:ff:ff:ff:ff
altname enp4s0
3: eno2: <BROADCAST,MULTICAST> mtu 1500 qdisc noop state DOWN group default qlen 1000
link/ether 3c:ec:ef:43:d8:5b brd ff:ff:ff:ff:ff:ff
altname enp5s0
4: enp36s0f0: <BROADCAST,MULTICAST> mtu 1500 qdisc noop state DOWN group default qlen 1000
link/ether a0:36:9f:50:f3:74 brd ff:ff:ff:ff:ff:ff
5: enp36s0f1: <BROADCAST,MULTICAST> mtu 1500 qdisc noop state DOWN group default qlen 1000
link/ether a0:36:9f:50:f3:75 brd ff:ff:ff:ff:ff:ff
6: enp36s0f2: <BROADCAST,MULTICAST> mtu 1500 qdisc noop state DOWN group default qlen 1000
link/ether a0:36:9f:50:f3:76 brd ff:ff:ff:ff:ff:ff
7: enp36s0f3: <BROADCAST,MULTICAST> mtu 1500 qdisc noop state DOWN group default qlen 1000
link/ether a0:36:9f:50:f3:77 brd ff:ff:ff:ff:ff:ff
8: enp97s0f0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc mq master vmbr0 state UP group default qlen 1000
link/ether 00:1b:21:bc:f4:48 brd ff:ff:ff:ff:ff:ff
9: enp97s0f1: <BROADCAST,MULTICAST> mtu 1500 qdisc noop state DOWN group default qlen 1000
link/ether 00:1b:21:bc:f4:4a brd ff:ff:ff:ff:ff:ff
10: enp6s0: <BROADCAST,MULTICAST> mtu 1500 qdisc noop state DOWN group default qlen 1000
link/ether 00:02:c9:3b:3d:60 brd ff:ff:ff:ff:ff:ff
11: enp6s0d1: <BROADCAST,MULTICAST> mtu 1500 qdisc noop state DOWN group default qlen 1000
link/ether 00:02:c9:3b:3d:61 brd ff:ff:ff:ff:ff:ff
12: enp6s0v0: <BROADCAST,MULTICAST> mtu 1500 qdisc noop state DOWN group default qlen 1000
link/ether 42:b7:75:e8:67:44 brd ff:ff:ff:ff:ff:ff
13: enp6s0v1: <BROADCAST,MULTICAST> mtu 1500 qdisc noop state DOWN group default qlen 1000
link/ether 16:42:1f:96:e4:39 brd ff:ff:ff:ff:ff:ff
14: vmbr0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default qlen 1000
link/ether 00:1b:21:bc:f4:48 brd ff:ff:ff:ff:ff:ff
inet 10.10.0.11/24 scope global vmbr0
valid_lft forever preferred_lft forever
inet6 fe80::21b:21ff:febc:f448/64 scope link 
valid_lft forever preferred_lft forever
Beide ports sind laut switch connected, aber warum ist der Status "DOWN"?

Was für eine 40GB Karte ist denn im Proxmox drin? Einige Mellanox QSFP Karten gehen nur als 10GB Ethernet Karten. Einige lassen sich auch umflashen.
Mellanox Technologies MT27500 Family [ConnectX-3]
 
Ich hatte doch bereits geschrieben um was für eine Karte es sich handelt? Dein Post verwirrt mich...
Es ist eine MCX314A, derzeit geflasht auf CX534A-FCBT
 
Sorry für den Doppelpost, aber mit korrekten SRIOV und firmware settings habe ich jetzt:
Eine aktive Verbindung im Proxmox, diese wird mir angezeigt als "Network Device" in der Gui, und eine aktive Verbindung in TrueNAS, diese wird mir angezeigt als 40Gbase-CR4.
Hab jetzt mal iperf 3 laufen lassen und bin dann doch etwas ratlos:
Code:
Accepted connection from 10.10.0.12, port 37989
[  5] local 10.10.0.74 port 5201 connected to 10.10.0.12 port 50689
[ ID] Interval           Transfer     Bitrate
[  5]   0.00-1.00   sec   954 MBytes  8.00 Gbits/sec                 
[  5]   1.00-2.00   sec   950 MBytes  7.97 Gbits/sec                 
[  5]   2.00-3.00   sec   842 MBytes  7.06 Gbits/sec                 
[  5]   3.00-4.00   sec   731 MBytes  6.13 Gbits/sec                 
[  5]   4.00-5.00   sec   890 MBytes  7.47 Gbits/sec                 
[  5]   5.00-6.00   sec   726 MBytes  6.09 Gbits/sec                 
[  5]   6.00-7.00   sec   895 MBytes  7.51 Gbits/sec                 
[  5]   7.00-8.00   sec   938 MBytes  7.86 Gbits/sec                 
[  5]   8.00-9.00   sec   855 MBytes  7.18 Gbits/sec                 
[  5]   9.00-10.00  sec  1.04 GBytes  8.95 Gbits/sec                 
[  5]  10.00-10.00  sec  1.49 MBytes  7.48 Gbits/sec
 
Für 40G in iperf muss man schon an ein paar Stellschrauben drehen und einen aktuellen, schnellen Prozzi verwenden.
 
40G hatte ich nicht erwartet - aber ein iperf mit den ebenfalls vorhandenen 10Gbit Nics liefert mir Werte zwischen 9,7 und 9,9 - wenigstens die hatte ich eigentlich erwartet. Um Deutlich über 20 zu kommen gilt dann (gefühlt) das was du sagst, aber besser als 10 sollte es schon sein.
Client ist proxmox, ein AMD Epyc 7551p, Server ist eine TrueNAS VM auf diesem proxmox laufend mit 4 Cores. Und für 10g reichts halt vollkommen.
 
Gerade bei den 1st gen Epyc musst du auf die IOMMU Gruppen und Core - PCIe Zuordnungen achten.
 
Beide VF "Devices" sind in eigenen IOMMU Groups. Analog auch zu den 10Gbit Verbindungen. Darauf hatte ich Acht gegeben.
Worauf (und wie) muss ich denn beim Thema core -PCIe Zuordnung achten? Davon lese ich gerade zum ersten Mal, klärt mich auf!
 
Beide VF "Devices" sind in eigenen IOMMU Groups. Analog auch zu den 10Gbit Verbindungen. Darauf hatte ich Acht gegeben.
Worauf (und wie) muss ich denn beim Thema core -PCIe Zuordnung achten? Davon lese ich gerade zum ersten Mal, klärt mich auf!
Naja, beim 1st Gen Epyc gibts noch kein NUMA/keinen IO-Die, die PCIe Interfaces hängen direkt an den CCDs, wenn du jetzt von einem Core auf ein PCIe Device wie deine NIC zugreifst, kann es bei falscher Zuordnung sein, das er erst über einen anderen CCD gehen muss als den „Eigenen“.
 
Aaaaa verstanden - das würde sogar meine Schwankungen in der ohnehin schlechten Performances erklären, und könnte erklären warum die 10Gbits so rennen. Kann ich das beeinflussen?
 
beim 1st Gen Epyc gibts noch kein NUMA
Alles was ich nicht zitiert habe ist meines Wissens nach richtig, aber am Folgenden störe ich mich:
NUMA steht für Non Uniform Memory Access. Also genau das Problem, was Naples ganz besonders ausgeprägt hatte, weil sich an jedem der vier Chips zwei Speicherkanäle befinden und sich das System bei den Speicherzugriffslatenzen sehr ähnlich zu einem4-Sockel Intel System aus der Zeit verhält. Man hat also trotz nur einem Sockel ein System mit vier NUMA-Nodes.
 
Alles was ich nicht zitiert habe ist meines Wissens nach richtig, aber am Folgenden störe ich mich:
NUMA steht für Non Uniform Memory Access. Also genau das Problem, was Naples ganz besonders ausgeprägt hatte, weil sich an jedem der vier Chips zwei Speicherkanäle befinden und sich das System bei den Speicherzugriffslatenzen sehr ähnlich zu einem4-Sockel Intel System aus der Zeit verhält. Man hat also trotz nur einem Sockel ein System mit vier NUMA-Nodes.
Ich hätte mich präziser Ausdrücken sollen, es sind natürlich wie du sagst 4 NUMA Nodes anstatt nur einem wie bei Rome/Milan. Wobei sich das bei Rome und Milan auch auf mehrere NUMA Nodes einstellen lässt.
 
So! Der 100gbit „Murksishit“ ist soeben eingetroffen:

IMG_3043.jpeg


Bis es richtig losgeht, dauert es aber noch. Muss erstmal testen, ob meine vorhandenen 100g Transceiver mit dem funktionieren, dann auch noch mal Transceiver nachbestellen und dann mal Stück für Stück testen… Zielsetup ist, 2 Kisten per 100g plus 4x10g per Breakout-Kabel anzubinden. Wahrscheinlich kann ich dann auch das ein oder andere Teil aus dem Netzwerkschrank entfernen (looking at you, 10Gbit-Switches). Problem: aktuell nur wenig Zeit für sowas.

Positive Überraschung: das Ding ist anscheinend semi-passiv, ohne Transceiver ist er zumindest schonmal lautlos. ;)
 
Hmmmm. 700€ für 2x100G + 8x10G…. Ja, da könnte bei mir auch ein 10G-Switch raus. 25W idle und 41W Max klingt ganz gut. Bin gespannt!
 
Erste Erkenntnis: Das Ding kann wohl kein RDMA.

Zweite Erkenntnis: Er frisst FS-gebrandete Transceiver

Dritte Erkenntnis: Mir fehlen Transceiver. Wenn ich zu Testzwecken versuche, auf der einen Seite einen 100gbit Port über den Management Port mit 100mbit zu bestücken, klappt Ping und DHCP, aber ansonsten nicht viel. :d Gut… bei Faktor 1000 Puffern zu müssen, verschluckt sich der Switch bzw. NIC wohl... iSCSI spackt jedenfalls.
 
Hast recht, war nicht präzise: er funktioniert mit den Transceivern. =)
 
Bin endlich mal etwas zum Spielen gekommen:

Switch ist im Rack und die ersten 2 Verbindungen verkabelt.

Der größte Vorteil ggü. der vorherigen Direktverbindung ist (für mich) der Folgende:
1. Der Mellanox-Solaris-Treiber mag kein SR-IOV.
2. Reicht man aber einen oder beide Ports der NIC per PCIe-Passthrough durch, mag Solaris es nicht, wenn der Link offline geht - was er aber logischerweise immer tut, wenn die Gegenstelle (Desktop/Workstation) nicht eingeschaltet ist. Heisst: Solaris nimmt (präziser: "nahm" als ich das das letzte Mal getestet habe) den Link offline und aus mir nicht erklärlichen Gründen nicht automatisch wieder online, wenn die Gegenstelle wieder da war. Ergebnis war, dass ich unter Solaris nur die Hauseigenen virtuellen VMNET3 nehmen konnte. Bottlenecked bei ca. 2GB/s.

Durch den Switch als Gegenstelle bleibt der link online und Solaris fühlt sich dauerhaft wohl.
Mit einem Port jetzt per PCIE-Passthrough in Solaris hab ich jetzt auch schonmal 3GB/s durch's Kabel flitzen sehen. Für mehr scheint mein Storage aktuell zu lahm zu sein: jedenfalls die CPU-Auslastung in der Storage-VM schießt auf 100%,... immer diese dämlichen Flaschenhälse...

Demnächst mal schauen, was sich da noch tunen lässt.
 
Die zwei Edge Core AS7716-32X stehen jetzt übrigens zum Verkauf, 2x Mellanox SX6036 gebe ich im gleichen Zuge auch noch mit ab, nachdem ich festgestellt habe, dass es da in speziellen Active-Active Routing Konstellationen einen nervigen Softwarebug gibt.
Ich glaube ich kann die Switche hier nicht in den Marktplatz einstellen, sonst gibt's wieder Haue von den Mods.
 
Wieso sollte es Haue geben?
 
Jupp, ist leider so. Ich biete meine Sachen auch nur noch bei STH und Kleinanzeigen an…
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh