[Sammelthread] Der 100Gbit Netzwerk Thread, ein bisschen 40gbit und „beyond“ ;)

Zu langsam :( Beim im 1. Post verlinkten ebay Angebot gibt es keine Karten mehr. Werde die Entwicklung hier mal weiterverfolgen und die Daumen drücken, dass es mal wieder so ein Angebot gibt.
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
@Spawn182: jau, einfach zu viele Verrückte hier. :d

Also iperf3 nur auf'm Localhost wo die Karte nur im x8-Slot steckt geht sogar bis 70Gbit hoch

iperf_CentOS_70gbit.jpg

Momentan versuche ich gerade, auf dem anderen Rechner ein Live-Linux ans Laufen zu bekommen... Schande auf mein Haupt, aber mit diesem neumodischen Netzwerkstack werde ich noch nicht so richtig warm... ICH WILL MEIN IFCONFIG! ;)

- - - Updated - - -

Man entschuldige meine Ausdrucksweise: YEAH BITCHES!

>40Gbit zwischen Host1 (CentOS) und Host2 (Ubuntu) ohne jegliches Tuning:
Ubuntu_CentOS_40Gbit.jpg

Womit sich jetzt die Frage stellt, ob tatsächlich der x8 jetzt limitiert... ;)

Kleiner Zusatztest: ESXi wieder auf dem Pentium mit Solaris 11.3 als VM über vmxnet3-Adapter kommt auf Anhieb mit iperf (nicht iperf3 - hab ich noch nicht unter Solaris installiert bekommen) auf 20gbit.
 
Zuletzt bearbeitet:
beim localhost-only ging das evtl. durch das lo-device und nicht durch die Karte. Oder die Erfassung fand innerhalb des Chips statt und ging gar nicht über den PCIe? Ist jedenfalls nicht möglich. Schon theoretisch ist bei 7,8Gb/s Schluss.
kannste mal ethtool {NIC} posten?
 
Dein Wunsch ist mir Befehl. Ausgabe ethtool im Spoiler. Das ist die Ausgabe, vom Rechner mit dem x16 Slot und unter Ubuntu 18.04 Desktop.

Code:
Settings for enp1s0f0:
	Supported ports: [ FIBRE ]
	Supported link modes:   10000baseKR/Full 
	                        40000baseKR4/Full 
	                        40000baseCR4/Full 
	                        40000baseSR4/Full 
	                        40000baseLR4/Full 
	                        25000baseCR/Full 
	                        25000baseKR/Full 
	                        25000baseSR/Full 
	                        50000baseCR2/Full 
	                        50000baseKR2/Full 
	                        100000baseKR4/Full 
	                        100000baseSR4/Full 
	                        100000baseCR4/Full 
	                        100000baseLR4_ER4/Full 
	Supported pause frame use: Symmetric
	Supports auto-negotiation: Yes
	Supported FEC modes: Not reported
	Advertised link modes:  10000baseKR/Full 
	                        40000baseKR4/Full 
	                        40000baseCR4/Full 
	                        40000baseSR4/Full 
	                        40000baseLR4/Full 
	                        25000baseCR/Full 
	                        25000baseKR/Full 
	                        25000baseSR/Full 
	                        50000baseCR2/Full 
	                        50000baseKR2/Full 
	                        100000baseKR4/Full 
	                        100000baseSR4/Full 
	                        100000baseCR4/Full 
	                        100000baseLR4_ER4/Full 
	Advertised pause frame use: Symmetric
	Advertised auto-negotiation: Yes
	Advertised FEC modes: Not reported
	Link partner advertised link modes:  Not reported
	Link partner advertised pause frame use: No
	Link partner advertised auto-negotiation: Yes
	Link partner advertised FEC modes: Not reported
	Speed: 100000Mb/s
	Duplex: Full
	Port: FIBRE
	PHYAD: 0
	Transceiver: internal
	Auto-negotiation: on
	Supports Wake-on: d
	Wake-on: d
	Current message level: 0x00000004 (4)
			       link
	Link detected: yes

Echt doof - hab irgendwie keinen Rechner gerade über, wo noch ein PCIe x16 frei wäre. :(
 
Zuletzt bearbeitet:
Nur dass wir uns da richtig verstehen: ich erwarte von den anderen Käufern hier schon Feedback, ob und ggf. unter welchen Bedingungen bei Euch welche Speed ankommt, gelle? :d

Sonst muss ich doch noch irgendwo ein zweites System shanghaien...
 
jaja.... kommt schon noch. Die Karten liegen einfach noch ein paar km entfernt...
 
Du, ich will einfach nur Gewissheit, dass ich nicht allein bin... ;)
 
Ich hab neulich auch mal drüber nachgedacht. Anlass waren bei mir die kommenden Optane NVDIMMs. Warum überrascht es mich nicht, dass ich damit nicht alleine bin und andere, darunter übliche Verdächtige, schon angefangen haben? :d
 
Zuletzt bearbeitet:
So, ich versuche mal in den wenigen Minuten zwischendurch voranzukommen und ergänze diesen Post entsprechend im Verlauf.

Die Karten sind angekommen, wie beschrieben verschweißt und optisch ohne Nutzungsspuren, also tatsächlich neu. Bei StH wurde behauptet, es seien "CX456B"-Modelle, die Mellanox selbst nicht vertreibt. Die von besterino verlinkte PDF zeigt auch als einzige die PSID 3240110033. Spätere Firmwaretabellen zeigen sie nicht mehr. Gleichwohl werde ich später noch ein Crossflash probieren.

TestPC1: Asrock X99E4, E5-2650v4ES, 4x8GB RAM-2133rECC; Installation in x16-Slot. Windows 2012R2 und Ubuntu 18.04 DualBoot.
TestPC2: Dell T630, E5-2630v3, 4x8GB RAM-2133ECC; Installation in x16-Slot. Ubuntu Server 18.04

Aus der Mellanox Firmware-Logik heraus (12.xx.xxxx) ist zumindest schon zu sehen, dass es sich nur um eine ConnectX4 VPI oder EN handeln muss. WinOF2 ist erst ab Firmware 12.23.xxxx vorgesehen, die aktuelle der Karte ist 12.17.2052. Treiber läuft trotzdem, außerdem soll ja eine aktuelle FW später drauf.

Test1: Win2012R2 an Ubuntu Server, 40Gbit QSFP-Module (unbekannter Hersteller leider, Intel-kompatibel) und MTP-Kabel Direktlink
Module werden sofort erkannt und korrekt auf 40Gbit Linkspeed gesetzt.

1) Ubuntu = iperf3 -s; Windows iperf3 -c; Original-Firmware 12.17.2052.
Code:
Accepted connection from 192.168.6.201, port 49649
[  5] local 192.168.6.230 port 5201 connected to 192.168.6.201 port 49650
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-1.00   sec  1.57 GBytes  13.5 Gbits/sec
[  5]   1.00-2.00   sec  1.86 GBytes  16.0 Gbits/sec
[  5]   2.00-3.00   sec  1.77 GBytes  15.2 Gbits/sec
[  5]   3.00-4.00   sec  1.84 GBytes  15.8 Gbits/sec
[  5]   4.00-5.00   sec  1.86 GBytes  16.0 Gbits/sec
[  5]   5.00-6.00   sec  1.82 GBytes  15.6 Gbits/sec
[  5]   6.00-7.00   sec  1.87 GBytes  16.0 Gbits/sec
[  5]   7.00-8.00   sec  1.82 GBytes  15.6 Gbits/sec
[  5]   8.00-9.00   sec  1.74 GBytes  14.9 Gbits/sec
[  5]   9.00-10.00  sec  1.76 GBytes  15.1 Gbits/sec
[  5]  10.00-10.05  sec  62.0 MBytes  11.4 Gbits/sec
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth
[  5]   0.00-10.05  sec  0.00 Bytes  0.00 bits/sec                  sender
[  5]   0.00-10.05  sec  18.0 GBytes  15.4 Gbits/sec                  receiver

2) Richtungsänderung: Windows = iperf3 -s, Ubuntu Server "-c":
Code:
Connecting to host 192.168.6.201, port 5201
[  4] local 192.168.6.230 port 32984 connected to 192.168.6.201 port 5201
[ ID] Interval           Transfer     Bandwidth       Retr  Cwnd
[  4]   0.00-1.00   sec  1.96 GBytes  16.8 Gbits/sec    0    297 KBytes
[  4]   1.00-2.00   sec  2.06 GBytes  17.7 Gbits/sec    0    297 KBytes
[  4]   2.00-3.00   sec  2.26 GBytes  19.4 Gbits/sec    0    297 KBytes
[  4]   3.00-4.00   sec  2.39 GBytes  20.5 Gbits/sec    0    297 KBytes
[  4]   4.00-5.00   sec  2.37 GBytes  20.4 Gbits/sec    0    297 KBytes
[  4]   5.00-6.00   sec  2.39 GBytes  20.5 Gbits/sec    0    297 KBytes
[  4]   6.00-7.00   sec  2.40 GBytes  20.6 Gbits/sec    0    297 KBytes
[  4]   7.00-8.00   sec  2.39 GBytes  20.5 Gbits/sec    0    297 KBytes
[  4]   8.00-9.00   sec  2.38 GBytes  20.5 Gbits/sec    0    297 KBytes
[  4]   9.00-10.00  sec  2.40 GBytes  20.6 Gbits/sec    0    297 KBytes
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth       Retr
[  4]   0.00-10.00  sec  23.0 GBytes  19.8 Gbits/sec    0             sender
[  4]   0.00-10.00  sec  23.0 GBytes  19.8 Gbits/sec                  receiver

3) Mit -P8, also acht gleichzeitigen Streams bei Iperf3, kommt das auf 30-33Gbit/s. Das ist ja schon allmählich in der Zielgeraden. Außerdem war hierfür die Firmware auf die neuere 12.21.xxxx DELL-Version geflasht.
Code:
[SUM]   0.00-10.03  sec  0.00 Bytes  0.00 bits/sec                  sender
[SUM]   0.00-10.03  sec  38.7 GBytes  33.1 Gbits/sec                  receiver

So. Musste eben nochmal neu Ubuntu auf meinem PC installieren...
Sieht schon ganz anders aus:
4) Ubuntu Desktop 18.10 zu Ubuntu Server 18.04.1 LTS; immer noch die neuer DELL-Firmware
Code:
Connecting to host 192.168.6.230, port 5201
[  5] local 192.168.6.201 port 37414 connected to 192.168.6.230 port 5201
[ ID] Interval           Transfer     Bitrate         Retr  Cwnd
[  5]   0.00-1.00   sec  1.78 GBytes  15.3 Gbits/sec   51   1.41 MBytes       
[  5]   1.00-2.00   sec  4.37 GBytes  37.5 Gbits/sec    0   1.41 MBytes       
[  5]   2.00-3.00   sec  4.35 GBytes  37.3 Gbits/sec    0   1.41 MBytes       
[  5]   3.00-4.00   sec  4.38 GBytes  37.6 Gbits/sec    0   1.41 MBytes       
[  5]   4.00-5.00   sec  4.32 GBytes  37.1 Gbits/sec    0   1.41 MBytes       
[  5]   5.00-6.00   sec  4.37 GBytes  37.5 Gbits/sec    0   1.41 MBytes       
[  5]   6.00-7.00   sec  4.36 GBytes  37.4 Gbits/sec    0   1.41 MBytes       
[  5]   7.00-8.00   sec  4.36 GBytes  37.5 Gbits/sec    0   1.41 MBytes       
[  5]   8.00-9.00   sec  4.36 GBytes  37.5 Gbits/sec    0   1.41 MBytes       
[  5]   9.00-10.00  sec  4.26 GBytes  36.6 Gbits/sec    0   1.41 MBytes       
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bitrate         Retr
[  5]   0.00-10.00  sec  40.9 GBytes  35.1 Gbits/sec   51             sender
[  5]   0.00-10.00  sec  40.9 GBytes  35.1 Gbits/sec                  receiver
Sichtbar braucht eine der CPUs ein wenig Zeit zum Hochtakten. Evtl ist das unter Windows das Problem bei diesem Test?
Das Ganze nochmal mit MTU 9014 gesetzt:
Code:
root@balu:~# ifconfig ens6f1 mtu 9014
root@balu:~# iperf3 -c 192.168.6.230
Connecting to host 192.168.6.230, port 5201
[  5] local 192.168.6.201 port 37482 connected to 192.168.6.230 port 5201
[ ID] Interval           Transfer     Bitrate         Retr  Cwnd
[  5]   0.00-1.00   sec  3.99 GBytes  34.3 Gbits/sec    0   2.08 MBytes       
[  5]   1.00-2.00   sec  4.42 GBytes  37.9 Gbits/sec    0   2.08 MBytes       
[  5]   2.00-3.00   sec  4.32 GBytes  37.1 Gbits/sec    0   2.08 MBytes       
[  5]   3.00-4.00   sec  4.56 GBytes  39.2 Gbits/sec    0   2.08 MBytes       
[  5]   4.00-5.00   sec  4.56 GBytes  39.1 Gbits/sec    0   3.05 MBytes       
[  5]   5.00-6.00   sec  4.47 GBytes  38.4 Gbits/sec    0   3.05 MBytes       
[  5]   6.00-7.00   sec  4.52 GBytes  38.8 Gbits/sec    0   3.05 MBytes       
[  5]   7.00-8.00   sec  4.56 GBytes  39.2 Gbits/sec    0   3.05 MBytes       
[  5]   8.00-9.00   sec  4.00 GBytes  34.4 Gbits/sec    0   3.05 MBytes       
[  5]   9.00-10.00  sec  4.45 GBytes  38.2 Gbits/sec    0   3.05 MBytes       
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bitrate         Retr
[  5]   0.00-10.00  sec  43.9 GBytes  37.7 Gbits/sec    0             sender
[  5]   0.00-10.00  sec  43.9 GBytes  37.7 Gbits/sec                  receiver
Insofern würde ich mal von einem 40Gbit-Erfolg reden.
 
Zuletzt bearbeitet:
Cool!

Was bekommst Du denn Netto übers Kabel, mit iperf(3) o.ä.?
 
Bin noch nicht soweit... muss Kind füttern....
nicht so ungeduldig...;)
edit: UND ins Bett bringen...
 
Zuletzt bearbeitet:
Hehe. Gutes Nächtle an den Nachwuchs! So viel Zeit muss sein!
 
@danielmayer: wäre Dir dankbar, wenn Du im Zusammenhang mit dem crossflash einmal postest, welche Firmware, device ID usw. Deine Karte vorher (und nachher) hat.

Meine ist aktuell (nur auf aktuelle Dell-FW geflashed):

mlxfwmanager

Code:
c:\Program Files\Mellanox\WinMFT>mlxfwmanager
Querying Mellanox devices firmware ...

Device #1:
----------

  Device Type:      ConnectX4
  Part Number:      00272F_0HWTYK_Ax
  Description:      Mellanox ConnectX-4 Dual Port 100 GbE QSFP Network Adapter
  PSID:             DEL3240110033
  PCI Device Name:  mt4115_pciconf0
  Base GUID:        [REDACTED]
  Base MAC:         [REDACTED]
  Versions:         Current        Available
     FW             12.21.3012     N/A
     PXE            3.5.0305       N/A
     UEFI           14.14.0032     N/A

  Status:           No matching image found

mlxconfig -d mt4115_pciconf0 query

Code:
c:\Program Files\Mellanox\WinMFT>mlxconfig -d mt4115_pciconf0 query

Device #1:
----------

Device type:    ConnectX4
Name:           N/A
Description:    N/A
Device:         mt4115_pciconf0

Configurations:                              Next Boot
         MEMIC_BAR_SIZE                      0
         MEMIC_SIZE_LIMIT                    _256KB(1)
         ROCE_NEXT_PROTOCOL                  254
         NON_PREFETCHABLE_PF_BAR             False(0)
         NUM_OF_VFS                          8
         FPP_EN                              True(1)
         SRIOV_EN                            False(0)
         PF_LOG_BAR_SIZE                     5
         VF_LOG_BAR_SIZE                     0
         NUM_PF_MSIX                         63
         NUM_VF_MSIX                         11
         INT_LOG_MAX_PAYLOAD_SIZE            AUTOMATIC(0)
         CQE_COMPRESSION                     BALANCED(0)
         IP_OVER_VXLAN_EN                    False(0)
         MKEY_BY_NAME                        False(0)
         LRO_LOG_TIMEOUT0                    6
         LRO_LOG_TIMEOUT1                    7
         LRO_LOG_TIMEOUT2                    8
         LRO_LOG_TIMEOUT3                    12
         LOG_DCR_HASH_TABLE_SIZE             14
         DCR_LIFO_SIZE                       16384
         ROCE_CC_PRIO_MASK_P1                255
         ROCE_CC_ALGORITHM_P1                ECN(0)
         ROCE_CC_PRIO_MASK_P2                255
         ROCE_CC_ALGORITHM_P2                ECN(0)
         CLAMP_TGT_RATE_AFTER_TIME_INC_P1    True(1)
         CLAMP_TGT_RATE_P1                   False(0)
         RPG_TIME_RESET_P1                   300
         RPG_BYTE_RESET_P1                   32767
         RPG_THRESHOLD_P1                    1
         RPG_MAX_RATE_P1                     0
         RPG_AI_RATE_P1                      5
         RPG_HAI_RATE_P1                     50
         RPG_GD_P1                           11
         RPG_MIN_DEC_FAC_P1                  50
         RPG_MIN_RATE_P1                     1
         RATE_TO_SET_ON_FIRST_CNP_P1         0
         DCE_TCP_G_P1                        1019
         DCE_TCP_RTT_P1                      1
         RATE_REDUCE_MONITOR_PERIOD_P1       4
         INITIAL_ALPHA_VALUE_P1              1023
         MIN_TIME_BETWEEN_CNPS_P1            0
         CNP_802P_PRIO_P1                    6
         CNP_DSCP_P1                         48
         CLAMP_TGT_RATE_AFTER_TIME_INC_P2    True(1)
         CLAMP_TGT_RATE_P2                   False(0)
         RPG_TIME_RESET_P2                   300
         RPG_BYTE_RESET_P2                   32767
         RPG_THRESHOLD_P2                    1
         RPG_MAX_RATE_P2                     0
         RPG_AI_RATE_P2                      5
         RPG_HAI_RATE_P2                     50
         RPG_GD_P2                           11
         RPG_MIN_DEC_FAC_P2                  50
         RPG_MIN_RATE_P2                     1
         RATE_TO_SET_ON_FIRST_CNP_P2         0
         DCE_TCP_G_P2                        1019
         DCE_TCP_RTT_P2                      1
         RATE_REDUCE_MONITOR_PERIOD_P2       4
         INITIAL_ALPHA_VALUE_P2              1023
         MIN_TIME_BETWEEN_CNPS_P2            0
         CNP_802P_PRIO_P2                    6
         CNP_DSCP_P2                         48
         LLDP_NB_DCBX_P1                     False(0)
         LLDP_NB_RX_MODE_P1                  ALL(2)
         LLDP_NB_TX_MODE_P1                  ALL(2)
         LLDP_NB_DCBX_P2                     False(0)
         LLDP_NB_RX_MODE_P2                  ALL(2)
         LLDP_NB_TX_MODE_P2                  ALL(2)
         DCBX_IEEE_P1                        True(1)
         DCBX_CEE_P1                         True(1)
         DCBX_WILLING_P1                     True(1)
         DCBX_IEEE_P2                        True(1)
         DCBX_CEE_P2                         True(1)
         DCBX_WILLING_P2                     True(1)
         KEEP_ETH_LINK_UP_P1                 True(1)
         KEEP_IB_LINK_UP_P1                  False(0)
         KEEP_LINK_UP_ON_BOOT_P1             False(0)
         KEEP_LINK_UP_ON_STANDBY_P1          False(0)
         KEEP_ETH_LINK_UP_P2                 True(1)
         KEEP_IB_LINK_UP_P2                  False(0)
         KEEP_LINK_UP_ON_BOOT_P2             False(0)
         KEEP_LINK_UP_ON_STANDBY_P2          False(0)
         NUM_OF_VL_P1                        _4_VLs(3)
         NUM_OF_TC_P1                        _8_TCs(0)
         NUM_OF_PFC_P1                       8
         NUM_OF_VL_P2                        _4_VLs(3)
         NUM_OF_TC_P2                        _8_TCs(0)
         NUM_OF_PFC_P2                       8
         DUP_MAC_ACTION_P1                   LAST_CFG(0)
         SRIOV_IB_ROUTING_MODE_P1            GID(0)
         IB_ROUTING_MODE_P1                  LID(1)
         DUP_MAC_ACTION_P2                   LAST_CFG(0)
         SRIOV_IB_ROUTING_MODE_P2            GID(0)
         IB_ROUTING_MODE_P2                  LID(1)
         MULTI_PORT_VHCA_EN                  False(0)
         PORT_OWNER                          True(1)
         ALLOW_RD_COUNTERS                   True(1)
         RENEG_ON_CHANGE                     True(1)
         TRACER_ENABLE                       False(0)
         BOOT_UNDI_NETWORK_WAIT              0
         BOOT_DBG_LOG                        False(0)
         UEFI_HII_EN                         True(1)
         UEFI_LOGS                           DISABLED(0)
         BOOT_VLAN                           1
         LEGACY_BOOT_PROTOCOL                NONE(0)
         BOOT_RETRY_CNT                      NONE(0)
         BOOT_LACP_DIS                       False(0)
         BOOT_VLAN_EN                        False(0)
         BOOT_PKEY                           0
         ADVANCED_PCI_SETTINGS               False(0)

Was mich vor dem crossflash u.a. noch zurückhält ist der Umstand, dass die Dell eigentlich keine Infiniband/Ethernet Kombi-Karte ist, die bei STH angegebene aber schon.
 
Zuletzt bearbeitet:
Möchte als ambitionierter Laie nicht trollen, aber wo liegt denn bei den Karten der Flaschenhals, was die realen Transferraten angeht?

Finde die Werte um 20 Gb etwas ernüchternd, wenn ich den Vergleich zu Intel XL710ern (40 GbE) ziehe, die ohne RDMA (würde bei Intel iWARP heißen) bei Systemen mit E3-Xeons etwa 30 Gb bringen (unter Windows über SMB).
 
Bisher war das beste, was ich rausbekommen hab ja 40gbit. Glaub Ubuntu ist out-of-the-Box jedenfalls nicht ideal - da komme ich auch nur auf ~20gbit.

Wenn ich wüsste wo der Flaschenhals liegt, wäre ich ja schon glücklich. ;)

Ich habe die Befürchtung, es liegt eventuell auch an meiner eigenen Unfähigkeit, bin ja selbst kein Profi.
 
Update im Post above...
Ich gehe noch an die Infiniband-Unterstützung ran.
 
Dankeschön!

Zum Crossflash: Ich bin echt nicht sicher, was für Karten das jetzt sind. Es könnten allein aufgrund der Portzahl (2) und Linespeed (100gbit) m.E. sowohl die Mellanox ConnectX®-4 EN: MCX416A-CCAT (nur Ethernet) als auch die Mellanox ConnectX®-4 VPI: MCX456A-ECAT (Infiniband+Ethernet) sein.

Da die Dell von Haus aus aber keine Unterstützung von IB mitbringt, vermute ich mal, dass es eher die EN und nicht die VPI ist?
 
Part 2: Crossflashing und Infiniband

besterino hat soweit Recht, dass mit der original-Dell-Firmware Infiniband deaktiviert ist. Die Optionen "LINK_TYPE_P1" bzw. "P2" sind nicht verfügbar. Alle Infiniband-Tools zeigen zwar die Ports an, jedoch mit Link_Layer "Ethernet". Also mal das Flashen auf CX456A-ECAT durchführen und schauen.

Crossflashing ist unter Linux mit dem Befehl "flint -d /dev/mst/mt4115_pciconf0 -i fw-ConnectX4-rel-12_23_1020-MCX456A-ECA_Ax-UEFI-14.16.17-FlexBoot-3.5.504.bin -allow_psid_change burn" eine einfache Sache gewesen. Nach einen Reboot sieht die Karte tatsächlich schon etwas anders aus:

root@balu:~# mlxconfig -d /dev/mst/mt4115_pciconf0 q
Code:
Device #1:
----------

Device type:    ConnectX4       
Name:           N/A             
Description:    N/A             
Device:         /dev/mst/mt4115_pciconf0

Configurations:                              Next Boot
         MEMIC_BAR_SIZE                      0               
         MEMIC_SIZE_LIMIT                    _256KB(1)       
         FLEX_PARSER_PROFILE_ENABLE          0               
         FLEX_IPV4_OVER_VXLAN_PORT           0               
         ROCE_NEXT_PROTOCOL                  254             
         NON_PREFETCHABLE_PF_BAR             False(0)        
         NUM_OF_VFS                          0               
         FPP_EN                              True(1)         
         SRIOV_EN                            False(0)        
         PF_LOG_BAR_SIZE                     5               
         VF_LOG_BAR_SIZE                     1               
         NUM_PF_MSIX                         63              
         NUM_VF_MSIX                         11              
         INT_LOG_MAX_PAYLOAD_SIZE            AUTOMATIC(0)    
         SW_RECOVERY_ON_ERRORS               False(0)        
         RESET_WITH_HOST_ON_ERRORS           False(0)        
         CQE_COMPRESSION                     BALANCED(0)     
         IP_OVER_VXLAN_EN                    False(0)        
         MKEY_BY_NAME                        False(0)        
         LRO_LOG_TIMEOUT0                    6               
         LRO_LOG_TIMEOUT1                    7               
         LRO_LOG_TIMEOUT2                    8               
         LRO_LOG_TIMEOUT3                    13              
         LOG_DCR_HASH_TABLE_SIZE             14              
         DCR_LIFO_SIZE                       16384           
         LINK_TYPE_P1                        ETH(2)          
         LINK_TYPE_P2                        IB(1)           
         ROCE_CC_PRIO_MASK_P1                255             
         ROCE_CC_ALGORITHM_P1                ECN(0)          
         ROCE_CC_PRIO_MASK_P2                255             
         ROCE_CC_ALGORITHM_P2                ECN(0)          
         CLAMP_TGT_RATE_AFTER_TIME_INC_P1    True(1)         
         CLAMP_TGT_RATE_P1                   False(0)        
         RPG_TIME_RESET_P1                   300             
         RPG_BYTE_RESET_P1                   32767           
         RPG_THRESHOLD_P1                    1               
         RPG_MAX_RATE_P1                     0               
         RPG_AI_RATE_P1                      5               
         RPG_HAI_RATE_P1                     50              
         RPG_GD_P1                           11              
         RPG_MIN_DEC_FAC_P1                  50              
         RPG_MIN_RATE_P1                     1               
         RATE_TO_SET_ON_FIRST_CNP_P1         0               
         DCE_TCP_G_P1                        1019            
         DCE_TCP_RTT_P1                      1               
         RATE_REDUCE_MONITOR_PERIOD_P1       4               
         INITIAL_ALPHA_VALUE_P1              1023            
         MIN_TIME_BETWEEN_CNPS_P1            0               
         CNP_802P_PRIO_P1                    6               
         CNP_DSCP_P1                         48              
         CLAMP_TGT_RATE_AFTER_TIME_INC_P2    True(1)         
         CLAMP_TGT_RATE_P2                   False(0)        
         RPG_TIME_RESET_P2                   300             
         RPG_BYTE_RESET_P2                   32767           
         RPG_THRESHOLD_P2                    1               
         RPG_MAX_RATE_P2                     0               
         RPG_AI_RATE_P2                      5               
         RPG_HAI_RATE_P2                     50              
         RPG_GD_P2                           11              
         RPG_MIN_DEC_FAC_P2                  50              
         RPG_MIN_RATE_P2                     1               
         RATE_TO_SET_ON_FIRST_CNP_P2         0               
         DCE_TCP_G_P2                        1019            
         DCE_TCP_RTT_P2                      1               
         RATE_REDUCE_MONITOR_PERIOD_P2       4               
         INITIAL_ALPHA_VALUE_P2              1023            
         MIN_TIME_BETWEEN_CNPS_P2            0               
         CNP_802P_PRIO_P2                    6               
         CNP_DSCP_P2                         48              
         LLDP_NB_DCBX_P1                     False(0)        
         LLDP_NB_RX_MODE_P1                  OFF(0)          
         LLDP_NB_TX_MODE_P1                  OFF(0)          
         LLDP_NB_DCBX_P2                     False(0)        
         LLDP_NB_RX_MODE_P2                  OFF(0)          
         LLDP_NB_TX_MODE_P2                  OFF(0)          
         DCBX_IEEE_P1                        True(1)         
         DCBX_CEE_P1                         True(1)         
         DCBX_WILLING_P1                     True(1)         
         DCBX_IEEE_P2                        True(1)         
         DCBX_CEE_P2                         True(1)         
         DCBX_WILLING_P2                     True(1)         
         KEEP_ETH_LINK_UP_P1                 True(1)         
         KEEP_IB_LINK_UP_P1                  False(0)        
         KEEP_LINK_UP_ON_BOOT_P1             False(0)        
         KEEP_LINK_UP_ON_STANDBY_P1          False(0)        
         KEEP_ETH_LINK_UP_P2                 True(1)         
         KEEP_IB_LINK_UP_P2                  False(0)        
         KEEP_LINK_UP_ON_BOOT_P2             False(0)        
         KEEP_LINK_UP_ON_STANDBY_P2          False(0)        
         NUM_OF_VL_P1                        _4_VLs(3)       
         NUM_OF_TC_P1                        _8_TCs(0)       
         NUM_OF_PFC_P1                       8               
         NUM_OF_VL_P2                        _4_VLs(3)       
         NUM_OF_TC_P2                        _8_TCs(0)       
         NUM_OF_PFC_P2                       8               
         DUP_MAC_ACTION_P1                   LAST_CFG(0)     
         SRIOV_IB_ROUTING_MODE_P1            LID(1)          
         IB_ROUTING_MODE_P1                  LID(1)          
         DUP_MAC_ACTION_P2                   LAST_CFG(0)     
         SRIOV_IB_ROUTING_MODE_P2            LID(1)          
         IB_ROUTING_MODE_P2                  LID(1)          
         PCI_WR_ORDERING                     per_mkey(0)     
         MULTI_PORT_VHCA_EN                  False(0)        
         PORT_OWNER                          True(1)         
         ALLOW_RD_COUNTERS                   True(1)         
         RENEG_ON_CHANGE                     True(1)         
         TRACER_ENABLE                       True(1)         
         IP_VER                              IPv4(0)         
         BOOT_UNDI_NETWORK_WAIT              0               
         BOOT_DBG_LOG                        False(0)        
         UEFI_HII_EN                         False(0)        
         UEFI_LOGS                           DISABLED(0)     
         BOOT_VLAN                           1               
         LEGACY_BOOT_PROTOCOL                PXE(1)          
         BOOT_RETRY_CNT                      NONE(0)         
         BOOT_LACP_DIS                       True(1)         
         BOOT_VLAN_EN                        False(0)        
         BOOT_PKEY                           0               
         EXP_ROM_UEFI_ARM_ENABLE             False(0)        
         EXP_ROM_UEFI_x86_ENABLE             False(0)        
         EXP_ROM_PXE_ENABLE                  True(1)         
         ADVANCED_PCI_SETTINGS               False(0)        
         SAFE_MODE_THRESHOLD                 10              
         SAFE_MODE_ENABLE                    True(1)
Und man sehe: Beide Ports sind jetzt per Standard auf "Infiniband" gesetzt.

Mit dem Befehl "mlxconfig -d /dev/mst/mt4115_pciconf0 set LINK_TYPE_P1=2" lässt sich nun jeder Port wieder auf Ethernet setzen (=1 wäre Infiniband).
Ich lasse mal einen so und den anderen so:
Code:
root@balu:~# mlxconfig -d /dev/mst/mt4115_pciconf0 q | grep LINK
         LINK_TYPE_P1                        ETH(2)          
         LINK_TYPE_P2                        IB(1)           
         KEEP_ETH_LINK_UP_P1                 True(1)         
         KEEP_IB_LINK_UP_P1                  False(0)        
         KEEP_LINK_UP_ON_BOOT_P1             False(0)        
         KEEP_LINK_UP_ON_STANDBY_P1          False(0)        
         KEEP_ETH_LINK_UP_P2                 True(1)         
         KEEP_IB_LINK_UP_P2                  False(0)        
         KEEP_LINK_UP_ON_BOOT_P2             False(0)        
         KEEP_LINK_UP_ON_STANDBY_P2          False(0)
ibstat sagt nun:
Code:
CA 'mlx5_0'
	CA type: MT4115
	Number of ports: 1
	Firmware version: 12.23.1020
	Hardware version: 0
	Node GUID: 0x248a070300b597a2
	System image GUID: 0x248a070300b597a2
	Port 1:
		State: Down
		Physical state: Disabled
		Rate: 40
		Base lid: 0
		LMC: 0
		SM lid: 0
		Capability mask: 0x04010000
		Port GUID: 0x268a07fffeb597a2
		Link layer: Ethernet
CA 'mlx5_1'
	CA type: MT4115
	Number of ports: 1
	Firmware version: 12.23.1020
	Hardware version: 0
	Node GUID: 0x248a070300b597a3
	System image GUID: 0x248a070300b597a2
	Port 1:
		State: Down
		Physical state: Polling
		Rate: 10
		Base lid: 65535
		LMC: 0
		SM lid: 0
		Capability mask: 0x2650e848
		Port GUID: 0x248a070300b597a3
		Link layer: InfiniBand
oben hatte ich die Ports noch verwechselt, nach einem Umstecken des Transceivers sieht das nun mit "ibstatus" so aus:
Code:
Infiniband device 'mlx5_0' port 1 status:
	default gid:	 fe80:0000:0000:0000:268a:07ff:feb5:97a2
	base lid:	 0x0
	sm lid:		 0x0
	state:		 4: ACTIVE
	phys state:	 5: LinkUp
	rate:		 40 Gb/sec (4X QDR)
	link_layer:	 Ethernet

Infiniband device 'mlx5_1' port 1 status:
	default gid:	 fe80:0000:0000:0000:248a:0703:00b5:97a3
	base lid:	 0xffff
	sm lid:		 0x0
	state:		 1: DOWN
	phys state:	 3: Disabled
	rate:		 10 Gb/sec (4X SDR)
	link_layer:	 InfiniBand
Da die andere Karte im Ubuntu Server noch auf altem DELL-Stand ist, kann ich jetzt einen "cross-iperf" durchführen:
Code:
root@server:~# iperf3 -c 192.168.6.201
Connecting to host 192.168.6.201, port 5201
[  4] local 192.168.6.230 port 55710 connected to 192.168.6.201 port 5201
[ ID] Interval           Transfer     Bandwidth       Retr  Cwnd
[  4]   0.00-1.00   sec  4.06 GBytes  34.9 Gbits/sec    0   3.02 MBytes       
[  4]   1.00-2.00   sec  4.10 GBytes  35.2 Gbits/sec    0   3.02 MBytes       
[  4]   2.00-3.00   sec  3.85 GBytes  33.1 Gbits/sec    0   3.02 MBytes       
[  4]   3.00-4.00   sec  4.20 GBytes  36.0 Gbits/sec    0   3.02 MBytes       
[  4]   4.00-5.00   sec  4.01 GBytes  34.4 Gbits/sec    0   3.02 MBytes       
[  4]   5.00-6.00   sec  3.70 GBytes  31.8 Gbits/sec    0   3.17 MBytes       
[  4]   6.00-7.00   sec  3.74 GBytes  32.1 Gbits/sec    0   3.17 MBytes       
[  4]   7.00-8.00   sec  4.47 GBytes  38.4 Gbits/sec    0   3.17 MBytes       
[  4]   8.00-9.00   sec  3.43 GBytes  29.5 Gbits/sec    0   3.17 MBytes       
[  4]   9.00-10.00  sec  4.03 GBytes  34.6 Gbits/sec    0   3.17 MBytes       
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bandwidth       Retr
[  4]   0.00-10.00  sec  39.6 GBytes  34.0 Gbits/sec    0             sender
[  4]   0.00-10.00  sec  39.6 GBytes  34.0 Gbits/sec                  receiver
Die Schwankungen führe ich soweit erst mal auf den benutzten CPU-Kern zurück, da mit meiner Workstation und der Engeneering-Sample-CPU die Taktfrequenzen schon eher bei 1200MHz liegen als darüber...

Das Crossflashing hat jedenfalls funktioniert und keinen negativen Einfluss auf Ethernet / Workstation. Daher nun Flash auf dem Server...
Code:
root@server:/usr/src# flint -d /dev/mst/mt4115_pciconf0 -i fw-ConnectX4-rel-12_23_1020-MCX456A-ECA_Ax-UEFI-14.16.17-FlexBoot-3.5.504.bin -allow_psid_change burn

    Current FW version on flash:  12.21.3012
    New FW version:               12.23.1020


    You are about to replace current PSID on flash - "DEL3240110033" with a different PSID - "MT_2190110032".
    Note: It is highly recommended not to change the PSID.

 Do you want to continue ? (y/n) [n] : y

Mit einem "mlxfwreset -d /dev/mst/mt4115_pciconf0 r" lädt die neue Firmware auch ohne Server-Reboot.
Auch hier wieder "mlxconfig -d /dev/mst/mt4115_pciconf0 set LINK_TYPE_P1=2" für Ethernet auf Port 1, danach der gerade genannte mlxfwreset, danach ein ifconfig enp4s0f0 (so der Name auf dem Server) auf IP 192.168.6.230 und der Ethernet-Link mit 40Gb ist wieder online.
Aber Port 2 bei beiden nun auf Infiniband.

Mit iperf3 komme ich von Workstation (ES-CPU...) -> Server mit -P8 auf 30Gbit, von Server -> Workstation mit -P8 auf etwa 38Gbit.

Weil die Serverkarte ohne Slotblende auskommen muss, und daher das Umstecken des Transceivers ungünstig ist, habe ich auf beiden Rechnern eben mal Port 1 von ETH -> IB umkonfiguriert, wie oben beschrieben.
Und:
Code:
root@server:/usr/src# opensm -B
-------------------------------------------------
OpenSM 3.3.20
Command Line Arguments:
 Daemon mode
 Log File: /var/log/opensm.log
-------------------------------------------------
root@server:/usr/src# ibstat
CA 'mlx5_0'
	CA type: MT4115
	Number of ports: 1
	Firmware version: 12.23.1020
	Hardware version: 0
	Node GUID: 0x248a070300b5979a
	System image GUID: 0x248a070300b5979a
	Port 1:
		State: Active
		Physical state: LinkUp
		Rate: 40
		Base lid: 1
		LMC: 0
		SM lid: 1
		Capability mask: 0x2651e84a
		Port GUID: 0x248a070300b5979a
		Link layer: InfiniBand
CA 'mlx5_1'
	CA type: MT4115
	Number of ports: 1
	Firmware version: 12.23.1020
	Hardware version: 0
	Node GUID: 0x248a070300b5979b
	System image GUID: 0x248a070300b5979a
	Port 1:
		State: Down
		Physical state: Disabled
		Rate: 10
		Base lid: 65535
		LMC: 0
		SM lid: 0
		Capability mask: 0x2651e848
		Port GUID: 0x248a070300b5979b
		Link layer: InfiniBand
Läuft. Tests dann demnächst, ich mache jetzt Heia.
 
Zuletzt bearbeitet:
Na dann werde ich wohl auch mal... ! Schade, dass es hier keinen Chat gibt... :d
 
Macht doch mal einen 100G-Discord auf! Die relevanten Ergebnisse kann man anschließend ja immer noch zurück ins Forum portieren.
 
So, beide NICs erfolgreich geflashed. :d

Hmmm... ich glaube, mein i3-7100 schafft einfach nicht mehr als ~60gbit.

Habe jetzt 4 iperf3-Server (Ubuntu Desktop 18.04) parallel auf dem i3 laufen lassen:

Code:
 iperf3 -s -p 5101 & iperf3 -s -p 5102 & iperf3 -s -p 5103 & iperf3 -s -p 5104

...dann auf der anderen Kiste (Ubuntu Desktop 18.04 als VM mit 4 Kernen) auch 4 Iperf3-Clients mit je 4 parallelen Streams angeworfen:

Code:
iperf3 -c 10.10.100.2 -T s1 -p 5101 -P4 & iperf3 -c 10.10.100.2 -T s2 -p 5102 -P4 & iperf3 -c 10.10.100.2 -T s3 -p 5103 -P4 & iperf3 -c 10.10.100.2 -T s4 -p 5104 -P4

... und dann mit htop die CPU-Auslastung auf dem i3-Server beobachtet: der i3 ist sofort bei 100% CPU mit allen 4 Threads und die kombinierte Bandbreite liegt irgendwo bei 56gbit...

Da scheint also (momentan) der Bottleneck zu sein. Kann das sein?

Werde morgen mal weiter schauen.
 
Zuletzt bearbeitet:
naja, und, dass der i3 die Karte nur mit PCIex8 angeschlossen hat. Da sind 60Gbit schon ziemlich gut.
Bei Ubuntu 18.10 meldet dmesg etwas ausführlicher als bei 18.04. U.a., dass meine Bandbreite x16 mit ca 126Gbit Kapazität definiert wird.
 
Zuletzt bearbeitet:
Ne, müsste mit x16 sein - ist ein mITX Board mit nur einem Slot. Grafik ist IGP.
 
Ihr könntet das Ganze noch mit DPDK und den entsprechenden mlx4 Pollmode driver testen. Auf dpdk.org gibt es Beispielprogramme mit Benchmarks. Interrupt driven bzw. ohne RDMA sehe ich wenig Chancen auf 100 Gbits Realdurchsatz.
 
Ja, richtig. Bislang waren das die out-of-the-box Tests. RDMA ist m.E. ohnehin Pflicht, schon bei der CX2 10Gbit war die entsprechende Firmware für RDMA@Windows Pflicht.
 
Danke, aber irgendwie typisch für Video: zu wenig Details - wie immer.

Der crossflash hat bei mir übrigens das UEFI-Bios der NICs disabled. Hat mich irgendwie genervt und wollte das wieder haben. Man muss das manuell wieder anschalten für beide Ports mit (commando für ESXi nativ):

mlxconfig -d mt4115_pciconf0 set EXP_ROM_UEFI_x86_ENABLE=1
mlxconfig -d mt4115_pciconf0.1 set EXP_ROM_UEFI_x86_ENABLE=1

Und zum Thema SR-IOV unter dem freien ESXi:

Lässt sich zwar aktivieren:

ESXiFree_SRIOV_active.jpg

ABER:

Fehler beim Einschalten der virtuellen Maschine ZZY_Ubuntu18.04. Aufgrund einer Lizenzbeschränkung kann dieser Vorgang nicht ausgeführt werden. Entweder die Lizenzedition des ESXi-Hosts unterstützt diesen Vorgang nicht, oder das vCenter Server-System, das den Host verwaltet, verfügt über eine Lizenz, die diesen Vorgang über eine Direktverbindung mit diesem Host beschränkt. Überprüfen Sie die lizenzierten Funktionen für den Host oder stellen Sie eine Verbindung mit vCenter Server her und wiederholen Sie den Vorgang. Klicken Sie hier, um weitere Informationen zu erhalten. - schließen

Was ein Kack. Damit ist das für Otto-Normalos wie mich schonmal raus.

Und für RDMA scheint man einen "distributed vswitch" zu brauchen? Dann ginge RDMA mit dem freien ESXi also auch nicht.

Unglaublich, muss ich wohl mal 'nen Windows-Server installen für RDMA Tests.
 
Zuletzt bearbeitet:
Zwischeninfo: Bei mir stört sich die Geschwindigkeit definitiv an der CPU der Workstation (ES-CPU... ;(), da iperf3 single-threaded und bei ca 20Gbit zu 100% ausgelastet ist. iperf2 ist dagegen multi-threading-fähig. Dort mit iperf -P8 landen in 10 Sekunden 39,6Gbit (46GBytes). Also volle Geschwindigkeit. JETZT bräuchte ich die 100G-Transceiver ;)
@ besterino: iperf-2.0.13a-win.exe ist das executable... bei Ubuntu i.d.R. bereits als 2.0.10 o.ä. installiert. Sollte >= 2.0.8 sein wegen Bugs.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh