[Sammelthread] Der 100Gbit Netzwerk Thread, ein bisschen 40gbit und „beyond“ ;)

danielmayer · 20.03.2020

Naja, im reinen Linuxumfeld hat das noch einen Rest von Spannung, da die 40G- Infiniband mit IPoIB z.B. von Qlogic recht unproblematisch und für fast geschenkt laufen. Aber bei mixed-Umgebungen mit Windows etc ist das wirklich sehr überflüssig inzwischen, ja.

java4ever · 20.03.2020

Ich muss sagen dass Infiniband aus rein experimentellen Zwecken schon so seinen Reiz hat... Die Hardware kriegt man ja mehr oder weniger hinterhergeworfen.

Eine meiner Threadripper Workstations wird demnächst wohl zu einem NVMe basierten Storage Server umfunktioniert.
Um die Bandbreite optimal auszureizen, sollen insgesamt 9 SSDs (3 NVMe Slots am Mobo, eine x16er Karte, eine x8er Karte) eingebaut werden und zwei NICs (eine x16er, eine X8er).
Hab das durchgerechnet (ausgehend von den Benchmarks von der8auer): Pro eingebauter SSD habe ich 19.63GBit.
9 SSDs -> 176,76GBit/s Bandbreite. PCIe x16 + PCIe x8 ausgereizt: 189 GBit (63 + 126Gbit).

Wenn ich jetzt eine Dual Port QSFP28 Karte (-> 2*100GBit, limitiert durch den PCIe Slot) und eine Dual Port SFP+ Karte einbaue (-> 2*40GBit, limitiert durch den PCIe Slot), dann müsste ich, einen entsprechenden Switch der Link Aggregation unterstützt, doch am Ende die SSDs lesen voll auslasten können, oder?
Bin zugegebenermaßen bei dem Netzwerk Kram recht neu.

Und bevor die Frage aufkommt warum: Weil's geht

danielmayer · 20.03.2020

Mit Verweis auf frühere Posts hier im Threads: Nur eine 100G-Karte zu haben heißt noch nicht, dass man sie auch so betreiben kann. Wir (+Besterino) hatten nicht wirklich annähernd 100G erreicht, es waren eher knappe 60.
Ohne RDMA bzw RoCE etc wird das auch nichts nichts, schon gar nicht mit Win10-Clients...

java4ever · 20.03.2020

~~...Windows wird auf der Kiste ganz sicher nicht laufen.~~ EDIT: Nevermind, hab "Clients" überlesen.
...auf den Clients wird 99% der Zeit auch kein Windows laufen.

Die ConnectX 4 unterstützen afaik NVMe over Fabric, ggf. geht damit was.

danielmayer · 20.03.2020

Ich hatte ja auch von "Clients" gesprochen: Ob ein Server 100G netto zur Verfügung stellen kann oder nicht ergibt die Nutzung durch Client(s). Wie will man denn sonst erfahren, ob die Serverleistung da ist?
Ich (wir) sind an diesem Experiment definitiv interessiert, ich (ver)weise ja nur auf die unsrigen Tests mit Ramdisks hin, bei denen keine 100G zu holen waren.

niklasschaefer · 20.03.2020

mike4187 schrieb:
Die Auswahl sieht auf den ersten Blick gut aus. Bei MPO musst du nur immer mit der Polarität aufpassen. Von Transceiver zu Transveicer mi einem oder drei B-Kabel funktioniert aber.

Also so einen Arbeitgeber hätte ich auch gerne. Die Lüfter sind doch ganz normale user-serviceable-parts. Betreibe bei uns einige 5700 im IRF-Stack.

Infiniband ist mit EDR oder mehr heute in vielen Bereichen immernoch gut vertreten. Gerade was Latenz angeht kommt man nicht dran vorbei. Spätestens beim Thema Cluster geht es nicht anders.

In der letzten Zeit wurde hier mehrfach Mellanox mit seinen DACs angesprochen. Es gibt bei EDR/100G-Ethernet unterschiedliche Nummern für das fast gleiche Kabel. Die sind natürlich nicht mit dem jeweils anderen Protokoll kompatibel. Was aber funktioniert sind Flexoptix QSFP28 Transceiver. Habe ich aktuell in ConnectX5 mit EDR-IB und 100G-Ethernet am laufen.

Genau so schaut es aus. Sind self user Parts, fand ich ganz gut so habe ich schon einen gescheiten Switch daheim und Comware rennt wie sau. Habe in der Firma an die 70 Comware Switches. Die laufen im IRF fein und die CLI ist auch sehr gut.

JohnnyBGoode · 20.03.2020

mike4187 schrieb:
Die Auswahl sieht auf den ersten Blick gut aus. Bei MPO musst du nur immer mit der Polarität aufpassen. Von Transceiver zu Transveicer mi einem oder drei B-Kabel funktioniert aber.
[...]

Habe doch noch einen Fehler in der Zusammenstellung gefunden: Leider kann der einzige MPO-MPO-Adapter von FS.com nur Male<->Female verbinden, meine Kabelliste war aber ausschließlich mit Female-Female-Kabeln versehen.

Ich würde gerne bei ausschließlich Female-Female-Kabeln bleiben da man so ein einzelnes Kabel ganz einfach ohne weitere Adapter direkt an Transceivern testen kann.

Kennt jemand eine Bezugsquelle für MPO-MPO-Adapter (auf beiden Seiten "Key Up") für Female- zu Female-Kabelenden, wo "normale" Preise verlangt werden und auch an Privatkunden geliefert wird?

sch4kal · 21.03.2020

JohnnyBGoode schrieb:
Habe doch noch einen Fehler in der Zusammenstellung gefunden: Leider kann der einzige MPO-MPO-Adapter von FS.com nur Male<->Female verbinden, meine Kabelliste war aber ausschließlich mit Female-Female-Kabeln versehen.

Ich würde gerne bei ausschließlich Female-Female-Kabeln bleiben da man so ein einzelnes Kabel ganz einfach ohne weitere Adapter direkt an Transceivern testen kann.

Kennt jemand eine Bezugsquelle für MPO-MPO-Adapter (auf beiden Seiten "Key Up") für Female- zu Female-Kabelenden, wo "normale" Preise verlangt werden und auch an Privatkunden geliefert wird?

Frag per Mail bei FS nach, die können dir buchstäblich alles machen.

underclocker2k4 · 21.03.2020

BlueOptics MPO/MTP Kupplung KeyUp/KeyUp

Willkommen bei CBO - Ihrem Hersteller für optische und kupfertechnische Übertragungslösungen für LAN, WAN und MAN Netzwerke. BlueOptics MPO/MTP LWL Kupplung Key-Up Key-Up - Ab Lager - 25 Jahre Garantie - Lebenslanger Support

www.cbo-it.de

Sowas?

JohnnyBGoode · 21.03.2020

@sch4kal

Habe ich schon, ihre einzige (derzeitige) Lösung wäre die Bestellung eines Male-Male-Kabels, damit ihre verfügbaren Adapter passen.

@underclocker2k4

Kann sein, allerdings fehlt die Angabe, welche Kabelenden mit der Kupplung verbunden werden können (Male zu Male, Male zu Female, Female zu Female), dazu die Angabe ohne Umsatzsteuer, was darauf hindeutet, dass sie nur Firmenkunden bedienen.

danielmayer · 21.03.2020

Also ich hätte es nie probiert, female an female per Kupplung zu geben. Die MPO/MTP sind schon mit Absicht als klassisches Sexpärchen gedacht: die beiden Führungspins des Male sorgen für die notwendige Stabilität, damit die ultradünnen Fiber aufeinanderliegen.
Ich würde an Deiner Stelle bei Szenario 1 und 2 das dortige 20m MPT-Kabel als Polarität B und Male-Male ausführen. bei Szenario 1 sind dann links und rechts davon nur noch Polarität A und female/female notwendig. Bei 2 gibt es halt noch ein Trunkkabel dazwischen, das entsprechend als male/female Polarität A dazu muss.
Dann passt doch alles und die "Client"Ausgänge sind alle female/female PolA.

JohnnyBGoode · 21.03.2020

Dann werden die 20 m in der Mitte wohl ein Male-Male-Pol B-Kabel, dann kann es die Kupplung von FS werden.

@danielmayer

Müssen Client-Ausgänge Pol A haben?

Weiß aus bisheriger Erfahrung mit ausschließlich Direktverbindungen zwischen zwei QSFP+-Netzwerkkarten, dass diese mit einem Pol B-Kabel verbunden werden müssen.

Muss man bei einem Switch mit QSFP+-Transceiver dann Pol A verwenden?

danielmayer · 21.03.2020

Pol B wird nur bei Direktverbindung einmal (!) benötigt, bei einem zweiten würde das Crossover ja wieder rückgängig gemacht.
Also bei egal-wieviel-Kabeln von NiC zu NIC einmal PolB und xmal PolA.
Zum Switch geht's mit PolA, ja.

JohnnyBGoode · 21.03.2020

danielmayer schrieb:
[...]
Zum Switch geht's mit PolA, ja.

Wie sieht es da mit MPO-LC-Harnesskabeln aus? Kann man mit den PolB-Kabel vom einer Netzwerkkarte mit QSFP+ direkt auf 4 SFP+-LC-Transceiver in einem 10Gb-Switch gehen oder muss da erst PolA adaptiert werden (alle MPO-LC-Harnesskabel bei FS.com haben PolB)

Und wie ist es umgekehrt, wenn man von einem Switch mit QSFP+- zu 4 PCs (jeweils mit 1 x SFP+-LC-Transceiver) möchte?

danielmayer · 22.03.2020

Nein.

Möglicherweise, wenn der Switch das unterstützt. Produktbezogenes Handbuch lesen...

Dir fehlen leider reichlich LWL Grundlagen. Kein MTP- Break Out ist PolA oder PolB, wenn auf einer Seite LC rauskommt. Die Pol ist da reichlich wurscht, weil du ja jeden LC stecken kannst, wie du willst. Die Polarität ist nur von MTP zu MTP relevant.

JohnnyBGoode · 22.03.2020

Ja, das ist richtig, habe keine Routine im LWL-Bereich und versuche, anhand von Produkt-Spezifikationen möglichst alles notwendinge zu erfahren und frage zur Sicherheit beispielsewise hier nach.

Bei mir lief das vor gut zwei Jahren so:

- 1G limitiert doch andauernd, v. a. zwischen 2 Systemen

- Intel-Netzwerkkarten sollen über alle Betriebssysteme hinweg die breiteste Treiber-Unterstützung haben, wenn sie auch mangels RDMA etwas langsamer sind (aber nicht so relevant, da non-Server oder non-Workstation Windows sowieso kein RDMA unterstützen).

- Selbst 10G ist bei 24 HDDs oder 8 x SATA-SSDs zu lahm, was ist die nächste Stufe?

- 40G Intel XL710 gibt es ab und an sehr günstig gebraucht, nehme ich ein paar davon

- Was brauche ich, um zwei davon direkt miteinander zu verbinden?

- Hmm, 3 GB/s mt einer einzelnen Verbindung, 4 GB/s mit SMB-MC, ich bin zufrieden und fasse das nicht mehr an, bis was Neues ansteht

-> Jetzt steht was neues an

(24 x SFP+/2 x QSP+ Switch)

Das mit PolB bei Breakout-Kabeln habe ich von FS.com übernommen:

Ein weltweit führender Anbieter von Hochgeschwindigkeits-Konnektivitätsgeräten und -lösungen. - FS.com Deutschland

FS ist eine neue Marke im Bereich Rechenzentrum, Unternehmens- und Telekommunikationslösungen. Wir machen es für IT-Fachleuten einfach und kostengünstig, ihre Geschäftslösungen zu nutzen.

www.fs.com

danielmayer · 22.03.2020

dann ist das verzeihlich

Das liegt daran, dass diese LC paarweise "geklipst" sind und der Crossover damit "geliefert" wird. Das lässt sich händisch aber umdrehen in PolA, wenn man das so formulieren will.
Meine Breakout-Kabel von FS waren einzeln ohne Klips.
Wie gesagt, bei reinen MTP->LC ist das letztlich egal.
Ich habe allerdings mehrere MTP 12adrig -> MTP 8 + 4xLC. Bei solchen Konstellationen muß man natürlich auf die Pol. achten.

besterino · 22.03.2020

Ich verstehe nur noch polnisch.... bzw. pol nich' *kichkich*

besterino · 08.04.2020

Das wird wohl im Heimnetzwerk noch ein Weilchen wenig interessant sein: https://ethernettechnologyconsortium.org/wp-content/uploads/2020/03/800G-Specification_r1.0.pdf

danielmayer · 09.04.2020

Was heißt hier "ein Weilchen"? Lese ich das Dokument richtig, muss ich doch 16 LWL-Lanes für eine 800G-Verbindung vorhalten, richtig (8 RX, 8TX)? Das ist doch wichtig! Im Haus müssen also 2xMTP(8 oder 12) oder 1xMTP24 verlegt werden, sonst bin ich nicht zukunftssicher!!

sch4kal · 09.04.2020

danielmayer schrieb:
Was heißt hier "ein Weilchen"? Lese ich das Dokument richtig, muss ich doch 16 LWL-Lanes für eine 800G-Verbindung vorhalten, richtig (8 RX, 8TX)? Das ist doch wichtig! Im Haus müssen also 2xMTP(8 oder 12) oder 1xMTP24 verlegt werden, sonst bin ich nicht zukunftssicher!!

Mit Singlemode LC Steckern solltest doch auch safe sein, ist momentan nur noch nicht so billig bei den Transceiverkosten ^^

underclocker2k4 · 09.04.2020

danielmayer schrieb:
Was heißt hier "ein Weilchen"? Lese ich das Dokument richtig, muss ich doch 16 LWL-Lanes für eine 800G-Verbindung vorhalten, richtig (8 RX, 8TX)? Das ist doch wichtig! Im Haus müssen also 2xMTP(8 oder 12) oder 1xMTP24 verlegt werden, sonst bin ich nicht zukunftssicher!!

Wo liest du das denn raus?
Zum schlaulesen:

Konsortium spezifiziert 800 Gigabit Ethernet

Das Ethernet Technology Consortium hat den Standard für ein 800 Gigabit Ethernet (800GbE) als IEEE 802.3ck spezifiziert. Daran gearbeitet wurde schon über eine längere Zeit, doch nun können sich die Hersteller auf eine Spezifikation (PDF) und eine Interkompatibilität berufen...

www.hardwareluxx.de

Das optische Interface ist noch gar nicht klar.
Auch wenn es gerne in den Medien so verkauft wird, 800G ist noch gar nicht spezifiziert. (siehe Post ganz unten)

danielmayer · 09.04.2020

Ich habe tatsächlich für solche Dokumente und Recherchen keine Zeit. Im o.g. Dokument vom besterino lese ich aus 14-Seiten aber gerne die Zusammenfassung heraus:
"3.1 Architectural Overview [...]
This architecture could support 8x106.25G, 16x53.125G or even slower interfaces, but the 8x106.25G is the main focus,"

Wenn ich 8x106.25G und 800G in Beziehung stelle, komme ich bei (Achung!) SR auf 16 Lanes, wenn wie gehabt bei 10G/100G technisch ausgeführt wird. Dass bei LR-Konzepten ein 8-Farbenlaser entwickelt werden müsste oder-was-auch-immer, ist auch mir klar.

underclocker2k4 · 09.04.2020

Aber wer sagt dir denn, dass die 16 Lanes auf 16 Fasern aufgeteilt werden?
16 Lanes heißt erstmal nur, dass auf 16 optischen Wegen jeweils 1, also in Summe dann 16 Datenstreams, aufgebaut werden.
Ob das nun über ein Raummultiplex, ein Frequenzmultiplex oder beides aufgebaut wird, ist doch erstmal zweitrangig.

Was du dir unter SR vorstellst, ist das 800GBASE-SR8. Dabei hast du 8x hin und 8x her.
Bei 400G ist das Pendant 400GBASE-SR8, auch wieder 8x und 8x her.
Der Unterschied ist, dass 400G eine optische 50G PAM4 Modulation benutzt und 800G eine 100G PAM4. Man verdoppelt also einfach die Bitrate ohne weiter an der Modulation zu schrauben. (es gibt da schon andere Modulationsverfahren, die aber noch nicht gelandet sind)

Sprich also, du hättest heute schon das Problem, wenn du deine 40G/100G MPO Leitungen auf 400G upgraden willst. Du müsstest von MPO-12 auf MPO-16 upgraden, könntest dann aber auch auf 800G gehen, da sich die Fasernanzahl nicht erhöht. Oder anders gesagt, die 4 Fasern, die im MPO-12 über sind, hatte man auch direkt nochmal übrigen 4 Fasern einbauen können, dann hätte man das Problem nicht.

Aber an dem Konjunktiv sieht du schon...
Jetzt stell dir mal vor, es gibt ein 400GBASE-SR mit BiDi.
Die Industrie nennt das 400GBASE-SR4.2. Also 8 Fasern im MPO-12 mit jeweils 2 Frequenzen.
Festgehalten ist das in der IEEE802.3cm.
Und jetzt könnte es doch sein, das es ein 800GBASE-SR4-2 mit 100G PAM4 oder einen 800GBASE-SR4.4 mit 50G PAM4 gibt.
Der QSFP-DD-Standard geht davon aus, dass MPO-12 mit zwei Frequenzen betrieben wird, neben anderen Steckern.
Das bezieht sich sogar auf SMF-Fasern, die es mittlerweile auch schon gibt.

Und was ist denn bei 10G/100G gehabt technisch ausgeführt?
Ich habe einen 40G Transceiver hier und der braucht nur 1x MMF LC-D als Anbindung.
Es gibt sowas wie
QSFP-100G-SWDM4
QSFP-100G-SRBD

Beide haben 100G und benötigen nur 1x MMF LC-D mit Reichenweiten um die 100m.

Ergo, man wird sehen, wie das Thema MMF umgesetzt wird. Es gibt schon ab 40G etliche Varianten, wie man Raum- und Frequenzmultiplexen mischen kann. Das machen die Hersteller nicht, weil sie lange Weile haben, nein, es stecken Kundenanforderungen dahinter. Und so wird das auch bei 800G sein.
Wenn genügend nach MPO-12 schreien, dann wird jemand das auch umsetzen. Dazu bist du selber natürlich nicht Zielkunde von z.B. Cisco, aber andere haben das selbe Problem und die schreien dann schon danach.

EDIT:
Wo wir gerade dabei sind und das Schakal angesprochen hat. Es gibt auch sowas wie 100GBASE-FR. Der macht dann 100G über SMF mit 2km Reichweite.
Zusätzlich gibt es noch sowas wie SFP112, der dann die 100G im selben Formfaktor wie 1/10G umsetzt. Damit kann man dann also ein 48Port 100G Switch bauen, mit z.B. 800G Uplinks. Von außen ändert sich der Switch also nicht wirklich.
Wenn es denn noch überhaupt steckbare Transceiver geben wird in Zukunft.

danielmayer · 09.04.2020

Wiedereinmal fühle ich mich gut belehrt ... und: vermutlich die beste Zusammenfassung von ansonsten für normale Heimenthusiasten unverständliche technische Ausführungen

Danke!
Grds fühle ich mich insoweit bestätigt, als dass ich tatsächlich SR8 meinte und genau das von dir beschriebene Problem mit den falschen Mengen von Fasern im Standard-MTP meinte. Das ist irgendwie wie mit den Burger-Patties und den Brötchen: 4er und 6er Packungen passen erst bei größeren Mengen zusammen

Daaaavon abgesehen: Besterino probiert das ohnehin vor mir aus, ich lasse den die Erfahrungen mit Transceivern SRM-BiDi-LRDWMusw sammeln

underclocker2k4 · 09.04.2020

danielmayer schrieb:
4er und 6er Packungen passen erst bei größeren Mengen zusammen

Verstehe das Problem nicht. :fresse2:

besterino · 10.04.2020

Das könnt ihr mal voll Knicken. Bin noch hinreichend von dem 100Gbit Experiment ernüchtert.

Fairerweise kann da aber eher weniger die Hardware etwas dafür, sondern mein blödes Solaris unterstützt einfach die ConnectX-4 nicht und die virtuellen Switches von ESXi kommen irgendwie auch nicht hinterher...

Auch will ich Fehler / mangelnde Kompetenz auf Level8 natürlich nicht ausschließen!

Nach Euren ganzen Fachsimpeleien frag ich mich ja schon, ob ich überhaupt das richtige Kabel hab. Reicht es, wenn ESXi und Windows behaupten, es lägen 100gbit an?

danielmayer · 10.04.2020

Wenn es von der Hardware gemeldet wird, ja. Allerdings melden VMs auf einer 100G-Bridge immer 100G, auch wenn nur 10 Anliegen.

besterino · 10.04.2020

ESXi zeigts beim Uplink (z.B. im virtuellen Switch aber auch bei den Adaptern) und Windows halt unter dem Netzwerkgedöns - Win läuft aktuell nativ.

Gerne für Doofe: Wie richtet man denn bitte eine 100Gbit Bridge unter ESXi ein? Ich häng bisher immer nur stumpf dem Adapter in einen virtuellen Switch und da dran entsprechen die VMs (vorzugsweise mit VMXNET3 „Nics“)?

Fischje · 11.04.2020

besterino schrieb:
Gerne für Doofe: Wie richtet man denn bitte eine 100Gbit Bridge unter ESXi ein? Ich häng bisher immer nur stumpf dem Adapter in einen virtuellen Switch und da dran entsprechen die VMs (vorzugsweise mit VMXNET3 „Nics“)?

Also ich wollt ja keinem was mit meinem anfänglichen Kommentar - und gegen Spieltrieb hab ich auch nichts. Aber daran z.B. scheitert es schon bei mir:

Ich kann mit ESXI so schlecht umgehen, dass ich es nicht hinbekomme im ESX selbst die VMs mit 10 G untereinander am rennen zu halten. Dann brauch ich aus der Maschine raus auch nicht mehr...

Gehört aber wahrscheinlich mehr in den Thread hier.

[Sammelthread] Der 100Gbit Netzwerk Thread, ein bisschen 40gbit und „beyond“ ;)

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Experte

Enthusiast

Enthusiast

Mr. Alzheimer

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Legende

Legende

Enthusiast

Enthusiast

Mr. Alzheimer

Enthusiast

Mr. Alzheimer

Enthusiast

Mr. Alzheimer

Legende

Enthusiast

Legende

Moderator oO blub oO