[Sammelthread] Der 100Gbit Netzwerk Thread, ein bisschen 40gbit und „beyond“ ;)

flyingjoker · 07.02.2025

@underclocker2k4
Das ist auch immer eine Kostenfrage, und ob man es sich leisten kann das die Systeme ausfallen.
Und die Ausfälle in den letzten 20 Jahren waren selten, und wenn dann nur für ein paar Stunden.
Es konnte trotzdem weiter gearbeitet werden.

underclocker2k4 · 07.02.2025

Klar ist das ne Kostenfrage.
Ich kann dir aber sagen, dass die Hardware immer weniger robust wird. Es wird überall gespart.
Hier vergeht nicht Monat, wo nicht irgendwas im Bereich der Datacenter kaputt geht.
Wir reden hier von <100Servern und <100 Switches.
Wenn man 1 Switch pro Seite hat, dann ist beim Ausfall dieses Switches die Seite down.
Daraus ergibt sich, dass dein DC schon degradet ist. Der Ausfall eines weiteren Systems sorgt also für Stillstand oder für noch eine weitere Degradation.
Daher muss also schnellstmöglich ein Ersatz her.
Es gibt 3 Möglichkeiten:
1.
Ich habe eine einfache Redundanz, wo ich der Meinung bis, dass diese bis zur Wiederherstellung reicht.
Hier ist die Wiederherstellungszeit mit "schnell" anzugeben.
2.
Ich habe eine starke Redundanz, wo ich der Meinung bis, dass diese bis zur Wiederherstellung reicht.
Hier ist die Wiederherstellungszeit mit "nicht so schnell" anzugeben.
3.
Ich habe keine Redundanz.
Hier ist die Wiederherstellungszeit mit "hyperschnell" anzugeben.

Wir haben starke Redundanz und hyperschnelle Wiederherstellungszeit. Die Kosten im Ausfall sind hier enorm, daher wird einiges darin investiert.

Du bist bei 1.
Keine/einfache Redundanz.
Du musst also eine schnelle Wiederherstellungszeit (mehrere Stunden, bis sehr wenige Tage) sicherstellen.
Das machst du nicht, wenn du bei irgendeiner Firma eine Garantie einkaufst.
Wie sieht die denn aus? Musst du das defekte Gerät einschicken und der schaut sich das erst an und entscheidet dann? Wie lange dauert das? 14 Tage? Was macht ihr 14 Tage lang mit einem degradet System?
Was passiert, wenn nach 10 Tagen auf der anderen Seite was passiert? Muss ja nicht nur der Switch sein, kann auch ein Server sein.
Was ist das für nen Lieferant? Irgendso nen HW-Reseller? Ist das auch der Garantiegeber? Was passiert mit den 10 Jahren Garantie, wenn die Firma, wegen der aktuellen Marktsituation, zum Ende des Jahres die Tore schließt?
Wenn man auf BilligHW setzt (und das ist das bei dem Beschaffungsweg), dann kauft man gleich etwas mehr davon. Man erkauft sich die Einsparung bei der Beschaffung damit, dass man mehr Geräte beschafft. Primär damit man im aktiven Aufbau mehr Redundanz hat und man mit einem einfachen Ausfall nur eine minimale Degradation hat. Oder im weiteren man dann noch ein Ersatzgerät im Lager hat (welches man regelmäßig auf Funktion prüfen muss), welches man direkt als Austausch einsetzen kann und somit während des Austauschen die einfache Redundanz wiederhergestellt hat.
Mit anderen Worten:
Wenn man unbedingt mit 1 Gerät/Site fahren will, dann nimmt man Turboaustausch.
Wenn man mit 2 Geräten/Site fahren will, dann nimmt man nicht so Turboaustausch.

Es sei nochmal erwähnt, dass du mit dem refurbished Geräten bei Aruba ggf. keinen/kaum Support bekommst. Dabei geht es nicht nur um Geräteaustausch, sondern auch um Firmwarepatches.
Wir haben auch refurbished Geräte, fürs Labor. Die ließen sich damals nicht ins ASP aufnehmen. Ggf. waren die noch nicht gepflegt/bei Aruba gemeldet. Jetzt sind sie das aber.
Aktuell geht das Aufnehmen und die haben auch Support bis 2044, wie die "normalen" auch. (wird man dann sehen wann EOL ist)
Wie das mit einem replacement ist, kann ich nicht sagen.
Kann aber durchaus sein, dass wenn der Switch irgendwie "spawnt", dass du den nicht ins Portal gehoben bekommst. Und das ist dann doof.

Man sollte also genau klären, was man da bekommt und sich das auch zusichern lassen. (nur nur das Gerät als solches)
Wenn etwas nicht passt, dann ist das am ein Sachmangel und man hat gegenüber dem Lieferanten einen Hebel. Fernabsatzgesetz gibt es bei B2B nicht. (einfach Zurückschicken ist also nicht)

PS:
Wir machen z.B. vSAN. Für nen RAID6 stretched cluster braucht man pro Seite min. 6 Server, damit die Redundanz voll da ist. Wir machen 7. d.h. ein Host kann auch für längere Zeit ausfallen, ohne dass die Redundanz angegriffen wird. (2 weitere Ausfälle sind dann noch verkraftbar)
Und das ganze auf ebene gestrechtet, also über 2DCs.
Ja, sowas kostet mehr Geld, aber zu wissen, dass man die Zeit auch sehr spezielle Fehler finden zu können, ist viel wert.

flyingjoker · 07.02.2025

@underclocker2k4
Wir haben Ersatzgeräte dann im Lager von jedem Gerät.
Und ich muss es nicht erst einschicken, sondern ich bekomme sofort Ersatz und das ist je nach Post in 1-2 Tagen bei mir.
Wir haben einen guten Lieferanten der ziemlich Kulant ist. Und ich hoffe der ist noch weitere 25 Jahre am Markt.

Unsere Serverräume sind auch nicht sehr groß (ca 14m²) da ist mit einem Rack für die Server und ein Rack für die Switche nicht so viel Platz.

flyingjoker · 18.02.2025

Guten Morgen,

benutzt jemand von euch NetEdit von HP um die Switche zu verwalten?
Ich habe es in einer VM Installiert und man kann manuell keine Switche hinzufügen, man kann sie nur suchen lassen.
Ich scheitere an der Seed Netzwerkadresse.
Was ist ein Seed?

underclocker2k4 · 18.02.2025

Ich mehrfach, mit dutzenden Geräten.
Seed nehme ich immer die MGMT Adresse. Es würde auch eine aus dem MGMT Subnetz gehen, von der aus dann gearbeitet wird.
Wir machen das seit Jahren mit der MGMT=Seed.

Wobei das nur wirklich gut mit den AOS-CX funktioniert.

flyingjoker · 18.02.2025

underclocker2k4 schrieb:
Ich mehrfach, mit dutzenden Geräten.
Seed nehme ich immer die MGMT Adresse. Es würde auch eine aus dem MGMT Subnetz gehen, von der aus dann gearbeitet wird.
Wir machen das seit Jahren mit der MGMT=Seed.

Wobei das nur wirklich gut mit den AOS-CX funktioniert.

Ich habe einen JL586A (FlexFabric 5710) hier und der wird nicht erkannt.
Ich denke der ist nicht kompatibel.

underclocker2k4 · 18.02.2025

Jo, das geht angeblich irgendwie, musst du mal schauen, welche Dienste du da Netedit als Zugang mitgibst.
Da kommt am Ende aber nicht das raus, wofür NE gedacht ist.
Das ist eigentlich nen Tool für AOS-CX und alles andere ist naja, kannste vergessen.
(das ist eigentlich auch nur nen Programmiertool)

Wir haben keine "Fremdgeräte" drin.

java4ever · 03.03.2025

Ich hab mir vor kurzem ein ElmorLabs PMD2 mitsamt PMD PCI-E Slot Power Measurement Adapter zugelegt.

Ich beabsichtige damit wenn ich mal wieder Zeit hab (vermutlich ~Anfang April) mal Messungen bzgl. des realen Stromverbrauchs von (dicken) Netzwerkkarten zu machen. Bisher ist das viel Hörensagen, Schätzen (anhand des Gesamtverbrauchs des Systems), Datenblatt etc...

Haldi · 03.03.2025

java4ever schrieb:
Schätzen (anhand des Gesamtverbrauchs des Systems)

Was ja auch nicht sooo falsch ist.
Was nützt eine Karte die nur 2W idle benötigt aber im system sämtlichen tieferen C-States blockiert?

java4ever · 03.03.2025

Haldi schrieb:
Was nützt eine Karte die nur 2W idle benötigt aber im system sämtlichen tieferen C-States blockiert?

Guck mal auf den Thread. Ich glaub du hast dich verlaufen. Das ist der 100Gbit Thread. Hier sind tiefe C-States quasi komplett irrelevant. Home Networking & 10 Gbit ist woanders

Kannst du genau sagen, wie viel die Karte selbst bei 100G Traffic verbraucht, und wie viel davon CPU und Netzteil ist? Ich glaube nicht.

flyingjoker · 04.03.2025

java4ever schrieb:
Guck mal auf den Thread. Ich glaub du hast dich verlaufen. Das ist der 100Gbit Thread. Hier sind tiefe C-States quasi komplett irrelevant. Home Networking & 10 Gbit ist woanders

Kannst du genau sagen, wie viel die Karte selbst bei 100G Traffic verbraucht, und wie viel davon CPU und Netzteil ist? Ich glaube nicht.

Mir würden eher die Temperaturen Interessieren, bei uns im Server ist eine Broadcom BCM957504-P425G 4x SFP28 Karte 80°C Heiß geworden, trotz 6 Lüfter im HP Server und Klimaanlage.

Philipp3108 · 04.03.2025

Kann sein das der Lüfter auf der Netzwerkkarte defekt geworden ist hatte ich schon

flyingjoker · 04.03.2025

Philipp3108 schrieb:
Kann sein das der Lüfter auf der Netzwerkkarte defekt geworden ist hatte ich schon

welcher Lüfter?

java4ever · 04.03.2025

flyingjoker schrieb:
bei uns im Server ist eine Broadcom

Da ist der erste Fehler.. Von Broadcom NICs halte ich vor allem eins: Abstand.

Die Dinger sind leider der letzte Schrott.

Mellanox > Intel, dann lange nix, dann Broadom, dann Realtek und Konsorten

Gibt leider kaum eine Alternative zu Mellanox, selbst Intel kommt da bei weitem nicht dran.

Chelsio ist cool, aber selten. Gleiches für andere Nischen-Hersteller wie Solarflare usw..

underclocker2k4 · 04.03.2025

In dem Server ganz unten laufen Intel e810-xxvda4 (Slot 1,2,4,5) (Port3 32Port Controller und Port6 Bootdevice). Es ist also alles gut vollgestopft.

In anderen Serverm haben wir ein Dutzend Dual Port BCMs drin.
Wir beschaffen gerade ein Dutzend neue Intel Karten standalone.
3x darf man raten, was wir damit veranstalten...

Kleiner Funfact, HPE hat uns Intelkarten wegen einem Thermalbudget an letzterer Stelle nicht verbauen lassen, wir mussten BCMs nehmen.
Ebenfalls ein kleiner Funfact, bau mal die Karte aus und schau mal auf die Lüfterdrehtzahl und Stromverbrauch...
Ich wünschte @java4ever hat bezüglich BCMs unrecht.

PS: Also wir haben schon 3-stellige Temps mit den BCMs gesehen.

flyingjoker · 04.03.2025

java4ever schrieb:
Da ist der erste Fehler.. Von Broadcom NICs halte ich vor allem eins: Abstand.

Die Dinger sind leider der letzte Schrott.

Mellanox > Intel, dann lange nix, dann Broadom, dann Realtek und Konsorten

Gibt leider kaum eine Alternative zu Mellanox, selbst Intel kommt da bei weitem nicht dran.

Chelsio ist cool, aber selten. Gleiches für andere Nischen-Hersteller wie Solarflare usw..

Also besser die Karte nehmen?

Intel E810-XXVDA4 25G LAN-Adapter, 4x SFP28, PCIe 4.0 x16 (E810XXVDA4) ab € 669,00 (2025) | Preisvergleich Geizhals Deutschland

✔ Preisvergleich für Intel E810-XXVDA4 25G LAN-Adapter, 4x SFP28, PCIe 4.0 x16 (E810XXVDA4) ✔ Produktinfo ⇒ Typ: LAN-Adapter • Bauform: 1x PCIe-Karte (full height Blende) • Anbindung: 1x PCIe 4.0 x16 • Verbindung:… ✔ Adapter & Hubs ✔ Testberichte ✔ Günstig kaufen

geizhals.de

underclocker2k4 · 04.03.2025

Dann frage ich mich, wo unsere 250 quad SFP28 Karten herkommen, wo kein BCM als Label draufsteht.

Fusseltuch · 04.03.2025

Die einzige LowProfile 4x SFP28 Karte ;-) Intel hat inzwischen eine E810 mit 4x SFP28 als High Profile. Ich würde aber auch eher die Broadcom-Karte kaufen als die von Intel... Ich werde mit der 700er bzw 800er Serie nicht so richtig warm.

underclocker2k4 · 04.03.2025

Die 810 ist in jedem Fall eine deutliche Verbesserung gegenüber der 710.
Das ist ein Unterschied wie Tag und Nacht.

Beitrag automatisch zusammengeführt: 04.03.2025

flyingjoker schrieb:
Also besser die Karte nehmen?

(genau) diese:

https://buy.hpe.com/de/de/options/adapters/host-adapters/third-party-host-adapters/intel-e810%E2%80%91xxvda4-ethernet-10-25-gb-sfp28%E2%80%91adapter-mit-4-anschl%C3%BCssen-f%C3%BCr-hpe/p/p08458-b21

Fusseltuch · 04.03.2025

Das ist gut zu wissen. 👍🏻

Ich muss meine Aussage auch zurücknehmen, es gibt offenbar auch 4x SFP28 von QLogic/Marvell als Low Profile: z.B. die QL41234HLCU

Verfügbarkeit nicht ganz so gut wie Broadcom oder Intel, aber dennoch relativ easy zu beschaffen.

underclocker2k4 · 04.03.2025

Fusseltuch schrieb:
Das ist gut zu wissen. 👍🏻

Die X710 laufen mittlerweile OK. (das war am Anfang nen Krampf, aber mit Anlauf)
Aber LLDP kannste da vergessen.
Das ist bei E810 alles sauber.
Der Tausch X710 zu E810 ist hier noch ein Thema, wo es noch keine Entscheidung gibt.

java4ever · 04.03.2025

Meine Empfehlung falls Budget da: Mellanox MCX713104AS-ADAT

Falls es Low Profile sein muss, aber Quad-Port in einem QSFP28 auch ok ist (und es keine 4x SFP28 sein müssen):

Intel E810-CQDA1 oder CQDA2

Falls es Low Profile sein muss und Quad-SFP28:
Intel E810-XXVDA4 (LP)

Falls Full Profile ok ist:
Intel E810-XXVDA4

Beitrag automatisch zusammengeführt: 04.03.2025

underclocker2k4 schrieb:
Die X710 laufen mittlerweile OK. (das war am Anfang nen Krampf, aber mit Anlauf)
Aber LLDP kannste da vergessen.

Für die Supermicro Varianten gibts spezielle Firmware, die den LLDP offload ohne Kernel Flag zu setzen deaktiviert und damit LLDP sauber läuft

Fusseltuch · 04.03.2025

underclocker2k4 schrieb:
Aber LLDP kannste da vergessen.

Genau darauf wollte ich hinaus. LLDP und die merkwürdige VLAN-Geschichte. Letzteres bekomme ich aber nicht mehr 100% zusammen. Die 700er Serie kann nur eine bestimmte Anzahl VLANs direkt in Hardware auf der Karte verwalten. Verwendet man mehr VLANs, muss man das Feature explizit deaktivieren und es doch von der normalen CPU machen lassen, sonst spamt der i40e Treiber die Logfiles voll. Irgendwie sowas war das... Wenn die 800er Serie diese Merkwürdigkeiten aber nicht hat, dann hat Intel ja seine Hausaufgaben gemacht.

Beitrag automatisch zusammengeführt: 04.03.2025

java4ever schrieb:
Für die Supermicro Varianten gibts spezielle Firmware, die den LLDP offload ohne Kernel Flag zu setzen deaktiviert und damit LLDP sauber läuft

Das geht mit der latest Intel Firmware auch direkt im BIOS für die nicht-Supermicro-Karten.

Zeitmangel · 05.03.2025

Eine Frage von hinter dem Zaun :fresse:

Welche Leistung an der CPU selbst und beim Speicher (?) brauch man eigentlich in etwa (ungefähr die Modelle) um einen 100Gbit Link vernünftig bedienen zu können?
Beim Massenspeicher könnte ich mir das schon grob denken :hust:

danielmayer · 05.03.2025

Da musst Du mal die ersten Seiten kräftig nachlesen. CPU geht mit RDMA und viel Lanes Recht anspruchslos. Ohne RDMA ist es ... begrenzt schnell.

Shihatsu · 05.03.2025

Aber Warnung: Nein, das gibts nicht wie 2,5GB für Consumer, nein das läuft nicht über Cat6 oder "normales" Copper, egal wie sehr du dir wünscht das sich das endlich mal durchsetzt :fresse2:

Zeitmangel · 16.03.2025

@Shihatsu
An wen ging das? Das waren doch keine Grüße vom hohen Ross? :hust:

Die meisten Endpunkte sterben >25Gbit irgendwie und gefühlt schon an ihren Stacks ab (?), weswegen auch 40Gbit oft nicht erreicht werden. Daher die Frage, Eine rein technisch interessierte Frage. Keine Sorge

Shihatsu · 16.03.2025

Du hast schon richtig gebellt.

Zeitmangel · 16.03.2025

Du hörst in der letzten Zeit überall nur Hunde. Heimweh?

[Sammelthread] Der 100Gbit Netzwerk Thread, ein bisschen 40gbit und „beyond“ ;)

Urgestein

Mr. Alzheimer

Urgestein

Urgestein

Mr. Alzheimer

Urgestein

Mr. Alzheimer

Enthusiast

Enthusiast

Enthusiast

Urgestein

Enthusiast

Urgestein

Enthusiast

Mr. Alzheimer

Urgestein

Mr. Alzheimer

Enthusiast

Mr. Alzheimer

Enthusiast

Mr. Alzheimer

Enthusiast

Enthusiast

Experte

Enthusiast

Legende

Experte

Legende

Experte