@jdl jetzt bringst du etwas durch einander.
SLI ist eine Technologie um Bildschirminhalte über mehrere Grafikkarten auf einem oder mehreren Bildschirmen darzustellen.
NVLink ist eine Technoligie um die Komunikation zwischen mehreren (bis zu 18) zu ermöglichen. Für beide wird die Brücke die die Grafikkarten verbindet, nicht wirklich gebraucht. Und wird mit der Silizium Photonik Technologie, denke ich mal, endgültig verschwinden.
NVLink wurde noch in der letzten Generation von RTX Workstation Grafikkarten zur Kopplung der Grafikkarten genutzt. Genau dafür wurde früher SLI genutzt. Wo bitte bringe ich da etwas durcheinander? Fakt ist NVLink kann mehr als SLI, was bei einer Fortentwicklung auch nicht verwundert.
Auch bringst du generell verschiedene Sachen etwas durch einander. Bei Server geht es nicht nach wieviele Sockel oder CPU Kerne oder RAM diese haben. Es geht rein darum, wie führen sie die vom Kunden benutzte Software so Effizient wie möglich aus.
HyperScaler lassen üblicherweise auf den Systemen VMs laufen, weil so die Resourcen effizienter genutzt werden können als wenn man für jeden Kunden bare metal den Server betreibt. Wer explizit bare metal will muss auch dafür zahlen.
Es gibt auch keine schwierigkeit irgend etwas zu Entwerfen oder zu Entwickeln. Es ist alles nur eine Frage des Bedarfs und des Geldes.
Natürlich gibt es Schwierigkeiten 1×12 oder 2×12 RAM Sockel auf
so einem Blade unterzubringen. Es ist keine Frage, das man die Blades größer machen kann, aber dann passen sie nicht mehr in der gleichen Dichte ins Rack, was die Kosten erhöht, weil man mehr Rackspace benötigt.
NVidia nutzt Infiniband? Huch? habe ich was verpasst.
Connect X6 und 7 Karten können damit umgehen. Würde mich jetzt Überraschen das man diese Option noch nutzt. Da reines Fiber Ethernet deutlich schneller und flexibler ist. Und der Trend in Richtung
PCIe over Fiber ist. Man geht sogar schon davon aus das im Datacenter selbst Ethernet "verschwinden" wird und alles durch PCIe Verbindungen ersetzt wird.
nVidia hat Mellanox gekauft, weil sie Infiniband haben wollten, und jemanden brauchten der NVLink-Switche entwickeln kann. Die Gesamtrechenleistung in einem Cluster hängt direkt von der Latenz (und nicht der Geschwindigkeit) der Netzwerkverbindung ab.
D.h. wenn man eine Cluster für HPC oder AI betreibt vernetz man diesen zwingend mit Infiniband. Ethernet hat deutliche Nachteile bei der Latenz, und es ist insgesamt deutlich unflexibler. PCIe Verbindungen sind nicht nur bedingt switch- und gar nicht routefähig. Daher eignen sich PCIe-Verbindungen nur dazu wenige Knoten (d.h. wenige Komponenten) in einem System zu vernetzen. Wenn man diese Problemen lösen will, muss man ein Protokoll einführen, dass diese Punkte umsetzt. Stell Dir mal vor, genau dafür hat man in der Vergangenheit Infiniband entwickelt. Man kann problemlos hunderttausende Knoten in einem Cluster per Infiniband vernetzen, man kann Standorte per Routing und Ethernet WAN-Verbindungen vernetzen. Gibt es vergleichbare Lösungen für PCIe?
Wem reines Infiniband nicht ausreicht, der kann virtuelle IP-Verbindungen über das Infiniband-Netzwerk übertragen. D.h. man braucht keine Ethernetkarte im System, man kann der Ethernet-Datenverkehr über virtuelle Verbindungen genauso schnell über Infiniband übertragen. Muss man aus dem Infiniband heraus, gibt es extra
Gateways zu Ethernet. Wo bitte ist Ethernet flexibler?