Riesiger LGA9324: Diamond Rapids kommt auf Oak-Stream-Plattform zum Einsatz

HWL News Bot · 21.08.2024

Mit Sierra Forest und Granite Rapids baut Intel seine aktuelle Xeon-Generation mit reinen E-Kern- und P-Kern-Modellen auf der Birch-Stream-Plattform auf. Der Nachfolger von Granite Rapids mit P-Kernen, der im dritten oder vierten Quartal auf den Markt kommen dürfte, soll Diamond Rapids werden, die dazugehörige Plattform heißt Oak Stream. Dies führt Intel in seinem eigenen Design Tools Store an, wo Hardware-Entwickler Testequipment erstehen können.
... weiterlesen

Zeitmangel · 26.08.2024

Gute Frage was sie die Blauen da wieder basteln. SP5 mit 6096 Kontakten macht ebenfalls 12 Speicherkanäle und halt 128 PCIe5 Lines. "144 PCIe/CXL-Lanes" machen nicht den plus von 3228 Kontakten aus. Oder doch?
Wobei ich letztens einen Wisch von AMD sah, daß Epyc 9004, 64 CXL-Lines macht. 192 "PCIe/CXL" also?

Also alles völlig wertfrei (!) aber 9324 Kontakte im CPU-Sockel sind mal echt eine Hausnummer

Infin1tum · 26.08.2024

Da mal die CPU in den Sockel fallen lassen
@der8auer kriegt flashbacks

Zeitmangel · 26.08.2024

THW fragte sich auch schon wie groß denn der Sockel wie auch die CPU werden sollen

Intel's Diamond Rapids will use LGA9324 packaging

More power, more I/O, more memory?

www.tomshardware.com

jdl · 27.08.2024

Zeitmangel schrieb:
Gute Frage was sie die Blauen da wieder basteln. SP5 mit 6096 Kontakten macht ebenfalls 12 Speicherkanäle und halt 128 PCIe5 Lines. "144 PCIe/CXL-Lanes" machen nicht den plus von 3228 Kontakten aus. Oder doch?
Wobei ich letztens einen Wisch von AMD sah, daß Epyc 9004, 64 CXL-Lines macht. 192 "PCIe/CXL" also?

Die Xeon 6 (LGA 4710) haben aktuell 8 Memory Channels, 88 PCIe Lanes und 4 UPI Links. Will man zwei CPUs koppeln, erfolgt das über die UPI Links und das Dualsocketsystem hat 176 PCIe Lanes. Beim AMD EPYC 9004 (SP5 6096 Kontakte) hast Du die 12 Memory Channels und nur die 128 PCIe Lanes. Es gibt keine dedizierten IO-Verbindungen zum Koppeln der CPUs oder von Peripherie. Willst Du da die CPUs koppeln, hat man nur 160 PCIe Lanes im Dualsocketsystem, weil pro CPU 48 Lanes für die Koppelung genutzt werden. D.h. auch die CXL Lanes sind von den PCIe Lanes der EPYCs abzuziehen.

Zeitmangel · 27.08.2024

Danke.

Könnte das auch daran liegen, daß aus AMD Sicht (und anschließend deren Kunden) DualSocket immer mehr eine Nische wird? Also sowas wie heute... SLI?

https://www.amd.com/en/solutions/data-center/insights/myths-and-urban-legends-about-dual-socket-servers.html

tonythebuilder · 27.08.2024

Dual-, Quad- und mehr Sockel Systeme existieren nur Aufgrund von Hardwarelimitierungen. Sie werden zwar zu Nische werden, aber definitiv nicht wie SLI verschwinden.
Auch CPUs werden bald an einen Punkt kommen an dem sie nicht mehr größer werden können. Ohne Leistung zu verlieren.

Und bei solchen System kann dir in der Regel keine CPU in den Sockel fallen. Denn, bei Intel, montierst man sie erst in einen Kunststoffrahmen der dann auf denn Kühler geklippt wird. Dieses ganze Packet wird dann auf denn Sockel gestellt arretiert und mit einem Drehmomentschlüssel fest gezogen. Bei AMD ist es etwas anders aber auch nicht viel einfacher. Und in der Regel passiert das bei den großen OEMs.
Leute wie ich, mit einem Xeon SP oder andere mit einem TR sind eher die Ausnahme. Und das beim 8auer war halt einfach Pech. Passiert ihm nur einmal.

Zeitmangel · 27.08.2024

tonythebuilder schrieb:
Dual-, Quad- und mehr Sockel Systeme existieren nur Aufgrund von Hardwarelimitierungen. Sie werden zwar zu Nische werden, aber definitiv nicht wie SLI verschwinden.

SLI ist doch nicht verschwunden. Heißt jetzt nur anderes und wird nicht mehr von Gamern genutzt

jdl · 27.08.2024

Zeitmangel schrieb:
Danke.

Könnte das auch daran liegen, daß aus AMD Sicht (und anschließend deren Kunden) DualSocket immer mehr eine Nische wird? Also sowas wie heute... SLI?

SLI ist durch NVLink abgelöst worden und erfreut sich auch weiterhin sehr großer Beliebtheit bei den Rechenzentrums Karten von nVidia. (Ganz ähnliche Lösungen gibt es von AMD und Intel, wenn es um Beschleuniger geht.) Nur in der Desktop Anwendung ist NVLink kein Thema mehr, aber auch da kann man es indirekt nutzen in dem man eine VM nutzt, die dann auf einem NVLink Verbund (nVidias vGPU) läuft und das Bild auf einer normalen Desktop Karte visualisiert wird. Das war das Setup bei nVidias eigener DGX Workstation, und das gibt es noch immer bei SuperMicros AI Entwicklungsmaschine.

Die Dualsocket Maschine sind pro Sockel tendenziell etwas billiger, und wenn man z.B. für HPC, AI, Hyperscaling o.ä. die Leistung auf Hunderten gar Tausenden Knoten braucht, dann interessieren am Ende nur die Gesamtkosten Pro Rack und nicht mehr so sehr, ob das nun Singelsocket oder Dualsocket Server sind. Es ist wegen der 12 Channels schwierig kompakte Boards für EPYCs zu entwerfen, die z.B. für Blade Server geeignet sind. Da hat man aktuell dann mit Intel CPUs eine höhere Packungsdichte. So bekommst Du z.B. nur AMD EPYC Twin Server, so dass man bestenfalls 8 CPUs pro 2U unterbringen kann. Aber die meisten Modelle haben nur noch 4 CPUs pro 2U. In ein aktuelles Bladecenter passen auf 8U 40 Intel CPUs. Man wird sehen, wenn die P Core Xeon 6 kommen, wie es dann bei den Intel CPus aussehen wird.

Wirkliche Vorteile hat man bei AMD nur dann, wenn man z.B. viele GPUs direkt ansteuern will, da sich mit den 128 Lanes vs. den 88 Lanes bei Intel SingleSocket mehr GPUs und NICs ansteuern lassen. Das ist aber eine Nische in der Nische des AI Marktes, bei dem es nicht sonderlich auf IO-Bandbreite zwischen den GPUs ankommt. Die wirklichen hochspezialisierten AI-GPU-Knoten haben üblicherweise zwei CPUs, und acht GPUs, die dann pro GPU eine Infinibandkarte haben, und die intern über eine Fabric direkt vernetzt sind. Bei den nVidia H100 sind das ca. 3,5TB/s Speicherdurchsatz auf der Karte, und ca. 1TB/s zwischen GPUs und über die 8 Infinibandkarten zu anderen Knoten im Cluster.

Zeitmangel · 28.08.2024

jdl schrieb:
Die Dualsocket Maschine sind pro Sockel tendenziell etwas billiger, und wenn man z.B. für HPC, AI, Hyperscaling o.ä. die Leistung auf Hunderten gar Tausenden Knoten braucht,

Ja. Schrieb ich. Das ist eben die Nische. Heute kommen gefühlt auf Tausend 2P Maschinen eine Millionen 1P Maschinen. War früher zwar anders, das war aber früher. Haben wir überhaupt so viele HPC/Hyperscaler/AI-Buden, daß sich das gegenüber dem gesamten restlichen klassischen Servermarkt dermaßen auswirkt (Stückzahlen)?

jdl schrieb:
Es ist wegen der 12 Channels schwierig kompakte Boards für EPYCs zu entwerfen, die z.B. für Blade Server geeignet sind.

Ein 7232P zieht 120W und hat 4 Channel. Neuer, z.B. ein Epyc 4124P, hat 65W und 2 Channel. Das sind auch nicht die einzigen Epycs wo man keine 12 Channel auf dem Board routen muss.

jdl schrieb:
Da hat man aktuell dann mit Intel CPUs eine höhere Packungsdichte.

Ja das stimmt. Mir fiel das schon früher auf, daß dies die klare Domäne von Intel ist. 1P scheint auf den ersten Blick sogar selten, weil wenn AMD wieder irgendeine bunte Vergleichsfolie malt, sie fairerweise irgendeine ihrer 1P Maschinen meist mit einer 2P Intel-Maschine vergleichen. Ich bin aber auf die 2P LGA9324 Boards gespannt...

jdl schrieb:
Wirkliche Vorteile hat man bei AMD nur dann, wenn man z.B. viele GPUs direkt ansteuern will

Ich weiß nicht, ob wir beide da wirklich den nötigen Durchblick haben. Hab mir grad die Stückzahlen bei den Epycs angeschaut und wenn nur das stimmen würde (Zitat), würden die Stückzahlen anders aussehen. Wenn das die "wirklichen" Vorteile wären, den Stückzahlen nach, müsste die Jahresproduktion an GPUs Milliarden betragen. Irgendwer kauft also Epycs - und das echt nicht wenige - auch dann, wenn er sie nicht mit vielen GPUs flankieren will. Seltsam...

tonythebuilder · 28.08.2024

@jdl jetzt bringst du etwas durch einander. SLI ist eine Technologie um Bildschirminhalte über mehrere Grafikkarten auf einem oder mehreren Bildschirmen darzustellen. NVLink ist eine Technoligie um die Komunikation zwischen mehreren (bis zu 18) zu ermöglichen. Für beide wird die Brücke die die Grafikkarten verbindet, nicht wirklich gebraucht. Und wird mit der Silizium Photonik Technologie, denke ich mal, endgültig verschwinden.

Auch bringst du generell verschiedene Sachen etwas durch einander. Bei Server geht es nicht nach wieviele Sockel oder CPU Kerne oder RAM diese haben. Es geht rein darum, wie führen sie die vom Kunden benutzte Software so Effizient wie möglich aus. Die ist je nach Anwendungsfall komplett unterschiedtlich. Deswegen gibt es Supercomputer die rein auf CPUs rechnen, manche haben zusätlich Beschleuniger Karten wie H100, Xe-HPC oder Vector Engine (2.0). Es gibt Anwendung dort sind 256 GB RAM normal, es gibt aber auch Bereiche da sind 2TB normal.
Es gibt auch keine schwierigkeit irgend etwas zu Entwerfen oder zu Entwickeln. Es ist alles nur eine Frage des Bedarfs und des Geldes.
NVidia nutzt Infiniband? Huch? habe ich was verpasst. Connect X6 und 7 Karten können damit umgehen. Würde mich jetzt Überraschen das man diese Option noch nutzt. Da reines Fiber Ethernet deutlich schneller und flexibler ist. Und der Trend in Richtung PCIe over Fiber ist. Man geht sogar schon davon aus das im Datacenter selbst Ethernet "verschwinden" wird und alles durch PCIe Verbindungen ersetzt wird.

Zeitmangel · 28.08.2024

tonythebuilder schrieb:
Deswegen gibt es Supercomputer die rein auf CPUs rechnen, manche haben zusätlich Beschleuniger Karten wie H100, Xe-HPC oder Vector Engine (2.0).

Ja das ist an der Stelle aber auch wirklich schade, daß keiner AMDs Instinct nutzt... Aber hey, NECs VE ist noch dabei

tonythebuilder schrieb:
Man geht sogar schon davon aus das im Datacenter selbst Ethernet "verschwinden" wird und alles durch PCIe Verbindungen ersetzt wird.

Das entscheidet sich wohl erst und nochmal, wenn sie 1,6T ausrollen.

Für PCIe-Fiber braucht man eigentlich schon funktionierendes Photonics. Das lungert zwar schon im Hausflur rum, steht aber noch nicht so wirklich vor der Tür

tonythebuilder · 29.08.2024

Es gibt für jeden Bereich seine eigenen Beschleunigerkarten. Wenn du genug Kohle hast wird auch für dich und deinen Anwendungsfall eine entwickelt und gebaut. Von daher herje mit der Instinct. Die NEC VE ist tatsächlich durch aus sehr wichtig. Da sie sehr oft in der Berechnung von Wettervorhersagen benutzt wird.

Mit PCIe 7 sollen die Photonics kommen. Die Specificationen für PCIe 7 als 1.0 soll 2025 fertig sein. Dann vielleicht noch 5 Jahre zum fertigen Produkt. Gut man kann sagen bis 2030 ist es noch sooooo lange. Oder es ist bald da.

Zeitmangel · 29.08.2024

tonythebuilder schrieb:
Es gibt für jeden Bereich seine eigenen Beschleunigerkarten. Wenn du genug Kohle hast wird auch für dich und deinen Anwendungsfall eine entwickelt und gebaut. Von daher herje mit der Instinct. Die NEC VE ist tatsächlich durch aus sehr wichtig. Da sie sehr oft in der Berechnung von Wettervorhersagen benutzt wird.

Das mit VE ist noch irgendwo im ehemaligen Ostblock hängegeblieben. Und der einen Uni in DE mein ich, die NEC immer gut umworben hat. An sich aber auch keine Einwände, aber sie haben eben aufgehört, weil der Rest sie überrundet hat. Sie haben nicht schnell genug reingehauen mit der Weiterentwicklung. Deswegen ist das auch eingestampft, übrigens. Und der Verbreitung stand auch eine gewisse Sturheit NECs was lizensierung angeht, hab ich mal beiläufig gehört (muss nicht stimmen

) Unabhängig davon, daß A64FX das nun im Vorbeigehen mitmacht.

Von daher herje mit der Instinct.

Ja. Ist klar. Es fiel schon davor überhaupt nicht auf wer dich auf die Mission schickt :angel:

Erzähl ruhig weiter :hust:

tonythebuilder schrieb:
Mit PCIe 7 sollen die Photonics kommen.

Na dann werden wir mal sehen wie lange das dann noch dauert. 2030 klingt reaistisch. Falls wir da nicht erst wieder (und schon) bei 1810 sind...

edit:
Wobei mir die Designs der SX immer mit Abstand am meisten gefallen hatten. Damals machten die Racks noch was her und waren keine Skelete, mit einer Plane überzogen

jdl · 31.08.2024

tonythebuilder schrieb:
@jdl jetzt bringst du etwas durch einander. SLI ist eine Technologie um Bildschirminhalte über mehrere Grafikkarten auf einem oder mehreren Bildschirmen darzustellen. NVLink ist eine Technoligie um die Komunikation zwischen mehreren (bis zu 18) zu ermöglichen. Für beide wird die Brücke die die Grafikkarten verbindet, nicht wirklich gebraucht. Und wird mit der Silizium Photonik Technologie, denke ich mal, endgültig verschwinden.

NVLink wurde noch in der letzten Generation von RTX Workstation Grafikkarten zur Kopplung der Grafikkarten genutzt. Genau dafür wurde früher SLI genutzt. Wo bitte bringe ich da etwas durcheinander? Fakt ist NVLink kann mehr als SLI, was bei einer Fortentwicklung auch nicht verwundert.

tonythebuilder schrieb:
Auch bringst du generell verschiedene Sachen etwas durch einander. Bei Server geht es nicht nach wieviele Sockel oder CPU Kerne oder RAM diese haben. Es geht rein darum, wie führen sie die vom Kunden benutzte Software so Effizient wie möglich aus.

HyperScaler lassen üblicherweise auf den Systemen VMs laufen, weil so die Resourcen effizienter genutzt werden können als wenn man für jeden Kunden bare metal den Server betreibt. Wer explizit bare metal will muss auch dafür zahlen.

tonythebuilder schrieb:
Es gibt auch keine schwierigkeit irgend etwas zu Entwerfen oder zu Entwickeln. Es ist alles nur eine Frage des Bedarfs und des Geldes.

Natürlich gibt es Schwierigkeiten 1×12 oder 2×12 RAM Sockel auf so einem Blade unterzubringen. Es ist keine Frage, das man die Blades größer machen kann, aber dann passen sie nicht mehr in der gleichen Dichte ins Rack, was die Kosten erhöht, weil man mehr Rackspace benötigt.

tonythebuilder schrieb:
NVidia nutzt Infiniband? Huch? habe ich was verpasst. Connect X6 und 7 Karten können damit umgehen. Würde mich jetzt Überraschen das man diese Option noch nutzt. Da reines Fiber Ethernet deutlich schneller und flexibler ist. Und der Trend in Richtung PCIe over Fiber ist. Man geht sogar schon davon aus das im Datacenter selbst Ethernet "verschwinden" wird und alles durch PCIe Verbindungen ersetzt wird.

nVidia hat Mellanox gekauft, weil sie Infiniband haben wollten, und jemanden brauchten der NVLink-Switche entwickeln kann. Die Gesamtrechenleistung in einem Cluster hängt direkt von der Latenz (und nicht der Geschwindigkeit) der Netzwerkverbindung ab. D.h. wenn man eine Cluster für HPC oder AI betreibt vernetz man diesen zwingend mit Infiniband. Ethernet hat deutliche Nachteile bei der Latenz, und es ist insgesamt deutlich unflexibler. PCIe Verbindungen sind nicht nur bedingt switch- und gar nicht routefähig. Daher eignen sich PCIe-Verbindungen nur dazu wenige Knoten (d.h. wenige Komponenten) in einem System zu vernetzen. Wenn man diese Problemen lösen will, muss man ein Protokoll einführen, dass diese Punkte umsetzt. Stell Dir mal vor, genau dafür hat man in der Vergangenheit Infiniband entwickelt. Man kann problemlos hunderttausende Knoten in einem Cluster per Infiniband vernetzen, man kann Standorte per Routing und Ethernet WAN-Verbindungen vernetzen. Gibt es vergleichbare Lösungen für PCIe?

Wem reines Infiniband nicht ausreicht, der kann virtuelle IP-Verbindungen über das Infiniband-Netzwerk übertragen. D.h. man braucht keine Ethernetkarte im System, man kann der Ethernet-Datenverkehr über virtuelle Verbindungen genauso schnell über Infiniband übertragen. Muss man aus dem Infiniband heraus, gibt es extra Gateways zu Ethernet. Wo bitte ist Ethernet flexibler?

Zeitmangel · 01.09.2024

jdl schrieb:
D.h. wenn man eine Cluster für HPC oder AI betreibt vernetz man diesen zwingend mit Infiniband.

Oder Slingshot...

jdl · 01.09.2024

Zeitmangel schrieb:
Oder Slingshot...

Nur wenn man Kunde von HPE ist, sonst spielt das keine Rolle. 293 von 500 Systemen in den Top500 nutzen Infiniband – auch Systeme von HPE.

Zeitmangel · 02.09.2024

jdl schrieb:
Nur wenn man Kunde von HPE ist,

Wie viele Systeme in der Top500 haben Infiniband und keine NV GPUs?

jdl schrieb:
sonst spielt das keine Rolle. 293 von 500 Systemen in den Top500 nutzen Infiniband – auch Systeme von HPE.

Ist schon richtig. Wobei das eine Quote ist die doch irgendwie schlecht "zwingend" widerspiegelt :hmm:

Da das aber mittlerweile eine riesige Herausforderung ist, bei welcher NV schon aktuell bereits ziemlich geschwommen hat (es teils imho noch tut) und HPE Slingshot-11 anscheinend auch erst dank Frontier ausentwickeln konnte, geht man das Thema nun doch lieber GLOBAL an und verabschiedet sich so nach und nach von dem feuchten Traum dieses lock-ins. Liste aller Teilnehmer:

Ultra Ethernet Consortium

Delivering an Ethernet based open, interoperable, high performance, full-communications stack architecture to meet the growing network demands of AI & HPC at scale.

ultraethernet.org

Riesiger LGA9324: Diamond Rapids kommt auf Oak-Stream-Plattform zum Einsatz

News

Experte

Enthusiast

Experte

Enthusiast

Experte

Experte

Experte

Enthusiast

Experte

Experte

Experte

Experte

Experte

Enthusiast

Experte

Enthusiast

Experte

Ähnliche Themen