GTC 2025, Blackwell Ultra und Rubin

Neuigkeiten zum Hardware-Rhythmus Mitte März

Von Andreas Schilling
Mittwoch, 13.11.2024 um 17:00 Uhr

Neuigkeiten zum Hardware-Rhythmus Mitte März

Heute gab es im Rahmen der neuesten MLPerf-Ergebnisse die ersten unabhängigen Benchmarks zur Trainings-Leistung des B200-Beschleunigers von NVIDIA. Der KI-Riese hatte bereits in diesem Jahr über den Nachfolger Blackwell Ultra und Rubin gesprochen, zur GTC 2025 dürfte es weitere Details geben. Zu dieser gibt es nun einen offiziellen Termin: 17. bis 20. März 2025 in San Jose – in etwa der gleiche Zeitraum und der gleiche Ort wie im aktuellen Jahr.

NVIDIA sprach zuletzt immer wieder davon, dass man nur mit einem jährlichen Rhythmus den Anforderungen im KI-Segment gerecht werden kann. Der H200-Beschleuniger folgte recht schnell auf den H100 und Blackwell, bzw. der B200- und GB200-Beschleuniger wird aktuell in immer größeren Stückzahlen ausgeliefert. Anfang 2025 sollen es dann mehrere hunderttausend pro Quartal sein.

NVIDIA hat inzwischen vieles selbst in der Hand: Von den Beschleuniger-Chips, über die NVLink-Chips für den extrem schnellen Interconnect bis hin zu den Quantum-, Connect-X- und Spectrum-Chips für InfiniBand und Ethernet. Das aktuelle Produktportfolio für Blackwell ist schon riesig und für Blackwell Ultra als nächste Generation beständig. Für die übernächste Generation Rubin steht dann wieder eine ganze Reihe an neuen Netzwerk- und Interconnect-Chips an.

Mit Blackwell Ultra wird NVIDIA auf die bestehende Blackwell-Architektur setzen, die GPUs aber mit mehr Speicher ausstatten. 288 GB HBM3E sollen es sein. Bei der Speicher- und Interconnect-Bandbreite dürfte sich nichts tun.

Dies wird erst wieder mit Rubin der Fall sein. Die sechste Generation des NVLink-Interconnects wird 1,8 TB/s pro Richtung erreichen. Während Hopper und Blackwell für die Superchips auf die Grace-CPU setzen, wird für Rubin eine neue CPU namens Vera zum Einsatz kommen. Auf GB200 (Grace Hopper) wird demnach VR200 (Vera Rubin) folgen. Hinzu kommen neue CX9 SuperNICs mit 1,6 TBit/s pro Port und Spectrum X1600 Ethernet/InfiniBand-Switches mit ebenfalls 1,6 TBit/s pro Port.

Daneben wird Rubin offenbar auf HBM4 mit acht Stacks setzen. Mit Rubin Ultra steht dann für 2026 ein Refresh auf dem Plan.

Gegenüberstellung der Beschleuniger
	Rubin	B200	H200
Fertigung	-	4 nm	4 nm
FP64-Rechenleistung	-	40 TFLOPS	67 TFLOPs
FP32-Rechenleistung	-	80 TFLOPS	67 TFLOPs
TF32-Rechenleistung	-	2.200 TFLOPS	989 TFLOPs
BFLOAT16/FP16-Rechenleistung	-	4.500 TFLOPS	1.979 TFLOPS
FP8/INT8-Rechenleistung	-	9.000 TFLOPS	3.958 TFLOPS
FP4-Rechenleistung	-	18 PFLOPS	-
Speicher	288 GB HBM3E 8 TB/s	192 GB HBM3E 8 TB/s	141 GB HBM3 4,8 TB/s
Interconnect	NVLink 3,6 TB/s	NVLink 1,8 TB/s	NVLink 900 GB/s
PCI-Express	-	6.0	5.0