Werbung
In den kommenden Monaten wird NVIDIA die Auslieferung der KI-Beschleuniger auf Basis der Blackwell-Architektur deutlich erhöhen. Die initialen Probleme in der Fertigung der Backwell-GPU konnten beseitigt werden und mit dem vierten Quartal 2024 konnte die Produktion der entsprechenden Designs (B200 HGX, GB200, GB200 NVL72, ...) hochgefahren werden.
Doch auch wenn 2025 das Blackwell-Jahr werden soll und sich seit mehr als neun Monaten bereits alles darauf konzentriert, so wurden im Jahr 2024 allein durch die Großkunden wie Microsoft, Meta, Amazon, xAI, Google, Tencent und ByteDance fast 2 Millionen Hopper-Beschleuniger angeschafft. In den kommenden Monaten soll sich die Auslieferung nun von Hopper auf Blackwell verschieben.
Noch aber kann NVIDIA für Blackwell noch nicht solche Stückzahlen liefern und schon wird über Blackwell Ultra (B300) gesprochen. Ähnlich wie zwischen den beiden Hopper-Varianten H100 und H200 wurde für B300 erwartet, dass NVIDIA hier von 8-Hi auf 12-Hi HBM3E wechselt und damit die Speicherkapazität von 192 auf 288 GB ansteigt. Aber laut einer Analyse von SemiAnalysis hat NVIDIA noch etwas mehr im Köcher.
Die B300-GPU soll einen komplett neuen Tape-Out erfahren haben, wird aber weiterhin in 4NP bei TSMC gefertigt. Das neue Tape-Out wurde notwendig, da im Vergleich zur bisherigen Blackwell-GPU Designänderungen gemacht wurden. Auf dem Papier soll die B300-GPU mit zwei optimierten Blackwell-GPUs um 50 % höhere FLOPS als die B200-GPU erreichen können.
Die Steigerung der Rechenleistung wird über mehreren Maßnahmen erreicht: So steigt die TDP von 1.000 auf 1.200 W für die HGX-Variante sowie von 1.200 auf 1.400 W für die GB-Variante mit Grace-CPU. Den größten Anteil am Leistungsplus haben die Designänderungen an der Blackwell-Architektur und dem Ausbau der Blackwell-GPU. Allerdings ist nicht bekannt, welche Änderungen NVIDIA genau vorgenommen hat. Einen viel größeren Ausbau wird NVIDIA nicht realisieren können, denn die Compute-Chips sind mit über 800 mm² schon an der Grenze dessen, was sich in der EUV-Lithografie herstellen lässt.
Weiterhin soll der GB300-Beschleuniger in Kombination aus zwei Blackwell-GPUs mit einer Grace-CPU über eine optimierte Dynamik in der Zuteilung der Leistung zwischen den GPUs uns der CPU verfügen. Die 288 GB an HBM3E mit einer Speicherbandbreite von 8 TB/s pro GPU bleiben unverändert. Die Steigerung der Kapazität von 192 auf 288 GB sind für das Reasoning Model Inference von Vorteil.
Änderungen gibt es auch im Aufbau der GB300-Module. Bisher sitzen zwei Blackwell-GPUs mit einer Grace-CPU und dem LPDDR5X auf einem Board. Das GB200 Bianca Board wird von Wistrom und FII für NVIDIA in kompletter Form gefertigt. OEMs und ODMs mussten dieses komplette Design kaufen.
Das GB300 Reference Board besteht aus zwei Modulen mit jeweils zwei B300-GPUs und einer Grace-CPU. Für GB300 wechselt NVIDIA zudem auf LPCAMM-Speicher für die Grace-CPU. Micron wird die entsprechenden Speichermodule liefern, die neben den Grace-CPUs sitzen. Anstatt eines kompletten Packages mit der Blackwell-GPU auf dem PCB setzt NVIDIA auf einen sogenannten SXM7 Puck, der auf der GB300-Platine platziert wird. Das SXM7-Modul wird von FII gefertigt werden und kann von OEMs und ODMs gekauft werden, die dieses dann auf einer eigenen GB300-Platine einsetzen können. Auch der VRM-Bereich wird nicht mehr von NVIDIA direkt vorgegeben, sondern kann von OEMs und ODMs selbst gefertigt werden.
Schlussendlich wird NVIDIA auf dem GB300-Beschleuniger auch den 800G ConnectX-8 NIC zum Einsatz bringen. Dieser hat im Vergleich zum ConnectX-7 eine doppelt so hohe Bandbreite von 800 GBit/s, verwendet dafür aber auch 48 anstatt wie bisher 32 PCI-Express-Lanes.
Flexiblere Fertigung
Neben der Steigerung der Leistung sollen die B300- und GB300-Beschleuniger vor allem durch mehr Flexibilität in der Fertigung attraktiver werden. Bisher konzentriert sich NVIDIA hier sehr auf einzelne Hersteller für die zentralen Komponenten. Selbst die großen OEMs und ODMs mussten auf deren Vorgaben bzw. Hardware zurückgreifen. Dies stellt sich aber auch als größere Hürde dar, denn einerseits wirkten sich kleinere Fehler im Design auf das komplette Produkt aus und es gab auch keine Zweitquellen in der Fertigung, was zu Engpässen in der Fertigung geführt hat.