Werbung
In diesem Quartal beginnt NVIDIA damit die Auslieferung der Blackwell-Beschleuniger immer weiter zu steigern. Bereits im vergangenen Monat verkündete NVIDIA, dass sich die Blackwell-GPU "in full production" befindet. Nun berichten Reuters und The Informant über eventuelle Bedenken aufgrund zu hoher Temperaturen der Beschleuniger.
Betroffen sind offenbar die Server, basierend auf dem kompletten Rack-System GB200 NVL72. Dabei handelt es sich um einen kompletten Server mit 36 Grace-CPUs und 72 Blackwell-GPUs, die sich allesamt in einem Rack befinden und die alle über NVLink miteinander verbunden sind. Ein solches Rack hat einer Leistungsaufnahme von 120 kW und wird daher komplett wassergekühlt. Die Compute-Module bestehen aus 36 GB200 Grace Blackwell Superchips mit einer konfigurierbaren TDP von bis zu 2.700 W. Allein diese kommen somit auf 97,2 kW – für die restlichen mehr als 20 kW sind dann unter anderem die NVLink-Switches für den Interconnect und Netzwerk-Switches für die Kommunikation über das Rack hinaus verantwortlich.
Mit dem GB200 NVL72 stellt NVIDIA an die Datacenter-Infrastruktur neue Herausforderungen und das in gleich vielerlei Hinsicht: Gewicht, Stromversorgung, Kühlung und vieles mehr. Das es aber so spät noch zu solchen Problemen kommen soll, ist eher ungewöhnlich, denn das erste GB200-NVL72-Rack wurde bereits zur GTC im Frühjahr 2024 der Öffentlichkeit präsentiert. Vermutlich sind die Probleme bereits vor einigen Monaten aufgetaucht und die entsprechenden Anpassungen bereits erfolgt.
Konkret auf das Überhitzungsproblem wollte NVIDIA gegenüber Reuters nicht eingehen:
Die Beschleuniger von NVIDIA sitzen auf großen Trägerplatinen (im Falle von GB200) oder im SXM5-Format auf kleineren Modulen. Diese Module wiederum haben eine konfigurierbare TDP und so lässt sich die Leistungsaufnahme auf die Kühlung anpassen. Im Falle des GB200 Grace Blackwell Superchip sprechen hier wir von bis zu 2.700 W. Ein B200-Beschleuniger kommt auf bis zu 1.000 W. Theoretisch ließen sich Probleme bei der Kühlung somit über eine Reduzierung der Leistungsaufnahme in den Griff bekommen. Allerdings würde damit auch die Leistung des Gesamtsystems reduziert werden.
Dies dürfte natürlich nicht im Interesse von NVIDIA sein. Es ist aber auch nicht ganz klar, ob die Blackwell-GPUs überhitzen oder die Kühlung nicht in der Lage ist unter Dauerlast die Abwärme abzuführen oder wo genau das Problem liegt.
Im August wurde bekannt, dass es bei der Blackwell-GPU zu einem Designfehler gekommen war, der dazu führte, dass die Ausbeute der Chips extrem schlecht war. Gemeinsam mit TSMC hat NVIDIA dieses Problem beheben können, allerdings wurden neue Masken zur Belichtung benötigt und so verzögerte sich der Start der finalen Version. Seit Mitte Oktober liefert NVIDIA die ersten Blackwell-Systeme an seine Großkunden wie OpenAI, Microsoft und Google. Im ersten Quartal 2025 ist mit größeren Stückzahlen zu rechnen.