Werbung
Bereits häufiger war zusammen mit NVIDIAs GB200-Systemen von Problemen die Rede und nun kommt ein weiterer Bericht hinzu, dessen Legitimität jedoch stark in Frage zu stellen ist, als dies bei den anderen Meldungen der Fall war. Der in Taiwan ansässige Analyst Dan Nystedt berichtet via X, dass Microsoft 40 % seiner Bestellungen an GB200-KI-Servern storniert habe, da diese später als erwartet ausgeliefert würden.
Die Auslieferung würde sich bis in den März 2025 verzögern. Grund dafür sollen Probleme mit dem "cartridge connector module", welches von einer US-Firma hergestellt wird, sein. In einem GB200-NVL72-System befinden sich 18 Compute-Nodes mit jeweils zwei Grace-CPU und vier Blackwell-GPUs. Allesamt sind diese per NVLink miteinander verbunden. Dazu ist an der Rückseite des Racks ein Spine (zu deutsch Rückgrat) vorhanden, an das alle Compute- und Netzwerk-Nodes eingesteckt werden. Somit kommunizieren 72 Blackwell-GPUs per NVLink miteinander.
Auf der Computex konnten wir und das NVLink Spine etwas genauer anschauen:
Probleme in der Verbindung des Interconnects wären natürlich ein KO-Kriterium. Aus den Reaktionen auf die Verlinkung des Berichts durch Nystedt geht allerdings hervor, dass NVIDIA zusammen mit den ODMs bereits eine Lösung gefunden und diese bereits umgesetzt hat. Die ersten GB200-Racks sollen noch im Dezember ausgeliefert werden, größere Stückzahlen dann ab 2025.
Ein Produkt wie ein GB-200-NVL72-KI-Server ist nicht nur komplex im Aufbau, sondern kann auch nicht in größeren Stückzahlen einfach so an Kunden ausgeliefert werden. Zuvor bedarf es umfangreicher Tests und bei tausenden Racks sprechen wir auch von einem Lieferzeitraum von einigen Wochen bis Monaten zwischen dem ersten und letzten Rack. Eine Umschichtung der Bestellungen bei einem jährlichen Produktrythmus ist nicht weiter unüblich. Aktuell wird davon ausgegangen, dass NVIDIA bereits ab der zweiten Jahreshälfte 2025 due GB300-Beschleuniger ausliefern wird.
Bisherige Probleme und Verzögerungen
Im August wurde bekannt, dass es bei der Blackwell-GPU zu einem Designfehler gekommen war, der dazu führte, dass die Ausbeute der Chips extrem schlecht war. Gemeinsam mit TSMC hat NVIDIA dieses Problem beheben können, allerdings wurden neue Masken zur Belichtung benötigt und so verzögerte sich der Start der finalen Version. Mitte November kamen Berichte auf, dass die Kühlung der NVL72-Racks in der Entwicklung Probleme machte.