100.000 H100-GPUs

X.AI baut riesiges KI-Cluster mit gewaltigem Stromhunger

Von Andreas Schilling
Dienstag, 23.07.2024 um 16:33 Uhr

X.AI baut riesiges KI-Cluster mit gewaltigem Stromhunger

Nach eigenen Angaben hat das X.AI eines der bisher größten KI-Cluster in Betrieb genommen, wobei dies nicht ganz stimmt, denn noch scheint der Ausbau mit 100.000 H100-Beschleuniger von NVIDIA nicht ganz abgeschlossen zu sein, auch wenn X.AI-Chef Elon Musk dies auf X behauptet.

Bereits seit geraumer Zeit arbeitet X.AI am Aufbau eines größeren KI-Clusters, welches das aktuelle System mit etwa 20.000 dieser Beschleuniger ablösen soll. X.AI trainiert auf der Hardware die eigenen LLMs namens Grok. In jüngster Vergangenheit sorgte eine Umverteilung der GPUs für Unmut, denn eigentlich waren viele der H100-Beschleuniger für Tesla vorgesehen, Musk selbst soll dann aber dafür gesorgt haben, dass X.AI die Beschleuniger bekommt, denn hier scheint man Angst zu haben hinter OpenAI, Meta, Google und Co. in Rückstand zu geraten.

Das neue Cluster wird in Memphis, im US-Bundesstaat Tennessee, aufgebaut. Mit 100.000 H100-Beschleunigern wäre es das aktuell größte KI-Cluster. Meta stellte im Frühjahr die Hardware zwei seiner größten Cluster vor, die jeweils 24.576 H100-Beschleuniger verwenden und damit in etwa auf ein Viertel der Größe kommen. Auch OpenAI arbeitet über Azure auf Systemen mit mehreren tausend Beschleunigern – vermutlich auch schon in einer fünfstelligen Anzahl.

Elon Musk im X.AI-Rechenzentrum in Memphis

Laut Musk sind Dell und Supermicro die Hersteller der Server. Gekühlt wird die Hardware mittels Wasser. H100-Server gibt es in luft- und wassergekühlten Varianten – je nachdem wie die Infrastruktur des Rechenzentrums dies ermöglicht.

Infrastruktur ist auch gleich ein gutes Stichwort, denn offenbar musste X.AI einige Kniffe anwenden, um ein solches Rechenzentrum in Memphis in Betrieb zu nehmen. Das Gebäude konnte bisher nur über einen Anschluss mit 8 MW versorgt werden, was bei weitem nicht für ein solches Rechencluster ausreicht. Allein die etwa 100.000 H100-Beschleuniger verbrauchen fast 70 MW, aber X.AI war wohl schon in Gesprächen mit dem Versorgungsunternehmen TVA, die ab August weitere 50 MW bereitstellen sollen. Bis zum Jahresende sollen es 200 MW sein.

Laut einer Analyse von SemiAnalysis soll ein KI-Cluster mit 100.000 H100-Beschleuniger in etwa eine Leistungsaufnahme von 155 MW besitzen. Derzeit sind aber auch erst etwa 32.000 H100-Beschleuniger aktiv in Betrieb, die restlichen sollen bis zum vierten Quartal hinzukommen, so dass die Anforderungen an die Stromversorgung noch etwas niedriger ausfallen. Dennoch muss X.AI hier eine Versorgungslücke füllen, was das Unternehmen mit mobilen Generatoren umsetzt. 14 dieser riesigen Generatoren mit jeweils 2,5 MW befinden sich bereits auf dem Gelände in Memphis, sodass man mit diesen zusammengenommen 35 MW und den 8 MW über das Netz die etwa 32.000 H100-Beschleuniger in der aktuellen Ausbaustufe betreiben kann. Bis dann die weiteren etwa 68.000 H100-Beschleuniger in Betrieb gehen, ist das Versorgungsnetz entsprechend ausgebaut.

Zwei Punkte machen die genannten Zahlen noch einmal deutlich: Einerseits hat die Kommunikation der Beschleuniger untereinander und auch die dazugehörige Infrastruktur (z.B. die Kühlung) einen gewaltigen Anteil am Energieverbrauch eines solchen KI-Rechenzentrums und andererseits ist neben der Verfügbarkeit der Hardware auch der Ausbau der Stromversorgung zu diesen Anlagen ein kritischer Punkt. Nun ist X.AI nicht das einzige Unternehmen, welches solch riesige KI-Cluster bauen möchte und so drängt sich die Frage auf, wo der Aufbau solcher Cluster überhaupt sinnvoll möglich ist und welche Auswirkungen dies hat.

Quellen und weitere Links

KOMMENTARE (9)