Amazon Web Services

Ultracluster mit hunderttausenden Trainium-Chips in Planung

Von Andreas Schilling
Mittwoch, 04.12.2024 um 08:44 Uhr

Ultracluster mit hunderttausenden Trainium-Chips in Planung

Der Cloud-Computing-Bereich von Amazon, die Amazon Web Services, entwickelt in den Annapurna Labs im texanischen Austin, die eigenen Chips, die längst eine Alternative für die x86-Prozessoren von AMD und Intel sowie für die KI-Beschleuniger von NVIDIA geworden sind: Zusammen mit dem KI-Startup Anthropic will AWS einen KI-Supercomputer aufbauen, der alles bisher Dagewesene übertreffen soll.

Das Rechencluster trägt den Namen Rainier und soll an einem bisher nicht genannten Ort in den USA aufgebaut werden. Bereits 2025 soll das System bereitstehen. Die bisher größten KI-Systeme bestehen aus 100.000 Beschleunigern. x.AI baute Collossus mit 100.000 H100-Beschleunigern in nur 122 Tagen auf.

Für Rainier sollen die hauseigenen Trainium2-Chips verwendet werden. Amazon bietet diese in den "Trn2 UltraServer" getauften Instanzen an. Die Instanzen auf Basis der Trainium2-Chips sollen laut AWS ein um 30 bis 40 % bessere Preis-Leistungs-Verhältnis bieten.

Ein UltraServer besteht aus vier Nodes mit jeweils 16 Trainium2-Chips. Miteinander verbunden sind die Server mittels NeuronLink-Interconnect. Für bis zu 16 Trainium2-Chips skaliert AWS die UltraServer in der Cloud. Für den KI-Supercomputer sollen es eben "mehrere hunderttausend" ("hundreds of thousands of Trainium2 chips") sein. In einem Stream mit Anthropic wurden 400.000 Chips genannt. Mit solchen Systemen will Amazon den Bedarf nach immer größeren Clustern decken, welche die immer größeren KI-Modelle trainieren sollen.

Dabei will AWS eines der großen Probleme bei solchen gigantischen Clustern gelöst haben: Den Overhead des Netzwerks. Bei Clustern mit mehreren zehntausend und nun hunderttausend Clustern kann das Netzwerk mehr als ein Drittel des Stromverbrauchs aufnehmen. Um die Rechenleistung derart vieler Beschleuniger entsprechend zu skalieren, ist viel Arbeit in der Optimierung des Netzwerks notwendig.

Der Trainium2-Chip besitzt 96 GB an HBM3 mit einer Bandbreite von 2,9 TB/s und eine FP8-Rechenleistung von 1,3 PFLOPS. Ein H100-NVL-Beschleuniger von NVIDIA kommt auf 80 GB an HBM3 und 3,35 TB/s an Speicherbandbreite. Die Rechenleistung liegt bei fast 4 PFLOPS.

Dennoch lässt AWS nicht davon ab, auch weiterhin KI-Beschleuniger von AMD und NVIDIA zu bestellen. Dies liegt zum einen daran, dass Amazon den Aufbau an neuer Rechenleistung mit den eignen Chips nicht stemmen kann und zum anderen auch daran, dass Kunden natürlich nach hardwarespezifischen Lösungen von AMD und NVIDIA verlangen.

Trainium3 bereits in Arbeit

Annapurna Labs arbeitet bereits am Nachfolger, dem Trainium3. Der Trainium3-Chip wird der erste Prozessor für AWS sein, der in einem 3-nm-Prozess gefertigt wird. UltraServer mit Trainium3 sollen um den Faktor vier schneller als die gerade erst vorgestellten Trainium2-Varianten sein. Später im Jahr 2025 sollen die Cloud-Instanzen mit Trainium3-Chip verfügbar sein.

Quellen und weitere Links

KOMMENTARE (2)