GH200 NVL32

AWS und NVIDIA bauen KI-Supercomputer

Von Andreas Schilling
Mittwoch, 29.11.2023 um 08:32 Uhr

AWS und NVIDIA bauen KI-Supercomputer

Neben der Ankündigung zweier neuer Chips in Form des Graviton4 und Trainium2 haben die Amazon Web Services (AWS) und NVIDIA eine Zusammenarbeit zum Aufbau eines KI-Supercomputers in der Cloud angekündigt. Das Ceiba getaufte System wird 16.384 GH200-Beschleuniger verwenden und wird damit zu den größten System mit dieser Hardware gehören.

Erst vor wenigen Wochen kündigte NVIDIA zur Supercomputing 2023 an, dass man 2024 zahlreiche Systeme mit dem GH200-Beschleuniger bestücken wird und der GH200 neben dem H200 zu hunderttausenden ausgeliefert werden wird. Der JUPITER-Supercomputer in Jülich wird beispielsweise fast 24.000 GH200-Beschleuniger verwenden.

Eine kleine Besonderheit des Ceiba-Systems von AWS wird der Aufbau sein. Dazu entwickelt wurden die sogenannten GH200 NVL32 Multi Nodes. Ein Rack besteht dabei aus 16 Trays mit jeweils zwei GH200-Beschleunigern. Weitere neun Trays sind mit NVLink-Switches bestückt, in denen die Kommunikation zwischen allen GH200 untereinander ermöglicht wird. Alle Trays im Rack werden wassergekühlt sein. Insgesamt 512 Racks werden in einem AWS-Rechenzentrum aufgebaut werden. Das Gesamtsystem soll eine Rechenleistung von 65 EFLOPS bei niedriger Genauigkeit (für AI typischerweise FP8) erreichen.

NVIDIA selbst wird Kunde bei AWS für das Ceiba-System sein und dieses zur Weiterentwicklung von AI in Graphics, LLMs und vieles mehr nutzen. Daneben betreibt man mit EOS ein eigenes System mit H100-Beschleunigern, welches auf Platz neun der schnellsten Supercomputer liegt. Damit schafft man auch selbst den Bedarf nach Hardware, die man selbst entwickelt und auf den Markt bringt.

AWS wird natürlich weiterhin sein Angebot an Instanzen mit NVIDIA-Hardware ausbauen. Dazu gehören solche mit GH200-NVL-, H200-, L40S- und L4-Beschleunigern.

Quellen und weitere Links

KOMMENTARE (7)