Werbung
Oracle hat angekündigt eines der größten Cloud-Computing-Cluster aufzubauen. Über die eigene Oracle Cloud Infrastructure (OCI) nimmt man bereits Bestellungen für das Cluster entgegen, welches mit bis zu 131.072 Blackwell-GPUs von NVIDIA bestückt sein wird. Damit soll eine KI-Rechenleistung von 2,4 ZFLOPS erreicht werden, was einer dreifach höheren Rechenleistung des Frontier-Supercomputer entspricht.
Oracle bietet bereits verschiedene Ausbaustufen des OCI Superclusters an. Mit H100-Beschleunigern bestückt erreicht ein solches Systeme bei 16.384 GPUs eine Rechenleistung von 65 EFLOPS und eine aggregierte Netzwerkbandbreite von 13 PB/s. Ebenfalls angeboten werden Supercluster mit 65.536 H200-Beschleunigern und einer Rechenleistung von 260 EFLOPS und einer Netzwerkbandbreite von 52 PB/s. Die Supercluster mit H200-Beschleunigern sollen später in diesem Jahr verfügbar sein.
Mit 131.072 NVIDIA Blackwell GPUs und der Rechenleistung von 2,4 ZFLOPS wird diese Entwicklung fortgesetzt. Für die notwendige Infrastruktur setzt Oracle auf ConnectX-7 NICs, ConnectX-8 SuperNICs oder NVIDIAs Quantum-2 InfiniBand-Netzwerk. Die neuen Supercluster basieren auf NVIDIAs GB200 NVL72 Racks und sollen in der ersten Jahreshälfte 2025 verfügbar sein.
Oracle legt die Supercluster für das Training immer größerer Large Language Modelle aus, die inzwischen mehrere Dutzend Milliarden Parameter erreichen können. Die Skalierung auf über 100.000 GPUs und sicherlich eine besondere Herausforderung für NVIDIA. Zuletzt rückte genau dies im Hinblick auf NVLink und die Netzwerk-Infrastruktur in den Fokus.
Ab Ende 2024 – im größeren Umfang aber erst Anfang 2025 – sollen dann die ersten Systeme mit Backwell-GPU auf den Markt kommen. NVIDIA plant mit HGX B100, HGX B200, DGX B200 und dem GB200 Superchip mehrere Konfigurationen.