Werbung
NVIDIA hat gemeinsam mit dem U.S. Department of Energy (DoE) einen weiteren Supercomputer angekündigt. Das Polaris getaufte System wird vermutlich noch in diesem Jahr aufgestellt und in Betrieb genommen. Eigentlich war für die Jahre 2022 und 2023 die Inbetriebnahme gleich zweier Exascale-Systeme geplant. Während der mit EPYC-Prozessoren und Radeon-Instinct-Beschleunigern ausgestattete El Capitan erst für 2023 geplant war, sollte der Aufbau des Aurora mit Xeon-Prozessoren (Sapphire Rapids) und Ponte-Vecchio-Beschleunigern eigentlich längst angelaufen sein und war zuletzt für Ende 2021 geplant.
Doch schon länger gab es Gerüchte, dass es hier zu größeren Verzögerungen kommt. Einerseits kann Intel seinen Zeitplan bei den Xeon-Prozessoren nicht einhalten, auf der anderen Seite lief aber auch bei Ponte Vecchio nicht alles wie wartet. Diese Verzögerungen scheinen das DoE bzw. die Argonne Leadership Computing Facility (ALCF) als Betreiber nun dazu bewogen zu haben, ein weiteres System zu ordern.
Das Polaris-System ist nun der Lückenfüller für die Verzögerungen bei Aurora – so zumindest die einhellige Vermutung der Branche. Polaris wird aus 560 Nodes bestehen, die jeweils einen EPYC-Prozessor und vier A100-GPU-Beschleuniger vorsehen. Insgesamt kommen 2.240 der GPU-Beschleuniger zum Einsatz. Ob es sich dabei um die Varianten mit 40 oder 80 GB handelt, ist nicht bekannt. Aufgebaut wird das System von HPE, die auch den Slingshot-Interconnect stellen.
Das System soll eine Rechenleistung von 1,4 EFLOPS für AI-Berechnungen erreichen. Für höhere Genauigkeiten erreicht das System 44 PFLOPS. Aurora und El Capitan spielen später dann in einer anderen Leistungsklasse. Sie sollen für hohe Genauigkeiten (FP64) eine Rechenleistung von mehr als einem EFLOPS erreichen, El Capitan sogar mehr 2 EFLOPS.
Verzögerungen und fehlende CXL (Type 3) Unterstützung
Neben den offenkundigen Verzögerungen bei Intel offenbarte der Hersteller auf der Hot Chips, dass Sapphire Rapids und Ponte Vecchio den CXL-Interconnect nicht oder nicht in dem Umfang unterstützen werden, wie dies eigentlich erwartet wurde.
Zwar unterstützt jeder PCI-Express-Link mit 16 Lanes bei Sapphire Rapids CXL 1.1, allerdings nur die Typen 1 und 2, nicht aber die mögliche Speichererweiterungen über Typ 3. Samsungs CXL-Memory-Erweiterungsmodul wäre eine solche Hardware, die nun von Sapphire Rapids nicht unterstützt wird.
Ponte Vecchio wird CXL gar nicht unterstützen. Hier findet die Anbindung weiterhin direkt per PCI-Express 5.0 statt. Ein kohärenter Speicherzugriff ist somit weiterhin gegeben, allerdings macht es CXL teilweise deutlich einfacher, solche Speicherzugriffe umzusetzen. In der ursprünglichen Ankündigung des Aurora-Systems wurde CXL als Protokoll für die Xe-Link-Verbindungen noch aufgeführt.
Arijit Biswas, Principal Engineer bei Intel, sagte auf der Hot-Chips-Konferenz: "CXL makes atomics easier, CPU-side cachability easier, GPU-side cacheability easier, and offer finer granularity of coherence...but is not required to present a coherent view of memory. I expect future versions will move to a CXL interface..."
Man ist sich bei Intel also durchaus bewusst, dass die fehlende CXL-Unterstützung für Ponte Vecchio einige Nachteile hat.