Werbung
Das High Performance Computing Center (HLRS) in Stuttgart hat seine Übergangslösung für das Exascale-System Herder in Betrieb genommen. Herder soll 2027 eines der ersten Exascale-Systeme in Deutschland werden. Hunter hingegen ist als Übergangssystem dazu gedacht, damit die Software bereits auf die Hardware angepasst werden kann und dann schneller auf Herder ausgeführt werden kann. Hunter kommt auf eine FP64-Rechenleistung von 48,1 PFLOPS, was ihn in etwa auf Platz 40 in den Top500 der Supercomputer bringen würde.
Hunter wird auf den Cray-EX4000-Servern von HPE basieren. Insgesamt 136 Rechenknoten mit HPE Slingshot Interconnect werden zum Einsatz kommen. Jeder Knoten setzt vier Instinct MI300A ein. Ein EPYC 9374F kommt als Host-CPU zum Einsatz, dem 768 GB an DDR5-4800 zur Verfügung stehen. Der Durchschnittliche Verbrauch wird mit 560 kW angegeben.
Die Gesamtkosten für Hunter betrugen 15 Millionen Euro. Die Hälfte der Mittel stellte das Ministerium für Wissenschaft, Forschung und Kunst Baden-Württemberg im Rahmen seiner Strategie für Höchstleistungsrechnen/Datenintensives Rechnen (HPC/DIC) zur Verfügung. Die zweite Hälfte kommt vom Bundesministerium für Bildung und Forschung innerhalb des SiVeGCS-Projekts. Die Förderung wurde vom Gauss Centre for Supercomputing (GCS), dem Zusammenschluss der drei Bundeshöchstleistungsrechenzentren, ermöglicht.
Höhere Effizienz durch Dynamisches Power Capping
HPE und das HLRS haben ein neues Energiemanagement entwickelt, welches kontinuierlich überwacht, welche Anwendungen auf dem Hawk-Supercomputer laufen und passt die den einzelnen Anwendungen zugewiesene Leistung entsprechend ihres spezifischen Energiebedarfs an.
Die Lösung läuft seit Februar 2024 in Produktion auf Vorgängersystem Hawk. Bei einem Experiment im Dezember 2024, bei dem Hawk vorübergehend ohne Leistungsbegrenzung betrieben wurde, stellte das HPE/HLRS-Team fest, dass die dynamische Leistungsbegrenzung den Gesamtstromverbrauch der Anwendungen um etwa 20 % ohne erkennbare Leistungsabfall senkte.
Ein Ansatz zur Kontrolle des Stromverbrauchs in Rechenzentren besteht darin, eine Obergrenze für den Energieverbrauch eines Supercomputers festzulegen. Der Stromverbrauch eines solchen Systems wird maßgeblich durch die Anzahl und die Geschwindigkeit der Prozessoren bestimmt. Mit einem "statischen" Ansatz zur Energiebegrenzung wird die Prozessorleistung reduziert, wodurch das System nicht seine maximale Kapazität erreicht. Obwohl diese Methode den Stromverbrauch effektiv senken kann, beeinträchtigt sie oft die Leistung und Effizienz der Anwendungen. Dadurch wird die Hauptaufgabe eines Supercomputers möglicherweise eingeschränkt.
Der von HPE und HLRS entwickelte Ansatz der dynamischen Leistungssteuerung bietet eine Lösung für dieses Problem. Er berücksichtigt, dass unterschiedliche Arten von Programmen verschiedene Leistungsanforderungen haben. Bei rechenintensiven Codes hängt die Geschwindigkeit der Simulation direkt von der Prozessorleistung ab – je schneller die Prozessoren, desto besser die Performance. Speichergebundene Codes hingegen sind stärker von der Bandbreite und Effizienz der Speicher- und Datenübertragungssysteme eines HPC-Systems abhängig. Hier führt eine Erhöhung des CPU-Taktes nicht zwangsläufig zu einer besseren Gesamtleistung, da der Algorithmus oft auf Datenübertragungen warten muss, bevor er fortfahren kann.
Das HLRS/HPE fanden heraus, dass der Ausgleich der verfügbaren Leistung zwischen rechengebundenen und speichergebundenen Codes auch plötzliche Spitzen und Einbrüche im Gesamtsystemstromverbrauch reduziert und einen konsistenten, stabilen Stromverbrauchswert ermöglicht, der die Stromverbrauchsziele des HLRS einhält. Der Ansatz kann auch dynamisch reagieren, wenn das HLRS seine gewünschte Leistungsgrenze ändert.
Mit dem kommenden Supercomputer Herder, der 2027 am HLRS installiert wird, wird die Optimierung der dynamischen Leistungsbegrenzung laut des Betreibers besonders wichtig sein. Bis zu 8 MW an Leistung soll die Versorgung von Herder liefern können.