Werbung
Das EU-Forschungsprojekt DEEP (Dynamical Exascale Entry Platform) hat seinen Prototypen einer neuen Rechnerarchitektur vorgestellt, der das Problem der Ver- und Zuteilung von Daten bei modernen Supercomputern angehen soll. Das DEEP-System setzt auf das sogenannte Cluster-Booster-Konzept. Ein Booster aus hochparallelen, untereinander vernetzten Mehrkern-Prozessoren beschleunigt dabei wie eine Art Turbolader bei einem Verbrennungsmotor einen Cluster mit herkömmlichen Prozessoren. Der Prototyp wird in den nächsten Jahren am Jülich Supercomputing Centre (JSC) betrieben und für externe Nutzer zugänglich gemacht.
Für die kommenden Jahre sprechen die Hersteller von Supercomputern von völlig neuen Leistungsklassen, deren Realisierung aber noch vor einige Hürden gestellt wird. Zwar erreichen die einzelnen Komponenten eine immer höhere Leistung, allerdings kann die dazugehörige Infrastruktur hier meist nicht mithalten. NVIDIA hat sich daher dazu entschieden mit NVLink einen eigenen Interconnect zu entwickeln, bei Intel sollen die kommenden Beschleunigerkarten Xeon Phi mit dem eigenen Omni-Path-Interconnect ausgestattet werden. Doch nicht nur die Kommunikation zwischen den Clustern ist entscheidend, sondern auch das Zuarbeiten für die einzelnen Rechenbeschleuniger. So setzen die schnellsten Supercomputer auf eine Kombination aus Server-Prozessoren und speziellen Beschleunigern. Beispiele sind der Tianhe-2 mit Intel Xeon E5-2696 und Intel Xeon Phi 31S1P und der Titan mit AMD Opteron 6274 und NVIDIA Tesla K20x – nur um die ersten beiden Plätze der Top 100 zu nennen.
Die Cluster-Booster-Architektur wurde speziell auf die zukünftigen Anforderungen von Exascale-Rechnern hin entwickelt, die hundert- bis tausendmal leistungsfähiger sein werden als die derzeit schnellsten Rechner der Welt. Bereits heute kommen mehrere Hunderttausend oder gar Millionen Rechenkerne zum Einsatz – in Zukunft werden es sicherlich nicht weniger werden. Die Cluster-Booster-Architektur bietet eine Möglichkeit, komplexe Bestandteile eines Programms mit geringer Skalierbarkeit auf dem konventionellen Cluster auszuführen, während einfache, hochskalierbare Codeteile auf den energieeffizienten, enorm leistungsfähigen Booster ausgelagert werden.
Der am JSC installierte Prototyp setzt auf Multi- und Manycore-Prozessoren von Intel und besitzt eine Rechenleistung von 500 TFLOPS. Zum Vergleich: Die bereits erwähnten ersten beiden Plätze der Top-100-Liste kommen auf 54.902 und 27.112 TFLOPS. Der DEEP-Booster ist über ein Hochgeschwindigkeitsnetzwerk mit dem Cluster verbunden und besteht aus insgesamt 384 Rechenknoten mit Intel-Xeon-Phi-Prozessoren, die speziell auf hochparallele Anwendungen hin zugeschnitten sind. Die Prozessoren, die über jeweils mehr als 60 Rechenkerne verfügen, kommunizieren untereinander über ein EXTOLL-HPC-Hochgeschwindigkeitsnetzwerk mit einer 3D-Torus-Topologie, das von der Universität Heidelberg entwickelt wurde. Alle Komponenten werden dicht gepackt in zwei Serverschränken untergebracht und mit einer direkten Warmwasserkühlung energieeffizient gekühlt. Nicht zuletzt wird der aktuelle Betriebszustand des Rechners permanent mit einer neuen Monitoring-Software überwacht, die das Leibniz-Rechenzentrum eigens für das DEEP-System entwickelt hat.
Die Hardware ist das Eine, eine passende Software, welche die Hardware auch effizient nutzt, ist das Andere. Das DEEP-Team hat dazu einen kompletten Software-Stack entwickelt, der Nutzern das Programmieren erleichtert. Anwendungsentwickler können damit auf eine vertraute Programmierumgebung zugreifen, während die Software die jeweilige Anwendung gleichzeitig optimal für Berechnungen auf dem komplexen System anpasst. Beide Teile, Cluster und Booster, lassen sich gemeinsam über eine globale Programmierschnittstelle ansteuern, die auf ParTecs Systemsoftware ParaStation MPI basiert. Darauf sitzt das vom Barcelona Supercomputing Center weiterentwickelte Programmiermodell OmpSs auf, das nun auch die kollektive Auslagerung hochparalleler Aufgabenteile unterstützt.
"DEEP war zunächst nur eine Idee. Dass sie tatsächlich ins Leben gerufen wurde, ist dem Einsatz einiger der qualifiziertesten Wissenschaftler und Ingenieure Europas sowie der Unterstützung der Europäischen Kommission zu verdanken. Alle beteiligten Unternehmen, Forschungsinstitute und Universitäten können stolz auf dieses einzigartige System sein, das sowohl universell einsetzbar als auch unglaublich hoch skalierbar ist. Das Cluster-Booster-Konzept von DEEP wird die Entwicklung künftiger Supercomputer maßgeblich beeinflussen", sagte Projektkoordinator Prof. Thomas Lippert, Direktor des Jülich Supercomputing Centre.
Der DEEP-Prototyp wurden aber nicht nur zur Forschung an zukünftigen Supercomputer-Systemen verwendet, sondern auf sechs Anwendungen aus Wissenschaft und Industrie hin optimiert. Die Förderung der EU ist inzwischen ausgelaufen, in Jülich soll der Server aber dennoch weiter betrieben werden. Das System wird die nächsten Jahre am Jülich Supercomputing Center (JSC) laufen und auch externe Nutzer werden Zugang erhalten, die mit dem Prototypen ihre Anwendungen für künftige Supercomputer optimieren können. Darüber hinaus plant das JSC die Anschaffung eines weiteren Boosters, mit dem der kürzlich installierte Superrechner JURECA in den nächsten ein bis zwei Jahren auf eine Rechenleistung von über 10 PFLOPS beschleunigt werden soll. JURECA verwendet aktuell 1.872 Knoten mit jeweils zwei Intel Xeon E5-2680 und einer NVIDIA Tesla K80.