Werbung
Zum Workshop der vierten Xeon-Scalable-Generation von Intel in Hillsboro im US-Bundesstaat Oregon, die heute vorgestellt wurden, hatten wir die Gelegenheit, uns das Prestigeobjekt, bzw. zumindest einen Teil davon anzuschauen. Auf dem Gelände in Hillsboro, genauer gesagt in einem Teil, der Jones Farm genannt wird, betreibt Intel ein Cluster namens Borealis. Dabei handelt es sich um ein Testbed für Aurora – also eine lokale Testumgebung.
Aurora soll der erste Exascale-Supercomputer auf Basis von Intel-Hardware werden. Die Rechenleistung soll sogar 2 ExaFLOPS erreichen. Das Prestigeobjekt Aurora hat jedoch längst einige Kratzer bekommen. Ursprünglich mal mit Xeon-Phi-Beschleunigern geplant, musste Aurora schon mehrfach verschoben werden. 2023 soll es nun aber endlich soweit sein. Ausgestattet ist Aurora (und auch Borealis) mit Xeon-Prozessoren auf Basis des Sapphire-Rapids-Designs sowie den GPU-Beschleunigern Ponte Vecchio.
Neben Borealis bei Intel gibt es noch eine zweiten, zu Borealis identischen Aufbau, namens Sunspot. Dieser steht im Argonne National Laboratory und wird von den dort ansässigen Entwicklern für Tests verwendet (on-site debugging).
Borealis besteht aus 128 Compute Blades mit jeweils zwei Xeon-Prozessoren und sechs GPU-Beschleunigern. Insgesamt arbeiten hier also 256 Prozessoren und 768 GPUs. Aktuell setzt Intel auf die Standard-Xeon-Prozessoren ohne HBM2e. Sobald die entsprechenden Prozessoren zur Verfügung stehen, sollen die Blades auf die Xeon-Max-CPUs umgestellt werden.
Jedes Blade verfügt über 1 TB an DDR5-4400 (16x 16 GB) sowie vier HPE Slingshot NICs mit jeweils zwei Ports. Aurora und somit Borealis verwenden das Slingshot-11-Interface in Dragonfly-Topologie mit 200 GBit/s an Bandbreite von Punkt zu Punkt innerhalb des Clusters.
Zudem gibt es ein Storage-Cluster mit zwei Intel Distributed Asynchronous Object Storage (DAOS) Systemen und jeweils 245 GB an Kapazität. Insgesamt verfügt Borealis über zwölf dieser DAOS-Systeme. Es gibt noch 64 Blades in einem weiteren Cluster, in denen alternative Konfigurationen getestet werden können. Bei unserem Besuch zu sehen, waren außerdem offene Blade-Aufbauten, in denen neue Prozessoren oder andere Systemkomponenten schnell getestet werden können, bevor sie dann in die extrem dicht gepackten Blades gepackt werden.
Die gesamte Leistungsaufnahme des Borealis-Systems beträgt unter Volllast 768 kW.
Die genaue Ausbaustufe von Aurora ist noch nicht offiziell bekannt. Die offiziellen Angaben sprechen von mehr als 10.000 Nodes. Demnach ist Aurora um den Faktor 100 größer als Borealis und Sunspot. Insgesamt werden also 20.000 Xeon-Prozessoren und 40.000 GPU-Beschleuniger zum Einsatz kommen.
Die ersten Management- und Speicher-Racks sind wohl schon aufgebaut. Sobald nun die Hardware von Intel endlich verfügbar ist, werden die Compute-Blades folgen. Ab wann Aurora dann offiziell vorgestellt ist, ist nicht bekannt.
Schaut man sich eines der Blades genauer an, fällt zunächst auf, dass dieses komplett wassergekühlt ist. Selbst der DDR5-Speicher und die NICs. Im linken Bereich sind die sechs GPU-Beschleuniger zu erkennen, darauf folgen unter dem schwarzen Kühlblock die beiden Prozessoren. Rechts mit grünem PCB zu sehen sind die vier Slingshot-NICs.
Die für den Slingshot verwendeten Switches von Cray werden ebenfalls komplett wassergekühlt. Durch die vielen Wasserkühler haben die Blades ein hohes Gewicht. Intel und auch die Argonne Leadership Computing Facility, der Betreiber des Aurora-Supercomputers, haben einen speziellen Wagen, mit dessen Hilfe die Blades angehoben und in die senkrechte Position gebracht werden können, um sie dann in die Racks einzuschieben.
Unser Besuch des Borealis war interessant, wenngleich es natürlich in einem solchen Bereich viele Restriktionen gibt, was abgelichtet und über was berichtet werden darf und über was nicht. Wir haben dennoch versucht, einen Eindruck zu vermitteln, welchen Aufwand man an dieser Stelle betreibt.