Neuer Supercomputer mit NVIDIAs ARM-Prozessoren und GPUs

Don

[printed]-Redakteur, Tweety
Thread Starter
Mitglied seit
15.11.2002
Beiträge
27.272
<img src="images/stories/logos/nvidia.gif" width="100" height="100" alt="nvidia" style="float: left; margin: 10px;" />
<p class="p1">Das Barcelona Supercomputing Center (BSC) entwickelt einen neuen Hybrid-Supercomputer, bei dem zum ersten Mal eine Kombination aus <a href="http://www.nvidia.de">NVIDIA</a>s stromsparenden ARM-basierten Tegra-CPUs in Kombination mit CUDA-GPUs zum Einsatz kommen. Ob es sich dabei schon um die Quad-Core-Tegra-3-Modelle handelt ist allerdings nicht bekannt. Endgültiges Entwicklungsziel des BSC ist, einen Exascale-Supercomputer zu realisieren, der 15- bis 30-mal weniger Energie als heutige Supercomputer verbraucht. Im Rahmen des so genannten EU Mont-Blanc Project werden HPC-Architekturen der nächsten Generation und Exascale-Applikationen entwickelt, die auf...<p><a href="/index.php?option=com_content&view=article&id=20527&catid=34&Itemid=99" style="font-weight:bold;">... weiterlesen</a></p>
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Mit welcher Rechenleistung (gerne ein bildhafter Vergleich) kommt der denn daher ?
 
Also Andreas, was ist denn mit dieser Aussage gemeint :einen Exascale-Supercomputer zu realisieren, der 15- bis 30-mal weniger Energie als heutige Supercomputer verbraucht

Produziert der etwa im Betrieb bis zu 29 mal so viel strom, wie von anderen gebraucht wird?
 
Derzeitige Supercomputer zielen auf Petaflop-Leistung. Exascale-Computing soll noch weiter gehen. Dabei soll der Stromverbrauch aber weiter reduziert werden, eben um die Faktor 15 bis 30.
 
Ja, dann sind Faktor 15 bis 30 eben das 15- bis 30-fache. 1 Petaflop um Faktor 15 ergeben 15 Petaflops.
 
Das Internet kennt keine Öffnungs- oder Arbeitszeiten. Das werden einige noch lernen müssen ;)
 
So interessant ich ARM CPUs auch finde, für den Einsatz in HPC Anwendungen sehe ich die Chancen von ARM CPUs eher kritisch.
Man erreicht vielleicht eine extrem hohe theoretische Rechenleistung, aber auch bei XEON oder Opteron Clustern sind heute schon meist Speicheranbindung und Kommunikation zwischen Rechnern oder CPUs begrenzend bezogen auf die Skalierbarkeit. Zumindest wenn man voneinander abhängige Daten zu verarbeiten hat.
Für stumpfe Algorithmen, wie z.B. Passwörter durchprobieren (skaliert linear mit Anzahl der Kerne) mag das alles eine super Lösung sein, komplexere Systeme zu Simulieren, wo öfter mal Gigabytes an Daten im RAM aktualisiert oder verschoben werden sind die Limits aber halt öfter Speicheranbindung und Interconnects wie Infiniband. Und je mehr Recheneinheiten beteiligt sind, destso höher ist der Kommunikations, Speichermanagement und Infrastrukturaufwand.

Eigentlich kann man ganz einfach sagen, es fehlen oft sinvolle Anwendungen die auf mehr als 1000 Kernen gut skalieren.
 
So interessant ich ARM CPUs auch finde, für den Einsatz in HPC Anwendungen sehe ich die Chancen von ARM CPUs eher kritisch.
Man erreicht vielleicht eine extrem hohe theoretische Rechenleistung, aber auch bei XEON oder Opteron Clustern sind heute schon meist Speicheranbindung und Kommunikation zwischen Rechnern oder CPUs begrenzend bezogen auf die Skalierbarkeit. Zumindest wenn man voneinander abhängige Daten zu verarbeiten hat.
Für stumpfe Algorithmen, wie z.B. Passwörter durchprobieren (skaliert linear mit Anzahl der Kerne) mag das alles eine super Lösung sein, komplexere Systeme zu Simulieren, wo öfter mal Gigabytes an Daten im RAM aktualisiert oder verschoben werden sind die Limits aber halt öfter Speicheranbindung und Interconnects wie Infiniband. Und je mehr Recheneinheiten beteiligt sind, destso höher ist der Kommunikations, Speichermanagement und Infrastrukturaufwand.

Eigentlich kann man ganz einfach sagen, es fehlen oft sinvolle Anwendungen die auf mehr als 1000 Kernen gut skalieren.

Man kann nicht den Weg in die Vergangenheit gehen!

Multithreaded muss kommen. Wenn ihr wisst das die Hersteller unfug machen müsst ihr es ihnen mitteilen!
 
Zuletzt bearbeitet:
Die "Hersteller" sitzen teilweise im Büro nebenan, es sind Problemstellungen, die eben nicht so einfach zu parallelisieren sind.
Meist sind es 3 dimensionale Systeme die voeneinander abhängige Daten haben. Um den nächsten Zeitschritt zu berechnen sind eben die Daten des vorherigen nötig und nicht nur die von einem Punkt aus dem System sondern auch von den umliegenden in alle richtungen.
Mit Systemgrößen bis zu mehreren 100GByte. Teilweise ist das Speichermanagement schon recht ausgefeilt, so dass für uninteressante Daten kein Platz benötigt wird um größere Gesamtsysteme simulieren zu können.

Teilweise wird auch komerzielle Software eingesetzt aber auch die skaliert nicht immer gut, je nach Problemstellung halt.
In den seltensten Fällen baut man ja einen großen Cluster um viele kleine voneinander unabhängige Rechnungen durchzuführen. Meist gehts ja um große komplexe Systeme und da gibt es halt Abhängigkeiten.

Immer über die Hersteller zu schimpfen ist einfach, aber selber mal was entwickeln, was bei komplexer Problemstellung bei >64 Kernen noch gut skaliert macht ja auch kaum einer.
 
ok da hast du recht server funktionieren noch halbwegs, aber was ist mit den desktops, man muss sich alleine die ssd entwicklung anschauen.

Wieviele Büros verwenden Datenspeicher und Datenbearbeitung, da hätte der Fortschritt voranschreiten können.
 
Teilweise wird auch komerzielle Software eingesetzt aber auch die skaliert nicht immer gut, je nach Problemstellung halt.
In den seltensten Fällen baut man ja einen großen Cluster um viele kleine voneinander unabhängige Rechnungen durchzuführen. Meist gehts ja um große komplexe Systeme und da gibt es halt Abhängigkeiten.

Wobei man sagen muss, das sich die Technik für die Vernetzung der Clusternodes auch immer weiter entwickelt.
Das ganze dürfte denke ich so nahezu 1:1 skalieren. Sprich die Rechenleistung pro Node steigt wohl ähnlich stark wie die Bandbreiten intern. (wenn man gewisse längere Zeiträume betrachtet)

Das Größte Problem bleibt aber wohl die Anzahl der Ausführungseinheiten und die intelligente Aufteilung der Aufgaben auf eben diese. Hier muss wohl die Software ebenso 1:1 mit skalieren, was sie aber wohl nicht tut ;)


PS:
das Bild oben im Artikel scheint älter als die Meldung selbst zu sein, mir ist grad das hier über den Weg gelaufen:
http://www.bsc.es/media/366.jpg
Laut Aufschrift wohl von 2005... Zumindst gleicht die die Verkablung quasi 1:1 was dafür spricht, das es nicht das Bild der neuen Kisten ist :fresse:
 
Man erreicht vielleicht eine extrem hohe theoretische Rechenleistung, aber auch bei XEON oder Opteron Clustern sind heute schon meist Speicheranbindung und Kommunikation zwischen Rechnern oder CPUs begrenzend bezogen auf die Skalierbarkeit.
Das Problem wurde in den letzten Jahren dadurch umgangen in dem die Hersteller die Knoten in NUMA Systeme umgewandelt haben. Jetzt hat man in so einem Cluster nicht mehr nur die Aufteilung in Knoten sondern auch noch in NUMA Knoten. Der übliche Weg die Kommunikation zwischen den Knoten zu realisieren ist MPI, daß dann physikalisch meist über Infiniband übertragen wird. (IB FDR ist in einigen Testsysteme im Einsatz.)

Mit OpenMP kann man bequem nur auf einem NUMA Knoten rechnen, für das Skalieren über NUMA Knoten hinweg, muß man sich mit der libnuma herumschlagen, das bedeutet einen nicht unerheblichen Mehraufwand.

Eigentlich kann man ganz einfach sagen, es fehlen oft sinvolle Anwendungen die auf mehr als 1000 Kernen gut skalieren.
Es gibt Programme aus der Festkörperphysik oder Quantenchemie, die das hinbekommen.
 
Ich sagte nicht, dass es solche Programme garnicht gibt, es gibt nur eben noch genug Programme die andere Problemstellugnen angenen, die eben nicht so gut
skalieren.

MPI über Infiniband ist eben auch immer mit etwas Aufwand und Kosten für Infrastruktur verbunden. Ein port am IB-switch in einer non-blocking Infrastruktur kostet ab einer gewissen Größe deutlich mehr als so ein paar ARM CPUs.
Vor allem ist oben ja schon erwähnt, dass die über 10GBe kommunizieren sollen.
Meist sind ja eher die Latenzen als die Bandbreite problematisch.

Wenn man den Energieverbrauch wirklich um Faktoren drücken will und CPUs ca. 40% des gesammternergieverbrauchs ausmachen kommt man eh nicht drumherum, auch Infrastruktur neu zu entwickeln. Fest auf Platinen aufgebrachte Interconnects könnten Netzwerkgeräte überflüssig machen. Von so ein paar ARM cpus passen ja doch einige auf eine Platine.
 
Wenn man den Energieverbrauch wirklich um Faktoren drücken will und CPUs ca. 40% des gesammternergieverbrauchs ausmachen kommt man eh nicht drumherum, auch Infrastruktur neu zu entwickeln.
Das gibt es schon: IBM BlueGene. Und die Dinger sind in der neusten Version Energie effizienter als GPGPU Systeme.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh