ARMv8 mit bis zu 128 Kernen und 3 GHz

Don

[printed]-Redakteur, Tweety
Thread Starter
Mitglied seit
15.11.2002
Beiträge
26.968
<p><img src="images/stories/logos/arm_logo.jpg" width="100" height="100" alt="arm_logo" style="float: left; margin: 10px;" /><a href="http://www.arm.com/">ARM</a> hat vor wenigen Tagen erste Details zur neuen ARMv-Architektur veröffentlicht, die erstmals auch 64-Bit-Befehlssätze verarbeiten kann. Als einer der ersten Kunden hat <a href="http://www.apm.com/">AppliedMicro</a> nun einen SoC auf Basis dieser neuen Architektur vorgestellt. SoC steht dieses mal aber nicht für "System on a Chip", sondern für "Server on a Chip". Der X-Gene getaufte Chip verfügt über zwei bis 128 CPU-Kerne, die auch bei der maximalen Anzahl mit bis zu 3 GHz arbeiten. AppliedMicro gibt eine Leistungsaufnahme von maximal zwei Watt pro Kern an, so dass ein voll ausgebauter Prozessor auf einen Verbrauch von etwa...<p><a href="/index.php?option=com_content&view=article&id=20364&catid=34&Itemid=99" style="font-weight:bold;">... weiterlesen</a></p>
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Dann ist dieser Absatz arg unglücklich formuliert:

Den Stromverbrauch von maximal zwei Watt pro Kern haben wir bereits angesprochen. Doch entscheidend ist auch der Verbrauch im Idle-Betrieb. Dieser liegt bei 0,5 Watt, so dass ein X-Gene mit 128 Kernen zwischen 64 und 256 Watt verbraucht. Auch hier ein Vergleich zu konventionellen Servern: Ein Intel Xeon 5680 kommt auf 130 Watt.
 
Hört sich zwar beeindruckend an 128Kerne mit 3GHZ Basistakt bei 256Watt nur lässt man sich nicht über deren Rechenleistung in Anwendungsszenarien aus.

128Kerne lassen sich nunmal schlechter auslasten wie 6 oder 8 mit HT bei Intel

Wenn er eine praxisbezogene Rechenleistung auf Höhe der Xeons hat wäre es natürlich auch wegen der 64bit Befehlssätze vielleicht ein attraktiver Gegenpol
 
Zuletzt bearbeitet:
Doch entscheidend ist auch der Verbrauch im Idle-Betrieb. Dieser liegt bei 0,5 Watt, so dass ein X-Gene mit 128 Kernen zwischen 64 und 256 Watt verbraucht.
Sind diese 64 W unter Idle eine offizielle Angabe? Was ist mit Power-Gating? Beherrscht das der Prozessor nicht? Damit sollten doch Kerne komplett abgeschaltet werden können, so dass die Leistungsaufnahme unter Idle deutlich geringer ist.

Dabei soll ein X-Gene-Prozessor aber bis zu dreimal schneller als ein auf Sandy Bridge basierender E3-Xeon-Prozessor sein.
Klingt jetzt nicht gerade prickelnd bei 128 Kernen, zumal diese auch recht hoch getaktet sind. Da ist wohl die Frage, ob GPU Architekturen in Zukunft nicht doch besser geeignet sind für solche Many-Core Prozessoren. Selbst wenn man Einschränkungen in der GP-Funktionalität hinnehmen müsste.
 
Da ist wohl die Frage, ob GPU Architekturen in Zukunft nicht doch besser geeignet sind für solche Many-Core Prozessoren. Selbst wenn man Einschränkungen in der GP-Funktionalität hinnehmen müsste.
Du meinst die Richtung die nvidia mit ihren "Project Denver" einschlägt?
 
Hört sich zwar beeindruckend an 128Kerne mit 3GHZ Basistakt bei 256Watt nur lässt man sich nicht über deren Rechenleistung in Anwendungsszenarien aus.

128Kerne lassen sich nunmal schlechter auslasten wie 6 oder 8 mit HT bei Intel

Wenn er eine praxisbezogene Rechenleistung auf Höhe der Xeons hat wäre es natürlich auch wegen der 64bit Befehlssätze vielleicht ein attraktiver Gegenpol

Man wird früher oder später auf kerne setzen müssen!
 
Da ist wohl die Frage, ob GPU Architekturen in Zukunft nicht doch besser geeignet sind für solche Many-Core Prozessoren. Selbst wenn man Einschränkungen in der GP-Funktionalität hinnehmen müsste.
Wenn man sich IBMs BlueGene/Prototypen anschaut, dieser führt momentan die Green500 an, dann würde ich eher sagen nein. Beim Prozessor handelt es sich um einen "normalen" 16+1 Core PowerA2.
 
Hört sich zwar beeindruckend an 128Kerne mit 3GHZ Basistakt bei 256Watt nur lässt man sich nicht über deren Rechenleistung in Anwendungsszenarien aus.

128Kerne lassen sich nunmal schlechter auslasten wie 6 oder 8 mit HT bei Intel

Wenn er eine praxisbezogene Rechenleistung auf Höhe der Xeons hat wäre es natürlich auch wegen der 64bit Befehlssätze vielleicht ein attraktiver Gegenpol

Das Ding ist auch nicht für den Desktop PC, denn da lassen sich sowieso meistens nicht mehr als 3 kerne auslasten wodurch das ding der mega epicfail wäre....sondern für serverfarmen die dann rechenkapazität für 100te anwendungen vermieten bzw. direkt VMs drauf laufen lassen.
Auf dem Desktop wird man wenn überhaupt mal so 4kerner ARMs als thin client sehen (mit win8 evtl.)
 
Zuletzt bearbeitet:
Du meinst die Richtung die nvidia mit ihren "Project Denver" einschlägt?
Nein, ich meine eher die Richtung, in die zB AMD mit Fusion einschlägt. Das geht noch einen Schritt weiter als Denver. Auch sollte man Intels Tera Scale im Auge behalten. Ist zwar auf den ersten Blick ein ähnlicher Ansatz wie dieser ARM hier. Auf den zweiten Blick allerdings wesentlich fokussierter auf SIMD/MIMD (512/1024-bit) und daher mehr vergleichbar mit GPU Shadern. AMDs GCN Architektur wird zB ebenfalls auf 512-bit (16-wide FP32) Vektoreinheiten aufbauen. ARM bietet meines Wissens bisher nur eine 128-bit SIMD Pipeline.


Wenn man sich IBMs BlueGene/Prototypen anschaut, dieser führt momentan die Green500 an, dann würde ich eher sagen nein.
Dann sollte dir aber auch aufgefallen sein, dass sich bereits direkt dahinter GPU basierte Supercomputer einordnen. Und wir stehen hier gerade mal am Anfang dieser Entwicklung. Das Potenzial von GPUs bei Supercomputern ist noch nicht mal ansatzweise ausgeschöpft. Ganz abgesehen davon, dass es nicht nur um Energieeffizienz geht, sondern auch um maximale Rechenleistung und Anschaffungskosten. Und da ist Blue Gene nicht gerade die Messlatte.
 
Das Ding ist auch nicht für den Desktop PC, denn da lassen sich sowieso meistens nicht mehr als 3 kerne auslasten wodurch das ding der mega epicfail wäre....sondern für serverfarmen die dann rechenkapazität für 100te anwendungen vermieten bzw. direkt VMs drauf laufen lassen.
Auf dem Desktop wird man wenn überhaupt mal so 4kerner ARMs als thin client sehen (mit win8 evtl.)
1 Die hat nur 2 Kerne, die 128 Kerne gibts nur in SMP Aufbau mit dann eben 96 Sockel.
128Kerne auf einem DIE wären etwas viel, selbst für ARM :fresse:
 
Es liest sich aber so, als wären maximal 128 Kerne pro SoC möglich.
 
Dann sollte dir aber auch aufgefallen sein, dass sich bereits direkt dahinter GPU basierte Supercomputer einordnen. Und wir stehen hier gerade mal am Anfang dieser Entwicklung. Das Potenzial von GPUs bei Supercomputern ist noch nicht mal ansatzweise ausgeschöpft.
Dir sind die Probleme bei GPGPUs bekannt?
Das größte Problem ist die aufwendige Programmierung und der sehr begrenzte Arbeitsspeicher. Die GPGPUs sind nur sehr langsam mit dem System verbunden, das limitiert zusätzlich die Probleme für die man GPGPUs einsetzen kann. Selbst ein PCIe PEG Slot ist langsam, wenn man das mit dem Hauptspeicherdurchsatz eines aktuellen Mainboards vergleicht.

GPGPU Computing klingt ganz toll, aber in der Realität kann man sehr viele Probleme auf GPGPUs gar nicht rechnen, weil der Arbeitsspeicher nicht ausreichend ist. Das sind aber gerade die Bereiche der Naturwissenschaften, bei denen es den größten Bedarf an Computerrechenleistung gibt (Quantenchemie, Festkörperphysik, ...). Man muß sich also entweder auf alte Rechenverfahren begrenzen, die deutlich schlechtere Ergebnisse liefern, oder man muß die Problemgröße drastisch reduzieren. Was bei vielen Probleme in der Chemie den Rechner komplett unbrauchbar macht.

Ganz abgesehen davon, dass es nicht nur um Energieeffizienz geht, sondern auch um maximale Rechenleistung und Anschaffungskosten. Und da ist Blue Gene nicht gerade die Messlatte.
Bei großen Clustern wird die Luft sehr schnell sehr dünn, so daß man bei einem der großen Anbieter landet, der Preis ist somit meist vergleichbar hoch. Einfach mal so zusammenschrauben funktioniert nicht. Desweiteren sind die Klimakosten und der Stromverbrauch ein nicht unerhebliches Problem. Der Betrieb verschlingt bei einem Top100 Cluster Hunderttausende im oberen Bereich auch schnell mal Millionen von Euro pro Jahr.

Was die absolute Rechenleistung betrifft, schon einmal angeschaut wieviel BlueGene/Q Kerne IBM in ein Rack stopft? Laut Heise sind's 16.384 Kerne, und das Warmwasser gekühlt. Das spart massiv an Klimakosten.
 
Das größte Problem ist die aufwendige Programmierung und der sehr begrenzte Arbeitsspeicher. Die GPGPUs sind nur sehr langsam mit dem System verbunden, das limitiert zusätzlich die Probleme für die man GPGPUs einsetzen kann. Selbst ein PCIe PEG Slot ist langsam, wenn man das mit dem Hauptspeicherdurchsatz eines aktuellen Mainboards vergleicht.
Ich sag nur -> Fusion. Lies dich mal ins Thema ein. Die Entwicklung wird nicht auf dem Stand von heute stehen bleiben.

Neue GPU Architekturen werden mehr Funktionalität bieten, wodurch sie flexibler im Einsatz werden. Natürlich wird dann auch die Komplexität der Shader-Architektur steigen, was Auswirkungen auf die Effizienz hat. Die Kunst wird dann sein, den Sweet Spot aus Flexibilität und Effizienz zu finden. Weder CPUs noch GPUs haben diesen heutzutage schon erreicht.

Durch das direkte Integrieren der GPU Shader in die CPU, genau das ist ja das Ziel von Fusion, steht den GPU Shadern natürlich auch die gleiche Infrastruktur zur Verfügung, inklusive Interconnects, Speicher, etc. Bereits Llano besitzt ein entsprechendes Interface, Onion/Garlic, was natürlich erst der Anfang ist. Dein Argument mit dem Arbeitsspeicher ist für mich daher nicht nachvollziehbar.

Bei großen Clustern wird die Luft sehr schnell sehr dünn, so daß man bei einem der großen Anbieter landet, der Preis ist somit meist vergleichbar hoch. Einfach mal so zusammenschrauben funktioniert nicht. Desweiteren sind die Klimakosten und der Stromverbrauch ein nicht unerhebliches Problem. Der Betrieb verschlingt bei einem Top100 Cluster Hunderttausende im oberen Bereich auch schnell mal Millionen von Euro pro Jahr.
Sicherlich. Das ist trotzdem kein Argument, wenn Rechenleistung gefragt ist. Damit können diese beiden Blue Gene Rechner nun mal nicht punkten. Und die Rechner dahinter sind bezüglich Energieeffizienz auch nicht soweit entfernt, bieten teils aber deutlich mehr Rechenleistung.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh