Über Optimierungen und Hersteller-Benchmarks

AMD vs. Intel

Von Andreas Schilling
Montag, 03.06.2019 um 16:05 Uhr

AMD vs. Intel

Auf der Bühne zur Keynote auf der Computex präsentierte AMD erstmals ein Dual-Socket-System bestehend aus zwei EPYC-Prozessoren der zweiten Generation mit jeweils 64 Kernen. Verglichen hat man diese mit zwei Intel Xeon Platinum 8280 mit jeweils 28 Kernen. Dieser Vergleich mit 128 gegen 56 Kerne ist auf den ersten Blick schon problematisch, ließe sich aber noch mit der Tatsache begründen, dass AMD eben die aktuell stärksten 2S-Systeme miteinander vergleichen möchte.

Das man nicht einen der Xeon-Platinum-Prozessoren der 9000-Serie verwendet hat, begründet AMD damit, dass diese noch nicht im Handel verfügbar seinen. Dies trifft allerdings auch für die EPYC-Prozessoren der zweiten Generation zu – insofern ist auch diese Argumentation seitens AMD eher schwammig.

Gleich mehrere Dinge sind an der von AMD gewählten Demo auffällig und das nicht nur im Vergleich zwischen AMD und Intel, sondern auch in der Historie der bisher gezeigten Benchmarks. AMD verwendet hier ein NAMD (Nanoscale Molecular Dynamics Program), also eine Software zur Simulation molekulardynamischer Prozesse. Die dient als typisches Beispiel für HPC (High Performance Computing) und ist aufgrund der Verwendung des Programmiermodells Charm++ für eine Skalierung bis zu mehreren zehntausend Prozessoren gedacht – skaliert also auch entsprechend gut bei den gewählten Beispielen.

Keine weitere Verbesserung bei AMD

Auf der CES zeigte AMD ein 1S-Sockel mit einem EPYC-Prozessor mit 64 Kernen. Dieser erreichte einen Wert von 9,8 ns/Tag. Heute nun, fast fünf Monate später erreichen doppelt so viele Kerne 19,56 ns/Tag, was dafür spricht, dass AMD keine nennenswerten Verluste in der Rechenleistung durch zwei Prozessoren in einem System zu verbuchen hat. Bei solchen Anwendungen sind diese aber auch nicht zu erwarten, da beispielsweise die Speicherbandbreite und Latenzen hier kaum eine Rolle spielen.

Auf der anderen Seite scheint es aber auch keine Verbesserungen in der Skalierung der Leistung gegeben zu haben. Weder konnte AMD merklich an der Softwareschnittstelle Optimierungen vornehmen, noch hat sich offenbar am Takt der EPYC-Prozessoren viel getan. Je näher der Markstart rückt, desto eher sind solche Optimierungen aber zu erwarten und fließen dann auch in solche Demos ein.

NAMD

Nanoscale Molecular Dynamics

AMD EPYC 2S 128C

19.56 XX

AMD EPYC 1S 64C

9.8 XX

ns/Tag

Mehr ist besser

Im Diagramm zeigt sich die gute Skalierung, allerdings fehlt der Fortschritt bzw. die Weiterentwicklung zwischen Januar (1S, 64C) und Ende Mai (2S, 128C).

AMD ließ Xeon-Prozessoren in nicht optimierter Umgebung laufen

Ähnlich wie AMD sicherlich auch darauf geachtet hat, seine EPYC-Prozessoren in möglichst idealer Umgebung arbeiten zu lassen, sollte es der Anspruch an einen öffentlichen Vergleich sein, dass dies beim Konkurrenzprodukt ebenfalls der Fall ist. Doch offenbar ist dies hier nicht der Fall.

Offenbar liefen die beiden Xeon Platinum 8280 nicht mehr der für sie idealen Version von NAMD, denn die Software gibt es in einer Standard-Multicore-Variante, aber auch für CUDA optimiert oder eben mit AVX512-Unterstützung in Form einer "Intel Xeon Phi KNL"-Variante. Dies verweist zwar noch auf die inzwischen eingestellten Xeon-Phi-Beschleuniger, der wichtige Punkt aber ist die AVX512-Unterstützung und hier profitieren die Xeon-Prozessoren auf Basis von Cascade Lake natürlich ebenfalls.

Zwar reduzieren die beiden Xeon Platinum 8280 ihren Basis-Takt von 2,7 auf 1,8 GHz und auch der All-Core-Turbo fällt von 3,3 auf 2,4 GHz, die Recheneinheiten können die AVX512-Befehlssätze aber deutlich effektiver abarbeiten.

Entsprechend sieht Intel für den Einsatz von zwei Xeon Platinum 8280 bereits andere Zahlen, als dies in der Präsentation durch AMD der Fall ist. Anstatt 9,68 ns/Tag sind es dann 12,65 ns/Tag – ein Plus von 30,6 %.

Aber auch an anderer Stelle wollte Intel den Vergleich nicht in dieser Form stehenlassen und veröffentlichte die Ergebnisse für zwei Intel Xeon 9242 Platinum, die über jeweils 48 Kerne verfügen. Mit 19,88 ns/Tag lag man hier schon wieder mit AMD gleichauf. Nun hat man auch die Ergebnisse für zwei Xeon Platinum 9282 mit jeweils 56 Kernen nachgereicht. Diese kommen auf 24,16 ns/Tag und hängen die beiden EPYC-Prozessoren wiederum klar ab.

NAMD

Nanoscale Molecular Dynamics

Intel Xeon 9282 2S (112C) mit AVX512

24.16 XX

Intel Xeon 9242 2S (96C) mit AVX512

19.9 XX

AMD EPYC 2S (128C)

19.56 XX

Intel Xeon 8280 2S (56C) mit AVX512

12.65 XX

AMD EPYC 1S (64C)

9.8 XX

Intel Xeon 8280 2S (56C)

9.68 XX

ns/Tag

Mehr ist besser

Hersteller-Benchmarks immer mit Vorsicht genießen

Die Veröffentlichungen der Benchmarks durch AMD und Intel haben die Frage aufgeworfen, ob solche Vergleiche überhaupt noch angebracht sind. Zum einen wählt der jeweilige Hersteller sicherlich Anwendungen, die ihm entgegenkommen und die auf der eigenen Hardware besonders gut laufen.

Auf der anderen Seite sind solche Benchmarks inzwischen auch stark von den Softwareoptimierungen abhängig und diese spielen im Serversegment eine immer wichtigere Rolle. Einfach eine Anwendung starten und die Werte vergleichen ist hier nicht mehr möglich. Egal ob bei Prozessoren oder GPU-Beschleunigern, inzwischen hat die Software einen großen Anteil an der optimalen Leistung. Kernel, Compiler-Settings und eben Softwareschnittstellen und spezielle Anpassungen der Software selbst spielen zunehmend eine wichtige Rolle. Undokumentiert lassen sich Leistungswerte so nicht mehr analysieren und jeglicher auf der Bühne gezeigter Benchmark sollte immer mit Vorsicht genossen werden.

Es stellt sich ohnehin die Frage, ob ein derartiger Benchmarks von besonderer Relevanz ist. NAMD deckt nur einen sehr speziellen Anwendungsbereich im HPC-Segment ab. Ähnlich gilt dies beim Desktop für Präsentationen mit Hilfe des Cinebench. Er kann sehr schön die Leistung einzelner oder aller Kerne bewerten, geht es aber um die Alltagsleistung ist ein solcher Benchmark einzeln betrachtet eher weniger sinnvoll.

Im Serverbereich muss noch viel genauer hingeschaut werden, wenn es um die Beurteilung der Leistung von neuer Hardware geht. Jede Anwendung stellt ihr eventuell andere Anforderungen und die eierlegende Wollmilchsau gibt es auch nicht. Auf solche nach außen getragenen Benchmarks verlässt sich ein Server- oder Cloudanbieter ohnehin nicht. Bis die eigene Software nicht auf unabhängigen Systemen selbst getestet werden konnte, sind keinerlei Entscheidungen im großen Maßstab möglich. Weitere Faktoren wie die Kosten der Hardware einmal komplett außen vorgelassen.

In diesem Fall hätte AMD schon etwas genauer hinschauen sollen. Die Software ohne AVX512-Unterstützung zu verwenden konnte nur nach hinten losgehen.

Quellen und weitere Links