Geekbench versus SPEC

Nuvia erläutert Unterschiede im Anforderungsprofil

Von Andreas Schilling
Donnerstag, 22.10.2020 um 17:41 Uhr

Nuvia erläutert Unterschiede im Anforderungsprofil

Vor einigen Wochen machte das Server-Startup Nuvia mit ersten Projektionen der Leistung des Phoenix getauften Designs auf sich aufmerksam. Doppelt so schnell und deutlich sparsamer als AMD, Intel und Co. will man am Ende der Entwicklung sein.

Phoenix ist dabei der Name der Micro-Architektur, bzw. des einzelnen Kerns, dessen Basis (vermutlich) eine erweiterte ARMv9-Lizenz ist – genauere Details dazu stehen noch aus. Der SoC wird auf den Namen Orion hören und eine bisher unbekannte Anzahl an Phoenix-Kernen verwenden. Für die Phoenix-Kerne peilt Nuvia die höchste am Markt verfügbare Single-Core-Leistung an. Zugleich sollen die Kerne aber auch noch extrem effizient sein. Statt einzelner Boost-Angaben soll der SoC seine maximale Leistung immer und unter allen Last-Bedingungen abrufen können – egal welche Befehlssätze verwendet werden. Auch Ampere mit seinen Altra-Prozessoren sieht darin einen Vorteil gegenüber den etablierten Lösungen von AMD und Intel.

Nach der Veröffentlichung der ersten Geekbench 5 Single-Threaded-Test-Projektionen wurde jedoch Kritik laut, da der Geekbench 5 zwar im Consumer-Bereich extrem beliebt ist, im Serversegment aber wohl kaum eine Rolle spielen dürfte. Stattdessen sollten Tests wie SPEC CPU2006 und CPU2017 verwendet werden – wie in diesem Segment eigentlich üblich. Ram Srinivasan, Performance Architect bei NUVIA, hat sich dieser Kritik nun angenommen und einen Beitrag verfasst, der die Anforderungen und Bedingungen der verschiedenen Benchmarks etwas genauer beleuchtet.

Nuvia hat demnach zunächst einmal versucht, zu beleuchten, welche Abhängigkeiten in der Beurteilung der Leistung es zwischen dem Geekbench und SPEC CPU2006 sowie CPU2017 geben könnte. Man hat dazu zu den oben aufgeführten Systemen die Basiswerte ermittelt – jeweils für Geekbench 5, SPEC CPU2006 und SPEC CPU2017. Alle SPEC-Tests wurden in clang10 bzw. gfortran10 mit O3, PGO, LTO und hardwarespezifischen Optimierungen compiliert. Angepasste "heap allocators" hat man allerdings nicht angewendet.

Stellt man nun die Werte für die drei Benchmarks, jeweils als Single-Threaded- und Multi-Threaded-Tests ausgeführt, gegenüber, zeigt sich eine nahezu perfekt lineare Korrelation dar. Heißt: Die Projektionen auf Basis des Geekbench 5 ließen sich in dieser Form 1:1 auf andere Benchmarks wie eben SPEC CPU2006 sowie CPU2017 übertragen.

Diese Korrelation hat man mit Hilfe eines Intel Core i7-1065G7 sowie den Apple-SOCs A12 und A13 überprüft und kann die erfolgten Hochrechnungen durch konkrete Messungen mit einer Toleranz von unter 1 % bestätigen. Für den Apple A14 hat man die Geekbench-Ergebnisse ebenfalls übertragen und erwartet nun, dass die konkreten Ergebnisse diese Hochrechnungen ebenfalls bestätigen.

Laut Srinivasan sollte man aber nun nicht den Fehler machen und dies in jedem Fall so annehmen, denn unter bestimmten Bedingungen kann es doch Unterschiede geben. Der Geekbench 5 stellt zwar für eine aktuelle Micro-Architektur einen gewissen Basiswert dar, sobald aber gewisse Subsets an Workloads zum Einsatz kommen, kann es schwierig werden.

Faktoren, die einen großen Einfluss haben, sind "branch mispredicts" (also falsche Sprungvorhersagen, die zwar ausgeführt, dann aber verworfen werden) und damit verknüpfte Zugriffe auf den Data-Cache (D-Cache) und den translation lookaside buffer oder besser gesagt Data-TLB). Solche Zugriffe sind in SPEC CPU2006 sowie CPU2017 um den Faktor 1,1 bis 2 höher als beim Geekbench 5.

Ein weiterer Einflussfaktor kann die Laufzeit des Benchmarks sein. Der Geekbench 5 ist in wenigen Minuten beendet, während die Tests des SPEC CPU2006 sowie CPU2017 über Stunden laufen. Hier spielt dann auch die Kühlung eine Rolle, denn nicht alle Prozessoren können ihren Takt über eine längere Zeit halten bzw. die Boost-Mechanismen sind darauf ausgelegt, kurzzeitig mehr zu liefern.

Man sollte sich also nicht auf einen Benchmark und noch viel weniger auf nur einen Ausschnitt eines komplexen Benchmarks verlassen, um die Leistung der Hardware zu beurteilen. Nuvia wollte zunächst einmal Korrelation zwischen dem Geekbench 5 und anderen Benchmarks belegen, verweist aber zugleich auf die weiteren Faktoren, die hier eine Rolle spielen können.

Mit den von Nuvia erhobenen Werte für SPEC CPU2006 sowie CPU2017 der anderen Systeme ließe sich nun auf die Leistung des Phoenix-Kerns Rückschlüsse ziehen. Allerdings muss man sich hier vor Augen führen, dass wir von Projektionen sprechen, die zudem eine gewisse Breite im Verbrauch des einzelnen Kerns vorsehen. Man wird hier also noch abwarten müssen, bis Nuvia mit ersten echten Benchmarks herausrückt. Im kommenden Jahr dürfte es hoffentlich soweit sein.

Quellen und weitere Links