Hotchips 34

NVIDIA nennt Details zum Cache und Speicher des Grace-Superchips

Von Andreas Schilling
Freitag, 19.08.2022 um 17:00 Uhr

NVIDIA nennt Details zum Cache und Speicher des Grace-Superchips

In diesem Frühjahr stellte NVIDIA seinen ersten ARM-Supercomputer/Server-Chip Grace offiziell vor. Die Grace-CPU verwendet 72 ARM-Kerne und bietet zudem 32 Speicherkanäle für LPDDR5X-Speicher. Die Kapazität des Speichers beläuft sich auf 512 GB und die Speicherbandbreite liegt bei 546 GB/s.

Auf der Hotchips 34 spricht NVIDIA über Grace, den Grace CPU Superchip (2x Grace CPU) und auch den Grace Hopper Superchip, bei dem eine Grace-CPU mit einer Hopper-GPU kombiniert wird. Die eigentliche Präsentation wird NVIDIA erst am 22. August geben und nennt dennoch nun erste Inhalte.

Um eine Kompatibilität mit dem restlichen Server-Ökosystem gewährleisten zu können, verkündet NVIDIA, dass Grace mit der ARM Server Base System Architecture (SBSA) und den ARM Server Base Boot Requirements (SBBR) zwei Standard-Funktionen unterstützen wird. Aber auch das ARM Memory Partitioning and Monitoring (MPAM) wird unterstützt.

Erstmals nennt NVIDIA nicht nur eine Speicherbandbreite von 546 GB/s für die Anbindung des LPDDR5X, sondern zeigt außerdem konkrete Speicherbenchmarks.

Diese wurden mittels des Stream Benchmarks ermittelt. Die Grace-CPU liefert hier zwischen 505 und 536 GB/s und kommt damit dem theoretischen Limit von 546 GB/s recht nahe. NVIDIA verwendete hier ein Pre Production Silicon, also noch nicht die finale Hardware.

Zudem liefert NVIDIA Benchmark-Werte zur Kommunikation zwischen zwei CPUs (Grace CPU Superchip) und Grace-CPU und Hopper-GPU (Grace Hopper Superchip), die über das NVLink-C2C-Interface stattfindet. Das Lesen und Schreiben von Daten erfolgt in oder vom Speicher des zweiten Chips mit 429 bzw. 407 GB/s. Das gleichzeitige Lesen und Schreiben soll mit 506 GB/s erfolgen können. Die bidirektionale Verbindung erreicht theoretisch 900 GB/s.

117 MB an L3-Cache und 68 PCIe-5.0-Lanes

Mit der Grace-CPU bzw. der dazugehörigen Architektur stellt NVIDIA den Scalable Coherency Fabric (SCF) vor. Dabei handelt es sich um einen Mesh-Fabric, der die einzelnen Kerne, Speicher, I/O-Komponenten und den NVLink-C2C miteinander verbindet. Der SCF hat eine bidirektionale Bandbreite von 3.225,6 GB/s

Über den SCF verbunden werden vier Cache Switch Nodes (CSN), die Kern-Komplexe und SCF-Cache-Partitionen. Die LPDDR5X-Speichercontroller, NVLink-C2C-PHYs sowie PCIe/NVLink-PHYs sind ebenfalls per SCF angebunden.

Die Grace-CPU ist mit insgesamt 117 MB an L3-Cache ausgestattet. Dieser steht allen 72 Kernen zur Verfügung. Die CPU-Kerne und SCF-Cache-Partitionen (SCCs) sind über das gesamte Netz verteilt. Cache Switch Nodes (CSNs) leiten die Daten durch das Mesh und dienen als Schnittstellen zwischen den CPU-Kernen, dem Cache und dem restlichen System.

Auch wenn die Grace-CPUs und dazugehörigen Beschleuniger per NVLink angebunden werden sollen, bietet der Chip auch PCI-Express-5.0-Lanes. Davon vorhanden sind 68 Lanes, von denen 56 dediziert als PCI-Express 5.0 zur Verfügung stehen. Hinzu kommen zwölf weitere Lanes, die entweder für NVLink oder PCI-Express verwendet werden können.

Grace CPU Superchip und Grace Hopper Superchip sollen ab der ersten Jahreshälfte 2023 erhältlich sein. Wir werden die Präsentation von NVIDIA auf der Hotchips 34 verfolgen und weitere Informationen ergänzen.

Erste CPU-Benchmarks

Für den Grace-Prozessor liefert NVIDIA erste Schätzungen im Hinblick auf die Leistung der ARM-Kerne. Verwendet wird der SPECrate2017_int_base – gemessen wird demnach die Integer-Leistung mit weniger hoch optimiertem Code im Vergleich zu den "Peak"-Werten.

Es handelt sich um Schätzungen der Leistung basierend auf Pre-Production-Silicon. Eine Grace-CPU soll auf 370 Punkte kommen, zwei Grace-CPUs skalieren demnach perfekt und sollen es auf 740 Punkte bringen.

Kürzlich sorgte der Alibaba Cloud Yitian 710 für Aufregung, da seine SPECrate2017_int_base-Werte die etablierten Hersteller alt aussehen lassen. Mit 510 Punkten ist dieser tatsächlich noch schneller und auch ein AMD Epyc 7773X liefert eine höhere Integer-Leistung. Die Grace-CPU wäre demnach aber schneller als ein Ampere Altra Q80-33 und Xeon Platinum 8351N.

Um die Mikroarchitektur und Anzahl der Kerne vergleichen zu können, noch eine Tabelle zur Grafik:

**Gegenüberstellung der Prozessoren**
	SPECrate2017 int_base	µArchitektur	Kerne
1x Grace-CPU	370	ARMv9	72
2x Grace-CPU	740	ARMv9	144
1x Alibaba Cloud Yitian 710	510	ARMv9	128
1x AMD Epyc 7773X	440	x86	64
1x Ampere Altra Q80-33	300	ARMv8	80
1x Xeon Platinum 8351N	265	x86	36

Über die Aussagekraft der Projektionen von NVIDIA kann gestritten werden. Bis die Grace-Prozessoren in der ersten Jahreshälfte 2023 erscheinen werden, werden AMD, Intel und vermutlich auch Ampere bereits mit der nächsten Generation aufwarten können und mit diesen wird sich NVIDIA dann vergleichen müssen.

Quellen und weitere Links