NEWS

#AMD #RDNA-3 #Radeon #Radeon-RX #Radeon-RX-7900-XTX #Radeon-RX-7900-XT

RDNA 3 und Chiplet-Design

AMD stellt die ersten beiden Radeon-RX-7000-Karten vor

Von Andreas Schilling
Donnerstag, 03.11.2022 um 21:48 Uhr

AMD stellt die ersten beiden Radeon-RX-7000-Karten vor

248

Unter dem Motto "together we advance_gaming" hat AMD die Navi-3x-GPUs auf Basis der RDNA-3-Architektur vorgestellt. AMD befindet sich aktuell in eng gepackten Wochen der Neuvorstellungen: Die Ryzen-7000-Prozessoren (Test), nun RDNA 3 und die nächste Radeon-RX-Generation, kommende Woche die EPYC-Prozessoren mit Zen-4-Kernen und Anfang Januar dann die mobilen Ryzen-Prozessoren der nächsten Generation.

Aber nun zu den Grafikkarten der Radeon-RX-7000-Generation. Die RDNA-3-Generation sollte mindestens ein um 50 % besseres Verhältnis von Leistung pro Watt erreichen. Zunächst einmal ging AMD auf die Tatsache ein, dass die Navi-3x-Serie ein Chiplet-Design ist. Das Package besteht aus einem zentralen Graphics Chiplet Die (GCD) und mehreren Memory Chiplet Dies (MCD). Der GCD wird in 5 nm bei TSMC gefertigt, der MCD in 6 nm – ebenfalls bei TSMC. Das sind auch nicht die einzigen Parallelen zu den Ryzen-Prozessoren.

Das Chiplet-Design soll laut AMD die Flexibilität erhöhen. Man fertigt viele kleine und identische MCDs, die einfach zu fertigen sind und in der gewünschten Anzahl eingesetzt werden können, während der zentrale GCD in der gewollten Ausbaustufe gefertigt wird und mit den MCDs in der gewünschten Anzahl kombiniert wird. Der GCD kommt auf eine Fläche von 300 mm², die MCDs auf jeweils 37,5 mm².

In jedem der MCDs befinden sich 16 MB an Infinity Cache, so dass die Navi-31-GPU auf insgesamt 96 MB kommt. Zum Vergleich: Navi 21 brauchte es auf 128 MB an Infinity Cache. Aber AMD hat eine zweite Generation des Infinity Cache entwickelt, der eine höhere Hit-Rate besitzen soll. Somit wird die geringfügig kleinere Kapazität kompensiert. Ein GCD und sechs MCDs kommen auf 58 Milliarden Transistoren und eine kombinierte Fläche von 525 mm². Die AD102-GPU der GeForce RTX 4090 bringt es auf 76 Milliarden Transistoren und benötigt eine Chipfläche von 608,3 mm². Ein monolitischer Chip ist aber schwerer zu fertigen als die sieben einzelnen Chips, wie sie AMD nun einsetzt. Im Falle der Radeon RX 7900 XT sind nur fünf MCDs aktiv, der sechste ist nicht aktiv und wird als Spacer eingesetzt, damit der Kühler vernünftig aufliegen kann.

Zwischen dem zentralen GCD und den sechs MCDs kommt der Infinity Fabric Interconnect auf eine Bandbreite von 5,3 TB/s. Diese gesamte Infinity-Fabric-Bandbreite ist um den Faktor 2,7 höher als bei der vorherigen Generation. Zwischen jedem MCD dürften etwa 900 GB/s zum GDC möglich sein. Für das Packaging setzt AMD wie bei der Radeon Instinct MI250 auf 2.5D Elevated Fanout Bridge (EFB) – eine Technik, die man gemeinsam mit TSMC entwickelt hat und die aug einer Packaging-Technik von TSMC basiert. An die MCDs angebunden sind die Speichercontroller für den GDDR6-Speicher. Die Radeon RX 7900 XTX besitzt 24 GB, die Radeon RX 7900 XT 20 GB.

Im Gegensatz zu NVIDIAs aktueller Ada-Lovelace-Generation unterstützen die neuen Radeon-Karten DisplayPort 2.1. AMD wurde auch nicht müde zu betonen, dass selbst das Spitzenmodell, die Radeon RX 7900 XTX nur 355 W verbrauchen soll. Zudem sei kein neuer Stromanschluss notwendig. Die beiden neuen Karten kommen mit zweimal 8-Pin aus. Die Radeon RX 7900 XT wird sich mit 305 W begnügen.

Die Radeon RX 7900 XTX und Radeon RX 7900 XT sind die ersten beiden Modelle dieser neuen Generation.

Gegenüberstellung der Navi-3x-GPUs
	Radeon RX 7900 XTX	Radeon RX 7900 XT
GPU	Navi 31	Navi 31
GCDs	1x	1x
Chipgröße des GCD	300 mm²	300 mm²
MCDs	6x	5x
Chipgröße des MCD	37,5 mm²	37,5 mm²
FP32-Recheneinheiten	12.288	10.752
Shader Engines	6	6
Shader Arrays	12	12
Workgroups (WGP)	48	42
Compute Units (CU)	96	84
Game-Takt	2.300 MHz	2.000 MHz
Infinity Cache	96 MB	80 MB
Speicher	GDDR6	GDDR6
Speicherkapazität	24 GB	20 GB
Speicherinterface	384 Bit	320 Bit
TDP	355 W	305 W
Preis	999 US-Dollar	899 US-Dollar

Die Abmessungen der Referenzversionen von AMD belaufen sich auf 287 mm in der Länge und eine Dicke von 2,5 Slots. Damit will sich AMD auch von den gigantischen Ausmaßen der GeForce RTX 4090 absetzen.

Zur Leistung äußerte sich AMD noch eher zurückhaltend. Die Radeon RX 7900 XTX sei in UHD um bis zu 70 % schneller als eine Radeon RX 6950 XT. Verbesserungen soll es vor allem in der Raytracing-Leistung geben. Das Niveau einer GeForce RTX 4090 wird man wohl nicht erreichen. Ziel aber dürfte die GeForce RTX 4080 sein, die in zwei Wochen von NVIDIA auf den Markt gebracht wird. Die unabhängigen und detaillierten Tests werden wir wohl abwarten müssen.

Die RDNA-3-Architektur

Eine der wichtigsten Änderungen in der RDNA-3-Architektur betrifft die Workgroup Prozessoren (WGP). Die FP32-Recheneinheiten können nun ein "Dual Issue" ausführen – zwei anstatt nur einen Rechenbefehl demzufolge. Dazu müssen diese Rechenbefehle aber identisch sein, was zu einem gewissen Grad in einer GPU bei den entsprechenden Berechnungen aber auch der Fall ist. Die RDNA-3-Architektur ist für die Nutzung des Instruction Level Parallelism (ILP) also darauf angewiesen, dass die Wavefronts möglichst parallel arbeiten, da sonst Ressourcen ungenutzt liegen bleiben. Im Idealfall kann eine Compute Unit (CU) somit 128 anstatt wie bisher 64 FP32-Rechenbefehle ausführen.

Ein ILP ist ein relativ einfacher weg, um den Durchsatz an Berechnungen zu erhöhen. Allerdings ist man hier darauf angewiesen, dass der Prozentsatz an möglichen Doppel-Berechnungen relativ hoch ist, damit man von dem Umstand zwei Berechnungen pro Recheneinheit machen zu können, auch Gebrauch macht. Es dürfte interessant zu sehen sein, wie hoch die Nutzung von ILP in der Praxis sein wird. AMD wird eigene Zahlen dazu habenm hat sich bisher aber noch nicht weiter dazu geäußert.

Um die Recheneinheiten besser auslasten zu können, hat AMD die VGPR (Vector General-Purpose Registers) um 50 % größer gestaltet. Jede Compute Unit verfügt zudem über zwei nicht näher beschriebene KI-Einheiten, die einfache INT8- und BFLOAT16-Berechnungen schneller ausführen können. Vergleichbar mit den Tensor-Kernen sind diese KI-Einheiten wohl nicht und dennoch will AMD den Durchsatz der entsprechenden Berechnungen um den Faktor 2,7 gesteigert haben. Für FSR kommt aktuell noch keine KI zum Einsatz, aber das könnte sich in Zukunft auch ändern. Inzwischen gibt es auch einige weitere Anwendungen, vor allem im professionellen Bereich, die von den KI-Einheiten Gebrauch machen können.

Die verbesserte Raytracing-Leistung wird dadurch erreicht, dass die entsprechenden Einheiten 50 % mehr Strahlen pro Takt berechnen können. Die BVH-Struktur einer jeden Raytracing-Berechnung wird weiterhin in den Shadereinheiten berechnet. Über die RT-Einheiten beschleunigt werden vor allem das Ray Box Sorting sowie das Ray Traversal.

Unterschiedlicher Takt für Front- und Back-End

In den Gerüchten war von einem GPU-Takt von bis zu 3 GHz die Rede. Dies hat die Radeon RX 7900 XTX nicht erreicht und liegt mit 2,3 GHz in dieser Hinsicht auch hinter den Erwartungen. Eine Besonderheit der Navi-3x-GPUs ist, dass diese mit einem unterschiedlichen Takt für das Front- und Back-End arbeiten können. Während die Shadereinheiten mit 2,3 GHz arbeiten, kann das Front-End auch mit 2,5 GHz laufen.

Das Front-End bestimmt in gewisser Weise die maximal mögliche Rechenleistung, während die Shadereinheiten stromsparend bei einem niedrigeren Takt arbeiten können. AMD will damit 25 % an Leistungsaufnahme einsparen können.

Neben der Hardware gibt es auch eine erste Ankündigung zu neuen Software-Funktionen. FSR 3 soll eine verbesserte Bildqualität bieten und nutzt dazu auch eine temporale Komponente. Die genauen Details stehen hier noch aus. FSR 3 soll 2023 offiziell eingeführt werden.

Ab 13. Dezember im Handel

Beide Grafikkarten sollen ab dem 13. Dezember verfügbar sein. Die Radeon RX 7900 XTX soll 999 US-Dollar kosten, die Radeon RX 7900 XT 899 US-Dollar. Euro-Preise kennen wir noch keine. Neben den Referenzdesigns von AMD sollen an diesem Tag auch die Custom-Modelle starten. Dann werden wir schon wissen, was die GeForce RTX 4080 zu leisten im Stande ist.

Ein Blick auf die MBA-Designs

Zum Abschluss wollen wir noch einen Blick auf die Referenzdesigns (MBA - Made by AMD) werfen. Fangen wir mit der Radeon RX 7900 XTX an.

Beide Karten setzen auf einen identischen oder zumindest ähnlichen Kühler. Die Karten haben eine Länge von 287 mm und belegen 2,5 Slots. Neben der Tatsache, dass hier die Standard-PCI-Express-Stromanschlüsse mit jeweils 8-Pins zum Einsatz kommen sind die Abmessungen eine Tatsache, auf die AMD mehrfach hingewiesen hat. Diese Nadelstiche gingen natürlich in Richtung von NVIDIA.