Werbung
Endlich ist es so weit und AMD stellt die RDNA-4-Architektur sowie die dazugehörigen Grafikkarten, zu denen wir heute die technischen Details nennen können, offiziell vor. Die Tests der Karten werden dann zu einem späteren Zeitpunkt folgen. Vorweg sei gesagt: Mit der Radeon-RX-9070-Serie greift AMD nicht nach der Leistungsspitze, sondern will sich auf ein gutes Preis-/Leistungsverhältnis konzentrieren. Dies ist allerdings bereits seit Monaten bekannt und wurde auch entsprechend von AMD so kommuniziert, sodass niemand von überrascht sein sollte.
Entsprechend der Auslegung führt AMD an, dass die Radeon-RX-9070-Serie Spieler im Bereich von 700 US-Dollar und darunter abholen möchte. Zugleich sind aber die Anforderungen hinsichtlich der Auflösung gestiegen und somit rücken 1440p und UHD in den Fokus. Mit der zunehmenden Integration der aufwendigen Raytracing-Effekten steigen die Hardware-Anforderungen, was AMD einerseits mit neuen Raytracing-Beschleunigern, aber auch mit FSR 4 adressiert.
Wohl auch im Hinblick auf NVIDIAs Schwierigkeiten mit dem 12V-2x6-Anschluss, der zumindest bei der GeForce RTX 5090 an der Grenze des technisch machbaren betrieben wird, bewirbt AMD die Radeon-RX-9070-Serie auch mit ihrer Drop-In-Kompatibilität – sprich die meisten Karten verwenden weiterhin die 8-Pin-Anschlüsse und setzen auch vom Verbrauch nicht den Kauf eines neuen Netzteils voraus.
Ein Wermutstropfen für viele wird sicherlich sein, dass AMD in dieser Generation keine eigenen Designs auf den Markt bringen wird. MBA-Karten werden wir also nur im Rahmen des Marketing-Material sehen, nicht aber im Handel. Auch unsere Tests werden mit den Karten der Partner und komplett eigens entwickelten Kühllösungen entstehen.
RDNA-4-Architektur und Fertigung
Die heute vorgestellte RDNA-4-Architektur und auch die dazugehörigen Grafikkarten basieren alle auf der aktuell größten GPU, die AMD in dieser Generation plant, der Navi-48-GPU. Einen größeren Ausbau wird es den aktuellen Informationen nach nicht geben und damit verabschiedet sich AMD auch wieder vom Multi-Chiplet-Ansatz der RDNA-3-Generation, denn die Navi-48-GPU ist ein monolithischer Chip mit Abmessungen von 357 mm², gefertigt bei TSMC in N4P. Ein Graphics Chiplet Die (GCD) und mehrere Memory Chiplet Dies (MCD) gibt es also nicht. Diese wurden in 5 bzw. 6 nm gefertigt.
Der GCD der Radeon RX 7800 XT mit 64 CUs im Vollausbau kam auf eine Größe von 300 mm². Mit der Navi-48-GPU sind es nun 357 mm² in der auf Leistung getrimmten 5-nm-Fertigung namens N4P. Zum Vergleich: Die für die GeForce RTX 5070 Ti verwendete GB205-GPU bringt es auf 263 mm². Die Anzahl der Transistoren liegt bei 31,1 Milliarden, während es bei Navi 48 satte 53,9 Milliarden sind.
GB203 | GB205 | Navi 48 | |
Fertigung | TSMC 4N | TSMC 4N | TSMC N4P |
Die-Größe | 378 mm² | 263 mm² | 357 mm² |
Anzahl der Transistoren | 45,6 Milliarden | 31,1 Milliarden | 53,9 Milliarden |
Transistordichte | 120,6 MTr/mm² | 118,3 MTr/mm² | 151 MTr/mm² |
Die Navi-48-GPU ist damit mit der GB203-GPU von NVIDIA vergleichbar, die für die GeForce RTX 5080 und GeForce RTX 5070 Ti zum Einsatz kommt. Die GeForce RTX 5070 wird die kleinere GB205-GPU verwenden. Zu erwarten ist, dass sich die Radeon RX 9070 und Radeon RX 9070 XT irgendwo auf Niveau der GeForce RTX 5070 (Ti) bewegen wird.
Interessant an dieser Stelle ist aber nicht nur der Vergleich der Chipgrößen und Anzahl der Transistoren, sondern vor allem, dass es AMD offenbar zusammen mit TSMC geschafft hat, die Transistordichte deutlich in die Höhe zu treiben. Der für NVIDIA angepasste 4N-Prozess liegt in dieser Hinsicht etwas hinter dem von AMD verwendeten N4P zurück.
Grundsätzliche Ziele der RDNA-4-Architektur war die Steigerung in der Rechenleistung, angefangen mit der klassischen Rasterizer-Leistung, aber auch der Raytracing- und KI-Leistung. Dazu wurden auch Änderungen in der Speicher-Hierarchie vorgenommen, welche die Anforderungen decken soll.
Die Navi-48-GPU besteht aus vier Shader Engines, die wiederum acht Workgroup-Prozessoren enthalten und diese wiederum jeweils zwei Compute Units. Insgesamt kommen wir hier also auf 64 Compute Units (CUs). Die generelle Struktur ist sehr ähnlich zur RDNA-3-Generation.
Neben den CUs zentrale und wichtige Bausteine sind die neuen Raytracing-Beschleuniger der dritten Generation, die Maxtrix-Beschleuniger der dritten Generation und eine neue Media- und Display-Engine.
Innerhalb der Compute Units wenig getan hat sich in der Möglichkeit der Ausführung zweier Vektor-Operationen mit 32 Bit (Dual SIMD Vector Units). Die Matrixeinheiten unterstützen aber 2x FP16-Operationen mit der Möglichkeit FP8- und FP4-Rechenoperationen auszuführen und deren Anzahl entsprechend im Vergleich zu FP16 zu verdoppeln oder gar zu vervierfachen. Via Sparcity können teilweise leere Matrizen abermals schneller bearbeitet werden. Die Skalar-Einheiten können nun neben 32 Bit breiten Operationen auch Float32 ausführen.
Den Vektor- und Skalar-Einheiten stehen 192 bzw. 8 kB an Register Files zur Verfügung. In Sachen Cache gibt es 16 kB für die Skalar-Einheiten und 32 kB für die Dual-Shader insgesamt. Hinzu kommt ein 128 kB großer Shared Cache. Insgesamt kommt die Navi-48-GPU damit auf 8 MB an L2-Cache. Darüber sitzt der Infinity Cache mit einer Größe von 64 MB.
Die verbesserten Raytracing-Beschleuniger können doppelt so viele Strahlenberechnungen ausführen, wie dies in der RDNA-3-Architektur der Fall ist. Dazu haben die Raytracing-Beschleuniger eine zweite Intersection Engine spendiert bekommen. Neu ist ein dedizierter Hardwareblock namens "Ray Transform". Dieser übernimmt Rechenoperationen, die in der RDNA-3-Architektur durch die Shader durchgeführt werden. Hier findet also eine gewisse Entlastung der Shadereinheiten statt, was die Rechenleistung dieser verbessern soll. Die Raytracing-Beschleuniger haben Zugriff auf den 128 kB großen Shared Cache der Dual-CUs.
Mit der Einführung eines BVH8 wird die Datenstruktur in Form eines Baumes, deutlich abgeflacht und so kommen die Berechnungen mit weniger Schritten zum Ziel – der Berechnung des eigentlichen Schnittpunktes des jeweiligen Rays. Damit reduziert sich zudem der notwendige Speicher für den BVH-Tree sowie die Bandbreite im Cache.
Grundkomponente in der Raytracing-Berechnung ist die Bounding Volume Hierarchy (BVH). Sie organisiert die Szene hierarchisch in umschließende Volumina (Bounding Volumes), die Objekte oder Gruppen von Objekten enthalten. Beim Raytracing hilft die BVH, die Anzahl der Schnittpunkttests zu reduzieren, indem Strahlen zuerst gegen größere Volumina getestet werden, bevor sie auf detailliertere Objekte treffen. Wenn ein Strahl ein Volumen nicht schneidet, können alle darin enthaltenen Objekte übersprungen werden, was die Berechnung erheblich beschleunigt. Die BVH wird meist als Baumstruktur implementiert, wobei jedes nicht-blattförmige Knotenpaar zwei oder mehr Unterknoten mit kleineren Bounding Volumes enthält.
Eine neue Funktion innerhalb des BVH sind nun die Oriented Bounding Boxes (OBB). Diese orientieren sich in der Größe der BVH-Boxen an der zugrundeliegenden Geometrie. Somit enthalten die Boxen weniger freien Raum bzw. orientieren sich an den 3D-Strukturen. Damit können im Verlaufe der Strahlenberechnung einige Operationen schneller abgebrochen werden, da der Strahl keinerlei 3D-Objekt mehr trifft bzw. dies früher festgestellt wird. AMD spricht von einer um 10 % verbesserten Leistung durch die Nutzung von OBB.
Mit der RDNA-4-Architektur gibt es aber auch Änderungen in der Art und Weise, in welcher Reihenfolge gewisse Raytracing-Rechenoperationen durchgeführt werden und wie die dazugehörigen Speicherzugriffe abgearbeitet werden. Ein Rendering-Prozess ist keine gleichmäßige Aneinanderreihung von Rechenoperationen.
Daten im Cache können von den Shadern in Form von Wave-Operationen nun auch in einer weniger strikten Reihenfolge abgefragt werden. Hits und Misses im Cache können sich gegenseitig beeinflussen. Diese Beeinflussung wird von AMD nun reduziert.
Das eben beschriebene Out of Order Memory sowie Instance Transform als neuer Hardware-Black und Oriented Bounding Boxes sorgen zu einem geringen Teil für die Verbesserungen in den Raytracing-Beschleunigern. Den weitaus größeren Teil nehmen die Verdopplung der Intersection-Einheiten ein. Die Verhältnisse zueinander sind aber auch abhängig vom jeweiligen Workload.
Die Asynchronität in Form des Out of Order Memory gibt es auch auf Shader-Ebene in den Registern. Auch hier gibt es mit der RDNA-4-Architektur einige Verbesserungen. Bisher teilten sich die Shader je nach Operation verschieden große Bereiche der Register selbst zu und adressierten dabei immer den maximalen Umfang dessen, was im Worst Case notwendig ist.
Mit der RDNA-4-Architektur erfolgt diese Zuweisung nun in dynamischer Form. Somit werden die Register Files effizienter ausgenutzt und es können mehr Berechnungen gleichzeitig ausgeführt werden.
Media- und Display-Engine
Die Media-Engine bietet gleich mehrere Verbesserungen in den Bereichen H.264, HEVC/AV1 und VP9. So sollen die Encoder über eine geringere Latenz verfügen, das Encoding um bis zu 50 % schneller ausführen können und generell die Frames mit einer höheren Qualität ausliefern können. Zudem wurde die Unterstützung der notwendigen Software in Form von FFMPEG, OBS und Handbrake verbessert. Die Verarbeitung des Encoding soll zudem effizienter ablaufen und weniger Speicher benötigen.
Auf Seit der Ausgabe der Frames wurde die Display-Engine verbessert. Grundsätzlich unterstützen die Karten der Radeon-RX-9070-Serie DisplayPort 2.1a und HDMI 2.1b. Der Idle-Verbrauch im Dual-Monitor-Betrieb soll signifikant reduziert worden sein. Zudem spricht AMD von einer neuen Hardware-Queue für die Ausgabe der Frames, was die CPU entlasten und ebenfalls Strom sparen soll. Zudem wird die Synchronisation in der Ausgabe der Frames verbessert, wenn das Frame Scheduling auf die GPU verschoben wird.
FidelityFX Super Resolution 4
Mit der RDNA-4-Architektur und den Karten der Radeon-RX-9070-Serie wird AMDs FidelityFX Super Resolution 4 oder kurz FSR 4 eingeführt. Dabei nutzt AMD auch die neuen Funktionen der RDNA-4-Architektur wie die Möglichkeit FP8-Berechnungen in den Matrix-Einheiten auszuführen.
Zudem wurden die zugrundeliegenden KI-Modelle neu trainiert und können mittels neuer Quantifizierung effizienter ausgeführt werden – bei gleichzeitiger Verbesserung der Darstellungsqualität. Im Unterschied zu FSR 3 unterstützt ein FSR 4 nicht mehr nur ein temporales, sondern ein KI-basiertes Upscaling. Damit wird der Einsatz von FSR 4 auch auf den Einsatz auf den Karten der Radeon-RX-9070-Serie beschränkt sein. Theoretisch ist es auch für andere Karten möglich, dies auszuführen, aufgrund der Nutzung von FP8 und der neuen Matrix-Beschleuniger kann AMD laut eigenen Angaben aber nur auf den neuen RDNA-4-Karten eine effiziente Ausführung von FSR 4 garantieren.
Spatial-Upscaling | Temporal-Upscaling | KI-Upscaling | Native AA Mode | Frame Generation | Kompatibilität | |
FSR 4 | - | ✓ | ✓ | ✓ | ✓ | ab Radeon-RX-9000-Serie |
FSR 3 | - | ✓ | - | ✓ | ✓ | FG: ab Radeon-RX-5000-Serie Upscaling: ab Radeon RX 590 |
FSR 2 | - | ✓ | - | ✓ | - | ab Radeon RX 590 |
FSR 1 | ✓ | - | - | - | - | ab Radeon-RX-400-Serie |
Das neue KI-Upscaling gibt es also auch nur auf den neuen Karten und vermutlich auch nicht auf Karten der Konkurrenz. Mit FSR 3 und Frame Generation sieht dies noch anders aus, denn neben den Karten der Radeon-RX-5000-Serie werden auch die Kartend er Konkurrenz unterstützt. Das Upscaling wird hier ab der Radeon RX 590 unterstützt.
In den kommenden Wochen sollen die folgenden Spiele die Unterstützung von FSR 4 erhalten bzw. per Patch ist dies schon gesehen:
- The Alters
- Bellwright
- Call of Duty: Black Ops 6
- Creatures of Ava
- Dragonkin: The Banished
- Enotria: The Last Song
- FragPunk
- Funko Fusion
- God of War: Ragnarok
- Horizon Zero Dawn Remastered
- Horizon Forbidden West
- Hunt: Showdown 1896
- Incursion Red River Kristala
- Marvel Rivals
- Marvel's Spider-Man 2
- Marvel's Spider-Man Remastered
- Marvel's Spider-Man: Miles Morales
- MechWarrior 5: Clans
- Monster Hunter Wilds
- Nightingale
- No More Room in Hell 2
- PANICORE
- Predator: Hunting Grounds
- Ratchet & Clank: Rift Apart
- Remnant 2
- Smite 2
- The Axis Unseen
- The Last of Us: Part I
- The Last of Us: Part II Remastered
- Until Dawn
- Warhammer 40,000: Space Marines 2
- Kingdom Come: Deliverance II
- Dynasty Warriors: Origins
- Civilization 7
Aktiviert wird FSR 4 entweder direkt im Spiel oder über den Treiber. Über das Overlay kann überprüft werden, ob FSR 4 wirklich aktiv ist.
Der neue Ansatz von FSR 4 soll aber nicht nur einfach eine Leistungssteigerung bedeuten, sondern auch die Darstellungsqualität verbessern.
An einigen Vergleichen will AMD die Verbesserungen in der Bildqualität darlegen. Auf der CES konnten wir uns bereits einen ersten Eindruck verschaffen und waren zumindest auf den ersten Blick überzeugt. Genau wie DLSS bei NVIDIA soll FSR nun in der Lage sein, Details besser darzustellen, als dies im nativen Rendering möglich ist.
Das Einsatzziel eines Upscaling-Mechanismus ist und bleibt die FPS-Steigerung. Dies gelingt FSR 4 genau wie den Vorgängern im reinen Upscaling-Modus bereits, mit Frame Generation kommen natürlich noch einmal theoretisch doppelt so viele Frames hinzu. Den Schritt hin zur Erzeugung von mehr als einem künstlichen Frame zwischen jeweils einem gerenderten, wie es bei Multi Frame Generation bei NVIDIA der Fall ist, geht AMD allerdings noch nicht.
Weiterhin unter dem Label HYPER-X gruppiert AMD die One-Klick-Lösung, die FidelityFX Super Resolution, Radeon Anti-Lag, Radeon Boost und AMD Fluid Motion Frames (AFMF) unter einem Dach vereint. AFMF wird auf die Version 2.1 angehoben und soll eine verbesserte Darstellungsqualität zu bieten haben.
Die Radeon RX 9070 und Radeon RX 9070 XT
Nach all den Basisdaten nun zu dem, was heute konkret an Hardware vorgestellt wird. Dabei handelt es sich um die Radeon RX 9070 und Radeon RX 9070 XT, die es anders als in der nun folgenden Abbildung aber nicht in einem MBA-Design (Made by AMD) geben wird.
Beiden Karten basieren auf der Navi-48-GPU auf Basis der RDNA-4-Architektur. Es kommen aber unterschiedlichen Ausbaustufe der GPU zum Einsatz bzw. für die Radeon RX 9070 verwendet AMD vermutlich die Chips, die in der Fertigung über ein paar Defekte verfügen und dementsprechend mit einer geringeren Ausbaustufe auskommen müssen.
Radeon RX 9070 XT | Radeon RX 9070 | |
Architektur | RDNA 4 | RDNA 4 |
Fertigung | TSMC N4P | TSMC N4P |
GPU | Navi 48 | Navi 48 |
Chipgröße | 357 mm² | 357 mm² |
Anzahl der Transistoren | 53,9 Milliarden | 53,9 Milliarden |
Compute Units | 64 | 56 |
Shadereinheiten | 4.096 | 3.584 |
RT-Beschleuniger | 64 | 56 |
KI-Beschleuniger | 128 | 112 |
Game-Takt | 2.400 MHz | 2.070 MHz |
Boost-Takt | 2.970 MHz | 2.520 MHz |
Infinity Cache | 64 MB | 64 MB |
Grafikspeicher | 16 GB GDDR6 | 16 GB GDDR6 |
Speicherinterface | 256 Bit | 256 Bit |
Speicherbandbreite | 640 GB/s | 640 GB/s |
PCIe-Interface | PCIe 5.0 x16 | PCIe 5.0 x16 |
TDP | 304 W | 220 W |
Preis | 599 US-Dollar | 549 US-Dollar |
Konkret bedeutet dies: Die Radeon RX 9070 XT verwendet den Vollausbau mit 64 Compute Units und demnach 4.096 Shadereinheiten. Daraus ergeben sich zudem die 64 Raytracing- und 128 KI-Beschleuniger. Der Infinity Cache hat eine Kapazität von 64 MB und bildet die letzte Cache-Stufe vor dem Grafikspeicher. Dieser ist über ein 256 Bit breites Speicherinterface angebunden. Für die Radeon RX 9070 XT setzt AMD auf 16 GB GDDR6 und aus dem 20 GBit/s für den eingesetzten GDDR6 ergibt sich eine Speicherbandbreite von 640 GB/s.
Die Anbindung erfolgt über PCI-Express 5.0 mit 16 Lanes. Doch dies war aufgrund der auf der CES ausgestellten Karten bereits zu vermuten. Die Total Board Power gibt AMD mit 304 W an. AMD gibt einen Game-Takt von 2.400 MHz und einen maximalen Boost-Takt von 2.970 MHz an, sodass wir hier knapp unterhalb der 3-GHz-Schallmauer bleiben. Die Custom-Designs werden unterschiedliche Taktraten aufweisen. Am Ende kommt es aber darauf an, was der Boost-Mechanismus in Abhängigkeit von Last-Zustand, Temperaturen und dem zur Verfügung stehenden Power-Limit daraus macht.
Die Radeon RX 9070 kommt auf einen Ausbau von 56 Compute Units und demnach 3.584 Shadereinheiten, 56 Raytracing-Beschleuniger und 112 KI-Beschleuniger. Game- und Boost-Takt fallen mit 2.070 bzw. 2.520 MHz deutlich geringer aus. Der Infinity Cache kommt aber ebenso wie der Grafikspeicher auf eine Kapazität von 64 MB bzw. 16 GB. Das Speicherinterface ist ebenfalls 256 Bit breit und der GDDR6 identisch schnell, so dass die Speicherbandbreite mit 640 GB/s identisch ist. Aufgrund des kleineren Ausbaus und der geringeren Taktraten fällt die Leistungsaufnahme mit 220 W entsprechend niedriger aus.
Im Vorfeld die größte Frage stellte sich zum Preis der Karten. Nun kennen wir diesen: Bei der Radeon RX 9070 XT soll es ab 599 US-Dollar losgehen, die Radeon RX 9070 startet ab 549 US-Dollar. Damit liegen beide Modelle preislich unterhalb der GeForce RTX 5070, die ab der kommenden Woche ab 649 Euro erhältlich sein soll. Für die Euro-Preise der neuen Radeon-Karten werden wir uns noch etwas gedulden müssen. Da wir aktuell aber noch keine Leistungsdaten nennen dürfen, müssen wir auch auf eine entsprechende Einordnung verzichten.
Verkauft werden die Karten ab dem 6. März. Wie gut es um die Verfügbarkeit bestellt ist, wird sich dann zeigen müssen. Laut AMD war eine gute Verfügbarkeit einer der Gründe, warum man den Start vom Jahresanfang auf Anfang März verschoben hat.
AMDs eigene Benchmarks
Unabhängige Tests gibt es heute noch nicht, aber AMD nannte weitere Zahlen zur Leistung der beiden Karten.
Demnach soll die Radeon RX 9070 XT in UHD-Auflösung im Schnitt um 42 % schneller als die Radeon RX 7900 GRE sein. In reinen Rasterizer-Spielen bzw. Einstellungen sind bis zu +48 % möglich, mit aktivierten Raytracing-Effekten sogar + 66 %. In QHD schmilzt der Vorsprung auf etwa 38 % zusammen. Einen direkten Vergleich zu GeForce-Karten macht AMD nicht. Auf Nachfrage erklärte man, dass die GeForce RTX 5070 Ti und GeForce RTX 5070 zum Zeitpunkt der Erstellung der Diagramme noch nicht verfügbar waren. Man hätte aber durchaus auch einen Vergleich zu Karten der GeForce-RTX-40-Serie heranziehen können. Wollte man aber offenbar nicht.
Daher zieht AMD für die Radeon RX 9070 auch nur den Vergleich zur Radeon RX 7900 GRE. Hier fällt der Vorsprung mit etwa 20 % für UHD und QHD nur noch halb so groß aus.
Der interessierte Käufer wird also abwarten müssen, um sich ein komplettes Bild von der Leistung der Radeon RX 9070 XT und Radeon RX 9070 machen zu können. Dann werden sich die Karten auch mit der GeForce RTX 5070 Ti und der GeForce RTX 5070 vergleichen lassen müssen.
Zum Abschluss noch das Video zum heutigen Livestream, in dem die neuen Karten präsentiert wurden:
Datenschutzhinweis für Youtube
An dieser Stelle möchten wir Ihnen ein Youtube-Video zeigen. Ihre Daten zu schützen, liegt uns aber am Herzen: Youtube setzt durch das Einbinden und Abspielen Cookies auf ihrem Rechner, mit welchen Sie eventuell getracked werden können. Wenn Sie dies zulassen möchten, klicken Sie einfach auf den Play-Button. Das Video wird anschließend geladen und danach abgespielt.
Ihr Hardwareluxx-Team
Youtube Videos ab jetzt direkt anzeigen
Update:
Im Livestream zeigte AMD einige Folien zum Leistungsvergleich der Radeon RX 9070 XT mit der GeForce RTX 5070 Ti, die wir in den Pre-Briefings nicht zu Gesicht bekommen haben.
Für die gezeigten Benchmarks soll eine Radeon RX 9070 XT im Schnitt nur 2 % langsamer als eine GeForce RTX 5070 Ti sein, kostet in den USA vor Steuern aber nur 599 anstatt 659 US-Dollar. Mit aktiven Raytracing-Effekten scheint das AMD-Modell etwas weiter zurückzuliegen. Aber das werden dann unsere Benchmarks auch offenlegen.
Insgesamt ist gerade die Diskussion um den Preis schwierig. Eine GeForce RTX 5070 Ti kostet hierzulande ab 879 Euro. Die Radeon RX 9070 XT könnte daher auch bei 649 oder gar 699 Euro landen und stünde preislich noch immer besser dar als das Modell von NVIDIA.