TEST

AMD Radeon R9 290X im Test - Graphics Core Next 2.0

Portrait des Authors


Werbung

[figure image=images/stories/galleries/reviews/2013/amd-hawaii/290x/gcn-architektur-1-rs.png link=images/stories/galleries/reviews/2013/amd-hawaii/290x/gcn-architektur-1.png alt=Graphics Core Next 2.0]Graphics Core Next 2.0[/figure]

Der Überblick über die "Hawaii"-GPU verrät bereits die wichtigsten Neuerungen: Bis zu 44 Compute Units (CU) zu jeweils vier SIMDs (Single Instruction Multiple Date) und nochmals 16 ALUs (Arithmetic Logic Unit) ergeben die derzeit maximal möglichen 2816 Shader-Einheiten. Angeordnet sind diese in Viererblöcken, den sogenannten Shader Engines, in denen sich ein Geometry Processor darum kümmert, dass die anfallenden Berechnungen zwischen den vier Shader Engines aufgeteilt werden. Insgesamt sind 2 MB L2-Cache vorhanden. Innerhalb der CUs kommt auch noch L1-Cache sowie verschieden große Register dazu. Acht Speichercontroller zu jeweils 64 Bit ergeben das insgesamt 512 Bit breite Speicherinterface. Auf die einzelnen Komponenten gehen wir nun etwas genauer ein.

[figure image=images/stories/galleries/reviews/2013/amd-hawaii/290x/gcn-architektur-2-rs.png link=images/stories/galleries/reviews/2013/amd-hawaii/290x/gcn-architektur-2.png alt=Graphics Core Next 2.0]Graphics Core Next 2.0[/figure]

Pro "Hawaii"-GPU können vier Shader Engines mit jeweils 11 Compute Unites verwendet werden. Es sind auch Varianten von "Hawaii" denkbar, die nur zwei der drei Shader Engines einsetzen. Eine kleinere Unterteilung zeichnet sich derzeit nicht ab, aber vielleicht weiß AMD mit der Radeon R9 290 noch zu überraschen. Innerhalb einer Shader Engine kümmert sich ein Geometry Processor, um die anfallende Last zwischen den vier Shader Engines zu verteilen. Die Ausrichtung auf GPGPU ist zu erkennen, da sich bis zu vier CUs die Instruktionen und Daten eines Caches teilen können. Je nach Ausbaustufe der Render Engines werden bis zu vier Render Backends verwendet.

[figure image=images/stories/galleries/reviews/2013/amd-hawaii/290x/gcn-architektur-3-rs.png link=images/stories/galleries/reviews/2013/amd-hawaii/290x/gcn-architektur-3.png alt=Graphics Core Next 2.0]Graphics Core Next 2.0[/figure]

Ein genauer Blick auf die einzelne Compute Unite verrät: AMD hat hier keinerlei Änderungen vorgenommen. Pro CU kommen also vier SIMDs zum Einsatz, die ein Schedular möglichst gleichmäßig mit Daten versorgt. Pro CU stehen 16 kByte L1-Cache bereit, die durch viermal 64 kByte Vektor-Register, 64 kByte Local Data Share und 4 kByte Skalar-Register ergänzt werden.

[figure image=images/stories/galleries/reviews/2013/amd-hawaii/290x/gcn-architektur-4-rs.png link=images/stories/galleries/reviews/2013/amd-hawaii/290x/gcn-architektur-4.png alt=Graphics Core Next 2.0]Graphics Core Next 2.0[/figure]

Über interne Änderungen am Command- und dem Geometry-Processor will AMD die Performance der Geometrie-Berechnungen verbessert haben. Das Stichwort heißt hier auch wieder "Optimierungen", denn an der eigentlichen Hardware hat sich wenig getan. Über eine höhere Effizienz reduziert AMD die Datenmenge, die aus den jeweiligen Komponenten extern übertragen werden müssen und erhöht damit die Performance.

[figure image=images/stories/galleries/reviews/2013/amd-hawaii/290x/gcn-architektur-5-rs.png link=images/stories/galleries/reviews/2013/amd-hawaii/290x/gcn-architektur-5.png alt=Graphics Core Next 2.0]Graphics Core Next 2.0[/figure]

Aus vier Shader Engines mit jeweils bis zu vier Render Back Ends ergeben sich die maximal 16 Render Back Ends, die letztendlich dafür sorgen, dass die Radeon R9 290X bis zu 64 GPixel pro Sekunde durch die Pipelines schicken kann. Weiterhin haben Optimierungen am L1- und L2-Cache dafür gesorgt, dass deren Kapazität um 33 Prozent angestiegen sind und letztendlich auch 33 Prozent mehr Daten über die Caches verteilt werden können. Allerdings hat man pro Compute Unite keinerlei Veränderungen an den Caches vorgenommen. Die Verbesserungen sind einzig und alleine auf die Tatsache zurückzuführen, dass nun mehr Compute Units zur Verfügung stehen. Über alle Caches kumuliert ergibt sich eine Bandbreite von 1 TByte pro Sekunde.

[figure image=images/stories/galleries/reviews/2013/amd-hawaii/290x/gcn-architektur-6-rs.png link=images/stories/galleries/reviews/2013/amd-hawaii/290x/gcn-architektur-6.png alt=Graphics Core Next 2.0]Graphics Core Next 2.0[/figure]

Wichtiger Punkt der Architektur der "Hawaii"-GPU ist das mit 512 Bit breitere Speicherinterface. Trotz Reduzierung des Speichertaktes erreicht AMD damit eine Erhöhung der Speicherbandbreite auf 320 GB pro Sekunde. Wichtig ist noch zu erwähnen, dass AMD die Strukturen, die der Speichercontroller auf dem Chip einnimmt, verkleinern konnte. Damit erhöht sich natürlich auch die Bandbreite pro Quadratmillimeter, was für den Anwender allerdings keine Auswirkungen hat.

[figure image=images/stories/galleries/reviews/2013/amd-hawaii/290x/gcn-architektur-7-rs.png link=images/stories/galleries/reviews/2013/amd-hawaii/290x/gcn-architektur-7.png alt=Graphics Core Next 2.0]Graphics Core Next 2.0[/figure]

Letztendlich steigert AMD durch das Aufblasen der Architektur auf mehr Shader, ein breiteres Speicherinterface sowie eine Umgruppierung weiterer Komponenten die Leistung in einigen Bereichen beinahe um den Faktor 2. Die Vergrößerung der Chipfläche ist eigentlich kein Punkt, der hier positiv angeführt werden sollte, es sei denn, die Performance steigt im gleichen Maße oder überproportional.

Für die Performance in Spielen entscheidend könnte sich die Steigerung der Pixelfüllrate herausstellen. Einfluss hat hier natürlich auch die höhere Speicherbandbreite sowie die Tatsache, dass mehr Compute Units und damit ALUs für einfache Rechenoperationen zur Verfügung stehen.

[figure image=images/stories/galleries/reviews/2013/amd-hawaii/290x/gcn-architektur-8-rs.png link=images/stories/galleries/reviews/2013/amd-hawaii/290x/gcn-architektur-8.png alt=Graphics Core Next 2.0]Graphics Core Next 2.0[/figure]

Auch beim GPU-Computing macht AMD mit "Hawaii" einige Fortschritte. Acht asynchrone Compute Engines (ACE) stehen zur Verfügung, die allesamt unabhängig voneinander arbeiten können. Jede dieser ACEs hat eine einige Queue, in der sich bis zu acht Operationen staffeln können. Für den schnellen Zugriff auf Daten können alle ACEs direkt auf den L2-Cache zugreifen. Über die Dual-DMA-Engine ist dies auch auf den Arbeitsspeicher möglich. Mit 16 GB pro Sekunde wird die volle Bandbreite von PCI-Express-3.0 ausgenutzt.

Quellen und weitere Links KOMMENTARE (1084) VGWort