TEST

5x NVIDIA GeForce GTX 960 im Test

Portrait des Authors


Werbung

NVIDIA eröffnete die zweite "Maxwell"-Generation mit der GeForce GTX 980 GeForce GTX 970, die sich irgendwo zwischen oberer Mittelklasse und unterem High-End bewegen. Die sogenannten Sweet-Spot-Strategie verfolgen fast alle Hardware-Hersteller, da sich hier die höchsten Umsätze und das meiste Geld machen lässt. Auch NVIDIA will sein Stück vom Kuchen haben und erneuert mit der GeForce GTX 960 seine Ansprüche in diesem Segment. Die Vorteile der "Maxwell"-Architektur sollen bei der GeForce GTX 960 auf einen interessanten Preisbereich stoßen, sodass alle Spieler davon profitieren können. Ob NVIDIA dies mit der GeForce GTX 960 gelingt, wo diese einzuordnen ist und wer von seiner aktuellen Grafikkarte wechseln sollte, klären wir im nun folgenden Artikel.

Sweet-Spots sind für Hersteller Preisbereiche, die besonders gut bei der Käuferschicht ankommen. Grafikkarten die mehrere hundert Euro kosten sind gut für das Prestige und finden sicherlich gerade hier bei Hardwareluxx auch ihre Interessenten, doch das große Geld wird in den Preisschichten weiter unten verdient. AMD hat sich lange selbst dafür gelobt, nur einige wenige Produkte am Markt zu haben, diese dann aber genau in diesen Sweet-Spots zu platzieren. Inzwischen hat AMD eine Produktflut erreicht, die es eine Übersicht nur schwer möglich macht.

Bei NVIDIA sieht dies nur wenig besser aus. Immerhin entwickelt sich das Portfolio inzwischen in eine Richtung, bei der klarer wird, dass die "Maxwell"-Architektur die entscheidende Hauptrolle spielen wird. Erstmals in Erscheinung getreten ist sie mit der GeForce GTX 750 und GeForce GTX 750 Ti (Hardwareluxx-Artikel) im Februar das vergangenen Jahres. Hier kamen bereits die verbesserten Shader sowie eine Neuanordnung des SMM (Maxwell Streaming Multiprozessor) zum tragen, mit deren Hilfe NVIDIA die Performance pro Shader um 135 Prozent und die Performance pro Watt um den Faktor 2 verbessern konnte. All diese Zahlen hatten auch in Praxis ihre Auswirkungen, auch wenn sie hier nicht ganz so hoch ausfielen. In der Folge durfte man gespannt sein, was die "Maxwell"-Architektur in den größeren Ausbaustufen zu leisten im Stande sei. Doch die GeForce GTX 750 und GeForce GTX 750 Ti waren zunächst einmal nur ein Testballon, bei dem die neue Architektur zusammen mit einigen Optimierungen bei der Fertigung getestet wurden.

Fünf Modelle der GeForce GTX 960

Fünf Modelle der GeForce GTX 960

Es sollte aber bis in den September, also weitere sechs Monate dauern, bis NVIDIA endlich die 2. Generation der "Maxwell"-Architektur in ein Produkt gießen wollte. Die GeForce GTX 980 und GeForce GTX 970 (Hardwareluxx-Artikel) sind bis dato die schnellsten Karten mit dieser neuen Architektur. Auf deren Details gehen wir später noch einmal genauer ein, wer möchte kann sich an dieser Stelle aber auch den Aufbau des GM204 auf den beiden genannten Karten etwas genauer anschauen.

NVIDIA überführt mit der GeForce GTX 960 die Vorteile der "Maxwell"-Architektur in das Mittelklasse-Segment. Mit von der Partie sind somit auch die neuen Features wie die Speicherkomprimierung, DSR (Dynamic Super Resolution), MFAA (Multiframe Sampled Anti-Aliasing), VXGI (Voxel Global Illumination) und DirektX 12. Für NVIDIA immer wichtiger werden auch die eigenen Programmier-APIs GameWorks und PhysX, zu denen es zwar ebenfalls keine Neuigkeiten gibt, deren Vorteile der Käufer einer GeForce GTX 960 aber ebenfalls nutzen können soll.

Neu hingegen ist eine Video-Engine, die so bisher noch auf keiner GPU von NVIDIA zum Einsatz kam und die einige Aufgaben übernehmen soll, die sonst aufwendig über den Prozessor laufen mussten und dabei auch noch deutlich mehr Leistung benötigten. Dazu kommen wir aber später noch einmal.

[h3]Architektonische Eckdaten[/h3]

Zunächst einmal wollen wir uns die architektonischen Eckdaten etwas genauer anschauen und diese gegen die vermeintliche Hauptkonkurrenz aus dem Hause AMD vergleichen. Auserkoren haben wir dabei die AMD Radeon R9 280 und R9 285. In den Benchmarks sind später aber vergleiche zu zahlreichen Karten vorhanden.

GeForce GTX 960 im Vergleich
Modell GeForce GTX 960 Radeon R9 280 Radeon R9 285
Straßenpreis ab 199 Euro ab 175 Euro ab 195 Euro
Homepage www.nvidia.de www.amd.de www.amd.de
Technische Daten
GPU Maxwell
(GM206-300-A1)
Tahiti XL Tonga Pro
Fertigung 28 nm 28 nm 28 nm
Transistoren 2,94 Milliarden 4,3 Milliarden 5,0 Milliarden
GPU-Takt (Base Clock) 1.126 MHz - -
GPU-Takt (Boost Clock) 1.178 MHz 933 MHz 918 MHz
Speichertakt 1.750 MHz 1.250 MHz 1.375 MHz
Speichertyp GDDR5 GDDR5 GDDR5
Speichergröße 2.048 MB 3.072 MB 2.048 MB
Speicherinterface 128 Bit 384 Bit 256 Bit
Speicherbandbreite 112,2 GB/s 240,0 GB/s 176,0 GB/s
DirectX-Version 12 11.2 12
Shadereinheiten 1.024 1.792 1.792
Textur Units 64  112 112
ROPs 32  32 32
SLI/CrossFire SLI  CrossFire CrossFire
TDP 120 Watt 250 Watt 190 Watt

Auf der GeForce GTX 960 kommt die GM206-GPU zum Einsatz, bei der es sich vermutlich nicht um die volle Ausbaustufe handelt, die mit GM206-300-A1 bezeichnet wird. Sie verwendet 2,94 Milliarden Transistoren und ist damit deutlich weniger komplex als "Tahiti" oder "Tonga" von AMD. Da es von der GeForce GTX 960 keine echte Referenzversion gibt, sind die Angaben zum Basis- und Boost-Takt allenfalls Vergleichs-Vorgaben, die in der Praxis aber keine große Relevanz haben werden. Der Basis-Takt liegt bei 1.126 MHz und per GPU-Boost soll die GPU auf mindestens 1.178 MHz kommen. Wie wir später bei den Retail-Karten sehen werden, werden diese Werte bei weitem überboten. Den 2.048 MB großen GDDR5-Speicher lässt NVIDIA mit 1.750 MHz arbeiten und bindet ihn über ein nur 128 Bit breites Speicherinterface an. Dies resultiert in einer Speicherbandbreite von 112,2 GB pro Sekunde, was gerade im Vergleich zu Konkurrenz sehr wenig erscheint. NVIDIA rechnet gerne die Speicherkomprimierung mit, die in der Theorie dafür sorgt, dass die Speicherbandbreite höher ist, die hier genannten 148,8 GB pro Sekunde sollten aber nicht darüber hinwegtäuschen, dass dieser Wert nur in einigen Ausnahmefällen so zutreffen wird. NVIDIA gibt eine TDP von 120 Watt an, die von den übertakteten Karten aber teilweise auch weit übertroffen wird. Falls wir die Angaben vom Hersteller haben, sind diese in den Details zu jeder Karte aufgeführt.

Neben dem Takt bietet die GM206-GPU auch noch 1.024 Shadereinheiten, die sich aus acht Streaming Multiprozessoren (SMM) zu je 4x 32 Shadereinheiten und wiederum aus zwei Graphics Processing Cluster zusammensetzen. 8 (SMM) x 4 (SMM-Blöcke) x 32 Shader ergeben die insgesamt 1.024 Shadereinheiten.

Blockdiagramm der GM206-GPU

Blockdiagramm der GM206-GPU

Das Gesamtschaubild von GM206 mit "Maxwell"-Architektur zeigt zunächst einmal die um die eigentlichen Recheneinheiten platzierten Module wie das PCI-Express-3.0-Interface, die Speichcontroller, den L2-Cache, die ROPs und die GigaThread-Engine, die um die beiden Graphics Processing Cluster angeordnet sind. Jedes Graphics Processing Cluster besteht aus vier Streaming Multiprozessoren, welche neben den eigentlichen Shadern auch noch weitere Komponenten einer Render-Pipeline beherbergen.

In jedem SMM sind acht Textureinheiten. Bei acht SMMs kommt die GeForce GTX 960 also auf insgesamt 64 Textureinheiten. Zwei Speichercontroller mit einem jeweils 64 Bit breiten Bus geben auch die 32 Render Backends (ROPs) vor.

Blockdiagramm eines SMM

Blockdiagramm eines SMM in der Maxwell-Architektur

Die höhere Effizienz von "Maxwell" erreicht NVIDIA durch gleich mehrere Maßnahmen. So hat man den L2-Cache im Vergleich zu "Kepler" von 256 kB auf 2.048 kB aufgebohrt - bei der GM206-GPU sind es allerdings nur 1.024 kB. Verblieben ist man aber bei einer Bandbreite von 512 Byte pro Takt zu diesem Cache. Im Vergleich zur "Maxwell"-Architektur der 1. Generation leicht vergrößert hat man den Shared Memory eines jeden SMM. Dieser ist nun 96 kB und nicht mehr nur 64 kB groß. Ebenfalls eine Rolle spielen soll die Polymorph Engine in Version 3.0. Die PolyMorph-3.0-Engine ist maßgeblich verantwortlich für Vertex-Fetch, Tessellation, Attribute-Setup, Viewport-Transform und den Stream-Output. Sind die SMM-Cluster und die PolyMorph-3.0-Engine durchlaufen, wird das Ergebnis an die Raster-Engine weitergeleitet. In einem zweiten Schritt beginnt dann der Tessellator mit der Berechnung der benötigten Oberflächen-Positionen, die dafür sorgen, dass je nach Abstand der nötige Detailgrad ausgewählt wird. Die korrigierten Werte werden wiederum an das SMM-Cluster gesendet, wo der Domain-Shader und der Geometrie-Shader diese dann weiter ausführen. Der Domain-Shader berechnet die finale Position jedes Dreiecks, indem er die Daten des Hull-Shaders und des Tessellators zusammensetzt. An dieser Stelle wird dann auch das Displacement-Mapping durchgeführt. Der Geometrie-Shader vergleicht die errechneten Daten dann mit den letztendlich wirklich sichtbaren Objekten und sendet die Ergebnisse wieder an die Tessellation-Engine für einen finalen Durchlauf. Im letzten Schritt führt die PolyMorph-3.0-Engine die Viewport-Transformation und eine perspektivische Korrektur aus. Letztendlich werden die berechneten Daten über den Stream-Output ausgegeben, indem der Speicher diese für weitere Berechnungen freigibt.

GM206-GPU auf der GeForce GTX 960

GM206-GPU auf der GeForce GTX 960

Noch einmal zurück auf die einzelnen SMM-Blöcke: Jedem 32er Block stehen ein Instruction Buffer und ein Warp Schedular zur Verfügung. Jeweils zwei Dispatch Units haben Zugriff auf 16.384 Register mit jeweils 32 Bit. Auch hier lohnt wieder ein Blick auf die "Kepler"-Architektur. 128 Shaderheinheiten werden mithilfe von vier Warp Schedulern und acht Dispatch Units über 65.536 Register bei ebenfalls 32 Bit die Daten bzw. Rechenaufgaben zugeteilt. Jeder Shadereinheit stehen bei "Maxwell" also theoretisch 512 Register zur Verfügung, während es bei Kepler nur rund 341 sind. Eben solche Maßnahmen sollen auch dazu führen, dass jeder Shader bis zu 35 Prozent schneller arbeiten kann. Weiterhin einen Einfluss hat auch das Verhältnis zwischen Shadereinheiten und den sogenannten Special Function Units (SFU). Während dies bei "Kepler" 6/1 beträgt, liegt das Verhältnis bei "Maxwell" bei 4/1. Gleiches gilt auch für die Load/Store Units (LD/ST). Spezielle Double-Precision-Einheiten sind im Blockdiagramm nicht zu sehen und werden vermutlich erst mit einer möglichen GM210-GPU eingeführt werden (analog zur Entwicklung von GK104 zu GK110). Laut NVIDIA beträgt das Single-Precision/Double-Precision-Verhältnis 1/24, so wie auch schon bei den ersten "Kepler"-Chips der ersten Generation (GK104).

Eine kleine Änderung im Vergleich zur bisherigen Implementation der "Maxwell"-Architektur ist die Video Engine. So beherrscht diese nun nicht nur das Encoding von H.265 sondern auch das hardwarebeschleunigte Decoding. Die GeForce GTX 980 und GeForce GTX 970 lassen ebenfalls die Unterstützung von HDCP 2.2 über HDMI missen, was bei der GeForce GTX 960 bzw. der GM206-GPU nun hinzugefügt wurde. Das Bild ist in dieser Hinsicht ist nun etwas runder und die GM204-GPU wohl nur eine Übergangsphase, wenngleich wir noch lange Produkte auf Basis dieses Chips sehen werden.

Quellen und weitere Links KOMMENTARE (200) VGWort