TEST

NVIDIA GeForce GTX 780 Ti im Test - GK110 im Vollausbau

Portrait des Authors


Werbung

[figure image=http://www.hardwareluxx.de/images/stories/newsbilder/aschilling/2012/gtc2012/gtc2012-gk110-die-rs.jpg link=http://www.hardwareluxx.de/images/stories/newsbilder/aschilling/2012/gtc2012/gtc2012-gk110-die.jpeg alt=Die-Shot des GK110]Die-Shot des GK110[/figure]

Schon mehrfach haben wir dieses Bild der Die von GK110 gezeigt. Nun aber werden sämtliche abgebildeten Details auch genutzt. In den mittleren Bereichen zu sehen sind die SMX-Cluster und Caches. Rings herum angeordnet befinden sich unter anderem das PCI-Express-Interface sowie die jeweils 64 Bit breiten Speicherinterfaces.

[figure image=http://www.hardwareluxx.de/images/stories/galleries/reviews/2013/geforce-titan/GK110_Block_Diagram_FINAL2-rs.jpg link=http://www.hardwareluxx.de/images/stories/galleries/reviews/2013/geforce-titan/GK110_Block_Diagram_FINAL2.png alt=GK110 Blockdiagramm der GeForce GTX 780 Ti]GK110 Blockdiagramm der GeForce GTX 780 Ti[/figure]

Auch dieses Bild haben wir schon mehrfach im Rahmen der Reviews zur GeForce GTX Titan und GeForce GTX 780 gezeigt, doch so in dieser Form zutreffend ist es nun erstmals bei der GeForce GTX 780 Ti. Angeordnet sind die 15 SMX-Cluster in fünf GPC (Graphics Processor Cluster). Für etwas Verwirrung sorgte die Meldung, die von unterschiedlichen Versionen der GeForce GTX 780 sprachen. Diese waren offensichtlich in einer Version mit vier und fünf GPCs aufgetaucht. Zwar sind in den SMX-Clustern Recheneinheiten wie die Textureinheiten und Caches enthalten, die Rasterizer aber befinden sich in den GPCs (siehe Blockdiagramm). Jeder dieser Rasterizer bearbeitet acht Pixel pro Takt: Bei fünf GPCs sind dies also 40 Pixel pro Takt und bei vier GPCs eben nur 32 Pixel pro Takt. Bei der GeForce GTX 780 Ti wird eine solche Verwirrung keinerlei Platz haben, da alle SMX-Cluster und damit auch alle GPCs belegt sind.

[figure image=http://www.hardwareluxx.de/images/stories/newsbilder/aschilling/2012/gtc2012/GK110SMX.png]GK110 SMX-Cluster Blockdiagramm[/figure]

Für die beiden Tesla- und Quadro-Modelle auf Basis von GK110 erreichte NVIDIA einen enormen Gewinn an Double-Precision-Performance und die im Vergleich zu GK104 nur moderate Steigerung bei der Single-Precision-Performance erklärt sich durch eine neue Ausrichtung des FP32- zu FP64-Verhältnisses. Mit GK110 setzte NVIDIA zunächst voll auf den professionellen Markt und den Einsatz im HPC (High Performance Computing). Die erste Ausbaustufe von "Kepler" in Form der GK104-GPU auf der GeForce GTX 680 ist also im eigentlichen Sinne für den Einsatz als GeForce-GPU gedacht, wo die Single-Precision-Performance für das Rendering eine entscheidende Rolle spielt. Das Verhältnis Double-Precision zu Single-Precision ist von 1/2 auf 1/24 reduziert worden. Zu guter Letzt ist bei GK104 auch nur der Grafikspeicher ECC geschützt, nicht aber die Caches. Nun will NVIDIA GK110, mit seiner speziellen Ausrichtung auf den professionellen Markt, auch als GeForce-Produkt etablieren.

Um eine höhere Double-Precision-Performance zu erreichen, hat NVIDIA pro SMX-Cluster nun 64 Floating-Point-Kerne eingebaut. Bei GK104 waren es nur acht pro Cluster. Zusammen mit der höheren Anzahl an Clustern sorgt dies für einen enormen Schub bei der Double-Precision-Performance. NVIDIA bleibt auch seiner skalaren Architektur bzw. der "Superscalar Dispatch Method" treu, die wir erstmals bei GF104 sahen und welche die Berechnungen etwas fehleranfälliger machen. Dadurch wird man etwas abhängiger von Thread Level Parallelism (TLP) und Instruction-Level Parallelism (ILP) bzw. der ganzzahligen linearen Optimierung.

Per Default laufen die Double-Precision-CUDA-Kerne der GeForce GTX Titan allerdings nur mit 1/8 des Taktes. Auf den vollen Basis-Takt ließen sie sich bei der GeForce GTX Titan via NVIDIA Control Panel bewegen. Der GeForce GTX 780 Ti bleibt diese Option verwehrt.

[figure image=images/stories/galleries/reviews/2013/gtx780ti/gtx780ti-present-1-rs.jpg link=images/stories/galleries/reviews/2013/gtx780ti/gtx780ti-present-1.jpg alt=NVIDIA GeForce GTX 780 Ti - Features]NVIDIA GeForce GTX 780 Ti - Features[/figure]

In der Übersicht der neuen Features sticht das "Power Balancing" hervor, das bisher so noch nicht angewendet wurde. Dabei handelt es sich um eine Methode, um die verschiedenen Spannungsversorgungen über die unterschiedlichen PLLs besser zu synchronisieren. Versorgt werden GPU und Speicher über den PCI-Express-Steckplatz sowie die beiden zusätzlichen PCI-Express-Stromanschlüsse. Gerade beim Overclocking kann es dazu kommen, dass eine dieser Spannungsschienen zum limitierenden Faktor wird. Das "Power Balancing" will dies besser ausgleichen und so zu einem besseren Overclocking verhelfen.

[figure image=images/stories/galleries/reviews/2013/gtx780ti/gtx780ti-present-2-rs.jpg link=images/stories/galleries/reviews/2013/gtx780ti/gtx780ti-present-2.jpg alt=NVIDIA GeForce GTX 780 Ti - Features]NVIDIA GeForce GTX 780 Ti - Features[/figure]

Für NVIDIA neben den technischen Daten ebenfalls ein entscheidender Punkt könnte der Verbrauch und damit die Effizienz sein. Legt man eine TDP von 250 Watt für die GeForce GTX 780 Ti und 290 Watt für die Radeon R9 290X zu Grunde, ergibt dies anhand der Chipfläche von 533 bzw. 455 mm2 ein Verhältnis von Watt pro Quadratmillimeter, das deutlich zu Gunsten von NVIDIA ausschlägt. Ob nun 83 oder 95 °C als Zieltemperatur in GPU-Boost bzw. PowerTune angegeben sind, spielt dabei weniger eine Rolle.

[figure image=images/stories/galleries/reviews/2013/gtx780ti/gtx780ti-cuda-rs.jpg link=images/stories/galleries/reviews/2013/gtx780ti/gtx780ti-cuda.jpg alt=NVIDIA Control Panel ohne Aktivierung der Double-Precision-CUDA-Kerne]NVIDIA Control Panel ohne Aktivierung der Double-Precision-CUDA-Kerne[/figure]

Anders als bei der GeForce GTX Titan kann im NVIDIA Control Panel für die GeForce GTX 780 Ti nicht der höhere Takt für die Double-Precision-CUDA-Kerne aktiviert werden. Sie verbleiben also auf 1/8 des Taktes der weiteren CUDA-Kerne. Interessant war diese Option ohnehin nur für solche Nutzer, die auch genau wissen, was sie mit dieser Double-Precision-Option auch tun können. CUDA-Anwendungen gibt es sicherlich ausreichend. Diese sind aber allesamt im professionellen Bereich zu suchen.

Quellen und weitere Links KOMMENTARE (453) VGWort