TEST

NVIDIA GeForce GTX 280 - GT200Architektur1

Portrait des Authors


Wie alle bisherigen GPUs wird auch der GT200 bei Taiwan Semiconductor Manufacturing Company (TSMC) gefertigt. Wie bereits die G92-GPU wird NVIDIAS neuer Chip wieder in 65 nm produziert. Gründe für eine kleinere Fertigung, zum Beispiel in 55 nm, wie es bei AMD der Fall ist, wären eine kleinere Die-Fläche, was wiederum die Ausbeute aus einem Wafer erhöhen würde sowie die geringere Spannung, die nötig wäre, um den Chip funktionieren zu lassen. Das würde sich wiederum positiv auf den Stromverbrauch und die Abwärme auswirken. Allerdings gibt es auch gute Gründe, um auf eine kleinere Fertigung zu diesem Zeitpunkt zu verzichten. So ist es immer deutlich einfacher eine bereits funktionierende und über längere Zeit erprobte Architektur in eine kleinere Fertigung zu überführen, als beide Schritte auf einmal zu tätigen. Dies hat auch Intel erkannt und ist in einen Tick-Tock-Rhythmus übergangen, also abwechselnd einen Shrink und Architekturwechsel.

Werbung

Eine sehr markante Zahl in der Übersichtstabelle ist die Anzahl der Transistoren. Mit 1,4 Milliarden arbeiten fast genauso viele Transistoren in der GT200-GPU wie auf einer GeForce 9800 GX2 mit zwei G92-GPUs. Auch die weiteren Daten wirken beeindruckend. 240 Shader-Prozessoren, 80 Texture Filtering Units, 1024-MB-Grafikspeicher und ein 512 Bit breites Speicherinterface sowie ein leicht höherer GPU-Takt sprechen Bände und lassen ein gewaltiges Potenzial vermuten.

Die Unterschiede zwischen GeForce GTX 280 und 260 beschränken sich nicht nur auf einen niedrigeren Takt von GPU und Speicher, sondern zeigen sich auch in teilweise deaktivierten Bereichen der GPU, was dann auch zu den eher "krumm" wirkenden Zahlen für die Anzahl der Shader-Prozessoren und der Speichergröße führt.

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

Alle GeForce-8- und GeForce-9-Grafikkarten basierten auf dem gleichen Scalable Processor Array (SPA). Dieses hat NVIDIA nun in zweiter Generation etwas verändert, um die GPU-Computing-Eigenschaften zu verbessern. Daher unterscheidet NVIDIA auch zwischen zwei Betriebsmodi der Architektur. Unter dem Graphics Processing Mode (GPM) ist der normale Betriebsmodus zu verstehen, wie er zur Berechnung der herkömmlichen 3D-Anwendungen verwendet wird. Der Parallel Compute Mode (PCM) kommt zusammen mit der CUDA-Technologie für das GPU-Computing zum Einsatz.

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

Obiges Bild zeigt sehr schön die Größenverhältnisse zwischen dem GT200 und einem Penryn. Der GT200 ist 4-5 Mal größer, nicht zuletzt durch den größeren Fertigungsprozess, da Intel hier bereits bei 45 nm angekommen ist.

Das neue SPA besteht nun aus zehn Texture Processing Clustern (TPCs) anstatt den vormals acht. Im PCM werden diese Thread Processing Cluster genannt. Jedes TPC besteht wiederum aus drei Streaming-Multiprozessoren (SM). Vormals waren es hier nur zwei. Jeder SM beinhaltet dann acht Streaming-Prozessoren (SP) oder auch Shader-Prozessoren wie sie oftmals genannt werden. Aufgrund der höheren Integration von Streaming-(Multi)-Prozessoren steigt die Anzahl der Shader-Prozessoren von 128 auf 240 an. Jeder Streaming Prozessor beinhaltet auch einen Texture-Filtering-Prozessor, welcher im Graphics Processing Mode ebenso zum Einsatz kommt, wie im Parallel Compute Mode.

Graphics Processing Architecture:

Eine echte Neuerung in der Architektur ist der 16 kByte große L2-Cache. Hier können bereits fertig berechnete Daten abgelegt werden, auf die dann andere Recheneinheiten zurückgreifen können. So müssen diese Daten nicht auf dem langsamen externen Speicher abgelegt werden und wieder zurückgeführt werden, wenn sie gebraucht werden.

Parallel Computing Architecture:

Um die große Anzahl der Streaming Prozessoren auch mit ausreichend Daten füttern zu können, hat NVIDIA einen neuen Thread-Scheduler verbaut. Jeder Streaming-Multiprozessor kann Threads in Gruppen von 32 parallelen Threads, sogenannten Warps, erzeugen. Eine G80/G92-GPU schaffte nur 24 Warps. Somit kann der GT200 nun 30.720 Threads gleichzeitig ausführen, bei vormals 12.228 fast eine Verdreifachung.

Der Aufbau eines Texture-Processing-Cluster im Parallel Compute Mode kann wie folgt dargestellt werden:

Sehr gut zu erkennen ist der lokale Speicher, welcher in jedem der drei Streaming Multiprozessoren vorhanden ist. So muss auch hier nicht in den langsamen externen Speicher geschrieben werden.

Quellen und weitere Links

    Werbung

    KOMMENTARE ()