TEST

Die Turing-Architektur mit RTX, Ray Tracing und den neuen Shader-Funktionen - TSMC in 12 nm – Die Turing-GPU

Portrait des Authors


Werbung

Für eine Architektur wie Volta gibt NVIDIA Entwicklungskosten von mehr als 2 Milliarden US-Dollar an. Ähnlich oder sogar noch höher dürften die für die Turing-Architektur gewesen sein. Gut fünf Jahre sollen die Ingenieure an der Core-Architektur gearbeitet haben. Die ersten Entwicklungsschritte hin zu einem hardwarebeschleunigten Hardware sollen bereits vor 10 Jahren begonnen worden sein. Den Tape Out hatte der erste Chip vor gut einem Jahr. Nach 24 Stunden soll dieser Chip bereits auf einem Testboard lauffähig gewesen sein – laut NVIDIA ein seltenes Erlebnis.

Die GPUs auf Basis der Turing-Architektur sind die größten, die für Consumer-Karten jemals gefertigt wurden. NVIDIA verzichtet auf eine Fertigung in 7 nm – diese ist noch nicht bereit. Stattdessen hat man bereits einige Erfahrung mit der 12-nm-Fertigung in den Volta-GPUs gemacht. Die GV100-GPU aus dem Mai 2017 ist mit ihren 815 mm² vergleichsweise gigantisch. Die Anzahl der Transistoren beläuft sich auf 21,1 Milliarden. Die GP102-GPU der GeForce GTX 1080 Ti kommt auf 471 mm² und 12 Milliarden Transistoren.

Die große Turing-GPU (TU102) steht diesen Zahlen nur geringfügig nach. NVIDIA lässt auch diese in 12 nm bei TSMC fertigen. Die Anzahl der Transistoren soll bei 18,6 Milliarden liegen. Die Größe der GPU gibt NVIDIA mit 754 mm² an. Die mittlere Turing-GPU TU104 bringt es auf 13,6 Milliarden Transistoren bei einer Chipgröße von 545 mm². Die erst später erscheinende GeForce RTX 270 verwendet die TU106-GPU mit 10,8 Milliarden und einer Größe von 445 mm².

Natürlich macht NVIDIA keinerlei Angaben über die Ausbeute eines solch großen Chips. Da man die Volta-GPUs seit mehr als einem Jahr als Pipecleaner fertigen lässt, dürfte man in Zusammenarbeit mit TSMC aber inzwischen einiges an Erfahrung gesammelt haben.

Die technischen Daten der GeForce RTX 2080 Ti, RTX 2080 und RTX 2070 in der Übersicht
Modell GeForce RTX 2080 Ti GeForce RTX 2080 GeForce RTX 2070
GPU TU102 TU104 TU106
Technische Daten
Architektur Turing Turing Turing
Fertigung TSMC 12 nm TSMC 12 nm TSMC 12 nm
Transistoren 18,6 Milliarden 13,6 Milliarden 10,8 Milliarden
Diegröße 754 mm² 545 mm² 445 mm²
GPCs  6 6 3
TPCs  34 23 18
SMs  68 46 36
CUDA Cores / SM 64 64 64
CUDA Cores / GPU  4.352 2.944 2.304
Tensor Cores / SM  8 8 8
Tensor Cores / GPU  544 368 288
RT Cores 68 46 36
L2 Cache  5.632 kB 4.096 kB 4.096 kB
Register File Size / SM  256 kB 256 kB 256 kB
Register File Size / GPU  17.408 kB 11.776 kB 9.216 kB

Die TU102-GPU besitzt im Vollausbau sechs Graphics Processing Clusters (GPCs), 36 Texture Processing Clusters (TPCs) und 72 Streaming Multiprocessors (SMs). Der Chip auf der GeForce RTX 2080 Ti hat allerdings nur 34 aktive TPCs. Jedes GPC beinhaltet eine Raster Engine und sechs TPCs, jedes TPC wieder hat zwei SMs. Jeder SM bietet 64 Shadereinheiten, acht Tensor Cores, ein 256 kB großes Register, vier Textureinheiten und 96 kB an L1/Shared Memory.

Die TU104-GPU bringt es ebenfalls auf sechs GPCs, aber eben nur 24 TPCs und dementsprechend 48 SMs. Ein TPC ist bei der GeForce RTX 2080 inaktiv und dementsprechend sind nicht 3.072 Shadereinheiten vorhanden, sondern nur 2.944.

Der bislang kleinste Turing-Chip TU106 bringt es im Vollausbau auf drei GPCs, 18 TPCs und 36 SMs. NVIDIA verwendet für die GeForce RTX 2070 also schon den Vollausbau, während dieser bei der TU102- und TU104-GPU den Quadro-RTX-Karten vorbehalten ist.

Interessant wird es, wenn man sich die Chipgrößen einmal anschaut und diese mit der Pascal-Generation vergleicht.

Vergleich der Chipgrößen zwischen Pascal und Turing
Chip TU102 GP100 GP102 TU104 GP104 TU106 GP106
Chipgröße 754 mm² 610 mm² 471 mm² 545 mm² 314 mm² 445 mm² 200 mm²
Anzahl der Transistoren 18,6 Milliarden 15,3 Milliarden 12 Milliarden 13,6 Milliarden 7,2 Milliarden 10,8 Milliarden 4,4 Milliarden

Die größte auf einer GeForce-Karte eingesetzte Pascal-GPU GP102 (GeForce GTX 1080 Ti und Titan Xp) kommt auf 471 mm² bei 12 Milliarden Transistoren. Damit ist selbst diese weniger groß und komplex als die TU104 der GeForce RTX 2080 und selbst die TU106 der GeForce RTX 2070 ist nur geringfügig kleiner. Dies macht abermals die neue Positionierung der einzelnen Karten deutlich, denn die GeForce RTX 2080 Ti rückt nicht nur preislich klar in die Regionen einer früheren Titan-Karte. Die TU104-GPU und damit die GeForce RTX 2080 wird dort platziert, wo bisher die GeForce GTX 1080 Ti zu finden ist. Die "kleinste" Turing-GPU TU106 ist nicht nur aufgrund des Preises längst keine Einsteigerlösung mehr.

Rechenleistung in Zahlen

Die unterschiedlichen Ausbaustufen der GPU haben natürlich Auswirkungen auf die Rechenleistung. Bisher erwähnt haben wir Werte wie Gigarays pro Sekunde, 110 TFLOPS FP16, 220 TOPS INT8 und 440 TOPS INT4. Eine TU102-GPU besitzt allerdings auch 144 FP64-Einheiten – zwei pro SM. Das Verhältnis an FP64- zur FP32-Rechenleistung beträgt 1/32, während es bei der Volta-Architektur bei 1/2 liegt. NVIDIA hat dennoch einige FP64-Recheneinheiten in die Turing-Architektur eingebaut, um Software, die darauf ausgelegt ist, zumindest grundsätzlich funktionsfähig zu halten.

Die nun folgenden Werte für die Rechenleistung beziehen sich auf die Founders Editions der GeForce-RTX-20-Serie.

Die Rechenleistung der GeForce RTX 2080 Ti, RTX 2080 und RTX 2070 in der Übersicht
Modell GeForce RTX 2080 Ti Quadro RTX 6000 GeForce RTX 2080 Quadro RTX 5000 GeForce RTX 2070
GPU TU102 TU102 TU104 TU104 TU106
Rechenleistung
FP32 TFLOPS  14,2 16,3 10,6 11,2 7,9
INT32 TIPS  14,2 16,3 10,6 11,2 7,9
FP64 TFLOPS 0,445 0,510 0,331 0,348 0,246 
FP16 TFLOPS  28,5 32,6 21,2 22,3 15,8
FP16 Tensor TFLOPS mit FP16 Accumulate  113,8 130,5 84,8 89,2 63
FP16 Tensor TFLOPS mit FP32 Accumulate  56,9 130,5 42,4 89,2 31,5
INT8 Tensor TOPS  227,7 261 169,6 178,4 126
INT4 Tensor TOPS  455,4 522 339,1 356,8 252,1

Die Quadro RTX 8000 verwendet die gleiche TU102-GPU, aber doppelt so viel GDDR6-Speicher und taucht daher in diesem Vergleich nicht auf. Abhängig von Takt und Ausbau der jeweiligen GPU unterscheidet sich die Rechenleistung natürlich. Die Karten der Quadro-RTX-Serie sind außerdem in der Lage bei Verwendung der Tensor Cores eine weitere Akkumulation durchzuführen – daher sehen wir bei diesen Operationen eine mehr als doppelt so hohe Leistung im Vergleich zu den GeForce-Karten.

Quellen und weitere Links KOMMENTARE (108) VGWort