TEST

Die Turing-Architektur mit RTX, Ray Tracing und den neuen Shader-Funktionen - TSMC in 12 nm – Die Turing-GPU

Von Andreas Schilling
Freitag, 14.09.2018 um 15:00 Uhr

Seite 12: TSMC in 12 nm – Die Turing-GPU

108

Für eine Architektur wie Volta gibt NVIDIA Entwicklungskosten von mehr als 2 Milliarden US-Dollar an. Ähnlich oder sogar noch höher dürften die für die Turing-Architektur gewesen sein. Gut fünf Jahre sollen die Ingenieure an der Core-Architektur gearbeitet haben. Die ersten Entwicklungsschritte hin zu einem hardwarebeschleunigten Hardware sollen bereits vor 10 Jahren begonnen worden sein. Den Tape Out hatte der erste Chip vor gut einem Jahr. Nach 24 Stunden soll dieser Chip bereits auf einem Testboard lauffähig gewesen sein – laut NVIDIA ein seltenes Erlebnis.

Die GPUs auf Basis der Turing-Architektur sind die größten, die für Consumer-Karten jemals gefertigt wurden. NVIDIA verzichtet auf eine Fertigung in 7 nm – diese ist noch nicht bereit. Stattdessen hat man bereits einige Erfahrung mit der 12-nm-Fertigung in den Volta-GPUs gemacht. Die GV100-GPU aus dem Mai 2017 ist mit ihren 815 mm² vergleichsweise gigantisch. Die Anzahl der Transistoren beläuft sich auf 21,1 Milliarden. Die GP102-GPU der GeForce GTX 1080 Ti kommt auf 471 mm² und 12 Milliarden Transistoren.

Die große Turing-GPU (TU102) steht diesen Zahlen nur geringfügig nach. NVIDIA lässt auch diese in 12 nm bei TSMC fertigen. Die Anzahl der Transistoren soll bei 18,6 Milliarden liegen. Die Größe der GPU gibt NVIDIA mit 754 mm² an. Die mittlere Turing-GPU TU104 bringt es auf 13,6 Milliarden Transistoren bei einer Chipgröße von 545 mm². Die erst später erscheinende GeForce RTX 270 verwendet die TU106-GPU mit 10,8 Milliarden und einer Größe von 445 mm².

Natürlich macht NVIDIA keinerlei Angaben über die Ausbeute eines solch großen Chips. Da man die Volta-GPUs seit mehr als einem Jahr als Pipecleaner fertigen lässt, dürfte man in Zusammenarbeit mit TSMC aber inzwischen einiges an Erfahrung gesammelt haben.

Die technischen Daten der GeForce RTX 2080 Ti, RTX 2080 und RTX 2070 in der Übersicht
Technische Daten
Modell	GeForce RTX 2080 Ti	GeForce RTX 2080	GeForce RTX 2070
GPU	TU102	TU104	TU106
Architektur	Turing	Turing	Turing
Fertigung	TSMC 12 nm	TSMC 12 nm	TSMC 12 nm
Transistoren	18,6 Milliarden	13,6 Milliarden	10,8 Milliarden
Diegröße	754 mm²	545 mm²	445 mm²
GPCs	6	6	3
TPCs	34	23	18
SMs	68	46	36
CUDA Cores / SM	64	64	64
CUDA Cores / GPU	4.352	2.944	2.304
Tensor Cores / SM	8	8	8
Tensor Cores / GPU	544	368	288
RT Cores	68	46	36
L2 Cache	5.632 kB	4.096 kB	4.096 kB
Register File Size / SM	256 kB	256 kB	256 kB
Register File Size / GPU	17.408 kB	11.776 kB	9.216 kB

Die TU102-GPU besitzt im Vollausbau sechs Graphics Processing Clusters (GPCs), 36 Texture Processing Clusters (TPCs) und 72 Streaming Multiprocessors (SMs). Der Chip auf der GeForce RTX 2080 Ti hat allerdings nur 34 aktive TPCs. Jedes GPC beinhaltet eine Raster Engine und sechs TPCs, jedes TPC wieder hat zwei SMs. Jeder SM bietet 64 Shadereinheiten, acht Tensor Cores, ein 256 kB großes Register, vier Textureinheiten und 96 kB an L1/Shared Memory.

Die TU104-GPU bringt es ebenfalls auf sechs GPCs, aber eben nur 24 TPCs und dementsprechend 48 SMs. Ein TPC ist bei der GeForce RTX 2080 inaktiv und dementsprechend sind nicht 3.072 Shadereinheiten vorhanden, sondern nur 2.944.

Der bislang kleinste Turing-Chip TU106 bringt es im Vollausbau auf drei GPCs, 18 TPCs und 36 SMs. NVIDIA verwendet für die GeForce RTX 2070 also schon den Vollausbau, während dieser bei der TU102- und TU104-GPU den Quadro-RTX-Karten vorbehalten ist.

Interessant wird es, wenn man sich die Chipgrößen einmal anschaut und diese mit der Pascal-Generation vergleicht.

Vergleich der Chipgrößen zwischen Pascal und Turing
Chip	TU102	GP100	GP102	TU104	GP104	TU106	GP106
Chipgröße	754 mm²	610 mm²	471 mm²	545 mm²	314 mm²	445 mm²	200 mm²
Anzahl der Transistoren	18,6 Milliarden	15,3 Milliarden	12 Milliarden	13,6 Milliarden	7,2 Milliarden	10,8 Milliarden	4,4 Milliarden

Die größte auf einer GeForce-Karte eingesetzte Pascal-GPU GP102 (GeForce GTX 1080 Ti und Titan Xp) kommt auf 471 mm² bei 12 Milliarden Transistoren. Damit ist selbst diese weniger groß und komplex als die TU104 der GeForce RTX 2080 und selbst die TU106 der GeForce RTX 2070 ist nur geringfügig kleiner. Dies macht abermals die neue Positionierung der einzelnen Karten deutlich, denn die GeForce RTX 2080 Ti rückt nicht nur preislich klar in die Regionen einer früheren Titan-Karte. Die TU104-GPU und damit die GeForce RTX 2080 wird dort platziert, wo bisher die GeForce GTX 1080 Ti zu finden ist. Die "kleinste" Turing-GPU TU106 ist nicht nur aufgrund des Preises längst keine Einsteigerlösung mehr.

Rechenleistung in Zahlen

Die unterschiedlichen Ausbaustufen der GPU haben natürlich Auswirkungen auf die Rechenleistung. Bisher erwähnt haben wir Werte wie Gigarays pro Sekunde, 110 TFLOPS FP16, 220 TOPS INT8 und 440 TOPS INT4. Eine TU102-GPU besitzt allerdings auch 144 FP64-Einheiten – zwei pro SM. Das Verhältnis an FP64- zur FP32-Rechenleistung beträgt 1/32, während es bei der Volta-Architektur bei 1/2 liegt. NVIDIA hat dennoch einige FP64-Recheneinheiten in die Turing-Architektur eingebaut, um Software, die darauf ausgelegt ist, zumindest grundsätzlich funktionsfähig zu halten.

Die nun folgenden Werte für die Rechenleistung beziehen sich auf die Founders Editions der GeForce-RTX-20-Serie.

Die Rechenleistung der GeForce RTX 2080 Ti, RTX 2080 und RTX 2070 in der Übersicht
Rechenleistung
Modell	GeForce RTX 2080 Ti	Quadro RTX 6000	GeForce RTX 2080	Quadro RTX 5000	GeForce RTX 2070
GPU	TU102	TU102	TU104	TU104	TU106
FP32 TFLOPS	14,2	16,3	10,6	11,2	7,9
INT32 TIPS	14,2	16,3	10,6	11,2	7,9
FP64 TFLOPS	0,445	0,510	0,331	0,348	0,246
FP16 TFLOPS	28,5	32,6	21,2	22,3	15,8
FP16 Tensor TFLOPS mit FP16 Accumulate	113,8	130,5	84,8	89,2	63
FP16 Tensor TFLOPS mit FP32 Accumulate	56,9	130,5	42,4	89,2	31,5
INT8 Tensor TOPS	227,7	261	169,6	178,4	126
INT4 Tensor TOPS	455,4	522	339,1	356,8	252,1

Die Quadro RTX 8000 verwendet die gleiche TU102-GPU, aber doppelt so viel GDDR6-Speicher und taucht daher in diesem Vergleich nicht auf. Abhängig von Takt und Ausbau der jeweiligen GPU unterscheidet sich die Rechenleistung natürlich. Die Karten der Quadro-RTX-Serie sind außerdem in der Lage bei Verwendung der Tensor Cores eine weitere Akkumulation durchzuführen – daher sehen wir bei diesen Operationen eine mehr als doppelt so hohe Leistung im Vergleich zu den GeForce-Karten.

Seite 11: Neue Video und Display Engine + VisualLink Seite 13: Impressionen der GeForce RTX 2080 Ti

Quellen und weitere Links

Unterforum: Grafikkarten

KOMMENTARE (108)

{{{_source.title}}} {{#_source.showPrice}} {{{_source.displayPrice}}} {{/_source.showPrice}}

Die Turing-Architektur mit RTX, Ray Tracing und den neuen Shader-Funktionen - TSMC in 12 nm – Die Turing-GPU

Rechenleistung in Zahlen