Werbung
Für eine Architektur wie Volta gibt NVIDIA Entwicklungskosten von mehr als 2 Milliarden US-Dollar an. Ähnlich oder sogar noch höher dürften die für die Turing-Architektur gewesen sein. Gut fünf Jahre sollen die Ingenieure an der Core-Architektur gearbeitet haben. Die ersten Entwicklungsschritte hin zu einem hardwarebeschleunigten Hardware sollen bereits vor 10 Jahren begonnen worden sein. Den Tape Out hatte der erste Chip vor gut einem Jahr. Nach 24 Stunden soll dieser Chip bereits auf einem Testboard lauffähig gewesen sein – laut NVIDIA ein seltenes Erlebnis.
Die GPUs auf Basis der Turing-Architektur sind die größten, die für Consumer-Karten jemals gefertigt wurden. NVIDIA verzichtet auf eine Fertigung in 7 nm – diese ist noch nicht bereit. Stattdessen hat man bereits einige Erfahrung mit der 12-nm-Fertigung in den Volta-GPUs gemacht. Die GV100-GPU aus dem Mai 2017 ist mit ihren 815 mm² vergleichsweise gigantisch. Die Anzahl der Transistoren beläuft sich auf 21,1 Milliarden. Die GP102-GPU der GeForce GTX 1080 Ti kommt auf 471 mm² und 12 Milliarden Transistoren.
Die große Turing-GPU (TU102) steht diesen Zahlen nur geringfügig nach. NVIDIA lässt auch diese in 12 nm bei TSMC fertigen. Die Anzahl der Transistoren soll bei 18,6 Milliarden liegen. Die Größe der GPU gibt NVIDIA mit 754 mm² an. Die mittlere Turing-GPU TU104 bringt es auf 13,6 Milliarden Transistoren bei einer Chipgröße von 545 mm². Die erst später erscheinende GeForce RTX 270 verwendet die TU106-GPU mit 10,8 Milliarden und einer Größe von 445 mm².
Natürlich macht NVIDIA keinerlei Angaben über die Ausbeute eines solch großen Chips. Da man die Volta-GPUs seit mehr als einem Jahr als Pipecleaner fertigen lässt, dürfte man in Zusammenarbeit mit TSMC aber inzwischen einiges an Erfahrung gesammelt haben.
Modell | GeForce RTX 2080 Ti | GeForce RTX 2080 | GeForce RTX 2070 |
GPU | TU102 | TU104 | TU106 |
Technische Daten | |||
---|---|---|---|
Architektur | Turing | Turing | Turing |
Fertigung | TSMC 12 nm | TSMC 12 nm | TSMC 12 nm |
Transistoren | 18,6 Milliarden | 13,6 Milliarden | 10,8 Milliarden |
Diegröße | 754 mm² | 545 mm² | 445 mm² |
GPCs | 6 | 6 | 3 |
TPCs | 34 | 23 | 18 |
SMs | 68 | 46 | 36 |
CUDA Cores / SM | 64 | 64 | 64 |
CUDA Cores / GPU | 4.352 | 2.944 | 2.304 |
Tensor Cores / SM | 8 | 8 | 8 |
Tensor Cores / GPU | 544 | 368 | 288 |
RT Cores | 68 | 46 | 36 |
L2 Cache | 5.632 kB | 4.096 kB | 4.096 kB |
Register File Size / SM | 256 kB | 256 kB | 256 kB |
Register File Size / GPU | 17.408 kB | 11.776 kB | 9.216 kB |
Die TU102-GPU besitzt im Vollausbau sechs Graphics Processing Clusters (GPCs), 36 Texture Processing Clusters (TPCs) und 72 Streaming Multiprocessors (SMs). Der Chip auf der GeForce RTX 2080 Ti hat allerdings nur 34 aktive TPCs. Jedes GPC beinhaltet eine Raster Engine und sechs TPCs, jedes TPC wieder hat zwei SMs. Jeder SM bietet 64 Shadereinheiten, acht Tensor Cores, ein 256 kB großes Register, vier Textureinheiten und 96 kB an L1/Shared Memory.
Die TU104-GPU bringt es ebenfalls auf sechs GPCs, aber eben nur 24 TPCs und dementsprechend 48 SMs. Ein TPC ist bei der GeForce RTX 2080 inaktiv und dementsprechend sind nicht 3.072 Shadereinheiten vorhanden, sondern nur 2.944.
Der bislang kleinste Turing-Chip TU106 bringt es im Vollausbau auf drei GPCs, 18 TPCs und 36 SMs. NVIDIA verwendet für die GeForce RTX 2070 also schon den Vollausbau, während dieser bei der TU102- und TU104-GPU den Quadro-RTX-Karten vorbehalten ist.
Interessant wird es, wenn man sich die Chipgrößen einmal anschaut und diese mit der Pascal-Generation vergleicht.
Chip | TU102 | GP100 | GP102 | TU104 | GP104 | TU106 | GP106 |
Chipgröße | 754 mm² | 610 mm² | 471 mm² | 545 mm² | 314 mm² | 445 mm² | 200 mm² |
Anzahl der Transistoren | 18,6 Milliarden | 15,3 Milliarden | 12 Milliarden | 13,6 Milliarden | 7,2 Milliarden | 10,8 Milliarden | 4,4 Milliarden |
Die größte auf einer GeForce-Karte eingesetzte Pascal-GPU GP102 (GeForce GTX 1080 Ti und Titan Xp) kommt auf 471 mm² bei 12 Milliarden Transistoren. Damit ist selbst diese weniger groß und komplex als die TU104 der GeForce RTX 2080 und selbst die TU106 der GeForce RTX 2070 ist nur geringfügig kleiner. Dies macht abermals die neue Positionierung der einzelnen Karten deutlich, denn die GeForce RTX 2080 Ti rückt nicht nur preislich klar in die Regionen einer früheren Titan-Karte. Die TU104-GPU und damit die GeForce RTX 2080 wird dort platziert, wo bisher die GeForce GTX 1080 Ti zu finden ist. Die "kleinste" Turing-GPU TU106 ist nicht nur aufgrund des Preises längst keine Einsteigerlösung mehr.
Rechenleistung in Zahlen
Die unterschiedlichen Ausbaustufen der GPU haben natürlich Auswirkungen auf die Rechenleistung. Bisher erwähnt haben wir Werte wie Gigarays pro Sekunde, 110 TFLOPS FP16, 220 TOPS INT8 und 440 TOPS INT4. Eine TU102-GPU besitzt allerdings auch 144 FP64-Einheiten – zwei pro SM. Das Verhältnis an FP64- zur FP32-Rechenleistung beträgt 1/32, während es bei der Volta-Architektur bei 1/2 liegt. NVIDIA hat dennoch einige FP64-Recheneinheiten in die Turing-Architektur eingebaut, um Software, die darauf ausgelegt ist, zumindest grundsätzlich funktionsfähig zu halten.
Die nun folgenden Werte für die Rechenleistung beziehen sich auf die Founders Editions der GeForce-RTX-20-Serie.
Modell | GeForce RTX 2080 Ti | Quadro RTX 6000 | GeForce RTX 2080 | Quadro RTX 5000 | GeForce RTX 2070 |
GPU | TU102 | TU102 | TU104 | TU104 | TU106 |
Rechenleistung | |||||
---|---|---|---|---|---|
FP32 TFLOPS | 14,2 | 16,3 | 10,6 | 11,2 | 7,9 |
INT32 TIPS | 14,2 | 16,3 | 10,6 | 11,2 | 7,9 |
FP64 TFLOPS | 0,445 | 0,510 | 0,331 | 0,348 | 0,246 |
FP16 TFLOPS | 28,5 | 32,6 | 21,2 | 22,3 | 15,8 |
FP16 Tensor TFLOPS mit FP16 Accumulate | 113,8 | 130,5 | 84,8 | 89,2 | 63 |
FP16 Tensor TFLOPS mit FP32 Accumulate | 56,9 | 130,5 | 42,4 | 89,2 | 31,5 |
INT8 Tensor TOPS | 227,7 | 261 | 169,6 | 178,4 | 126 |
INT4 Tensor TOPS | 455,4 | 522 | 339,1 | 356,8 | 252,1 |
Die Quadro RTX 8000 verwendet die gleiche TU102-GPU, aber doppelt so viel GDDR6-Speicher und taucht daher in diesem Vergleich nicht auf. Abhängig von Takt und Ausbau der jeweiligen GPU unterscheidet sich die Rechenleistung natürlich. Die Karten der Quadro-RTX-Serie sind außerdem in der Lage bei Verwendung der Tensor Cores eine weitere Akkumulation durchzuführen – daher sehen wir bei diesen Operationen eine mehr als doppelt so hohe Leistung im Vergleich zu den GeForce-Karten.