TEST

Deutliches Leistungsplus und künstliche Frames

GeForce RTX 4090 in der Founders Edition im Test - Die Ada-Lovelace-Architektur

Portrait des Authors


Seite 2: Die Ada-Lovelace-Architektur
571

Werbung

NVIDIA hat die Ada-Lovelace-Architektur im Vergleich zur Ampere-Architektur in einigen Details verändert. An dieser Stelle herausstellen wollen wir die RT und Tensor Cores, auf die wir aber noch eingehen werden. Ansonsten hat sich beim Aufbau der SMs weniger getan. Es gibt weiterhin 64 dedizierte FP32- und 64 geteilte FP32/INT32-Recheneinheiten.

NVIDIA hat ein Blockdiagramm zur AD102-GPU veröffentlicht und nennt auch die die maximale Ausbaustufe. Der Vollausbau der AD102-GPU käme somit auf 18.432 FP32-Recheneinheiten, 144 RT-Cores und 576 Tensor-Cores. Diesen nutzt NVIDIA aber bei keiner Karte – weder der GeForce RTX 4090, noch der RTX 6000 Ada Generation oder L40.

Wir sehen auch, dass es nicht wie vermutet zu einer Verdopplung der ROPs gekommen ist. Diese sind mit der Ampere-Architektur in die Raster Engine gewandert und nun erneut dort zu finden. Pro Raster Engine gibt es zwei ROP-Partionen und in diesen jeweils acht ROPs. Auch der restliche Aufbau ist weitestgehend mit Ampere identisch – abgesehen von der Anzahl der SMs sowie dem Vorhandensein von Tensor-Cores der vierten und RT-Cores der dritten Generation. Der L1-Cache ist weiterhin 128 kB groß,

Der L1-Cache ist weiterhin 128 kB groß. Der L2-Cache wird aber deutlich größer. So besitzt die volle AD102-GPU einen L2-Cache mit einer Kapazität von 98.304 kB – also fast 100 MB. In der Ausbaustufe der GeForce RTX 4090 kommt die GPU auf 73.728 kB. Bei der GA102-GPU waren nur 6.144 kB an L2-Cache vorhanden. NVIDIA setzt also auf einen um den Faktor 12 größeren L2-Cache und erhofft sich damit sicherlich weniger Engpässe im Zugriff auf den Grafikspeicher.

RT-Cores der 3. Generation

Die Raytracing-Einheiten oder RT-Cores der 3. Generation von Ada haben einen doppelt so hohen Durchsatz an ihren Recheneinheiten wie ihre Vorgänger, wodurch die Raytracing-Rechenleistung um bis zu 2,8x gesteigert wird. Für die GeForce RTX 4090 bedeutet dies theoretisch 191 RT-TFLOPS, verglichen mit 78 RT-TFLOPS bei der GeForce RTX 3090 Ti.

Zudem bieten die RT-Cores der 3. Generation Funktionen wie die Opacity Micro-Map-Engines und Micro-Mesh-Engines. Dies sind neue, spezielle Hardwareeinheiten zur Beschleunigung besonders anspruchsvoller Raytracing-Workloads, die dann per Software angesprochen werden können.

Die Opacity Micro-Maps und Displaced Micro-Meshes wollen wir aber noch etwas genauer erläutern

Die Opacity-Micro-Maps sind eine Form der Optimierung für das Raytracing. Darstellungsdetails werden vordefiniert auf die Objekte der Spiele-Welt kodieren. Ein Raytracing kann für bestimmte Objekte extrem komplex sein. Laub und Vegetation im Allgemeinen sind solche Beispiele. Solche Objekte sind für die zu berechnenden Strahlen schwierig, da es unzählige Richtungen gibt, in die zwischen Blättern und Ästen reflektiert werden kann. Die RT-Cores der dritten Generation verwendet Opacity-Micro-Maps, um den Opazitätsstatus dieser Elemente zuzuweisen, der undurchsichtig, transparent oder unbekannt sein kann.

Komplexen Objekte wurden bisher gar nicht oder nur ungern mit Raytracing-Effekten belegt. Die Opacity Micro-Maps sollen dies nun ermöglichen.

Die Displaced Micro-Meshes (DMM) werden ebenfalls durch die RT-Cores der dritten Generation generiert. Die für die Raytracing-Berechnungen verwendeten Bounding Volume Hierarchies (BVH) sollen damit 10-mal schneller aufgebaut werden können und 20-mal weniger Grafikspeicher benötigen. NVIDIA beschreibt die DMMs wie folgt: "DMMs sind neue Primitive, die ein strukturiertes Netz aus Mikrodreiecken darstellen, das die RT-Recheneinheiten der 3. Generation nativ verarbeiten. Dadurch werden die Speicher- und Verarbeitungsanforderungen beim Rendern komplexer Geometrien, die nur einfache Dreiecke verwenden, im Vergleich zu früheren Generationen reduziert."

Shader Execution Reordering

Mittels Shader Execution Reordering (SER) werden die Berechnungen in der Pipeline effizient zusammengeführt, sodass die Recheneinheiten immer möglichst hoch ausgelastet sind. Dies soll die Shaderleistung um das bis zu 2-Fache verbessern und die Frameraten im Spiel um bis zu 25 % steigern.

Tensor-Cores der 4. Generation und DLSS 3

Auch das Deep Learning Super Sampling bekommt ein Update und soll in Version drei weiter verbessert worden sein. Hier kommen auch die ebenfalls verbesserten Tensor-Cores der 4. Generation zum Einsatz. Für FP8-Berechnungen haben die neuen Tensor-Cores einen bis zu 5-Fach höheren Durchsatz.

Sogenannte Optical-Flow-Beschleuniger kommen dann für DLSS 3 zum Einsatz. Sie berechnen Pixelbewegungsdaten aus nachfolgenden Frames für das neuronale Netzwerk von DLSS.