NEWS

#NVIDIA #Ada #Ada-Lovelace #GeForce #GeForce-RTX #GeForce-RTX-4080 #GeForce-RTX-4090

Grafikkarten

NVIDIA stellt die ersten Modelle der GeForce-RTX-40-Serie vor (Update)

Von Andreas Schilling
Dienstag, 20.09.2022 um 18:15 Uhr

NVIDIA stellt die ersten Modelle der GeForce-RTX-40-Serie vor (Update)

1395

Der heiße Tech-Herbst geht heute in die nächste Runde, denn neben den Ryzen-7000-Prozessoren von AMD und den Raptor-Lake-Modellen von Intel hat nun auch NVIDIA erste Details zur GeForce-RTX-40-Serie veröffentlicht. Dies geschah, eigentlich etwas ungewöhnlich, im Rahmen der GPU Technologies Conference kurz GTC. Eigentlich behält sich NVIDIA diese gerne für sein Datacenter-Umfeld vor, in diesem Jahr aber offenbar nicht.

Durch zahlreiche Leaks, zuletzt aber vor allem durch eine eigens angekurbelte Marketing-Kampagne, sind zumindest die Modellserie und der Codename der Architektur bekannt: Die GeForce-RTX-40-Series-Karten basieren auf der Lovelace-Architektur, benannt nach Ada Lovelace, einer britischen Mathematikerin.

Kommen wir direkt zu den wichtigsten Fakten. Mit der GeForce RTX 4080 und GeForce RTX 4090 werden gleich zwei neue Modelle vorgestellt. Die GeForce RTX 4080 wird es in zwei Varianten geben. Diese unterscheiden sich trotz des gleichen Modellnamens aber nicht nur in der Speicherausstattung, sondern auch in den Funktionseinheiten. Ohne größere Umschweife zu den technischen Daten. Die Lücken in der Tabelle werden wir hoffentlich in den kommenden Stunden schließen können.

Gegenüberstellung der Karten
	GeForce RTX 4080 12 GB	GeForce RTX 4080 16 GB	GeForce RTX 4090
GPU	AD104	AD103	AD102
Transistoren	-	-	76 Milliarden
Fertigung	4 nm	4 nm	4 nm
Chipgröße	-	-	608,3 mm²
FP32-ALUs	7.680	9.728	16.384
INT32-ALUs	-	-	-
SMs	60	76	128
Tensor Cores	240	304	512
RT Cores	60	76	128
Basis-Takt	2.310 MHz	2.210 MHz	2.230 MHz
Boost-Takt	2.610 MHz	2.505 MHz	2.520 MHz
Speicherkapazität	12 GB	16 GB	24 GB
Speichertyp	GDDR6X	GDDR6X	GDDR6X
Speicherinterface	192 Bit	256 Bit	384 Bit
Speichertakt	-	-	-
Speicherbandbreite	504 GB/s	720 GB/s	1.008 GB/s
TDP	285 W	325 W	450 W
max TDP	366 W	516 W	660 W
Preis	1.099 Euro	1.469 Euro	1.949 Euro

Das Spitzenmodell der heutigen Neuvorstellung ist die GeForce RTX 4090. Sie basiert auf der Ada102-GPU und bringt es auf 128 SMs, was gleichbedeutend mit 16.384 FP32-Recheneinheiten ist. Wie viele INT32-, RT- und Tensor-Cores pro SM vorhanden sind, ist aktuell noch nicht bekannt. Die RT- und Tensor-Cores liegen aber allesamt in einer neuen Ausführung vor, sodass deren Effizienz deutlich besser als beim Vorgänger sein soll. NVIDIA spricht von einer um den Faktor zwei bis drei höheren Raytracing-Leistung.

Zu den Shader- und sonstigen Funktionseinheiten der GeForce RTX 4090 gesellen sich auch noch 24 GB an GDDR6X-Speicher, der über ein 384 Bit breites Speicherinterface angebunden ist. Die Speicherbandbreite liegt somit bei etwa 1 TB/s. Die TGP (Total Graphics Power) der Karte soll 450 W betragen, maximal sind sogar 660 W möglich. Bereits ab dem 12. Oktober wird die GeForce RTX 4090 erhältlich sein. Der Preis liegt bei 1.949 Euro.

Gegenüberstellung der GeForce-RTX-Generationen
	Shader	VRAM	Preis
GeForce RTX 3070	5.888	8 GB 256 Bit / 448 GB/s	499 Euro
GeForce RTX 4080 12 GB	7.680	12 GB 192 Bit / 504 GB/s	1.099 Euro
GeForce RTX 3080	8.704	10 GB 320 Bit / 760 GB/s	759 Euro
GeForce RTX 4080 16 GB	9.728	16 GB 256 Bit / 720 GB/s	1.469 Euro
GeForce RTX 3090	10.496	24 GB 384 Bit / 936 GB/s	1.199 Euro
GeForce RTX 4090	16.384	24 GB 384 Bit / 1.008 GB/s	1.949 Euro

Wir haben in der Tabelle die GeForce RTX 4090 einmal gegen den Vorgänger, die GeForce RTX 3090 gestellt. Bei den Preisen müssen wir hier natürlich gleich ein paar Einschränkungen machen, denn gestartet ist die GeForce RTX 3090 bei 1.499 Euro. Der Zugewinn an Leistung mag den Preis von 1.949 Euro hier also in gewisser Weise auffangen – wenngleich fast 2.000 Euro noch immer sehr viel Geld sind für eine Grafikkarte.

Die GeForce RTX 4080 16 GB darf sich als Nachfolger der GeForce RTX 3080 verstehen. Hier sehen wir dann allerdings, wo NVIDIA im Generationenvergleich preislich zuschlägt – wir sprechen von einer Verdopplung. Dafür bekommt der Käufer knapp 12 % mehr Funktionseinheiten, vor allem aber 6 GB mehr Grafikspeicher, der allerdings langsamer angebunden ist.

Die GeForce RTX 4080 mit 12 GB bekommt von uns die GeForce RTX 3070 als Vorgänger zugewiesen und ähnlich wie zuvor schon, fällt der Aufpreis hier enorm aus. Der Zugewinn an Leistung wird sich noch zeigen müssen. Das Speicherinterface wird schmaler, dafür gibt es 50 % mehr an Speicher, der durch einen höheren Takt auch mehr Bandbreite liefert.

GeForce RTX 4080 in zwei Varianten

Bei der GeForce RTX 4080 muss man etwas genauer hinschauen. Hier wird es zwei Modelle geben, die sich in der Ausstattung unterscheiden. 25 % mehr Funktionseinheiten sind bei der stärkeren der beiden GeForce RTX 4080 vorhanden. Zudem fällt der Speicherausbau mit 16 zu 12 GB hier größer aus. Der Speicher ist auch über ein breiteres Speicherinterface angebunden und kommt daher auf eine höhere Speicherbandbreite – 720 GB/s für die Variante mit 16 GB und 504 GB/s für das kleinere Modell mit 12 GB Grafikspeicher. Eine TGP von 285 zu 320 W sind ein weiterer Faktor, ebenso wie der Preis von 1.469 zu 1.099 Euro. Die beiden Modelle der GeForce RTX 4080 sollen ab November erhältlich sein.

Allen bisher vorgestellten Modellen der GeForce-RTX-40-Serie gemein ist die Tatsache, dass sie per PCI-Express 4.0 angebunden sind. Zudem kommt auf den Founders-Edition-Karten immer der 12VHPWR-Anschluss zum Einsatz. Zu den Founders-Edition-Karten selbst kann man nur sagen, dass diese der aktuellen GeForce-RTX-30-Serie sehr ähnlich sind. Design und Kühlkonzept wurden also weitestgehend übernommen. Auf Seiten der Display-Anschlüsse vorhanden sind 3x DisplayPort 1.4 und 1x HDMI 2.1. Ebenfalls für ale bisher vorgestellten Karten mit den Board: Ein Dual-AV1-Encoder. Das Encoding in AV1 war bisher Intels Trumpf in der Alchemist-Generation – ist nun aber noch vor der Verfügbarkeit der Karten schon wieder Geschichte.

Ob es nun besonders clever ist, zwei Karten als GeForce RTX 4080 auf den Markt zu bringen, sei einmal dahingestellt. Vermutlich versucht NVIDIA die Produktpalette damit nominell etwas zu verschlanken, aber natürlich sind es dennoch unterschiedliche Karten. Vorerst positionieren sich die drei neuen Modelle der GeForce-RTX-40-Serie über den bisherigen Modellen. Sicherlich aber wird NVIDIA die Produktpalette im Verlaufe der kommenden Monate nach unten hin mit neuen Karten abrunden.

Erste Benchmarks

Natürlich liefert NVIDIA auch gleich die ersten Benchmarks und vergleicht dabei gegen die eigenen Vorgänger-Modelle:

Die GeForce RTX 4080 mit 16 und 12 GB sollen dabei je nach Anwendung um den Faktor zwei bis vier schneller sein, als eine GeForce RTX 3080 Ti. Eine GeForce RTX 4090 soll laut NVIDIA doppelt so schnell wie eine GeForce RTX 3090 Ti sein. Aus diesen Zahlen bezieht NVIDIA auch die Einschätzung, dann die neuen Karten um den Faktor zwei besser in der Effizienz sind.

Allerdings wird hier nicht die reine Rasterization-Leistung herangezogen, auch nicht ein reines Raytracing, sondern es wird mit DLSS bewertet und dies hat natürlich einen maßgeblichen Einfluss auf die Leistung. Die neuen Karten verfügen über eine deutlich höhere DLSS-Leistung.

Kurzer Blick auf Ada-Lovelace-Architektur

Ins Detail wollte NVIDIA noch nicht gehen und so gibt es nur einen kurzen Einblick in die Ada-Lovelace-Architektur. Die GPUs werden in 4 nm bei TSMC gefertigt werden. In der größten Ausbaustufe (Ada102) kommt die GPU auf 76 Milliarden Transistoren.

Verglichen mit den Vorgängern bewegen sich die Chips der GeForce-RTX-40-Serie an anderer Stellte der Leistung/Watt-Kurve bzw. auf anderem Niveau. Bei in etwa gleicher Leistungsaufnahme will NVIDIA die Leistung verdoppelt haben. Die rechte Grafik hinterlässt den Eindruck, als habe man mit Ampere die 350 W nicht weiter ausreizen wollen. In Form der GeForce RTX 3090 Ti hat man aber genau dies getan und startet mit der GeForce RTX 4090 hier auch. Die Kurve verdeutlicht aber auch, dass Ada Lovelace bei 150 bis 250 W ebenfalls extrem effizient sein kann. Entsprechende Karten kündigte man heute aber noch nicht an.

Die Architektur in einer bestimmten Ausbaustufe vorliegen zu haben, ist das Eine. NVIDIA hat aber auch an der Ausführung der Berechnungen gearbeitet bzw. diese effizienter gestaltet.

Mittels Shader Execution Reordering (SER) werden die Berechnungen in der Pipeline effizient zusammengeführt, sodass die Recheneinheiten immer möglichst hoch ausgelastet sind. Dies soll die Shaderleistung um das bis zu 2-Fache verbessert und die Frameraten im Spiel um bis zu 25 % steigert.

RT-Cores der 3. Generation

Die Raytracing-Einheiten oder RT-Cores der 3. Generation von Ada haben einen doppelt so hohen Durchsatz an ihren Recheneinheiten wie ihre Vorgänger, wodurch die Raytracing-Rechenleistung um bis zu 2,8x gesteigert wird. Für die GeForce RTX 4090 bedeutet dies theoretisch 191 RT-TFLOPS, verglichen mit 78 RT-TFLOPS bei der GeForce RTX 3090 Ti.

Zudem bieten die RT-Cores der 3. Generation Funktionen wie die Opacity Micro-Map-Engines und Micro-Mesh-Engines. Dies sind neue, spezielle Hardwareeinheiten zur Beschleunigung besonders anspruchsvoller Raytracing-Workloads, die dann per Software angesprochen werden können.

Die Opacity Micro-Maps und Displaced Micro-Meshes wollen wir aber noch etwas genauer erläutern

Die Opacity-Micro-Maps sind eine Form der Optimierung für das Raytracing. Darstellungsdetails werden vordefiniert auf die Objekte der Spiele-Welt kodieren. Ein Raytracing kann für bestimmte Objekte extrem komplex sein. Laub und Vegetation im Allgemeinen sind solche Beispiele. Solche Objekte sind für die zu berechnenden Strahlen schwierig, da es unzählige Richtungen gibt, in die zwischen Blättern und Ästen reflektiert werden kann. Die RT-Cores der dritten Generation verwendet Opacity-Micro-Maps, um den Opazitätsstatus dieser Elemente zuzuweisen, der undurchsichtig, transparent oder unbekannt sein kann.

Komplexen Objekte wurden bisher gar nicht oder nur ungern mit Raytracing-Effekten belegt. Die Opacity Micro-Maps sollen dies nun ermöglichen.

Die Displaced Micro-Meshes (DMM) werden ebenfalls durch die RT-Cores der dritten Generation generiert. Die für die Raytracing-Berechnungen verwendeten Bounding Volume Hierarchies (BVH) sollen damit 10-mal schneller aufgebaut werden können und 20-mal weniger Grafikspeicher benötigen. NVIDIA beschreibt die DMMs wie folgt: "DMMs sind neue Primitive, die ein strukturiertes Netz aus Mikrodreiecken darstellen, das die RT-Recheneinheiten der 3. Generation nativ verarbeiten. Dadurch werden die Speicher- und Verarbeitungsanforderungen beim Rendern komplexer Geometrien, die nur einfache Dreiecke verwenden, im Vergleich zu früheren Generationen reduziert."

Tensor-Cores der 4. Generation und DLSS 3

Auch das Deep Learning Super Sampling bekommt ein Update und soll in Version drei weiter verbessert worden sein. Hier kommen auch die ebenfalls verbesserten Tensor-Cores der 4. Generation zum Einsatz. Für FP8-Berechnungen haben die neuen Tensor-Cores einen bis zu 5-Fach höheren Durchsatz.

Sogenannte Optical-Flow-Beschleuniger kommen dann für DLSS 3 zum Einsatz. Sie berechnen Pixelbewegungsdaten aus nachfolgenden Frames für das neuronale Netzwerk von DLSS.

Neben Founders Edition auch Custom-Designs

Die Founders Edition wird es nur von der GeForce RTX 4090 und GeForce RTX 3080 mit 16 GB geben. Die GeForce RTX 4080 mit 12 GB bleibt den Boardpartnern vorbehalten.

Alle Partner von NVIDIA haben bereits mit der heutigen Vorstellung auch ihre Partner-Designs vorgestellt. Dazu gehören ASUS, Colorful, Gainward, Galaxy, Gigabyte, Inno3D, MSI, Palit, PNY und Zotac. Den Karten werden wir uns aber in einer gesonderten Meldung widmen. Preise zu den Custom-Modellen kennen wir noch nicht.

Wir werden diese Meldung in den kommenden Stunden um weitere Details ergänzen.

Update: Informationen vom Editors Day

Auf einem virtuellen Editors Day hat NVIDIA viele weitere Informationen zu den neuen Karten und den Technologien veröffentlicht. Zum Start der GeForce RTX 4090 werden wir dieser ausführlich aufbereiten, hier nun aber bereits einige wichtige Punkte weitergeben.

NVIIDA hat ein Blockdiagramm zur AD102-GPU veröffentlicht und nennt auch die die maximale Ausbaustufe. Der Vollausbau der AD102-GPU käme somit auf 18.432 FP32-Recheneinheiten, 144 RT-Cores und 576 Tensor-Cores. Diesen nutzt NVIDIA aber bei keiner Karte – weder der GeForce RTX 4090, noch der RTX 6000 Ada Generation oder L40.

Wir sehen auch, dass es nicht wie vermutet zu einer Verdopplung der ROPs gekommen ist. Diese sind mit der Ampere-Architektur in die Raster Engine gewandert und auch nun genau dort zu finden. Pro Raster Engine gibt es zwei ROP Partionen und in diesen jeweils acht ROPs. Auch der restliche Aufbau ist weitestgehend mit Ampere identisch – abgesehen von der Anzahl der SMs sowie dem Vorhandensein von Tensor-Cores der vierten und RT-Cores der dritten Generation.

Pro SM vorhanden sind 64 dedizierte FP32-Recheneinheiten und 64 weitere, die entweder FP32- oder INT32-Berechnungen durchführen können. Der L1-Cache ist weiterhin 128 kB groß, Angaben zur Kapazität des L2-Caches hat NVIDIA bisher nicht gemacht.

2. Update:

NVIDIA hat inzwischen die Größe des L2-Caches nachgereicht. So besitzt die volle AD102-GPU einen L2-Cache mit einer Kapazität von 98.304 kByte – also fast 100 MB. In der Ausbaustufe der GeForce RTX 4090 kommt die GPU auf 73.728 kByte. Zur AD103 der GeForce RTX 4080 mit 16 GB und zur AD104 der GeForce RTX 4080 mit 12 GB gibt es noch keinerlei Informationen.

In einer weiteren Präsentation zeigte NVIDIA das PCB der GeForce RTX 4090. Dieses ist mit einer Spannungsversorgung mit 23 Phasen ausgestattet. 20 versorgen die GPU, die drei weiteren den Speicher. Das Power Management soll zudem verbessert worden sein, so dass es nicht mehr zu starken Strom- und Spannungsspitzen kommen soll. Dennoch sieht die ATX-3.0-Spezifikation diese im Hinblick auf die Netzteile im größeren Maße vor, als dies bisher der Fall ist.

Der Kühler der Founders-Edition-Karten wurde überarbeitet und besitzt nun unter anderem größere Lüfter. Diese sollen den Luftstrom um 20 % vergrößern und die Kühlung verbessern. Der eingesetzte GDDR6X-Speicher von Micron ist durch eine neue Fertigung sparsamer, was die Temperaturen des Speichers um 10 °C reduzieren soll.

In den kommenden Tagen werden wir uns mit allen Neuerungen genauer auseinandersetzen. Mit einem Artikel dazu ist dann zum Start der GeForce RTX 4090 zu rechnen.

Quellen und weitere Links