Neue Details: Ampere und GTX-30-Series Deep Dive

Phoenix2000 · 05.09.2020

Ihr testet ja nicht nur 4k, ich denke mal das ist schon gut so mit dem 10900K, wenn ihr wenigstens 32GB @4000 oder mehr mit Sub bei eurer Plattform einstellt.
Die Auflösung die die meisten fahren wird wohl WQHD sein und hier mal mein 9900K bei 5,2Ghz 4400CL17-17 mit 2xRTX 2080.
SLI kostet mich etwas CPU Leistung, ich bin da selbst bei WQHD@Ultra noch etwas im CPU Limit und da mit 5,2Ghz und 65,5k Copy und unter 36ns.

Dadurch das die 3080/3090 so massiv schneller sind, würde man die FPS bei z.B. TR nicht einmal Ansatzweise auf dem Ryzen mit PCI-E 4.0 derzeit stemmen können, da wäre dann 3080/3090 wohl fast gleich schnell je nach Bench.Alles gute ist irgendwie nie beisammen, PCI-E 4.0 bringt einen ja auch nix wenn die CPU vorher schon limitiert oder man testet das nur bei 4k.

DeckStein · 05.09.2020

Informatives video von igor, aber ich mag diese ausladende art nicht. 20 wortspielenund abzweigungen die nur verwirren.

Thrawn. · 05.09.2020

Thunderburne schrieb:
Bei 720 P mag das zutreffend sein bei 4K läuft das ganze jedoch im GPU Limit!
Gruss

Das ist aber nicht zutreffend, m it mehr CPU Power hab ich auch im GPU Limit mehr min FPS und auch oft mehr max FPS, und vor allem bessere Frametimes..
Ist halt ein immer wieder von der roten Fraktion verbreitet aber machts nicht richtiger..

sch4kal · 05.09.2020

Don schrieb:
Genau, wobei die Vorteile dann natürlich von der PCIe 3.0 SSD abhängig sind.

Da würde sich ja eine Optane anbieten :bigok:

Mo3Jo3 · 05.09.2020

Don schrieb:
Due 7 GB/s sind nicht das Ding, du bekommst auch heute schon 14 GB/s an die GPU geliefert, dann aber eben von der CPU entpackt und das eben mit entsprechender CPU-Last. RTX IO oder besser DirectStorage umgeht den Prozessor und den Arbeitsspeicher vollständig und kommt bei einem Kompressionsverhältnis von 1:2 eben auch auf 13-14 GB/s.

Das ist schon klar, sonst würde es die Laufwerke ja gar nicht geben.
Ich sprach auch davon, die 7Gb Bandbreite bei Laden tatsächlich ausnutzen zu können, und nicht um 2-3 FPS mehr zu bekommen, bezogen auf den Kommentar von Jedi123

Cippoli · 05.09.2020

Ich bin nachdem ich mir die ganzen Deep-Dives im Netz durchgelesen habe wirklich gespannt auf die Reviews und wie die Architektur performt.

Ich vermute dadurch das nun 128 x FP32 oder(!) 64 x FP32 + 64 x INT32 ausgeführt werden kann, das es je nach Game/Applikation durchaus durchwachsen zugehen kann - im Vergleich zu Turing. Da kann dann vielleicht im Worst-Case nur 10% gegenüber Turing rausspringen, während es dann in anderen Szenarien schon mal 70-80% sein können. Man wird sich das bei nVidia sicher genau angeschaut haben, aber es lässt einen doch darüber spekulieren wie performant das am Ende durch eine Vielzahl an Games wirklich ist. Vielleicht erleben wir nach den Reviews auch eine kleine Überraschung...

DDbom · 06.09.2020

Sonst sind vllt nur 30% für die 3080 auf die 2080ti aber bei einigen Titeln vllt die 70%. Langsamer wirds wohl nicht

Liesel Weppen · 06.09.2020

Cippoli schrieb:
Ich vermute dadurch das nun 128 x FP32 oder(!) 64 x FP32 + 64 x INT32 ausgeführt werden kann, das es je nach Game/Applikation durchaus durchwachsen zugehen kann - im Vergleich zu Turing. Da kann dann vielleicht im Worst-Case nur 10% gegenüber Turing rausspringen, während es dann in anderen Szenarien schon mal 70-80% sein können.

Theoretisch ja, aber die meisten Games benötigen wohl eher FP32 Leistung.
Bei 5248 Einheiten a 128 Shader pro Modul, sind das 41 Module. Und ich gehe mal davon aus, das man sich nicht für alle Module gleichermaßen entscheiden muss ob jetzt ALLE INT32/FP32 Einheiten INT32 ODER FP32 rechnen müssen. Man kann jetzt also z.B. 20 Module mit INT32 und die anderen 21 mit 2x FP32 rechnen lassen. Also mit 20x64 FP32 + 21x128 FP32 = 3968 Einheiten mit FP32 und nur 1280 INT32. Evtl kann man sogar die 64 "Dualshader" variabel verteilen. Man hat also insgesamt wesentlich mehr Möglichkeiten sich auf genau das einzustellen, was das jeweilige Spiel halt braucht.

Allessamt kein Hexenwerk... zumindest in der Theorie. Das man pro Shadermodul überhaupt 64x FP32 + 64x INT32/FP32 macht, liegt wohl eher daran, das man nicht beliebig viele Transistoren auf einen Chi packen kann und da allgemein mehr FP32 benötigt wird, macht man halt nur einen Teil variabel.

Cippoli · 06.09.2020

Ist das wirklich so granular? Aus dem Deep Dive ist für mich jedenfalls nur ersichtlich, dass je SM entweder 128 (2x 64) Einheiten FP32 rechnen können oder eben 64 FP32 + 64 INT32. Sobald also auch nur eine Instruktion in INT32 auf einem SM ausgeführt werden soll, sollten auch automatisch nur max. 64 FP32 in eben jenem SM parallel laufen können - so zumindest meine Interpretation.

Madschac · 06.09.2020

So hab ich das auch verstanden Cippoli. Daher bleibe ich auch erstmal skeptisch bis wirklich klar ist was die Architektur in den großen
Games der letzten 4-5 Jahre und in den kommenden Next-Gen Ports leisten kann.

Liesel Weppen · 06.09.2020

Madschac schrieb:
Ist das wirklich so granular? Aus dem Deep Dive ist für mich jedenfalls nur ersichtlich, dass je SM entweder 128 (2x 64) Einheiten FP32 rechnen können oder eben 64 FP32 + 64 INT32. Sobald also auch nur eine Instruktion in INT32 auf einem SM ausgeführt werden soll, sollten auch automatisch nur max. 64 FP32 in eben jenem SM parallel laufen können - so zumindest meine Interpretation.

Dann hast du immnernoch 41 verschiedene SM die jeweils anders reagieren können.
Wie ich schon sagte, selbst wenn man sich pro SM entscheiden muss ob nun alle 128 FP32 rechnen oder eben 64xFP32+64xINT32, dann sind es immernoch 41 verschiedene. Vorher war das statisch 64xFP32 + 64xINT32 und wenn du die INT32 nicht gebraucht hast, dann haben die halt eben gar nix gerechnet, jetzt kann man wenigstens pro SM switchen.

Madschac · 06.09.2020

Ach klar...danke für den Hinweis, so macht das ganze natürlich mehr Sinn

Cippoli · 06.09.2020

Liesel Weppen schrieb:
Dann hast du immnernoch 41 verschiedene SM die jeweils anders reagieren können.
Wie ich schon sagte, selbst wenn man sich pro SM entscheiden muss ob nun alle 128 FP32 rechnen oder eben 64xFP32+64xINT32, dann sind es immernoch 41 verschiedene. Vorher war das statisch 64xFP32 + 64xINT32 und wenn du die INT32 nicht gebraucht hast, dann haben die halt eben gar nix gerechnet, jetzt kann man wenigstens pro SM switchen.

Ach so, ok, klar die Granularität ist je SM fest geregelt. Ich dachte du meintest innerhalb eines SMs würde noch feiner unterschieden werden. Passt.

Liesel Weppen · 06.09.2020

Wie ich geschrieben habe: selbst wenn das nur pro SM geregelt werden kann, ist es immernoch besser, aber es könnte ja sogar theoretisch pro Einheit regelbar sein, was NOCH besser wäre.

Lesen bitte!

Cippoli · 06.09.2020

Ja, ich denke wir meinen da schon dasselbe.

Seratio · 06.09.2020

Mich würde mal interessieren, ob die FE mit ihrem doch sehr kompakten Design einen Latenz und Performancevorteil im Gegensatz zu Custommodellen mit ggf. größeren PCB hat?

Die Verbindungen zwischen Speicher und GPU etc ist ja beachtlich kurz im Vergleich zu einer 2080.

Hyrasch · 06.09.2020

Don schrieb:
Weil RTX IO in diesem Jahr von keinem Spiel mehr unterstützt werden wird.

Ich sage sogar dass anhand von den Informationen und Gegebenheiten es für die Spieler und auch euch Tester/Redakteure selbst 2021 kein Thema sein wird.
Wir wissen jetzt nämlich dass DirectStorage erstens 1) erst irgendwann 2021 erscheint DirectStorage is coming to PC und 2) nicht die finale Version.
Development preview ist ein anderer Name für Beta oder closed Beta.

we’re working with our industry partners right now to finish designing/building the API and its supporting components. We’re targeting getting a development preview of DirectStorage into the hands of game developers next year.

Somit wird Rdna 2 Hardware- und Software-Eigenschaften haben die das Gleiche machen.

Weiterhin:
- Keine next-gen- Launch-Spiele werden dies unterstützen
- wenn überhaupt erst einige Spiele irgendwann Ende 2021. Die Spiele deren Entwicklung erst vor 1 - 2 Jahren begann, oder jetzt beginnt, erscheinen erst 2022 - 2023.
- werden die PS5 Exklusiv Titel die stark Nutzen aus der nvme-ssd und der Architektur drumherum ziehen wohl nicht im gleichen Jahr, oder 1 Jahr nach Release auf der PS5 erscheinen. Geld und so.
- wissen alle Entwickler dass die meisten PC-Spieler nur eine Sata 3 ssd (max. 550 MB/s) haben und nur wenige bereits eine Pcie 3.0/4.0 nvme ssd
- wird kein Entwicklerstudio/Publisher mit Absicht Spiele herausbringen welche zwingend eine PCie 3/4 nvme voraussetzten, da ohne ständig Texturen, Objekte etc. mit dem Nachladen nicht hinter herkommen oderfps/frametimes stark einbrechen.
- die finanziellen Verluste und Image-Schaden macht keiner mit
- Die Spiele hat man nun 7 jahrelang so getrimmt dass diese mit einer hdd halbwegs ordentlich laufen. Auch diesmal wird es einige Jahre dauern bis der Wechsel vollzogen wird.
- Wird selbst nvme-ssd über Pcie 3.0 bei 3 - 3,5 GB/s Datenrate für einige Jahre ausreichend sein

Leistung:
Die rtx 2080 ti ist laut Tests über Pcie 3.0 x16 ganze 2 % schneller als über Pcie 3.0 x8.
Weit entfernt dass x16 zum Flaschenhals wird.

Somit spricht eig. alles dafür das:
- eine Sata 3 ssd (wenigstens die neueren 500 - 550 MB/s) bis Ende 2021 mehr als ausreichend ist
- 2022+ vermutlich erste Spiele erscheinen wo man mit einer Sata 3 ssd wohl einige erste Nachladeruckler mitten im Spiel oder in bestimmten Szenen weniger fps/schlechtere frametimes hat
- Vram ist nur durch mehr Vram zu ersetzen

Pcie 4.0 kann man getrost überspringen und 2022 direkt auf Zen 4/Intel samt Pcie 5.0 wechseln. So mache ich dass jedenfalls.

pillenkoenig · 06.09.2020

Thrawn. schrieb:
Das ist aber nicht zutreffend, m it mehr CPU Power hab ich auch im GPU Limit mehr min FPS und auch oft mehr max FPS, und vor allem bessere Frametimes..

was ich so in tests gesehen habe, ist dass gerade die ryzen aufgrund der breite bessere min fps und vor allem bessere frametimes bieten.
und die kleinen hochtakt intels holen die besseren avg fps, da in 'einfachen' szenen mehr fps geliefert werden koennen.

du als alter hubraum fetischist solltest da doch parallelen entdecken koennen.

Beitrag automatisch zusammengeführt: 06.09.2020

EDIT:
ob man direct storage auch sinnvoll fuers KI training einsetzen kann? :hmm:

Thrawn. · 06.09.2020

Seratio schrieb:
Mich würde mal interessieren, ob die FE mit ihrem doch sehr kompakten Design einen Latenz und Performancevorteil im Gegensatz zu Custommodellen mit ggf. größeren PCB hat?

Die Verbindungen zwischen Speicher und GPU etc ist ja beachtlich kurz im Vergleich zu einer 2080.

Die meisten Customs werden erstmal Referenz PCB Nutzen welches genauso kurz ist, nur die Kuehler sind groesser..

Paddy92 · 06.09.2020

pillenkoenig schrieb:
was ich so in tests gesehen habe, ist dass gerade die ryzen aufgrund der breite bessere min fps und vor allem bessere frametimes bieten.
und die kleinen hochtakt intels holen die besseren avg fps, da in 'einfachen' szenen mehr fps geliefert werden koennen.

Negativ. Dieser Ryzen is smoother Mythos ist reiner Bullshit.

Phoenix2000 · 06.09.2020

Das Thema war schonmal bei Computerbase, da haben sie sich auf die Werte von Igor´s Lab berufen, wo ich dann meinte bei Igor´s Frametime kriege ich das halte Grausen, hat sich Igor etwas angegriffen gefühlt.^^
Grade die min FPS 1%/0.2% etc. hängen meist auch von anderen Faktoren ab, der AMD hat auf jeden Fall keine bessere Frametime bei den min als Intel wie das in seinen Test behauptet wurde, sofern man "selber" Hand anlegt.

dimi0815 · 06.09.2020

Verstehe die Aufregung ehrlich gesagt nicht. Nach dem Threadripper-"Debakel", welches Teile der GPU-Tests aus Limitierungsgründen schlicht ad absurdum geführt hatte, hat man nun die richtige Entscheidung getroffen und das CPU-Limit endlich (!) so weit nach oben gesetzt wie möglich.

Zu der These, dass selbst PCIe 3.0 x8 eine 2080ti gerade mal im 1-2%-Bereich limitiert, gibt es ausreichend Belege. Wir reden entsprechend von einer notwendigen knapp 100%-Steigerung der 2080ti-Leistung, bevor in dem Punkt PCIe 3.0 x16 zum Flaschenhals werden würde. So weit sind dann weder RTX 3000, noch BN bis jetzt.

Bzgl. RTX IO wurde ja auch schon ausreichend nachvollziehbar ausgeführt, dass es (und warum es) bis mindestens im nächsten Jahr absolut keine Rolle spielen wird. Und bis dahin können sowohl bei AMD mit Zen 3 als auch bei Intel mit dann PCIe 4.0-Support noch ausreichend sinnvolle Neuerungen kommen.

Bis dahin muss die Wahl doch recht eindeutig sein:

- höhere IPC in Games bei Intel
- höherer Takt obendrauf auch bei Intel
- höhere RAM-Speeds möglich bei Intel
- straffere Timings bei Intel
- bessere Avg. FPS, Min. FPS & Frametimes auch jeweils bei Intel (wobei man hier noch bzgl. manueller Optimierung diskutieren könnte)

Das alles gleicht der bisher (!) irrelevante PCIe 4.0-Standard ganz einfach noch (!) nicht aus.

Am Ende wird es ca. 1 Tag ab Release bzw. Drop der NDA dauern, bis das Nichtvorhandensein einer PCIe-Limitierung durch den "nur" 3.0-Standard (bzgl. der GPU-Leistung; NICHT bzgl. RTX IO, was ja s.o. noch Zukunftsmusik ist) irgendeine HW-Seite bestätigt und dann kann sich die Luxx-Redaktion auf die Schulter klopfen, dass sie mit der schnelleren Gaming CPU schlicht die einzig logische Wahl getroffen hat.

Wie bereits erwähnt, wäre es hier schon rein "wissenschaftlich" aber eigentlich sinnvoll, auch den 10900K noch zu optimieren. Das Limit soll ja einfach nur so weit hoch wie nur irgendwie möglich und da helfen dann auch RAM-Takt und Timings nochmal.

sch4kal · 06.09.2020

dimi0815 schrieb:
Verstehe die Aufregung ehrlich gesagt nicht. Nach dem Threadripper-"Debakel", welches Teile der GPU-Tests aus Limitierungsgründen schlicht ad absurdum geführt hatte, hat man nun die richtige Entscheidung getroffen und das CPU-Limit endlich (!) so weit nach oben gesetzt wie möglich.

Zu der These, dass selbst PCIe 3.0 x8 eine 2080ti gerade mal im 1-2%-Bereich limitiert, gibt es ausreichend Belege. Wir reden entsprechend von einer notwendigen knapp 100%-Steigerung der 2080ti-Leistung, bevor in dem Punkt PCIe 3.0 x16 zum Flaschenhals werden würde. So weit sind dann weder RTX 3000, noch BN bis jetzt.

Bzgl. RTX IO wurde ja auch schon ausreichend nachvollziehbar ausgeführt, dass es (und warum es) bis mindestens im nächsten Jahr absolut keine Rolle spielen wird. Und bis dahin können sowohl bei AMD mit Zen 3 als auch bei Intel mit dann PCIe 4.0-Support noch ausreichend sinnvolle Neuerungen kommen.

Bis dahin muss die Wahl doch recht eindeutig sein:

- höhere IPC in Games bei Intel
- höherer Takt obendrauf auch bei Intel
- höhere RAM-Speeds möglich bei Intel
- straffere Timings bei Intel
- bessere Avg. FPS, Min. FPS & Frametimes auch jeweils bei Intel (wobei man hier noch bzgl. manueller Optimierung diskutieren könnte)

Das alles gleicht der bisher (!) irrelevante PCIe 4.0-Standard ganz einfach noch (!) nicht aus.

Am Ende wird es ca. 1 Tag ab Release bzw. Drop der NDA dauern, bis das Nichtvorhandensein einer PCIe-Limitierung durch den "nur" 3.0-Standard (bzgl. der GPU-Leistung; NICHT bzgl. RTX IO, was ja s.o. noch Zukunftsmusik ist) irgendeine HW-Seite bestätigt und dann kann sich die Luxx-Redaktion auf die Schulter klopfen, dass sie mit der schnelleren Gaming CPU schlicht die einzig logische Wahl getroffen hat.

Wie bereits erwähnt, wäre es hier schon rein "wissenschaftlich" aber eigentlich sinnvoll, auch den 10900K noch zu optimieren. Das Limit soll ja einfach nur so weit hoch wie nur irgendwie möglich und da helfen dann auch RAM-Takt und Timings nochmal.

+1

Sollte sich die Luxx Redaktion dazu nicht in der Lage fühlen, den 10900K ausreichend zu optimieren, stehen da bestimmt zahlreiche Community-Helfer bereit :bigok:

Niftu Cal · 06.09.2020

Herrliche Zeiten, wo im Luxx darüber diskutiert wird ob eine Intel-CPU noch zeitgemäß ist. Ich denke übrigens auch nicht dass es einen großen Unterschied macht, Intel schafft ein paar FPS mehr in 1080p. Früher als es noch vier gegen acht Kerne waren ist es durchaus möglich dass AMD dort flüssiger war - Weil auch die Min-FPS und Frametimes stimmten. Mittlerweile ist es aber egal, da alles mindestens sechs Kerne hat.

dimi0815 · 06.09.2020

Es geht aber darum, in verschiedenen Auflösungen die von den Grafikkarten (!) maximal erreichbaren FPS-Werte zu ermitteln. Und mit RTX 3000 könnten wir aktuell so weit sein, dass diese bis in WQHD auch in grafiklastigeren Spielen höher liegen als die Werte, welche eine CPU als Basis liefert.

Um hier nichts zu verfälschen und tatsächlich das GPU-Limit zu testen, sollte man das Maximum auf CPU-Seite anstreben. Anders gesagt: Selbst die 2-3 FPS Unterschied (in Wirklichkeit sind es übrigens bedeutend mehr) machen den GPU(!)-Test eigentlich direkt wieder zunichte.

Dampfkanes · 07.09.2020

Don schrieb:
Dampfkanes schrieb:

Da ist das Diagramm meiner Meinung nach nicht korrekt interpretiert worden.

Zum Vergrößern anklicken....

Das stimmt, das habe ich falsch gemacht. Ist nun korrigiert.

Kann passieren.
Bei allen Artikeln auf anderen Newsseiten zu dem Ampere und GTX-30-Series Depp Dive, die ich gelesen habe,
ist es interessanterweise ebenfalls so interpretiert worden, als wäre die betreffende 3000er Karte im genau selben Betriebspunkt leiser und kühler als die damit verglichene 2000er Karte.

@All
diese Gegenüberstellung finde ich fast spannender (3080 und 3090 in einem Diagramm):

Liesel Weppen · 07.09.2020

Dampfkanes schrieb:
diese Gegenüberstellung finde ich fast spannender (3080 und 3090 in einem Diagramm):

Das Diagramm verstehe ich nicht. Die Kühlung wird bei niedrigeren Temperaturen lauter? Die X-Achse müsste doch genau umgekehrt skalieren, bzw die Graphen anderrum sein (links tief, nach rechts ansteigend).

Und von welchen Grafikkarten waren die beiden Kurven, die da rausretuschiert wurden?

DDbom · 07.09.2020

Vllt hat das jemand zuhause selber gemacht zwischen Bier und brezeln

Dampfkanes · 07.09.2020

@Liesel Weppen
In dem Diagramm ist der Verbrauch fixiiert.
Auf der X-Achse ist die Lautstärke aufgetragen.

Bei gegebenem Kühlersetup und fixiertem Verbrauch kann man die Lautstärke nur noch über die Lüfterdrehzahl beeinflussen.
Dreht man schneller, wirds meist lauter und kühler. Dreht man langsamer, gehts in die anderen Richtungen.

Und dabei ist die FE RTX 3090 laut nVidiatrotz des höheren Verbrauchs immer kühler und leiser als die FE RTX 3080.
Gut, bei dem Größenunterschied der beiden Kühler wäre es auch schlimm, wenn nicht.

zum Rausretuschieren:
Hierzu einfach mal die Folien im Hardwareluxx-Artikel anschauen.

fideliovienna · 07.09.2020

Liesel Weppen schrieb:
Das Diagramm verstehe ich nicht. Die Kühlung wird bei niedrigeren Temperaturen lauter? Die X-Achse müsste doch genau umgekehrt skalieren, bzw die Graphen anderrum sein (links tief, nach rechts ansteigend).

Ist in dem Artikel, zu dem du diskutierst ganz gut erklärt, einfach lesen

Das ist mMn ziemlicher Marketing-BS, aber wenns nur das ist und alle anderen Slides passen solls mir recht sein

Neue Details: Ampere und GTX-30-Series Deep Dive

Legende

Experte

Legende

Enthusiast

Experte

Enthusiast

Enthusiast

Urgestein

Enthusiast

Urgestein

Urgestein

Urgestein

Enthusiast

Urgestein

Enthusiast

Urgestein

Banned

pillenkoenig

Guest

Legende

Urgestein

Datenschutzhinweis für Youtube

Legende

Urgestein

Enthusiast

Enthusiast

Urgestein

Legende

Urgestein

Enthusiast

Legende

Enthusiast

Ähnliche Themen