128/256 Bit oder 192/384 Bit: Die Anbindung von GPU-Speicher im Detail erklärt

Thread Starter
Mitglied seit
06.03.2017
Beiträge
113.554
Neben der GPU selbst bestimmt einerseits der Standard des GPU-Speichers, die Menge und zusätzlich auch deren Anbindung die Performance einer Grafikkarte. In den technischen Eigenschaften zu den verschiedenen Grafikkarten-Modellen liest man, dass der VRAM entweder mit 128, 192, 256 oder gar 384 Bit angebunden ist und gleichzeitig eine entsprechende Speicherbandbreite bereitstellen kann, die eine wichtige Rolle bei grafikintensiven Anwendungen und gerade in höheren Auflösungen spielt. Doch was bedeutet das im Detail und wie wird der Speicher auf dem Grafikkarten-PCB angebunden? Wie wird die Speicherbandbreite berechnet? Diese durchaus berechtigten Fragen wollen wir gerne für unsere Leser einmal im Detail erklären.
... weiterlesen
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Tut mir leid, das ist sehr viel Text für sehr wenig Inhalt.

Und bei einer Sache bin ich mir nichtmal sicher, ob das richtig ist: Hat nun eine Geforce 3090 mit 24GB wirklich 24 16Bit-Controller, oder werden an die gleichen 12 32Bit-Controller wie bei der 3080 12GB/3080Ti einfach zwei Chips pro Controller angebunden? Die Anzahl vorhandener Controller kann sich ja im gleichen GA102-Chip nicht unterscheiden.

Während der letzten beiden Generationen war auch immer mal die Rede von non-binären VRAM-Chips (damals AFAIR 1,5GB), mit denen eben doch z.B. 12GB an 256Bit und 9GB an 192Bit möglich gewesen wären. Bei DDR5 haben wir ja jetzt gerade diese non-binären Chips bekommen und ich frage mich, warum die Idee seitens der Grafikkartenhersteller offenbar nicht weiter verfolgt wurde. Gerade Nvidia hat ja sehr offensichtlich mit schmalerem Speicherinterface und dafür höherem Speichertakt einen weg eingeschlagen, um nicht gleich doppelt soviel Speicher in jeder Klasse anbieten zu müssen.

Das funktioniert auch bei Ada so gut wie noch nie - noch bei Turing war AFAIK die Anzahl der ROPs an die aktiven Speichercontroller gekoppelt, so dass weniger Speichercontroller sich auch auf andere Werte als die Bandbreite niedergeschlagen hätte.

Was mir im Artikel noch fehlt, sind ungerade Anbindungen, auch wenn es die schon länger nicht gab, wie bei der GTX 970, GTX 660(Ti) und GTX550Ti.
 
Was mir im Artikel noch fehlt, sind ungerade Anbindungen, auch wenn es die schon länger nicht gab, wie bei der GTX 970, GTX 660(Ti) und GTX550Ti.
Da hatte ich auch überlegt, das Thema mit reinzunehmen, aber das sind schon eher besondere Exoten und daher habe ich mich auf die wirklich brauchbaren Anbindungen konzentriert, die auch Sinn ergeben. Mal von den Theorie-Anbindungen abgesehen.
 
Damals waren die Speichercontroller auch AFAIR noch nicht so fein in 32Bit-Einheiten untergliedert, sondern 64Bit. Bei GTX660 usw. waren es allerdings AFAIK 8x256MB, nur dass an einen 64Bit-Controller vier Chips angebunden waren, während es bei der GTX 550Ti 4x128+2*256MB waren, so dass jeder 64Bit-Controller zwei Chips hatte.
 
Früher gab es auch Grakas mit nem 512bit SI ohne HBM oder sowas.
Und - die rtx 3090 hat nur 12 Speicherkanäle, nix mit 24. Die RAMs sind einfach in Reihe geschaltet sozusagen um das mal einfach auszudrücken, also Vorder und Rückseite ist jeweils ein Channel. Daher ist es bei solchen Konstrukte auch etwas blöd einen defekten Speicher zu finden mit der Diagnose Software, wenn die Software sagt auf A1 gibt's z. B. Nen Fehler - hat man zwei Chips die man ablöten müsste und entweder einzeln durch essen oder direkt tauschen müsste.
 
Blöde Frage für 500:

Der "Infinity Cache" wurde hier mit dem L2 Cache gleichgesetzt.
Existierte das also nur im Marketingsprech von AMD, ähnlich wie SMA und ReBar identisch sind?
Gab es da Unterschiede, oder war das der Grund warum der L2 Cache von Ampere (< 10 MB) zu Lovelace (< 100 MB) erhöht wurde um da gleichzuziehen?
 
Und - die rtx 3090 hat nur 12 Speicherkanäle, nix mit 24. Die RAMs sind einfach in Reihe geschaltet sozusagen um das mal einfach auszudrücken, also Vorder und Rückseite ist jeweils ein Channel.
Danke, ist korrigiert. ;)
 
Um es genau zu erfahren wie das Verdoppeln der Speicherchips funktioniert: das ist der x16 Clamshell Modus, die Einzelnen Speicher arbeiten dann mit 16bit, und da zwei Chips pro Kanal da sind, addiert sich das auf 32bit auf, und die GPU sieht auch nur diese Einheit mit 32bit - kann es also nicht unterschieden ob das ein großer, oder zwei kleine Chips sind.

Hier im Micron Datenblatt auf Seite 4 wird das auch nochmal ganz gut erklärt.
 

Anhänge

  • tned01_gddr5_sgram_introduction.pdf
    449,8 KB · Aufrufe: 222
Danke.

Interessant ist es für mich, wie man einen Text gestaltet, damit er für Halb - Laien lesbar ist.

Kommentare, wie es ist zu viel Text, sind leider bedenklich.
 
Blöde Frage für 500:

Der "Infinity Cache" wurde hier mit dem L2 Cache gleichgesetzt.
Existierte das also nur im Marketingsprech von AMD, ähnlich wie SMA und ReBar identisch sind?
Gab es da Unterschiede, oder war das der Grund warum der L2 Cache von Ampere (< 10 MB) zu Lovelace (< 100 MB) erhöht wurde um da gleichzuziehen?
Interessante Frage, hier wird es ganz gut erklärt:
Also in der Theorie eine schnellere Anbindung als L2. Nvidia hat mit einem größeren L2-cache bei Ada nachgezogen und die Wirkung für den Nutzer ist dadurch am Ende "vergleichbar".
Falls von mir falsch interpretiert, lasse ich mich gerne korrigieren :)
 
Der Cache erfüllt die Funktionsweise eines L2 oder L3 die Seite bringt darüber keinen Aufschluss, geschweige denn das ein L3 Cache schneller sei als L2 :fresse: .

Radeon GPUs haben tatsächlich einen ganz anderen Aufbau als Nvidia's und die Art wie ein Cache aufgebaut ist hat sich stark von den CPUs entfernt woher diese Beschreibung urspünglich herkommt, der L2 Cache seitens Nvidia ist schon "unified" wenn man so will, daher ist der Vergleich mit dem L3 Cache seitens der aktuellen Radeon schon halbwegs korrekt.
 
Ein 320-bit-Interface gab es auch schon deutlich früher bei (z.B.) der 8800 GTS 320, die dann auch tatsächlich günstiger war als das vollbestückte Modell.
 
Es ist vor allem zuviel inhaltsleerer Text. Das hätte man deutlich kürzer fassen können.
Es ist halt immer so: Schreibt man zu wenig Text, ist es falsch. Schreibt man zu viel Text, ist es falsch. Sprich: Wie man es macht, ist es falsch. ;) Aber es ist ja bekannt, dass man dich nicht so einfach zufriedenstellen kann. ;)
 
Das Cache King ist, sieht man ja auch am X3D.. das der Flaschenhals des RAM etwas ausgeglichen wird.
Das Prinzip wird überall verwendet, auch bei SSDs. Nvidia hat schon immer bewusst am richtigen Ende gespart. Damit man auf jeden fall ein End of Life Produkt erhält.

Die 4070 hätte man locke rauf 16 GB aufbauen können und die 4080 auf 20 GB (Doppelter Speicher mit gleiche Anbindung wie die 3080).
Das ist schon bitter wenn man sieht wie Nvidia die Sachen künstlich beschneidet.

@AssassinWarlord wie teuer ist den so 1 GB Riegel?
 
Zuletzt bearbeitet:
Das meiste war mir zwar bereits bekannt, aber trotzdem ein sehr interessanter Artikel (y)

Man kann also durchaus sagen, dass es für den Endkunden egal ist ob eine Grafikkarte ein kleineres Speicherinterface und dafür den schnelleren Speicher oder umgekehrt hat, richtig?
Also eine RX7900XT hat trotz des älteren GDDR6 Speichers insgesamt bei der Speichergeschwindigkeit die Nase gegenüber der RTX4080 vorn (800 vs 717 GByte/s) - oder sehe ich das falsch?
 
Ich hab noch was interessantes gefunden:
GTX-1650-GDDR6-vs-GDDR5-Performance-3DMark1.png

Hierbei handelt es sich um eine GTX1650 die es in 2 Ausführungen gegeben hat, als GDDR5 und als GDDR6 laut Webseite
bis minimal unterschiedliche Taktraten, handelt es sich um den gleichen Ausbau in Transistoren etc.

Sehr interessant zu sehen, das man auch durchaus nochmal eine Einsteiger Karte mit günstigerem RAM hätte ausstatten können.
Das Upgrade hat in dem Fall gerade mal im Durchschnitt um die 7,1%
 
Ich hab noch was interessantes gefunden:
GTX-1650-GDDR6-vs-GDDR5-Performance-3DMark1.png

Hierbei handelt es sich um eine GTX1650 die es in 2 Ausführungen gegeben hat, als GDDR5 und als GDDR6 laut Webseite
bis minimal unterschiedliche Taktraten, handelt es sich um den gleichen Ausbau in Transistoren etc.

Sehr interessant zu sehen, das man auch durchaus nochmal eine Einsteiger Karte mit günstigerem RAM hätte ausstatten können.
Das Upgrade hat in dem Fall gerade mal im Durchschnitt um die 7,1%
Ahja, ebenfalls ein interessanter Artikel. Was hier nämlich auch noch erwähnt wurde ist der Stromverbrauch: "Power consumption also marginally dropped by about 3% in power per bit transferred."
Das könnte dann einer der Gründe sein wieso eine 4080 effizienter als eine 7900XT ist. Performance-technisch wird aber die Radeon zumindest beim Speicher insgesamt wohl wirklich schneller sein.
 
Warum sind moderne Grafikkarten eigentlich so riesig?
 
Was für eine Frage, natürlich weil sie viel Leistung haben. Karten wie die 3090 setzten da neue (Negativ)Rekorde. Und wir können froh sein, dass die kein 2-Slot-Blowerteil daraus gemacht haben. Die älteren High-End-Karten hatten dazu nie die TDP der heutigen. Da war bei 250 W Schluss. Und heute haben wir die in der Mittelklasse.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh