AMD will DRAM und SRAM in das CPU-Package bringen

Thread Starter
Mitglied seit
06.03.2017
Beiträge
113.960
amd.jpg
Auf der High Performance Computing Conference gab Forrest Norrod, Senior Vice President und General Manager der Datacenter-Gruppe bei AMD, eine interessante Präsentation. Dabei ging er zunächst einmal auf die aktuellen Herausforderungen im Chipdesign ein. Diese liegen laut AMD in der Fertigung immer kleinerer Strukturen bei gleichzeitig immer größeren Anzahl an Transistoren und damit einer erhöhten Komplexität sowie der Tatsache, dass die Leistung aktueller Prozessoren kaum noch auf Steigerungen des Taktes zurückzuführen sind, sondern vielmehr auf spezielle Hardwarefunktionen, die bestimmte Berechnungen beschleunigen, eine drastische Erhöhung der Anzahl der Kerne pro Die und...

... weiterlesen
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Für die APU von AMD ist es wohl nur noch eine Frage der Zeit, bis sie über eigenen Grafikspeicher mit direkter Anbindung verfügen. Beeindruckend ist diese Entwicklung !!!
 
diese enteicklung besteht schon seit den 60igern.

deshalb muss nVidia ja aucj raytracing pushen, weil sie sonst in 5-7 jahren weg vom grafikkarten markt sind, wenn eine apu mit schnellem hbm in der mittelklasse wildert.

chipsatz hersteller die eigene chipsätze entwickelt haben für mainboaards haben auch keinen markt mehr im. siehe nVidia damals mit ihren nforce dingern.
 
Diese Entwicklung hat sich ja vor circa einem Jahr mit dem Speicher-Lab von AMD angekündigt.

Den größten Vorteil hätten tatsächliche Desktop-APUs bzw. deren mobilen Ableger in einer "günstigeren" Form.

Ein kompletter Systemchip mit CPU+GPU und HBM3 - welcher vom Preis nur wenig Mehrkosten zum DRAM darstellt - wäre für AMD das nonplus-Ultra.

Sie verkaufen dann praktisch das halbe System auf einem Die und der Hersteller muss praktisch nur noch das Mainboard liefern. Damit steigt AMDs Anteil an Systemkomponenten, während sie gleichzeitig das System so abstimmen können, dass es optimal zusammenpasst.

Auch würde das Mittelklasse-Segment davon komplett eingenommmen werden, was die high-end Sparte weiter unter Druck setzen würde (was den notwendigen Leistungsabstand vergrößtert, damit Otto-Normal zugreift)

Freut mich, dass so schnell schon was realisierbares aus den Laboren gekommen ist.
 
Zuletzt bearbeitet:
vor allem wenn man moderne apus vob amd betrachtet, stell dir ne aktuelle apu mit 4gb hbm vor und etwas oc, die macht sogar die rx 480 4gb kalt
 
vor allem wenn man moderne apus vob amd betrachtet, stell dir ne aktuelle apu mit 4gb hbm vor und etwas oc, die macht sogar die rx 480 4gb kalt

Ich denke 4GB HMB sind etwas knapp für das Gesamtsystem. Ich denke da an Regionen von 8-16GB HBM-Speicher. Moderne Spiele verbraten gerne mal 8GB Systemspeicher und weitere 4-8 kommen dann vom Spiel. Des Weiteren sollen die Chips für die nächsten Jahre halbwegs zukunftssicher sein.

Von der reinen Shaderperformance kann man dann durchaus grob den benötigten Speicherbedarf (Stichwort: Flaschenhals) ableiten, der bei ner angenommenen Verdopplung der derzeitigen APU-Grafikperformance dann gerne 8GB haben darf (womit wir bei einer Vega mit rund 1500 Shadereinheiten liegen würden - nur eben auf Navi adaptiert, was nochmals ein gewisses Plus geben sollte)

Wie der Die realisiert werden würde (4 HBM-Stacks, 1 GPU-Chiplet, 1 I/O Chiplet und 1-2 CPU Chiplets) ist dann AMD überlassen - generell würde das Teil aber schon monströs aussehen. (Was es auch darf, denn es gibt dann praktisch keine weitere Kernsystemkomponente auf dem Mobo)

Am Ende wirkt das Teil wie ein Threadripper auf einem mini-ITX Board. :d
 
Das ist doche eigentlich schon seit über 2 Jahren bekannt.
 
Das ist doche eigentlich schon seit über 2 Jahren bekannt.

Ja und wir haben alle jahrelang am Leben vorbei hier gearbeitet – was du schon alles wusstest, müsstest du eigentlich einer der bestbezahltesten Halbleiteringenieur sein ...
 
Sehe ich das richtig, das die Frequency Scaling Beschrifung total falsch ist? 10hoch3 MHz und 10hoch4 MHz sollen ja sicher 4GHz und 3GHz. darstellen.

Tatsächlich wären 10hoch3 MHz aber nur 30MHz. Gleichzeitig gibt es ein 10hoch1 für 1GHz(10MHz) und ein 10hoch0 was nur 0GHz(0MHz) sein kann. Und Prozessoren aus den 70ern liegen noch unter 0MHz. Doch 0 = 0 egal ob Herz, Megaherz oder Petaherz. Vor allem da der Abstand zwischen 10hoch1 und der untersten Linie genauso groß ist wie zwischen 10hoch1 und 10hoch2 zum Beispiel.

@Shevchen
Problem bei System on a Chip ist nur das man so extrem viele unterschiedliche herstellen müsste. Der eine braucht mehr CPU, der andere mehr GPU, der nächste mehr spezialisierte Prozesse, wieder einer mehr Ram. usw. Jetzt ist alles dagegen recht Modular. Ein übliches Mainboard und man kann als Käufer frei Entscheiden ob man sich nun einen oder 4 Module Ram rein steckt. Erweiterungen sind auch sehr Simpel. Und und und.
Das Konzept ist erst einmal schön, wenn auch lange nichts neues (Siehe Handy Prozessoren). Doch ob, außerhalb des Bürobedarfs sich das auch Durchsetzen wird gegenüber dem bekannten Modularen System, stelle ich in Frage. Zumindest wenn man nicht mal mindestens ein Jahrzehnt an Durchaltevermögen mit bringt.

Zumal die Kosten dann auch schwierig werden. Wenn man mehr Grafikpower benötigt, gleich das ganze Paket kaufen zu müssen. Dagegen könnte dann das Mainboard so lange bestehen, bis es für Anschlüsse wie PCIe, SATA und co neue Standards gibt welche sich nicht via BIOS updaten lassen. Und selbst dann kann vieles bleiben, da die meisten wichtigen Standards von anfang an voll Abwärtskompatibel sind. Viel mehr als SATA, PCIe und USB oder von mir aus DP und Thunderbolt braucht es ja eigentlich nicht mehr.
 
@Don: Nein, er ist DER INGENIEUR :fresse2:
 
Ich denke da an Regionen von 8-16GB HBM-Speicher. Moderne Spiele verbraten gerne mal 8GB

Wir reden hier aber immer noch von APUs, nicht von High End, da passen 4 GB schon noch. Eine APU mit 16 GB HBM, wäre unnötig teuer (der Großteil der Software die man auf einer APU laufen lassen würde, bräuchte so schnellen RAM nicht). Vergiss nicht, dass wenn der Speicher mit auf die CPU kommt, dass dann weniger CPU Chiplets untergebracht werden können und die APU damit so oder so eher im Low End Bereich bleiben wird. Klar werden diese APUs dann Karten wie die 1050 oder so den Markt abgraben, aber mehr wird es auf absehbare Zeit auch nicht.

Der Markt, wo du 16 GB HBM auf einer APU verkaufen kannst, dürfte praktisch nicht existent sein (am ehesten noch fürs Minen). Da dürften 4 GB HBM + 8 / 16 GB DDR4 / DDR5 schon viel wahrscheinlicher sein und mehr Sinn machen.
 
Du vergisst, das APU's einerseits von sehr schnellen Ram sehr gut Profitieren und zum anderen das APU's dann auch Standards für Spieler werden können durch das generelle neue Designe. Bedeutet auf die heutige Zeit runter gerechnet, wären die APU's dann so leistungsstark in desktop Rechnern wie eine 1080 oder besser.

Stark runter gebrochen wäre eine APU dann eine aktuelle Ryzen CPU mit einer 590 drinnen.

Zudem sind 4GB VRam schon für teils kleinere Spiele langsam eine Kotzgrenze. Vielleicht nicht unbedingt für ein billig Ponnyhof Spiel, oder Factorio. Aber selbst TransportFever, CIV und co mögen VRam schon sehr.
 
Sehe ich das richtig, das die Frequency Scaling Beschrifung total falsch ist? 10hoch3 MHz und 10hoch4 MHz sollen ja sicher 4GHz und 3GHz. darstellen.

Tatsächlich wären 10hoch3 MHz aber nur 30MHz. Gleichzeitig gibt es ein 10hoch1 für 1GHz(10MHz) und ein 10hoch0 was nur 0GHz(0MHz) sein kann. Und Prozessoren aus den 70ern liegen noch unter 0MHz. Doch 0 = 0 egal ob Herz, Megaherz oder Petaherz. Vor allem da der Abstand zwischen 10hoch1 und der untersten Linie genauso groß ist wie zwischen 10hoch1 und 10hoch2 zum Beispiel.
Sry, aber wann hattest du das letzte mal höhere Mathematik und einfach logarithmische Koordinatensysteme?
 
Sorry, warum erklärst du nicht einfach was falsch daran ist? Oder hat dein Lehrer dir auch nur gesagt "Ist falsch, aber warum sag ich nicht"? ;)
 
Nichts ist daran falsch. AMD hat einfach nur ne logarythmische Achse gewählt. Wo ist da nun das Problem? Und nein, 10^3Mhz sind nicht 3ghz sondern 1000Mhz. Und 10^4 dann entsprechend 10000Mhz (10Ghz). Ist doch alles super... Wie willst du sonst die Entwicklung der Taktrate seit dem Beginn der Halbleiterfertigung vernünftig darstellen? Wir sind ja von wenigen Hz zu mittlerweile 5ghz (5 * 10^9 Hz) vorgedrungen.

Um das mal aufzudröseln (und da es OT ist im Spoiler):
Sehe ich das richtig, das die Frequency Scaling Beschrifung total falsch ist? 10hoch3 MHz und 10hoch4 MHz sollen ja sicher 4GHz und 3GHz. darstellen.

Nein, 10hoch3 = 1000 = 10x10x10 und 10^4 = 10000 = 10x10x10x10. 3ghz wären 3x10^3Mhz also 3 x 10x10x10 und 4ghz wären 4x10^3Mhz also 4x10x10x10

Tatsächlich wären 10hoch3 MHz aber nur 30MHz. Gleichzeitig gibt es ein 10hoch1 für 1GHz(10MHz) und ein 10hoch0 was nur 0GHz(0MHz) sein kann.
Nein.
10^3Mhz = 1000Mhz
3x10^1Mhz = 30Mhz
10^1Mhz = 10Mhz
10^0Mhz = 1Mhz (ja, echt!)

Und Mhz selbst sind wiederrum eine Million Hertz. Also:
1Mhz = 10^6 Hz
1Ghz = 10^9 Hz
1Khz = 10^3 Hz

Jetzt klarer? :)
 
Zuletzt bearbeitet:
Ok, danke für die Erklärung. :)

PS: Aus der Schule bin ich schon eine ganze Weile raus und diese Rechenarten sind in meinem Beruf einfach nicht nötig.
 
Siehe Spoiler im Vorpost, hab dir da mal die korrekten Werte hingebastelt. Hoffentlich wirds damit dann etwas klarer ;)
 
:bigok:

Danke aber hatte es dann verstanden, als du es schon grob angerissen hast. Da hat meine damalige Mathe Lieblingslehrerin es doch geschafft, das sich Wissen länger hält. :p
 
dieser Meinung bin ich auch da für 90% der Nutzer 4GB VRAM ausreicht.

Ich stelle mir sowas auch eher bei den OEM's vor die dann relativ kostengünstig ohne hohen Montageaufwand kleine, kostengünstige Rechner zusammenbauen.

z.B haben wir in unserem Unternehmen die HP 285 G3 serie mit 8GB DDR4 RAM, AMD Ryzen 5 2400G und 256GB PCIe SSD für unglaubliche 380€ EK. Für etwas mehr hätte man schon fast Workstation Niveau und man könnte auch einige teure Workstations ersetzten die meinst eh nur zum anschauen der CAD Modelle dienen.
 
Kleiner Fehler im Artikel: Die Epycs sind erst zweite Generation, da Zen+ im Serverbereich übersprungen wurde.
 
Wir reden hier aber immer noch von APUs, nicht von High End, da passen 4 GB schon noch. Eine APU mit 16 GB HBM, wäre unnötig teuer (der Großteil der Software die man auf einer APU laufen lassen würde, bräuchte so schnellen RAM nicht). Vergiss nicht, dass wenn der Speicher mit auf die CPU kommt, dass dann weniger CPU Chiplets untergebracht werden können und die APU damit so oder so eher im Low End Bereich bleiben wird. Klar werden diese APUs dann Karten wie die 1050 oder so den Markt abgraben, aber mehr wird es auf absehbare Zeit auch nicht.

Der Markt, wo du 16 GB HBM auf einer APU verkaufen kannst, dürfte praktisch nicht existent sein (am ehesten noch fürs Minen). Da dürften 4 GB HBM + 8 / 16 GB DDR4 / DDR5 schon viel wahrscheinlicher sein und mehr Sinn machen.

Kommt auf die Auflösung an. Wenn du auf 1080p rumzocken willst, reichen vielleicht die 4GB aus. Wenn du aber auf 1440p zocken willst, sind 4GB schon bedenklich knapp. Auf aktuell laufenden Spielen mit ner aktuellen APU kannst du auf 1080p auf mittleren Details deine 60FPS erreichen. Bei der nächsten APU Generation erwarte ich einen Sprung in der Grafikperformance von rund 33%-50% (weil Navi+7nm) und gleichzeitig ist die HBM-Anbindung dann so effizient für die GPU, dass du weitere Frames pushen kannst. Oder anders ausgedrückt: Die Shaderperformance ohne Speicherflaschenhals würde dann ausreichen, um 1440p auf hohen Details mit 60 FPS darzustellen (Daumenschätzung) und da reichen die 4GB für die GPU dann nicht mehr aus.

16GB Gesamtspeicher sind da schon ordentlich.

Auch nicht zu vergessen: Der HBM Speicher übernimmt dann sowohl die Aufgabe des VRAMs als auch des System-RAMs. Beide wollen bezahlt werden. Wenn der HBM aber beide kombiniert, ist der auf einmal gar nicht mehr sooo teuer.
 
Tatsächlich wären 10hoch3 MHz aber nur 30MHz. Gleichzeitig gibt es ein 10hoch1 für 1GHz(10MHz) und ein 10hoch0 was nur 0GHz(0MHz) sein kann.
Was ist an Mathe so schwer? In den 70ern waren 1MHz durchaus realistisch und sind wie dem Bild nach zwischen 10^3 und 10^4MHz, also zwischen 1000MHz (=1Ghz) und 10.000MHz = 10Ghz) und das stimmt ja wohl auch. 10^0 ist auch nicht 0 sondern 1, denn irgendwas hoch 0 ist immer 1.
 
Auch nicht zu vergessen: Der HBM Speicher übernimmt dann sowohl die Aufgabe des VRAMs als auch des System-RAMs. Beide wollen bezahlt werden. Wenn der HBM aber beide kombiniert, ist der auf einmal gar nicht mehr sooo teuer.
Das bedeutet aber auch das CPU wie GPU den Speicher brauchen und damit für den HBM wieder mehr Masse an Daten kommen, sprich mehr Speicherplatz benötigt wird. Was es wiederum Teuer macht. Wie im Beitrag ja auch geschrieben ist bei HBM ja das Problem der Wärmeabfuhr.

@Holt
Nicht so lesefaul. Ist alles schon längst geklärt. ;)
 
Das bedeutet aber auch das CPU wie GPU den Speicher brauchen und damit für den HBM wieder mehr Masse an Daten kommen, sprich mehr Speicherplatz benötigt wird. Was es wiederum Teuer macht. Wie im Beitrag ja auch geschrieben ist bei HBM ja das Problem der Wärmeabfuhr.

Jain, die Speicherbelastung bei ner GPU auf Vollast ist deutlich höher als bei ner CPU. Die CPU will ganz oft, ganz kleine Speicherbereiche einlesen und beschreiben. Ne GPU will nicht ganz so oft, dafür aber viel viel mehr Speicher belesen und hätte ihn gerne zum nächsten Frame auch oft und gerne mit komplett neuen Daten beschrieben. HBM kombiniert beides wunderbar. Geringe Latenz für die CPU mit einer wunderbaren Transferrate, welche eine GPU nicht ausbremst - siehe Radeon VII. Trotz weniger Shader mehr Performance, weil der Speicher keinen Flaschenhals mehr darstellt. Und die Latenz beim HBM ist auch noch um ein vielfaches besser als beim derzeitigen DRAM - und es ist kein Gehemnis, dass AMD CPUs zur Zeit ein "kleines" Latenzproblem haben und von schnellerem Speicher deutlich profitieren.

Jetzt verbinde mal beides und schätze mal, mit viel viel mehr Performance du allein durch den wegfallenden Speicherflaschenhals aus der Tür gehen würdest und DANN klopf da drauf noch mal die Verbesserungen der Navi Architektur und die verbesserte IPC von der Ryzen 3000'er Serie.

Vielleicht wird ja jetzt n Schuh draus. ;)

PS: Was die Hitze angeht muss AMD noch etwas nachschleifen - aber dank der neuen Chip-Heatpipe Technologie von Samsung sollte sich diese Problematik deutlich entschärfen. Und mit etwas optimierten "Scheduler" (aka, die oberen Chips haben Priorität, die unteren Chips werden später angesprochen) bist du dann im grünen Fahrwasser.
 
Zuletzt bearbeitet:
Falls HBM unter dem Heatspreader kommen sollte, denke ich, wird der dann einfach als L4-Cache gehändelt. Das was die CPU nicht braucht, darf die GPU haben und umgekehrt.

Einerseits hat so die GPU schnellen Speicher und die CPU etwas mehr Cache.
 
Falls HBM unter dem Heatspreader kommen sollte, denke ich, wird der dann einfach als L4-Cache gehändelt. Das was die CPU nicht braucht, darf die GPU haben und umgekehrt.

Einerseits hat so die GPU schnellen Speicher und die CPU etwas mehr Cache.

Kommt auf den I/O Chip an. Vielleicht ist der dann so effizient/schnell/whatever, dass der HBM(3) als L3 Cache genutzt werden kann, während es für die GPU business as usual wäre. AMD versucht ja die Speicherelemente so weit wie möglich von den Rechenelementen zu trennen, damit die Abhängigkeiten von beiden verschwinden (deswegen ja der I/O die). Je nachdem, wie gut der HBM3 performt, könnte man das in Betracht ziehen. Gesparte Chipfläche die für was anderes genutzt werden kann. Der L3 ist ja nicht gerade klein.

Edit: Aber dafür müsste der I/O Chip auf einem aktiven Interposer sitzen, sonst wird das mit den Latenzen nix mehr. Also wenn überhaupt Zukunftsmusik. Auf nem passiven Interposer wäre der HBM L4, ja.
 
Zuletzt bearbeitet:
Irgendwann kommt sicher der HBM-PHY direkt in eine I/O-Die.

Eien GPU muß aber mit mehr HT-Links angebunden werden, weil die einen höheren Datendurchsatz als eine CPU benötigt.
 
bschicht86, natürlich mit das HBM unter den HS, denn es funktioniert ja nur weil es sehr, sehr viele Verbindungen zum RAM Controller hat, die normalen RAM Riegel haben 64 Bit (72 mit ECC) und HBM hat 1024 Bit breite und außerdem haben HBM getrennt Leitungen für die Adressierung von row und column, was noch mehr Verbindungen erfordert, aber die Latenz ein wenig senkt, da beides gleichzeitig und nicht wie bei normalen DRAM nacheinander übertragen wird. Daher funktioniert HBM immer nur mit einer Anbindung über Interposer oder eben Intels EMIB oder dem neuen Foveros, aber eben immer mit Verbindungstechniken die eine sehr hohe Pindichte bieten, aber auch nur kurze Wege ermöglichen. Interposer sind Halbleiter und werden entsprechend ab einer bestimmten Größe sehr teuer.

Außerdem geht es hier um die High Performance Computing Conference, da ist HBM aus einem nämlich Grund relevant wie bei Grakas, denn auch beim HPC muss man oft viel Daten durch die Rechenwerke schauffeln, genau wie bei Grakas und braucht daher eine hohe RAM Bandbreite. Für den Heimanwender ist das nichts, der benötigt die RAM Bandbreite gar nicht, möchte nicht nur vorkonfigurierte Kombinationen von CPU und RAM kaufen können (HBM muss immer der CPU Hersteller verbauen, die kann man nicht nachrüsten) und möchte vor allem die hohen Kosten dafür nicht bezahlen.
 

Ähnliche Themen

Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh