AMDs Roadmap: Zen 2 und Vega 7 nm fertig – Zen 3, Navi und Next-Gen im Plan

Als ob AMD nen 16 Kerner bringt mit Ryzen 2 ... das ich nicht lache. Die zerstören sich also einfach selbst den TR und bringen nen 16 Kerner als Mainstream :P hört doch bitte mal auf zu träumen! AMD ist genau so ein Unternehmen wie Intel und wird sich nicht seine eigene HEDT Plattform torpedieren.

TR mit Zen2 fängt dann halt bei 16 Kernen an und endet bei 32.
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Der Löwenanteil an Umsatz wird im Mittelklassesegment gemacht, also ist es Einleuchtend, dass sich AMD auf diesen Bereich konzentriert.

nVidia hat 70% Marktanteil ... selbst in der Mittelklasse sind sie besser wenn man alle Punkte abseits von reinen FPS mit einbezieht. Das muss man sich einfach ehrlich eingestehen. AMD verbraucht mehr, ist dadurch lauter und je nach Spiel mal ein paar FPS vorne oder eben hinten. Wenn die "neue" Mittelklasse von AMD kommt ist nVidia so weit, dass es 1080 Leistung auf dem Preisnivau zwischen 1050ti und 1060 gibt. Nach VEGA glaube ich dem Verein was GPUs angeht einfach gar nichts mehr.
 
Meine Glaskugel sagt folgendes zu Zen 2:

Ein Cluster wird 6 Kerne statt 4 haben also wird das Topmodell ein 12 Kerner.
 
@Mo3Jo3 Die Begründung dass AMD nicht will, dass die Entwickler faul werden ist genial.

OkayOkay, faul war das falsche Wort. :haha:
Sagen wir mal, die Anreize zur Optimierung würden dann reduziert und die Entwickler würden Geld sparen.

Edit: abgesehen davon gibt es schon CCXˋ mit 8 Kernen bei Threadripper/Epyc.
 
Zuletzt bearbeitet:
Finde das eigentlich recht spannend was AMD vorhat mit Navi, wenn sie in der Mittelklasse ein technisch gutes Produkt entwickeln, dass keine wesentlichen Schwächen aufweist, kann das auch eine Basis für Mehr werden.

Abschreiben könnte man sie, wenn sie keine Perspektive oder Strategie aufzeigen würden, dass ist aber doch nicht der Fall, daher. :)
 
abgesehen davon gibt es schon CCXˋ mit 8 Kernen bei Threadripper/Epyc.

Nein, gibt es derzeit nicht.

Bis jetzt gibt es nur ein CCX-Design mit 4 Kernen, wo durch deaktivieren von Kernen unterschiedliche Konfigurationen möglich werden. Was du meinst, sind Zeppelin-Dies, denn diese haben 8 Kerne, da diese aus jeweils 2 CCX bestehen. Ryzen hat 1 Zeppelin-Die, Threadripper hat 2 (funktionierende) und Epyc hat 4. Zu beachten gilt, dass bei den unterschiedlichen Konfigurationen die Anzahl der aktivierten Kerne der CCX jeweils synchron sein muss, sodass nur Konfigurationen beispielsweise bei Threadripper wie (4+4)+(4+4) oder (3+3)+(3+3) möglich sind.

Quelle: Zen - Microarchitectures - AMD - WikiChip

Laut Gerüchten (oder Wunschdenken) soll es bei Zen2 auch zusätzlich CCX mit 6 oder 8 Kernen geben. :wink:
 
Zuletzt bearbeitet:
Laut Gerüchten (oder Wunschdenken) soll es bei Zen2 auch zusätzlich CCX mit 6 oder 8 Kernen geben. :wink:

Ich würde von 6C pro CCX ausgehen. Das gibt nen Epyc 2 mit 48 Cores, nen TR mit 24 Cores, Ryzen mit 12C und ganz wichtig, ne APU mit 6C (in anbetracht der 6C bei CFL von Intel)
 
amd-ccx-epyc-cpu-presentation-slides-1.jpg

Quelle: What is CCX? (AMD) - Custom PC Review

Wie auf dem Bild zu erkennen ist, sind alle 4 L3-Cache-Controller direkt miteinander verbunden, umso zu ermöglichen, dass jeder Kern eine möglichst gleichbleibende durchschnittliche Zugriffslatenz auf jeden L3-Cache-Block hat. Daher resultieren ja auch die guten Latenzen bei der Intra-CCX-Kommunikation. Bei 6 oder auch 8 Kernen in einem CCX ist dieses direkte verbinden der Controller aber meiner Meinung nach nicht mehr so einfach möglich und es müssten größere Umstrukturierungen an dem CCX durchgeführt werden und deren Komplexität würde auch steigen. Es wäre natürlich auch möglich, dass eben nicht mehr alle Controller direkt miteinander verbunden werden, aber das wäre ein Tradeoff bezogen auf die Latenzen. Wenn AMD aber schon den Schritt geht, hier den Aufwand in eine Umstrukturierung des CCX vorzunehmen, dann denke ich, dass die eher direkt auf 8 Kerne per CCX gehen und sich auch so einen zeitlichen Puffer zulegen, bevor die wieder größere Änderungen an dem CCX vornehmen.

Ich sehe AMD aber eher dabei, dass sie den Aufbau von den Zeppelin-Modulen verändern und diese auf 4 CCX pro Modul aufstocken für TR und Epyc. Im Mainstream wird dann weiter das Modul mit 2 CCX gefahren und dank der Platzeinsparungen durch 7nm, ist es denen dann eventuell auch möglich, hier eine GPU hinzu zupacken, ohne dass ein CCX abgeschnitten werden muss.
Klar gibt es auch bei diesem Ansatz Nachteile, aber ich glaube, dass er einfacher umzusetzen und AMD erst später anfängt an dem CCX größere Veränderungen vorzunehmen.
 
@Paddy92
Wie kommen dann 32Kerner mit 4 Dies zustande? Oder befinden sich auf einem Die zwei Vierkern CCX?

Edit:
... achja ein Zeppelinmodul
 
Zuletzt bearbeitet:
@Paddy92
Warum sollte das ein Problem sein?
Die einzige Frage ist doch, wie bindet man da mehr "Cacheteile" an den CCX, wenn jeweils immer ein Stück Core und ein Stück Cache zusammen gehören. Ich sehe da wenig bis gar kein Problem einfach sechs Cores + 8GB L3 Cache (wie gehabt) anzubinden. Oder eben sogar auf 12MB L3 Cache aufzubohren, wenn es bei der virtuellen Zuordnung von 2MB pro Core bleibt. Am Ende ist einzig und allein die Anzahl der Connectoren an der wie auch immer gearteten Anbindung entscheidend.


PS: dass man die CCX Anzahl erhöht aber bei vier Cores bleibt halte ich für unwahrscheinlich. Zwischen den CCXen entsteht ja jetzt schon eine Latenz. Beim ersten Ryzen (keine Ahnung wie das aktuell ist - kenne keine derartigen Messungen) wird durch den Zwang über zwei CCXen zu arbeiten teils sogar ne ganze Menge Performance verschenkt. Da gabs Benches mit gestellten Szenarien und 20% und mehr Unterschied zwischen CCX1 und 2 vs. CCX1 oder 2 only. Bei exakt gleichem Rest...
Da auf drei oder gar vier CCXen zu setzen bringt am Ende doch keine sonderliche Vorteile - da man so oder so ne neue Maske braucht und nicht einfach die alten DIEs weiter nutzen kann. Wozu also daran festhalten? Ein Vollmodulares Design ist doch gerade bei solchen Punkten von Vorteil - man skaliert einfach die Teile nach oben ohne wirklich viel neu zu entwickeln. Ob das nun also vier Cores + 8MB Cache oder sechs Cores + 8/12MB Cache sind, spielt weniger eine Rolle...

- - - Updated - - -

@Paddy92
Wie kommen dann 32Kerner auf 4 Dies zustande? Oder befinden sich auf einem Die zwei Vierkern CCX?

Ja, exakt das.
Ryzen = 1 * 2 * 4C CCXen
TR = 2 * 2 * 4C CCXen
Epyc = 4 * 2 * 4C CCXen
(Raven Ridge = 1 * 1 * 4C CCX) -> das ist die Ausnahme, dort wurde der zweite CCX zugunsten der GPU "geopfert", weswegen es eben aktuell auch keine 6-8C APUs gibt, vllt sogar nichtmal geben kann - das Design gibts aktuell so nicht her.
 
Zuletzt bearbeitet:
Finde das eigentlich recht spannend was AMD vorhat mit Navi, wenn sie in der Mittelklasse ein technisch gutes Produkt entwickeln, dass keine wesentlichen Schwächen aufweist, kann das auch eine Basis für Mehr werden.

Abschreiben könnte man sie, wenn sie keine Perspektive oder Strategie aufzeigen würden, dass ist aber doch nicht der Fall, daher. :)

Ich hab die schon immer ignoriert da die einfach beim Stromverbrauch und Abwärme nichts vorzuzeigen haben was die Strom und Abwärme erklärt.
 
Ob Ober- oder Mittelklasse, AMD kriegt die Rohleistung bislang einfach nicht auf die Straße. Solange dieses Architekturproblem nicht gelöst ist (siehe Bulldozer/Ryzen), werden sie weiter zweite Wahl bleiben.
 
Wo bekommt Ryzen die Leistung nicht auf die Straße?

Wer MT Leistung braucht fährt doch bestens mit Ryzen?
 
Wo bekommt Ryzen die Leistung nicht auf die Straße?

Wer MT Leistung braucht fährt doch bestens mit Ryzen?

Nee, Ryzen ist ja offensichtlich die Lösung für die seit Bulldozer bestehenden Probleme. Denn da ließ sich letztlich nichts kaschieren, das ganze Konzept mußte in die Tonne.
 
Zuletzt bearbeitet:
Sorry, ich war nicht richtig, es stimmt Navi wird tatsächlich noch auf GCN basieren, allerdings sehr stakt überarbeitet.
 
Was ist bei dir Sehr stark überarbeitet?
 
Durch den neuen Fertigungsprozess in 7 nm sowie eine vollkommen überarbeitete Architektur erwartet man nicht nur eine höhere Effizienz,
sondern auch eine signifikante Leistungssteigerung, welche an die aktuellen Vega-Grafikkarten sowie die Nvidia GeForce GTX 1080 herankommen soll, und das in der Mittelklasse.
Der Verzicht auf HBM zu Gunsten einen vollkommen neuen Speicherinterface auf GDDR6 Basis. Brachial wird die Anpassung am Preisgefüge sein, ich reche mal mit 259 Dollar pro Card.
 
Zuletzt bearbeitet:
Warum sollte das ein Problem sein?

Wir haben mehr oder weniger die gleiche Frage, wie ordnet man das an oder macht das am Besten, sodass alle Controller direkt miteinander verbunden sind? Beim Viereck hat man in der Mitte ganz einfach diese X Verbindung. Aber wie macht man das sonst?

Bildet man ein Sechs- respektive Achteck? => Platzverschwendung, da unnötige Zwischenräume entstehen?
Bleibt man beim Viereck? => Längere Verbindungen nötig => Wie wirkt sich das auf die Latenzen aus? Fehleranfälliger?
Sehen wir einen Ringbus oder ähnlichen Ansatz im CCX? :d

Vielleicht stelle ich mir das auch einfach nur zu kompliziert vor und sehe daher keine einfach Lösung.


PS: dass man die CCX Anzahl erhöht aber bei vier Cores bleibt halte ich für unwahrscheinlich. Zwischen den CCXen entsteht ja jetzt schon eine Latenz. Beim ersten Ryzen (keine Ahnung wie das aktuell ist - kenne keine derartigen Messungen) wird durch den Zwang über zwei CCXen zu arbeiten teils sogar ne ganze Menge Performance verschenkt. Da gabs Benches mit gestellten Szenarien und 20% und mehr Unterschied zwischen CCX1 und 2 vs. CCX1 oder 2 only. Bei exakt gleichem Rest...

Dem könnte man durch einen höheren Takt der Data Fabric entgegenkommen, so wie man es aktuell bei Ryzen mit höherem Ramtakt macht.


Da auf drei oder gar vier CCXen zu setzen bringt am Ende doch keine sonderliche Vorteile - da man so oder so ne neue Maske braucht und nicht einfach die alten DIEs weiter nutzen kann. Wozu also daran festhalten? Ein Vollmodulares Design ist doch gerade bei solchen Punkten von Vorteil - man skaliert einfach die Teile nach oben ohne wirklich viel neu zu entwickeln. Ob das nun also vier Cores + 8MB Cache oder sechs Cores + 8/12MB Cache sind, spielt weniger eine Rolle...

Bezogen auf den Mainstream stimme ich dir da zu, also bezogen auf die normalen Ryzen. Aber bei Threadripper können hier schon Vorteile ergeben. Die Latenzen sind laut dem Test von THG bei Die-To-Die (257ns) deutlich höher als bei Cross-CCX (178ns). Wenn jetzt 4 anstatt 2 CCX auf einem Die liegen, dann könnte man Threadripper Modelle bis 16 Kerne mit Latenzen im Cross-CCX-Bereich bringen und auch Threadripper Modelle mit 2 aktiven Dies könnten geringere Average Latenzen haben, wenn man durch schlaue Mechanismen die Die-to-Die-Kommunikation einschränkt. Letzteres würde dann auch für Epyc gelten.

Cache und Speicher-Performance, IPC - AMD Ryzen 7 2700X und Ryzen 5 2600X im Test
 
Vielleicht stelle ich mir das auch einfach nur zu kompliziert vor und sehe daher keine einfach Lösung.
Wahrscheinlich das...
Ich würde mich nicht auf diese schematische Darstellung mit dem Kreuz im Viereck versteifen. Das ist halt nur ein Schema. Wie du auf dem DIE Shot sehen kannst ist das kein Kreuz in der Mitte, sondern da hängen quasi pro Core vier Blöcke Cache verbunden über diese "Mittelstege" zusammen.
Warum sollte man dort nicht jetzt einfach zwei weitere dieser Dinger dran bauen können?
Nimmt man das Schema 1:1, kreuzen sich die Datenleitungen in der Mitte, wenn das mit zwei Sachen geht, geht das mit drei auch. Dann bekommt halt jeder Cacheblock eine Verbindung mehr und du hast alle sechs Cores angebunden.

Wie man das am Ende genau realisiert, ist denke ich nicht das größte Problem. NV hat damals in den Details zur 970er Speicherproblematik bspw. erklärt, dass dort ne Crossbar mit acht "Beinchen" zum Einsatz kommt. Jeder L2 Cacheblock hängt dort an einem Beinchen. Die 970er hat nur 7 aktive Beinchen -> und damit einen Cache/ROP Block ohne Funktion.
Die Skalierung ist dort mit der Breite/Anzahl gegeben, da die Daten verteilt liegen... Was in dem Fall auch Notwendig ist, um eben vollen Speed zu bekommen.

Beim Ringbus von Intel hängt der Spaß an so einem Bussystem, wie die Cores intern auch. Bei Broadwell wurden zwei Blöcke "Cache" gegen den L4 Cache eingetauscht -> deswegen soll Broadwell eben weniger L3 Cache haben...
Mit dem Mesh auf SKL-X/SP verfolgt man hingegen nen anderen Ansatz - da hängt alles in einer Art Mesh zusammen, so dass die Wege möglichst fast immer gleich sind. Das mehrfach-Ringbus System von vorher hat da Übergänge zwischen den einzelnen Ringen notwendig (also mehrere Hobs zum Cachezugriff)

Wie man schön sieht - verschiedenste Produkte haben verschiedenste Ansätze, auch über die Uplink-Zahl 3 hinaus...

Dem könnte man durch einen höheren Takt der Data Fabric entgegenkommen, so wie man es aktuell bei Ryzen mit höherem Ramtakt macht.
Entgegenkommen sicher - mir stellt sich aber eben die Frage, wozu sollte man das machen?
Wer braucht denn einen 4C CCX Ansatz? Im Moment ist Raven Ridge der kleinste gemeinsame Nenner beim CCX (mit 1x CCX only) und dabei auch das Produkt, was eben aktuell im Nachsehen ggü. der Konkurenz (und ggü. dem Rest Portfolio) ist, weil man eben nicht mehr Cores bereit stellen kann.
Ein Doppel-CCX + GPU würde dann das APU Design über den Haufen werfen... Egal wie man es dreht, meiner Meinung nach spricht nichts für das Festhalten an 4C CCXen, vor allem wenn die APU eben mehr wie 4C bekommt - und davon gehe ich mit der Zen2 Architektur aus!

Bezogen auf den Mainstream stimme ich dir da zu, also bezogen auf die normalen Ryzen. Aber bei Threadripper können hier schon Vorteile ergeben. Die Latenzen sind laut dem Test von THG bei Die-To-Die (257ns) deutlich höher als bei Cross-CCX (178ns). Wenn jetzt 4 anstatt 2 CCX auf einem Die liegen, dann könnte man Threadripper Modelle bis 16 Kerne mit Latenzen im Cross-CCX-Bereich bringen und auch Threadripper Modelle mit 2 aktiven Dies könnten geringere Average Latenzen haben, wenn man durch schlaue Mechanismen die Die-to-Die-Kommunikation einschränkt. Letzteres würde dann auch für Epyc gelten.

6C CCXen wären aber noch mehr im Vorteil... Wenn das also der Grund sein soll, dann wäre es sogar noch sinniger, größere CCXen zu bauen anstatt "mehr" bei gleicher Core Anzahl.
Ich denke auch nicht, dass man bei AMD am Aufbau der Reihe groß was ändert. Der Epyc Server Prozessor wird weiter primär 1P-2P sein, vllt kommen noch größere Modelle, mal gucken. TR bekommt wieder ein Doppel-DIE Konstrukt und der Mainstream wird mit einem DIE verarztet.
Es spricht für mich nichts dafür, das bestehende Konstrukt derart einzureißen - nur um an 4C CCXen festzuhalten, die (siehe oben) aber in keinem Markt mehr gebraucht werden...

- - - Updated - - -

Durch den neuen Fertigungsprozess in 7 nm sowie eine vollkommen überarbeitete Architektur erwartet man nicht nur eine höhere Effizienz,
sondern auch eine signifikante Leistungssteigerung, welche an die aktuellen Vega-Grafikkarten sowie die Nvidia GeForce GTX 1080 herankommen soll, und das in der Mittelklasse.

Exakt das gleiche hat man bei Vega auch erwartet.
Wenn angeblich doch nicht so viel Budget bereit stehen würde frage ich mich ja, wie das immer im Vorfeld so hochgehypt werden kann?
Einfach mal abwarten - wenns was wird, wirds was, wenn nicht, dann eben nicht...
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh