[News] Neue AMD High End CPU im Anmarsch

boxleitnerb · 27.04.2015

Was ist eigentlich aus dem Quatsch im Startpost geworden? Eigentlich sollte man den Thread schließen, um solche Trolle nicht noch weiter zu ermuntern. Man man ja einen richtigen Zen-Thread eröffnen.

w0mbat · 27.04.2015

Gute Idee!

DerGoldeneMesia · 28.04.2015

FX-8800P?!?

AMD Carrizo: Zehn Modelle und erster Benchmark zum Flaggschiff - ComputerBase

Schaffe89 · 28.04.2015

Ne FX-9990 Carizzo Sockel FM3, DDR4 14nm Q4 2015 5,2ghz 5,5ghz Turbo 180 Watt TDP. :bigok:

DerGoldeneMesia · 28.04.2015

Schaffe89 schrieb:
Ne FX-9990 Carizzo Sockel FM3, DDR4 14nm Q4 2015 5,2ghz 5,5ghz Turbo 180 Watt TDP.

wäre auch mit 125W möglich!

mr.dude · 28.04.2015

blubb0r87 schrieb:
Eingeständnis das die Faildozer Architektur nicht den gewünschten Erfolg gezeigt hat.

Eher die Erkenntnis, dass einige Leute anscheinend immer noch nicht CMT und grundlegende Architektur unterscheiden können. Es wäre problemlos möglich, sowas aus Bulldozer zu machen:

Würdest du deshalb schlechter über Zen denken? Ich denke nicht.

Bei der Bulldozer Architektur hat man vermutlich einige falsche Entscheidungen getroffen, die völlig unabhängig von CMT sind. ZB WT statt WB Caches, zu kleine L1D Caches, zu wenige ALUs usw. Zudem gab es einige Sachen, die zu Beginn fehlten und später auch nur halbgar implementiert wurden, wie der Loop Buffer.

CMT ist nach wie vor ein gutes Konzept, um die Flächeneffizienz zu verbessern. Die Frage ist vielmehr, ob es AMD heutzutage noch viel bringt. Kerne werden immer kleiner. In 14nm kann man vermutlich 8 Zen Kerne auf lediglich 50-70 mm² unterbringen. Dh die Flächeneinsparung bei wenigen Kernen fällt nicht mehr sonderlich ins Gewicht. Zudem ist CMT komplexer und damit teurer in der Entwicklung als ein kompakter klassischer Kern. Und für maximalen Durchsatz setzt man mittlerweile sowieso auf GPUs. Die können auf gleicher Fläche noch wesentlich mehr Performance rausholen, weil man die Architektur voll auf parallele Workloads optimieren und serielle Workloads ignorieren kann.

Phantomias88 schrieb:
Die Flex-FPU bleibt bestehen.

Nicht wirklich. Die FPU könnte ähnlich aufgebaut sein. Nur dass die FMACs auf 256-bit aufgebohrt werden. Das ist richtig. Aber das Wesen der Flex FPU ist, dass sie von mehreren Integer Clustern geteilt werden kann. Das ist nun nicht mehr so.

Phantomias88 · 28.04.2015

@mr.dude
Jetzt ist es halt ein fetter Integersheduler der 2 Threads für 2x 256Bit bereit hält.
An den Pfeilen (feeder) hat sich nicht wirklich was getan.

mr.dude · 28.04.2015

Ob ein Kern wirklich mehrere Threads unterstützt, bleibt abzuwarten. Das geht aus dem Blockdiagramm nicht zweifelsfrei hervor. Auch wenn man es anhand der zwei Pfeile implizieren könnte. Ebenso AVX512. Haswell hat zB auch zwei 256-bit FMA Einheiten, unterstützt aber trotzdem kein AVX512.

Letztendlich war der Grundgedanke bei der Flex FPU, dass jegliche Rechenkapazität genutzt werden konnte, egal ob ein oder zwei Integer Cluster die Daten bereitstellten und egal ob 128-bit SSE/AVX oder 256-bit AVX Code. Rechenkapazität ging nur verloren, wenn die Anwendung kein FMA unterstützte. Aber das war dann eher das Problem der FMACs selbst und weniger das der FPU insgesamt. Diese Flexibilität ist in der Form bei Zen nicht mehr vorhanden. Dafür bekommt man aber auch 2-4 mal so viel Rechenkapazität pro Thread. Damit dürfte es auch solche Fälle nicht mehr geben, wo in einigen extrem FP-lastigen Szenarien ohne FMA Support ein X6 besser dastand als ein FX8. Ganz einfach, da der X6 bis zu 12 128-bit ADDs und MULs pro Takt verarbeiten kann, während der FX8 lediglich 8 128-bit ADDs oder MULs pro Takt verarbeiten kann. Bereits ein 4-Kern Zen wird mehr FP Rechenkapazität bieten als ein X6 oder FX8.

[HOT] · 28.04.2015

Der wird schon das K7-Konzept als Grundlage haben, das war ja auch wirklich gut. Wir reden ja hier immerhin auch von Jim Keller, dem K7-Schöpfer. Ich glaube nicht, dass Zen CMT wird und SMT ist sicher sinnvoll, selbst wenn es sich hier offensichtlich um ein 3-Issue-Design handelt (wie ich schon vor einem Jahr angenommen hatte).
Da wird sicherlich trotzdem viel BD-Technik drinstecken, da gibt es keinen Grund das Rad neu zu erfinden.

SystemX · 28.04.2015

Abwarten und Tee trinken... Ich hoffe das der AMD Zen besser als der Bulldozer wird dann gibt es auch für mich wieder nen System auf AMD Basis (Wie früher auch)...
Derzeit habe ich einen i7 4770K im einsatz und einen Phenom II X4 945 (langt völlig für meine zwecke aus BF3/BF4 etc)...

mr.dude · 28.04.2015

[HOT] schrieb:
Ich glaube nicht, dass Zen CMT wird und SMT ist sicher sinnvoll, selbst wenn es sich hier offensichtlich um ein 3-Issue-Design handelt (wie ich schon vor einem Jahr angenommen hatte).

Wie kommst du darauf, dass es ein 3-Issue Design wird? MMn sollte es mindestens ein 4-Issue Design werden. Erst recht falls es 4 ALUs sind und eine MT Technik implementiert ist.

[HOT] · 28.04.2015

Es sind 3 ALUs und 3 AGUs laut (Fake?)Folie.

unl34shed · 28.04.2015

Die folie sagt doch nur Pipeline. Da steht nichts von alu oder agu

Duplex · 28.04.2015

Bei 6 Pipelines geht man idR aber von 3 ALUs+3 AGUs aus.

[HOT] · 28.04.2015

Andere Aufteilungen würden wahrscheinlich auch kaum Sinn ergeben.
K7 hatte AFAIK kombinierte ALU/AGU-Units, diesmal sind sie wie beim BD getrennt.
AMD wird aus dem Fundus der bisherigen Technologien schöpfen und als Konzept 3 Issues + DoubleStage-Decoder, FMACs uvm. kombinieren und in modernen 14nm fertigen. Die hatten jetzt einigermaßen Zeit für die Entwicklung (seit 2011, als klar war, dass alle großen BDs nach Orochi gecancelt werden), sie haben einigermaßen Zeit für die Entwicklung im Prozess (seit Mitte 2014 etwa) bei Samsung. Die ersten werden dann bei Samsung noch 2015 vom Band purzeln, damit sie zeitig in 2016 für Server verfügbar sind, denn da brennts ja am meisten. Später, so Mitte 2016, wird man alles nach GloFo geshiftet haben, dann kann man dann auch was im Mainstreamsegment anbieten und 2017 dann auch ne passende APU. Ab da ist BD dann Geschichte.

mr.dude · 30.04.2015

[HOT] schrieb:
Es sind 3 ALUs und 3 AGUs laut (Fake?)Folie.

Dann muss ich einen Knick in der Optik haben. Ich sehe nur 6 Integer Pipes. Wie viele davon ALUs und AGUs sind, sehe ich nicht. Ich gehe eher von 4 ALUs und 2 AGUs aus.

Duplex schrieb:
Bei 6 Pipelines geht man idR aber von 3 ALUs+3 AGUs aus.

Wieso? Welche Architekturen mit 6 Integer Pipes kennst du denn, wo es 3 ALUs und 3 AGUs sind? Aktuell gibt's da zB Cyclone. Und der hat 4 ALUs und 2 AGUs.

Phantomias88 · 30.04.2015

@mr.dude
Flex-Integer gab es noch nicht, oder? :bigok:

Mögliche Kombination:

How many Units do you want?

G3cko · 01.05.2015

Ich bin gespannt wie sich der große L2 Cache auswirken wird. Haswell bietet hier nur 256kb. Ist bei Skylake bekannt wie es dort aussehen wird?

Duplex · 01.05.2015

mr.dude schrieb:
Wieso? Welche Architekturen mit 6 Integer Pipes kennst du denn, wo es 3 ALUs und 3 AGUs sind? Aktuell gibt's da zB Cyclone. Und der hat 4 ALUs und 2 AGUs.

Ich dachte AMD macht es ähnlich wie beim K7, dort hatte man 3 ALUs oder 3 AGUs.
Jeweils 3 getrennte ALUs & 3 getrennte AGUs, also 6 Pipelines wären natürlich sinnvoller als beim K7. Mittlerweile gehe ich aber auch von 4 ALUs + 2 AGUs aus.

G3cko schrieb:
Ich bin gespannt wie sich der große L2 Cache auswirken wird. Haswell bietet hier nur 256kb. Ist bei Skylake bekannt wie es dort aussehen wird?

Vermutlich genauso, hier hat sich auch seit längeren nichts mehr geändert, es ist die gleiche Architektur Basis, einfach so ändert man das nicht.

mr.dude · 01.05.2015

K7/8/10 hatte einen völlig anderen Aufbau. Der Integer Cluster hatte 3 Pipes. Jede Pipe hatte ihren eigenen Scheduler und ein gekoppeltes ALU/AGU Pärchen. Maximal war also ein Durchsatz von 3 Macro-Ops pro Takt möglich. Auch wenn die Ausführungseinheiten theoretisch bis zu 6 Micro-Ops ermöglicht hätten. Eine AGU war oft sowieso nutzlos, weil es nur zwei Ports zum L1D gab. Aufgrund des symmetrischen Aufbaus hat man das aber in Kauf genommen. K7/8/10 war also recht einfach und unkompliziert, aber alles andere als ein optimales Design, um die vorhandenen Ausführungskapazitäten gut auslasten zu können. Bulldozer hat das schon besser gemacht, indem die Anzahl der Pipes erhöht wurde, es nur noch einen Scheduler für alle Pipes gab und ALUs und AGUs entkoppelt wurden. Dadurch kann man flexibler agieren und eine deutlich bessere Auslastung erreichen. Mit 2 ALUs insgesamt war man aber vielleicht etwas schwach auf der Brust. Zen scheint nun auf das Design des Bulldozer Integer Clusters aufzusetzen, nur leistungsfähiger. Das ganze könnte wie folgt aussschauen:

[K7/8/10]
Macro-Ops/Takt: 3
Micro-Ops/Takt: 6
ALU: 3 complex
AGU: 3 (eine oft ungenutzt)

[Bulldozer]
Macro-Ops/Takt: 4
Micro-Ops/Takt: 4
ALU: 2 complex + 2 simple
AGU: 2

[Zen]
Macro-Ops/Takt: 4-6
Micro-Ops/Takt: 6
ALU: 4 complex
AGU: 2

[HOT] · 01.05.2015

Wohl eher:

[Zen]
Macro-Ops/Takt: 3-6
Micro-Ops/Takt: 6
ALU: 3 complex (+irgendwelche Spezialisierungen wie bei BD?)
AGU: 3
(FPU: 3-6)

Ich finde 3 Issues bei x86 auszunutzen ist effizienter, Intel macht da eine (zienlich erfolgreiche) Kanonen auf Spatzen-Taktik. Man darf aber hierbei nicht vergessen, dass Zen auch die Cats beerbt.

Und die Pfeile auf den (Fake?)Folien stehen für SMT, die haben nix mit der Breite zu tun.

[News] Neue AMD High End CPU im Anmarsch

Enthusiast

Enthusiast

Enthusiast

Banned

Enthusiast

Urgestein

Banned

Urgestein

Enthusiast

Urgestein

Urgestein

Enthusiast

Enthusiast

Urgestein

Enthusiast

Urgestein

Banned

Enthusiast

Urgestein

Urgestein

Enthusiast