Habe ich das richtig verstanden, das Zen sehr auf Bulldozer basiert ?
Nein. Das mit dem "copy pasted" bezog sich lediglich auf den GCC Patch. Aber man wird das Rad auch nicht komplett neu erfinden und sicherlich einige Sachen von Cat und Bulldozer übernehmen. Auch wenn einige immer wieder meinen, Bulldozer sei kompletter Schrott, er ist es mitnichten. Es gab eine Reihe positiver und richtig guter Veränderungen im Vergleich zu K10.
Welchen Effekt die Pipelines haben, lässt sich im Moment nur spekulieren. Du kannst ja mal Zen und Bulldozer gegenüberstellen:
[Zen Kern vs BD Modul (Excavator) - 1 Thread]
32 KB L1D$ vs 16 KB L1D$
512 KB L2$ vs 1024 KB L2$
4x Decode vs 4x Decode
4x ALU vs 2x ALU
2x AGU vs 2x AGU
4x 128-bit FADD/FMUL vs 2x 128-bit FADD/FMUL
2x 128-bit FMA vs 2x 128-bit FMA
2x 256-bit FADD/FMUL vs 1x 256-bit FADD/FMUL
1x 256-bit FMA vs 1x 256-bit FMA
[Zen Kern vs BD Modul (Excavator) - 2 Threads]
32 KB L1D$ vs 2x 16 KB L1D$
512 KB L2$ vs 1024 KB L2$
4x Decode vs 4x Decode
4x ALU vs 4x ALU
2x AGU vs 4x AGU
4x 128-bit FADD/FMUL vs 2x 128-bit FADD/FMUL
2x 128-bit FMA vs 2x 128-bit FMA
2x 256-bit FADD/FMUL vs 1x 256-bit FADD/FMUL
1x 256-bit FMA vs 1x 256-bit FMA
Wie man sieht, Zen hat deutlich mehr Ressourcen für single threaded Workloads mit doppelt so viel L1D$ und doppelt so vielen ALU- und FADD/FMUL-Einheiten. Damit hätte man selbst gegenüber Intels bisheriger Architektur teilweise einen Vorteil. Die Anzahl der ALUs und 256-bit FADD/FMUL-Einheiten wäre identisch, dafür hat man mehr 128-bit FMUL/FADD-Einheiten für SSE und 128-bit AVX. Einzig bei 256-bit FMA müsste man Abstriche machen. Da hätte Intel theoretisch doppelt so viel Durchsatz. Allerdings ist AVX und speziell 256-bit FMA nach wie vor eine Randerscheinung. Daher wird das bei allgemeiner Performance wohl keinen grossen Unterschied machen und nur in speziellen Benchmarks sichtbar werden. Ob AMD bei 256-bit FMA mit kommenden Zen Generationen nachlegt oder ob man bei solchen Anwendungen ganz auf GPUs (OpenCL, HSA) setzt, wird man sehen. Anscheinend legt man den Fokus bei der CPU wieder mehr auf FADD/FMUL anstatt FMA. Was ich recht gut finde, da erstes deutlich verbreiteter ist und bei Bulldozer die Hälfte an theoretischem Potenzial brach lag. Die Zen FPU schaut wirklich so aus, wie Bulldozer FPU hätte sein sollen. Man hat nach wie vor die Flexibilität, es wird aber kein Potenzial verschenkt. Damit wird der theoretische FADD/FMUL Durchsatz verdoppelt, ohne an theoretischem FMA Durchsatz zu verlieren.
Bulldozer 128-bit FMAC: (1x 128-bit FADD
oder 1x 128-bit FMUL) oder 1x 128-bit FMA
Zen 128-bit FMAC: (1x 128-bit FADD
und 1x 128-bit FMUL) oder 1x 128-bit FMA
Der L2$ ist bei Zen zwar nur halb so gross wie bei Bulldozer (Excavator), dafür bekommt vermutlich jeder Zen Prozessor einen L3$ spendiert, auch APUs. Bisher war das ja nur bei CPUs der Fall. Zudem sollte die gesamte Cache-Hierarchie deutlich performanter arbeiten, da nun komplett inklusive und ausgelegt auf niedrige Latenz.
Schaut man sich das ganze für multithreaded Workloads an, so ist Zen im Vergleich zu Bulldozer immer noch gut gewappnet. Einzig bei den AGUs müsste man Abstriche machen. Aber ich denke das war schon bei Bulldozer kein Flaschenhals. Eine ähnliche Skalierung von 60-80% sollte man nicht erwarten. Aber das Potenzial sollte vorhanden sein, um besser als Hyperthreading zu skalieren.
Warum ich das schade finde ? Weil Zen dann keinen Taktvorteil gegenüber Skylake haben kann, und dementsprechend sollte die IPC gleichstark sein, was ich aber ausschließe.
Warum schliesst du das aus? Das Zen Design hat auf jeden Fall das Potenzial für mindestens Haswell IPC. Und viel mehr haben Broadwell/Skylake ja auch nicht. Ebenso was die Taktrate von 3,5-4 GHz betrifft. Letztendlich gibt es mehrere Faktoren, die bisher schwer einzuschätzen sind, wie zB Softwaresupport für Zen oder Samsungs/Glofos 14nm LPP Prozess. Auch davon wird abhängen, wie gut oder schlecht Zen letztendlich dasteht. Anhand der bisherigen Infos schaut es mMn aber vielversprechend aus. Breites Design, niedrige Latenzen, aktuelle Befehlssatzerweiterungen, moderne FinFET Fertigung, flexibel skalierbar für CPUs und APUs. Wenn neben der Performance auch noch Preis und Leistungsaufnahme stimmen, dann kann man sich für Client-Prozessoren eigentlich nicht viel mehr wünschen und wir hätten zumindest wieder deutlich mehr Wettbewerb als im Moment. Denn ganz ehrlich, den aktuellen Prozessormarkt finde ich ziemlich langweilig und öde. AMD hat kaum interessante Alternativen, um meinen Llano abzulösen. Bei Intel gehen die interessanten Sachen erst bei >200 Euro los. Zu teuer mMn für Mainstream Käufer.