[Sammelthread] AMD AM3+ Nachfolger-Sockel & Prozessoren K12 64-Bit-x86 “Zen”

DerGoldeneMesia · 26.09.2014

also die kaveri benches im netz sind gar nicht schlecht, also müsste ein excavator in 22nm, 14nm doch sehr schnell sein, da würde ich auch 2 module mit cmt nehmen, so 5Ghz!

Phantomias88 · 26.09.2014

[HOT] schrieb:
Garnichts wurde widerlegt und die Config kann es nicht geben, das ist schlicht deine Träumerei. Er ist einfach zu langsam pro Thread, weil I/O+Frontend zu komplex sind. IPC heißt Instruction per Clock, das ist != Durchsatz per Clock. Wenn die IPC zu niedrig ist, liegt das am Frontend, nicht am Backend. An Streaminganwendungen sieht man sehr gut, dass der Durchsatz gut ist.
Man kann es also drehen und wenden wie man will: Das Frontend ist einfach zu komplex mit CMT und das Steamingzeug beweist ganz eindeutig, dass die Cluster+FPU definitiv schnell genug sind. Zwei Cluster haben einfach ihren Preis im Frontend. Es scheitert an Flexibilität des Frontendes, zu hohen Latenzen und zu langsamen I/O. Für 50% mehr IPC bräuchtest du noch mehr Komplexität, was weniger Takt bedeutet und die Latenzen u.U. noch weiter erhöht. Das Fazit ist eben: Es geht einfach nicht. SR erhöht die Komplexität des Frontendes, dafür gibt es weniger Takt und keine Verbesserung bei den Latenzen trotz besserer Fertigung. Man verringert sogar die FPU-Ports weitgehend ohne Effekt, eben weil die FPU nicht das Problem ist. XV verkleinert den L1-Cache, eben wegen den Latenzen. BD war in der Theorie gut, aber in der Implementation zu schwierig für AMD. Man brauchte mindestens 4 Anläufe über 10 Jahre mit CMT, bevor BD Realität wurde. Allein daran sieht man schon, dass AMD dazu nicht in der Lage war. Vlllt. Hätte es Intel mit seinen regelmäßig 4 oder 5 Respins geschafft, das Teil auf IPC2 zu bringen, vielleicht kommt sowas sogar noch von Intel, wenn denen SMT nicht mehr reicht. Aber gegen Intels IPC2-CPUs ab SB war es ein Fail, ganz einfach.
Man sieht an AMDs Bemühungen ebenfalls ganz deutlich, wo die Probleme liegen. Ohne ganz neue Architektur kommt man nicht in den IPC2-Bereich. Genau das wird Zen leisten (müssen).

Bei AMD hat man sich mit mehreren Sache überschätzt und ist große Risiken eigentlich ohne Not eingegangen. Ur-K8, K9, Ur-K10, K10-I/O, BDv1 (45nm), Montreal, Komodo, Sockel 2012 - alles waren zu ehrgeizige Projekte. Auch die K8-MC-Implementierung war riskant, doch das klappte (mit 1/2 Jahr Verzögerung und recht großen Schwierigkeiten, erst ab Rev.CG was der IMC ok). Jetzt setzt man eben alles auf Interposer, damit man in diese Ehrgeizfalle mit komplexen CPUs nicht mehr hineinrennt und um vom Foundriegeschäft nicht mehr so unglaublich abhängig zu sein.

Das klingt ja alles einleuchtend, sind das deine eigenen Erfahrungen oder hast du diesbezüglich auch Quellen?

Ich bin mal so naiv und behaupte die neue Regie von AMD wird schon wissen was sie tun.
Wenn 4-issue Software seitig genutzt wird, sind zumindest 25% mehr Leistung drin.

[HOT] · 27.09.2014

Ich würd mal tippen, dass Zen wieder ein 3-Issue-Design ist, SMT hat und eine 256Bit FPU aufweist. Immerhin ist Jim Keller derjenige, der den 3-Issue-K7 entworfen hat und damit Intel erstmals vom Leistungsthron stürzte. Da es bei Zen ja augenscheinlich nur noch APUs geben wird, könnte man AVX3 evtl. dann ähnlich wie HSA realisieren. ein CPU-Modul dürfte dann wieder in ein Quadmodul wie Jaguar mit einem unified L2-Cache designt sein, evtl gibts noch ne Cache-Stufe zusätzlich oder wieder sehr große L1-Caches. Ein solcher Zen-Kern dürfte in 20nm FinFET sicherlich kleiner sein als ein 28nm Jaguar und somit beide Linien ersetzen (Baumaschinen und Katzen). Man wird sicherlich Skylake nicht vom IPC-Thron stürzen, aber man kommt sicherlich in die Nähe. Die ersten Cargen könnten in 20nm-FF bei TSMC (die nennen das 16nm) vom Band fallen, später dann im 20nm-FF-Samsung-Prozess bei Glofo (die nennen das 14nm). Man wird sich bemühen, das zum Jahreswechsel 2015/2016 fertig zu haben, denn davon hängt ja doch ne ganze Menge ab.

Phantomias88 · 28.09.2014

@[HOT]
So sicher wäre ich mir da nicht, was AVX3 angeht, Intel selbst spricht intern schon von AVX3.2, Wikipedia kennt hingegen nur AVX-512.
Allsamt verpackt in FMA_x86: FMA x86

- Nützlich für gleitkommaintensive Berechnung, vor allem im Multimedia-, wissenschaftlichen oder Finanzberechnungen. Ganzzahloperationen sollen später folgen.
- Erhöht Parallelität und Durchsatz von Gleitkomma-SIMD-Berechnungen
- Verringert die Registerlast durch nicht destruktive Vier-Operanden-Form (im Fall von FMA4)

Nighteye · 28.09.2014

hier schrieb jemand das excavator nicht mehr kommt.

große computerseiten schrieben im september nach wie vor das Excavator als APU für Notebooks und FM2+ mit DDR3 support erscheinen wird.

halte ich auch für realistisch und wirtschaftlich, bin mal gespannt wie viel besser excavator wird.

Duplex · 28.09.2014

Nighteye schrieb:
hier schrieb jemand das excavator nicht mehr kommt.

Das ist doch nur ein "Enhanced Steamroller".

Nighteye · 28.09.2014

Duplex schrieb:
Das ist doch nur ein "Enhanced Steamroller".

und der Steamroller ist "nur" ein "Enhanced Piledriver"

und der Piledriver "nur" ein "Enhanced Bulldozer"

deinen kommi check ich daher nicht. willst du sagen alles irrelevant da "bulldozer architektur" ? :fresse:

- - - Updated - - -

du weißt ja sicher das Steamroller die IPC über Phenom II niveau heben konnte und an Nehalem IPC heranreicht.

Wenn der Excavator wieder 5-10% IPC dazu bekommt, ist AMD mit der IPC nur knapp hinter Sandy, und das ist recht gut.

Duplex · 28.09.2014

Nighteye schrieb:
du weißt ja sicher das Steamroller die IPC über Phenom II niveau heben konnte und an Nehalem IPC heranreicht.

Wenn der Excavator wieder 5-10% IPC dazu bekommt, ist AMD mit der IPC nur knapp hinter Sandy, und das ist recht gut.

AMD ist sehr weit entfernt, Haswell hat zwischen 50-60% mehr IPC als ein Phenom II / BD.
Die Bulldozer Architektur kannste vergessen, damit wird man nichts mehr erreichen können, die Marktanteile sinken damit nur noch weiter.

Nighteye · 28.09.2014

Duplex schrieb:
AMD ist sehr weit entfernt, Haswell hat zwischen 50-60% mehr IPC als ein Phenom II / BD.
Die Bulldozer Architektur kannste vergessen, damit wird man nichts mehr erreichen können, die Marktanteile sinken damit nur noch weiter.

wie viel mehr IPC hat haswell deiner meinung nach auf Sandy ?

CHAOSMAYHEMSOAP · 29.09.2014

[HOT] schrieb:
Ich würd mal tippen, dass Zen wieder ein 3-Issue-Design ist, SMT hat und eine 256Bit FPU aufweist. Immerhin ist Jim Keller derjenige, der den 3-Issue-K7 entworfen hat und damit Intel erstmals vom Leistungsthron stürzte.

Damals mag ein 3-Issue Design noch etwas Besonderes gewesen sein, aber mittlerweile wäre sowas nur noch Low-Tech von vorgestern. Immerhin kann Apples 64bit ARM Design inzwischen bis zu 6 Befehle verteilen und IBM ist beim POWER8 schon bei acht.

Nighteye schrieb:
Wenn der Excavator wieder 5-10% IPC dazu bekommt, ist AMD mit der IPC nur knapp hinter Sandy, und das ist recht gut.

Wow, damit wäre AMD dann so weit wie Intel vor 3 Jahren und vor lauter Liebe zu dem ewigen Zweiten werden die Kunden übersehen, dass Intel inzwischen 2 Generationen (die dritte ist im Anmarsch) weiter ist und dank der besseren Fertigungstechnik auch noch weniger Strom schluckt. :rolleyes:

Angeblich sehnen sich die Serverhersteller ja nach einer Alternative zu Intel, aber Excavator wird es wohl nur als APU geben und Intel baut gerade seinen Vorsprung mit Haswell-EP in diesem Segment weiter aus.

Nighteye · 29.09.2014

CHAOSMAYHEMSOAP schrieb:
Wow, damit wäre AMD dann so weit wie Intel vor 3 Jahren

5 jahre trifft es eher. noch sind sie ja nichtmal auf 2009er Nehalem Niveau.

jdl · 29.09.2014

[HOT] schrieb:
Also die FPU ist definitiv nicht das Problem der AMD,

AMD hat aber die Opterons über die FPU Leistung verkauft! Und seit Einführung der Opteron 6200 (Interlagos) hat AMD ein ganz erhebliches FPU Problem. Wenn faktisch der komplette Server und HPC Markt, in dem AMD früher sehr gut vertreten waren, wegfällt, fehlt sehr viel Geld auch neue Desktop Varianten entwickeln zu können.

Phantomias88 schrieb:
Das kann durchaus sein, aber nicht beim boincsimap Projekt, da wird simpler SSE2 Code genutzt ink. ein paar FPU Berechnungen.

SSE2 ist etwas angestaubt, und wird mit Absicht nur von Projekten genutzt, die auf möglichst vielen Plattformen laufen sollen. Im HPC Bereich wird meistens selbstkompiliert, auch bei kommerzieller zugekaufter Software, und dann nutzt man natürlich den Befehlssatz, den die CPU maximal erlaubt. Das wäre aktuell AVX2 bei Intel und bei Intel AVX.

Phantomias88 · 29.09.2014

jdl schrieb:
AMD hat aber die Opterons über die FPU Leistung verkauft! Und seit Einführung der Opteron 6200 (Interlagos) hat AMD ein ganz erhebliches FPU Problem. Wenn faktisch der komplette Server und HPC Markt, in dem AMD früher sehr gut vertreten waren, wegfällt, fehlt sehr viel Geld auch neue Desktop Varianten entwickeln zu können.

SSE2 ist etwas angestaubt, und wird mit Absicht nur von Projekten genutzt, die auf möglichst vielen Plattformen laufen sollen. Im HPC Bereich wird meistens selbstkompiliert, auch bei kommerzieller zugekaufter Software, und dann nutzt man natürlich den Befehlssatz, den die CPU maximal erlaubt. Das wäre aktuell AVX2 bei Intel und bei Intel AVX.

Wieso sollte der Server Markt wegfallen?
A Bird is tolding me: "DidYouKnow that 50% of Internet DNS traffic are efficiently and quickly routed via AMD-powered servers"
https://twitter.com/hashtag/AMDWins?src=hash
50% sind dann doch die Mehrheit. :fresse:

Dein letzter Satz verwirrt mich etwas, du meinst "bei AMD AVX".
AVX2 ist ja nur die ausdehnung auf 256Bit das kann ein AMD Modul auch.

[HOT] · 29.09.2014

XV wird AVX2 in 2 passes können. Die haben die FPU garantiert nicht auf 2x256Bit verbreitert. Das wird erst mit Zen kommen.
Nicht XV kommt nicht, XV kommt nur in Form von Carrizo.

CHAOSMAYHEMSOAP schrieb:
Damals mag ein 3-Issue Design noch etwas Besonderes gewesen sein, aber mittlerweile wäre sowas nur noch Low-Tech von vorgestern. Immerhin kann Apples 64bit ARM Design inzwischen bis zu 6 Befehle verteilen und IBM ist beim POWER8 schon bei acht.

Das ist so nicht vergleichbar. Sicherlich wird der Decoder bei Zen komplexer ausfallen, aber ich würde mittlerweile doch darauf tippen, dass man mit Jaguar als Basis auf 3 Issue geht, um eine gute IPC zu erreichen. Man wird sowas ähnliches Versuchen wie Intels PentiumM -> Core2. Es ist nicht wichtig ob 3 oder 4 Issue, wichtig ist, wie effizient es implementiert wurde. Zen wird sicherlich schlank bleiben sollen.

[...]

Phantomias88 · 29.09.2014

@[HOT]
In 2pass Verfahren? es sind doch 4x 256Bit FPUs oder 8x128Bit vorhanden. Theoretisch kann man sie nach jedem Cycle wechseln. (2x 128Bit, dann 1x256Bit)
Hier wird erwähnt das Jim den "late" XV annimt, die erste Version soll wohl was kleines werden: AMD to Introduce New High-Performance Micro-Architecture in 2015

Wie sie alle auf der FPU rum reiten, obwohl GPUs schon längst weiter sind, schätzungweiße 10 Jahre+

[HOT] · 29.09.2014

Ich glaub das ist falsch rübergekommen. Eine AMD-FPU besteht aus 2 FMACs zu je 128Bit. Carrizo hat also 2 FPUs.

jdl · 29.09.2014

Phantomias88 schrieb:
Wieso sollte der Server Markt wegfallen?

Er ist bereits weggefallen! AMD verkauft mittlerweile faktisch keine Server mehr. Das war von 2-3 Jahren noch anders, und dieses Geld fehlt AMD ganz eindeutig.

Phantomias88 schrieb:
Dein letzter Satz verwirrt mich etwas, du meinst "bei AMD AVX".

Die AMD CPUs unterstützen nur AVX und bisher kein AVX2. Die AMD CPUs können schon einiges was Intel erst mit AVX2 eingeführt hat, aber es fehlt trotzdem noch der AVX2 Support. Zudem gab es in der Vergangenheit Probleme mit dem Intel Compiler, wenn er Code für FMA Backends erzeugte und dieser Code auf AMD laufen sollte, so daß man für die AMDs auf SSE4 zurückgreifen mußte. Ich habe das nicht weiter verfolgt, weil wir keine neuen AMD CPUs mehr haben und auf absehbare Zeit auch keine mehr bekommen werden. Die Versorgung der alten Opteron 6100 und der neuen Xeon E5 bzw. E5v2 funktioniert mit dem Intel Compiler gut. Man kann optimierten Code für beide Backends erzeugen lassen, so daß jeweils optimaler Code auf den CPUs läuft.

Phantomias88 · 29.09.2014

[HOT] schrieb:
Ich glaub das ist falsch rübergekommen. Eine AMD-FPU besteht aus 2 FMACs zu je 128Bit. Carrizo hat also 2 FPUs.

Einverstanden!

jdl schrieb:
Er ist bereits weggefallen! AMD verkauft mittlerweile faktisch keine Server mehr. Das war von 2-3 Jahren noch anders, und dieses Geld fehlt AMD ganz eindeutig.

Vielleicht verkaufen sie über seamicro deswegen auch Intel Server, um den Bonus mit zu nehmen. :cool:

AMD Creates Ready-to-Deploy OpenStack Private Cloud in a Box Based on the SeaMicro SM15000 Server | Planet 3DNow!

The SeaMicro SM15000 server and Ubuntu LTS 14.04 and OpenStack solution is one the most scalable solutions in the industry, as demonstrated in setting the industry benchmark record for hyperscale cloud computing.

jdl schrieb:
Die AMD CPUs unterstützen nur AVX und bisher kein AVX2. Die AMD CPUs können schon einiges was Intel erst mit AVX2 eingeführt hat, aber es fehlt trotzdem noch der AVX2 Support. Zudem gab es in der Vergangenheit Probleme mit dem Intel Compiler, wenn er Code für FMA Backends erzeugte und dieser Code auf AMD laufen sollte, so daß man für die AMDs auf SSE4 zurückgreifen mußte. Ich habe das nicht weiter verfolgt, weil wir keine neuen AMD CPUs mehr haben und auf absehbare Zeit auch keine mehr bekommen werden. Die Versorgung der alten Opteron 6100 und der neuen Xeon E5 bzw. E5v2 funktioniert mit dem Intel Compiler gut. Man kann optimierten Code für beide Backends erzeugen lassen, so daß jeweils optimaler Code auf den CPUs läuft.

Naja, wie lang hat nun Hyperthreading Zeit gehabt?
Beim Bully nach 5 Jahren schicht im Schacht zu machen wäre verlorene Zeit.

jdl · 30.09.2014

Phantomias88 schrieb:
Beim Bully nach 5 Jahren schicht im Schacht zu machen wäre verlorene Zeit.

Die häßliche Wahrheit ist, daß das Bulldozer Design nicht konkurrenzfähig ist, und AMD nicht in der Lage ist daran was zu ändern. Da ist es sinnvoller sie fangen noch einmal von vorne an bzw. nehmen als Basis wieder K10. Intel hat auch nach dem P4 Desaster einen Schritt zurück getan, um einen Schritt nach vorne zu gehen.

Nighteye · 30.09.2014

jdl schrieb:
Die häßliche Wahrheit ist, daß das Bulldozer Design nicht konkurrenzfähig ist, und AMD nicht in der Lage ist daran was zu ändern. Da ist es sinnvoller sie fangen noch einmal von vorne an bzw. nehmen als Basis wieder K10. Intel hat auch nach dem P4 Desaster einen Schritt zurück getan, um einen Schritt nach vorne zu gehen.

das benötigt aber viel geld was intel auch hatte. daher erwarte ich in den ersten 2 generationen keine performance wunder wenn amd neue cpu architekturen entwickelt.

amd erreicht mit steamroller (Bulldozer MK3) zz eine IPC zwischen core 2 und nehalem. mit der Bulldozer MK4 Variante wird Nehalem IPC erreicht. das sind 15% unter Sandy Bridge.

AMD,s neue architektur wird kaum mehr IPC als Sandy Bridge haben, da bin ich mir sicher, und dazu halt viel weniger Takt als Bulldozer.

es wird also speed technisch gleichstand bleiben oder eher langsamer, nur die effizienz wird verbessert.

- - - Updated - - -

Clock for clock, single threaded performance, Bulldozer architecture is about 19% slower than the Phenom II.
Clock for clock, single threaded performance, Piledriver architecture is about 10% slower then Phenom II, multi threaded IPC is Equal.

But how fast is the Bulldozer version 3 named Steamroller ?

Steamroller still features two-core modules found in Bulldozer and Piledriver designs called clustered multi-thread (CMT), meaning that one module is equal to a dual-core processor.
The focus of Steamroller is for greater parallelism.
Improvements on instruction decoders for each core within a module, 25% more of the maximum width dispatches per thread, better instruction schedulers, improved perceptron branch predictor, larger and smarter caches, up to 30% less instruction cache misses, branch misprediction rate reduced by 20%, dynamically resizable L2 cache, micro-operations queue, more internal register resources and improved memory controller.

AMD estimated that these improvements will increase instructions per cycle (IPC) up to 30% compared to the first-generation Bulldozer core while maintaining Piledriver's high clock rates with decreased power consumption.
The final result was a 9% single-threaded IPC improvement, and 18% multi-threaded IPC improvement over Piledriver.

Bulldozer MK1 auf MK2
Singlethreadleistungszuwachs. 10%
Multithreadleistungszuwachs. 20%

Bulldozer MK2 auf MK3
Singlethreadleistungszuwachs. 9%
Multithreadleistungszuwachs. 18%

AMD hat mit Version 3 nun eine IPC vom Phenom II/Core 2 im singlethread, und eine Multi Threading leistung eines Nehalem.
Wenn Excavator wieder so einen Sprung macht, wird die Single Threading leistung die des Nehalem erreichen, und die Multithread Leistung, die eines Sandy Bridge.

- - - Updated - - -

evtl auch interessant für mitleser.

Based on a smaller, 14nm node, Intel’s Broadwell has managed to integrate new features aside from just core enhancements. Given Intel’s slow generation over generation IPC improvement, we are looking at only 5% increase in instruction per clock compared to Haswell which falls in line with Ivy Bridge and Haswell. Intel hasn’t gained significant gains in the IPC department since a while but this model works for them. Tweaks that help deliver these enhancements include larger schedulers and buffers, larger L2 cache with dedicated 1 GB page L2, Faster floating point multiplier, Radix-1024 divider, improved address prediction for branches, faster round-trips for visualization and targeting cryptography acceleration instruction improvements. These enhancements will set the basis of the 5% IPC gain over Haswell while power efficiency will see new power gating and design optimizations. A 5% gain over Haswell is decent and since these core enhancements will scale across the entire Broadwell CPU family, we can expect the same from the Broadwell desktop processors which arrive in Q1 next year.

Die Informationen stimmen.

Tests zeigten.

Clock by Clock, Sandy Bridge is about 15% faster than Nehalem.
Ivy Bridge is about 4% faster than Sandy Bridge.
Haswell turns out to be just about 5% faster than Ivy Bridge.
The multi-threaded results, Hawell is about 9% faster than Ivy Bridge and 13% faster than Sandy Bridge at the same clock speed.

Mein Fazit:

30% IPC unterschied zwischen Excavator und Skylake.
Bedeutet in der Praxis: Ein 4000mhz Skylake wird so schnell wie ein 5200mhz Excavator.

Phantomias88 · 30.09.2014

jdl schrieb:
Die häßliche Wahrheit ist, daß das Bulldozer Design nicht konkurrenzfähig ist, und AMD nicht in der Lage ist daran was zu ändern. Da ist es sinnvoller sie fangen noch einmal von vorne an bzw. nehmen als Basis wieder K10. Intel hat auch nach dem P4 Desaster einen Schritt zurück getan, um einen Schritt nach vorne zu gehen.

Mir ging es eher um die Skalierung, von 4 auf 8 Threads hat CMT jetzt schon eine sehr gute Skalierung von ~50%.
Das bekommst mit SMT nicht so einfach hin, da biste bei ~30%.
Die Singlethread Leistung mit bisherigem Code ist klar Intel vorne, jedoch müssen sie bei der Skalierung von CMT angst haben, dass AMD es nicht schaft die IPC zu erhöhen.
Sonst sind die "alten" FX-8 Kerner auf einmal schneller bei Multithreading als die 6/12 von Intel.

MfG

In 2013 Intel dropped SMT in favor of out-of-order execution for its Silvermont processor cores, as they found this gave better performance

[21]
http://en.wikipedia.org/wiki/Hyper-threading

Nighteye · 30.09.2014

Phantomias88 schrieb:
jedoch müssen sie bei der Skalierung von CMT angst haben, dass AMD es nicht schaft die IPC zu erhöhen.
Sonst sind die "alten" FX-8 Kerner auf einmal schneller bei Multithreading als die 6/12 von Intel.

Ein Excavator 2 Moduler wird bei BF4 schon die gleiche Taktleistung eines i5 Sandy Bridge haben.
Ein Excavator 4 Moduler würde daher jeden Haswell EP 6 kerner bei gleichem Takt in die Tasche Stecken bei BF4 und anderen Multithreaded Optimierten Software Anwendungen.
Und wie wir wissen hat AMD auch noch einen Taktvorteil.

senbei · 30.09.2014

Phantomias88 schrieb:
Mir ging es eher um die Skalierung, von 4 auf 8 Threads hat CMT jetzt schon eine sehr gute Skalierung von ~50%.

200% Ausführungseinheiten und nur 150% Leistung? Das ist unterirdisch oder die 50% deiner Aussage sind Müll.

Phantomias88 schrieb:
Das bekommst mit SMT nicht so einfach hin, da biste bei ~30%.

SMT nutzt freie Ressourcen eines Kerns, das heißt bei miesem Code kann man bis zu 30% brachliegende Performance abschöpfen - bei perfektem Code wird der Kern jedoch durch die Software zur Lastverteilung ausgebremst und das kann so zu schlechteren Ergebnissen führen als mit deaktiviertem SMT. SMT hat nichts damit zu tun einen weiteren Kern zu simulieren, sondern soll den vorhandenen Kern komplett auslasten.

Phantomias88 schrieb:
Die Singlethread Leistung mit bisherigem Code ist klar Intel vorne, jedoch müssen sie bei der Skalierung von CMT angst haben, dass AMD es nicht schaft die IPC zu erhöhen.
Sonst sind die "alten" FX-8 Kerner auf einmal schneller bei Multithreading als die 6/12 von Intel.

http://images.anandtech.com/graphs/graph8426/67037.png http://images.hardwarecanucks.com/image//skymtl/CPU/FX-9590/FX-9590-42.jpg
Leistung der FPU verdoppeln oder verdreifachen?

Nighteye schrieb:
Ein Excavator 2 Moduler wird bei BF4 schon die gleiche Taktleistung eines i5 Sandy Bridge haben.
Ein Excavator 4 Moduler würde daher jeden Haswell EP 6 kerner bei gleichem Takt in die Tasche Stecken bei BF4 und anderen Multithreaded Optimierten Software Anwendungen.
Und wie wir wissen hat AMD auch noch einen Taktvorteil.

5820k@3GHz = FX83XX@3,54 HAHAhahahaaa

Nighteye · 30.09.2014

senbei schrieb:
200% Ausführungseinheiten und nur 150% Leistung? Das ist unterirdisch

Du bist sehr ungebildet in dem Bereich senbei.

Ein Modul hat teilweise nur die Ausführungseinheiten eines Kerns.
Ergo: Ein Modul entspricht nicht 2 Kernen von den Ausführungseinheiten.
Ergo: Deine 200% Behauptung ist falsch.

senbei schrieb:
5820k@3GHz = FX83XX@3,54 HAHAhahahaaa

FX83XX ist Vishera. Wo schrieb ich Vishera ? richtig, nirgends.

Bilde dich besser bevor du wieder falsches schreibst.

why_me · 30.09.2014

senbei schrieb:
200% Ausführungseinheiten und nur 150% Leistung? Das ist unterirdisch oder die 50% deiner Aussage sind Müll.

Die ausführungseinheiten sind in einer CPU winzig, das Frontend und die Caches nehmen den größten Platz ein. AMD selbst spricht von bis zu 80% eines dualcore Prozessors bei ich glaube 12% größerer DIE zum singlecore.

senbei schrieb:
SMT nutzt freie Ressourcen eines Kerns, das heißt bei miesem Code kann man bis zu 30% brachliegende Performance abschöpfen - bei perfektem Code wird der Kern jedoch durch die Software zur Lastverteilung ausgebremst und das kann so zu schlechteren Ergebnissen führen als mit deaktiviertem SMT. SMT hat nichts damit zu tun einen weiteren Kern zu simulieren, sondern soll den vorhandenen Kern komplett auslasten.

Und jetzt stell dir mal SMT+CMT in einem Prozesseor vor. Das wären 20% größere Kerne mit fast 200% der Leistung. Und genau dort sollte die Reise mit BD mal hingehen.
Es fehlten einfach nur die Mittel um es so umzusetzen. BD hätte mMn. ein neuer Sockel ohne Northbridge und ohne HTlink ganz gut getan und für die APUs ein Sockel mit höherer TDP. Hätter der ganzen BD Familie gut getan.

senbei schrieb:
http://images.anandtech.com/graphs/graph8426/67037.png http://images.hardwarecanucks.com/image//skymtl/CPU/FX-9590/FX-9590-42.jpg
Leistung der FPU verdoppeln oder verdreifachen?

Die FPU ist eigentlich schnell genug. BD hat nur das Problem, dass sie nicht nativ voll ausgelastet wird, sondern erst der Code stimmen muss (warum auch immer sie diesen weg gegangen sind).

senbei · 30.09.2014

Nighteye schrieb:
Du bist sehr ungebildet in dem Bereich senbei.

Ein Modul hat teilweise nur die Ausführungseinheiten eines Kerns.
Ergo: Ein Modul entspricht nicht 2 Kernen von den Ausführungseinheiten.
Ergo: Deine 200% Behauptung ist falsch.

http://images.hardwarecanucks.com/image//skymtl/CPU/FX-6300-FX-4300/FX-6300-FX-4300-43.jpg
FX4300 = 2 Module = 3,3 Punkte
FX8350 = 4 Module + 6% Takt = 7 Punkte
=> Perfekte Skalierung, 200% Ausführungseinheiten resultieren in 200% Leistung

Nighteye schrieb:
FX83XX ist Vishera. Wo schrieb ich Vishera ? richtig, nirgends. Bilde dich besser bevor du wieder falsches schreibst.

Da bin ich mit dem MKx durcheinander gekommen. MK3 sollte dann Kaveri sein oder liege ich da falsch?

Nighteye · 30.09.2014

senbei schrieb:
=> Perfekte Skalierung, 200% Ausführungseinheiten resultieren in 200% Leistung

Es sind keine 200% Ausführungseinheiten. Lies selbst.

Das Modul stellt einen Kompromiss zwischen echtem Dualcore, wo jedem Thread alle Funktionseinheiten des Prozessorkerns zur Verfügung stehen, und einem Singlecore mit SMT dar.
Das Konzept spart Fläche im Vergleich zum gewöhnlichen Dualcore. Ein Modul ist in verschiedene einfach und doppelt vorhandene Einheiten aufgeteilt, die sich zudem manche Ressourcen teilen.
Pro Modul gibt es einen von allen Einheiten des Moduls geteilten L2 Cache.
Es verfügt über zwei Integer- (Ganzzahl) und eine 256-Bit-Floatingpoint-(Gleitkommazahl)-Einheit, die bei Bedarf in zwei 128-Bit-FPUs aufgeteilt werden kann.
Die Fetch-und-Decode-Einheit sind ebenfalls nur einfach vorhanden und teilen die Last auf die jeweiligen Einheiten auf.

AMD Bulldozer

senbei schrieb:
Da bin ich mit dem MKx durcheinander gekommen. MK3 sollte dann Kaveri sein oder liege ich da falsch?

Du hast mich da zitiert wo es um Excavator geht. Also MK4, und somit eine Stufe Weiter als Kaveri welcher MK3 ist.

Aber um Kaveri (MK3) ging es dir nichtmal. Dein Intel vergleich war mit dem FX83XX welcher MK2 ist.
Also 2 Generationen unterschied zu meinem Kontext und dann auch noch ein Respektloses Lachen von sich geben..

Zwischen diesen 2 Generationen liegen 30-40% Leistung bei gleichem Takt in Multithreading Performance. Somit wäre der Intel mehr als nur übertroffen.

senbei · 30.09.2014

Nighteye schrieb:
Es sind keine 200% Ausführungseinheiten.

Du behauptest also eine Verdoppelung der Modulanzahl von 2 auf 4 sei keine Verdoppelung der Ausführungseinheiten? Falls dem so wäre dann würde die AMD-Architektur überproportional skalieren -> unmöglich
Und was der Aufbau eines Moduls in diesem Zusammenhang beweisen oder widerlegen soll müsstest du mal erklären.

Nighteye · 30.09.2014

Du hast einen Logikfehler beim Denken.

Der Kontext der Skalierung bezog sich in vorigen Posts zwischen Intel vs AMD. Jetzt vergleichst du AMD mit AMD.
Das heißt, der Kontext zu den vorigen Kommentaren ist nicht mehr vorhanden und somit relativiert sich dein Post #176 in diesem Thema.

senbei · 30.09.2014

Phantomias bezog sich auf 4->8 Threads (2M->4M) bei CMT, wieso du da jetzt mit Intel vergleichen willst erschliesst sich mir nicht....

[Sammelthread] AMD AM3+ Nachfolger-Sockel & Prozessoren K12 64-Bit-x86 “Zen”

Enthusiast

Banned

Enthusiast

Banned

Legende

Urgestein

Legende

Urgestein

Legende

Neuling

Legende

Enthusiast

Banned

Enthusiast

Banned

Enthusiast

Enthusiast

Banned

Enthusiast

Legende

Banned

Legende

Enthusiast

Legende

Enthusiast

Enthusiast

Legende

Enthusiast

Legende

Enthusiast