[Sammelthread] AMD Bulldozer - Next Generation new CPU Architecture - Sammelthread

Status
Für weitere Antworten geschlossen.
CMT ist eine andere Herangehensweise als SMT: Das Ziel von SMT ist in erster Linie, die Rechenwerke besser auszulasten. Hierzu ist in erster Linie nur eine Verdoppelung des Registersatzes notwendig, ein Transistor-Mehraufwand von marginalen ~1%. CMT ist jetzt ein genau gegensätzlicher Ansatz, ein geteiltes Frontend verteilt die Threads auf jeweils eigene Ausführungseinheiten, was den Transistorbedarf natürlich massiv erhöht - in der Praxis dafür allerdings zu höheren Performancegewinnen führen sollte (theoretisch können beide Techniken zu +100% Performanceplus führen, praktisch allerdings speziell bei SMT eher auszuschließen).

Ergo lässt sich hier kaum von gut und schlecht, sondern eher von verschiedenen Ansätzen reden: SMT ist praktisch "gratis" und bringt eher kleinere Gewinne von 20-30% in üblichen Fällen (Westmere-Generation, nicht-limitierende Threadzahl), CMT sollte vergleichsweise 60-80% zulegen, kostet dafür aber auch deutlich mehr Transistoren.
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
hab mal ne frage, weil ich nicht wirklich viel von der matiere verstehe. wenn wir von intels hyperthreading reden, dann meinen wir intels smt, oder?
Korrekt.

und ist es nun richtig, dass mit bulldozer ein amd smt erscheint, namens cmt?
Nein. CMT ist konzeptionell verschieden von SMT. Es gibt unterschiedliche Ansätze für die Implementierung von hardwareseitigem Multithreading. Duplex hat dazu eine Folie auf der ersten Seite verlinkt.

und dieses cmt, welches amd's hyperthreading ist, ist schneller/toller/besser als intels smt?
Besser ist relativ. Wenn man anhand von konkreten Metriken vergleicht, bekommt man schon sinnvollere Aussagen. Bisher ist vieles aber noch Spekulation. ZB Performance pro mm², hier wird ein Bulldozer Modul mit 2 solcher "Cluster", die jeweils einen Thread verarbeiten können, vermutlich in etwa so gross sein wie ein Intel SMT Kern. Beide können also 2 Threads verarbeiten, AMDs Design wird aber wohl mehr Durchsatz liefern. Einfache Rechnung, SMT bringt bei Intel durchschnittlich optimistisch etwa 20-25%, bei AMD soll CMT für einen Speedup von 80+% sorgen. Damit AMD nicht schneller ist, müssten sie, bezogen auf einen Thread, 30+% langsamer sein. Und das ist extrem unrealistisch. Momentan sind es ja nur ~10%. Ich gehe davon aus, dass beide pro Thread eher vergleichbare Performance liefern werden. Andere Metriken wie Performance pro Watt oder IPC sind bisher noch ziemlich unklar. Da werden wir wohl erst beim Launch schlauer sein.
 
Einfache Rechnung, SMT bringt bei Intel durchschnittlich optimistisch etwa 20-25%, bei AMD soll CMT für einen Speedup von 80+% sorgen.

CMT wird von AMD mit bis zu 80% beworben, SMT von Intel in der aktuellen Generation mit bis zu 33% - klar gibt es auch Fälle darüber hinaus, aber der Durchschnitt wird sich im Regelfall etwas unter der Herstellerangabe ansiedeln. SMT soll mit Sandy Bridge allerdings nocheinmal deutlich effektiver werden, in wie weit genau, muss man natürlich noch abwarten.

Btw noch etwas zum Flächenbedarf: CMT kostet wohl 50% Fläche:

AMD Core Counts and Bulldozer: Preparing for an APU World - AnandTech :: Your Source for Hardware Analysis and News

Das ist dann allerdings doch erheblich mehr als ich bisher geschätzt hätte.
 
Zuletzt bearbeitet:
Die "bis zu 80%" bei Intel gelten aber nur für das single-core, in-order Grottengewächs das sich Atom schimpft.

Klar ist es nicht verwunderlich, das ein derart ineffizientes Rechenwerk fast ununterbrochen brachliegt, weswegen SMT eben auch fast ununterbrochen was von der Seite hineinschieben kann. Dazu kommt die Tatsache, das nur ein realer Kern zur Verfügung steht; und ich glaube, wir erinnern uns noch alle gut daran, wie sehr doch unser erster Dualcore unser System beschleunigt hat.

Der Atom ist das Paradebeispiel für SMT, aber je stärker der Prozessor selbst wird, desto weniger bringt es. Die Clarkdale-Dualcores kommen im Schnitt noch so auf 25%, und bei den Quadcores kann man teils von Glück sprechen, wenn der erhöhte Overhead nicht noch Performance kostet.

Darüberhinaus: unter Win7 ist der Thread Scheduler intelligent genug, um SMT-Kerne zu identifizieren und weitestgehend zu ignorieren. Erst wenn alle realen Kerne zumindest mal einen Thread verpasst bekommen haben werden virtuelle überhaupt bedient. Dürfte interessant sein zu sehen, wie in dem Zusammenhang mit CMT umgegangen werden wird... immerhin gibt es dort keine Trennung zwischen realen und virtuellen Kernen, sondern im Grunde nur zwei gleichwertige virtuelle Kerne pro (realem) Cluster.
 
Zuletzt bearbeitet:
Erstmal: Das war natürlich ein Tippfehler, 33% gehören zu SMT, 80% zu CMT. Hab ich oben korrigiert.

Der Atom ist das Paradebeispiel für SMT, aber je stärker der Prozessor selbst wird, desto weniger bringt es. Die Clarkdale-Dualcores kommen im Schnitt noch so auf 25%, und bei den Quadcores kann man teils von Glück sprechen, wenn der erhöhte Overhead nicht noch Performance kostet.

Das wiederum ist aber natürlich nicht technisch in der Architektur bedingt, sondern vielmehr in aktueller Software. Auch bei AMD wird CMT bei einem 2-Kerner mehr bringen als bei einem 4-Kerner, schlicht weil die Skalierungsfähigkeit beim Großteil aktueller Software noch nicht für 8 Threads ausgelegt ist.

Darüberhinaus: unter Win7 ist der Thread Scheduler intelligent genug, um SMT-Kerne zu identifizieren und weitestgehend zu ignorieren. Erst wenn alle realen Kerne zumindest mal einen Thread verpasst bekommen haben werden virtuelle überhaupt bedient. Dürfte interessant sein zu sehen, wie in dem Zusammenhang mit CMT umgegangen werden wird... immerhin gibt es dort keine Trennung zwischen realen und virtuellen Kernen, sondern im Grunde nur zwei gleichwertige virtuelle Kerne pro (realem) Cluster.

Das halte ich für inkorrekt... Es gibt physisch betrachtet zunächst einmal auch keine "SMT-Kerne". Zwei gleichwertige Registersätze können wahlweise die gleiche Pipeline nutzen, welcher von beiden jetzt genutzt wird ist für die Performance völlig egal - außer natürlich beide sind aktiv, dann sinkt die Performance pro einzelnem Thread. Sollte also erst geschehen, wenn bereits auf jedem verfügbaren Kern ein Thread läuft.
CMT verhält sich hier identisch: Beide Threads sind gleichwertig, auf Grund des geteilten Frontends/FPU sollte für beste Performance zunächst nur ein Thread pro Kern (nach AMD-Nomenklatur: Modul) laufen, erst wenn alle Kerne/Module bereits belastet sind, wird mittels CMT der zweite Thread genutzt. Auch hier sinkt die Einzelthreadleistung etwas, die verdoppelte Threadzahl gleicht dies allerdings mehr als aus.
 
Zuletzt bearbeitet:
Das wäre auch wirklich enorm viel gewesen... 5% wiederum klingt recht wenig, bezogen auf den gesamten Die - der auch so schon beträchtlich gegenüber dem K10.5 wachsen dürfte (fertigungsbereinigt) - inkl. möglicherweise recht großer Caches aber evntl. schon möglich.
 
Das halte ich für inkorrekt... Es gibt physisch betrachtet zunächst einmal auch keine "SMT-Kerne". Zwei gleichwertige Registersätze können wahlweise die gleiche Pipeline nutzen, welcher von beiden jetzt genutzt wird ist für die Performance völlig egal - außer natürlich beide sind aktiv, dann sinkt die Performance pro einzelnem Thread. Sollte also erst geschehen, wenn bereits auf jedem verfügbaren Kern ein Thread läuft.

Wieso inkorrekt, was anderes hab ich gar nicht behauptet :p

Tatsache ist, dass Windows ziemlich genau weiß, welche Kerne via SMT "zusammengehören", und vermeidet, sie parallel auszulasten. Sehr schön zu sehen wenn man auf einem Core i7 mal Prime95 mit 4 Workern anwirft und dann in den Taskmanager schaut.

Die Aufteilung in reale und virtuelle Kerne hab ich mir ja auch nicht ausgedacht, die wird tatsächlich im Jargon so verwendet.

CMT verhält sich hier identisch: Beide Threads sind gleichwertig, auf Grund des geteilten Frontends/FPU sollte für beste Performance zunächst nur ein Thread pro Kern (nach AMD-Nomenklatur: Modul) laufen, erst wenn alle Kerne/Module bereits belastet sind, wird mittels CMT der zweite Thread genutzt. Auch hier sinkt die Einzelthreadleistung etwas, die verdoppelte Threadzahl gleicht dies allerdings mehr als aus.

Die Sache ist aber die, dass bei CMT tatsächlich die Integereinheiten und L1-Caches doppelt ausgeführt sind. Möglicherweise ist es der Performance zuträglich, diese Art der Architektur etwas anders anzusprechen. Zumindest glaube ich nicht, dass bis jetzt genug Informationen verfügbar sind, um so eine Aussage schon sicher zu treffen. Deswegen "interessant".
 
Zuletzt bearbeitet:
Wieso inkorrekt, was anderes hab ich gar nicht behauptet :p

Tatsache ist, dass Windows ziemlich genau weiß, welche Kerne via SMT "zusammengehören", und vermeidet, sie parallel auszulasten. Sehr schön zu sehen wenn man auf einem Core i7 mal Prime95 mit 4 Workern anwirft und dann in den Taskmanager schaut.

Dann kam das nur anders herüber. ;) Fakt ist: Genau gleiches wird auch bei CMT nötig sein, um Performanceeinbußen zu vermeiden. Denn: Solange nicht wirklich jeder Transistor verdoppelt wird und eine (annähernd) 100%ige Leistungssteigerung erzielt wird - das wäre dann aber praktisch ein Dualcore ;) - wird es immer schlauer sein, zunächst auf nicht geteilte Ressourcen sprich einzelne Module zurückzugreifen, bevor man mehrere Threads auf demselben laufen lässt. Dafür ist es völlig egal, ob CMT letztlich 60, 70, 80% oder gar noch mehr bringt. 100% werden es nicht sein, damit ist eine entsprechend schlaue Aufteilung des Schedulers ähnlich wie bei SMT-CPUs notwendig.
 
Zuletzt bearbeitet:
thx and cylord, undertaker und mrdude
Bitte nicht alles glauben. Gerade Undertaker versucht hier schon wieder Sachen zu kolportieren, die gar nicht stimmen.


Nochmal Klarheit, um die falschen Aussagen richtig zu stellen.

CMT sorgt nicht für "bis zu 80%". Wenn überhaupt, dann ist 80% eher eine Untergrenze. Ist aber auch nicht ganz so wichtig. Die 80% gelten momentan für den Durchschnitt. Die bereits von mir erwähnten 80% vs 20-25% entsprechen also der selben Metrik. Wobei ich hier schon ein paar Prozent für Sandy Bridge hinzu gerechnet habe, bei dem Hyperthreading etwas besser funktionieren soll. Momentan bringt SMT bei Nehalem durchschnittlich eher so 15-20%, je nach Workload mal mehr und mal weniger.

Die 50% mehr Fläche sind genauso falsch. Anandtech hat hier leider ein weiteres Mal Unwahrheiten verbreitet. Die Zahlen von John Fruehe besagen, der zweite Integer Cluster vergrössert ein Modul um 12%. Bezogen auf den gesamten Die wächst die Fläche um 5%. Also nicht viel anders als bei Intel. Die hatten zu P4 Zeiten den Zuwachs der gesamten Die Fläche durch SMT ähnlich beziffert.
 
Zuletzt bearbeitet:
Momentan bringt SMT bei Nehalem durchschnittlich eher so 15-20%, je nach Workload mal mehr und mal weniger.

Wie gesagt, alles was Software-bedingt durch fehlende Unterstützung solch hoher Threadzahlen nicht entsprechend skaliert, muss man natürlich herausrechnen. Folglich nimmt man besser Clarkdale als Vergleichsbasis, dort kann man durchaus mit ~25% rechnen. Extremfälle in beide Richtungen gibt es natürlich, RE5 legt z.B. fast 70% zu. ;) Aber wir wollen ja nur von Durchschnittswerten in geeigneter (= ausreichend parallelisierter) Software sprechen. Dort würde ich nach der bis zu 80% Herstellerangabe vergleichsweise von ~70% im Schnitt ausgehen, was etwa den erhöhten Transistorbedarf im Vergleich zu SMT entsprechen dürfte. Wird also ein spannendes Jahr 2011, ob AMD nach 4 Jahren wieder um die Effizienz- und Leistungskrone kämpfen kann. :) Für die Preise wär es nur begrüßenswert.

klotieftaucher schrieb:
thx and cylord, undertaker und mrdude

Bitte Vorsicht bei mr dude, da ist vieles mehr Wunsch den Realität. Ich versuche, weitestgehend alles zu korrigieren.
 
Zuletzt bearbeitet:
Bitte nicht alles glauben. Gerade Undertaker versucht hier schon wieder Sachen zu kolportieren, die gar nicht stimmen.


Nochmal Klarheit, um die falschen Aussagen richtig zu stellen.

Wer den Balken im eigenen Auge nicht sieht, soll auch nicht über den Splitter im Auge des Anderen herziehen. Ohne Smliey.

CMT sorgt nicht für "bis zu 80%". Wenn überhaupt, dann ist 80% eher eine Untergrenze. Ist aber auch nicht ganz so wichtig. Die 80% gelten momentan für den Durchschnitt.

Mein Neffe in der 3. Klasse könnte nachweisen, dass diese Aussage mathematisch nicht stimmen kann. Und der hat keine Ahnung wer oder was AMD oder Intel sind. 80% kann nicht gleichzeitig "Untergrenze" und "Durchschnitt" sein, wenn noch andere Zustände ungleich 80% besetzt werden können.

Ich weiß gar nicht, wie man sich über so eine Krempel streiten kann. Dann lasst doch ein 4-Modul Bulldozer mit angenommenen +80% so schnell sein, wie 7,2 hypothetische AMD Kerne (=4*1,8). Dagegen bringt der i7 von mir aus mit +15% und vier Kernen 4,6 hypothetische Intel Kerne (=4*1,15).

Dann ist doch die eigentliche Frage, wie verhält sich die Geschwindigkeit eines hypothetischen AMD gegenüber eines hypothetischen Intel Kerns. Wenn der hypothetische Intel Kern jetzt 60% schneller wäre als ein hypothetischer AMD Kern, würde dem AMD Kern sein überlegenes CMT nichts bringen.

Und wenn ich mir jetzt anschaue wie drastisch langsamer der x2 AMD, den ich mir gestern bestellt habe, gegenüber einem x2 Intel ist, dann kann ich mir gut vorstellen, dass Intel diese 60% erreicht.

Nichtsdestotzotz werden ich mit meinem zukünftigen AMD bestimmt glücklich werden, da ich zu den 90% gehöre, die einfach nicht mehr Rechenpower brauchen.
 
Zuletzt bearbeitet:
Das wiederum ist aber natürlich nicht technisch in der Architektur bedingt, sondern vielmehr in aktueller Software. Auch bei AMD wird CMT bei einem 2-Kerner mehr bringen als bei einem 4-Kerner, schlicht weil die Skalierungsfähigkeit beim Großteil aktueller Software noch nicht für 8 Threads ausgelegt ist.

Hmm, ein 2-Kerner mit CMT ist ein 4-Kerner?!?!? :)

CMT verhält sich hier identisch: Beide Threads sind gleichwertig, auf Grund des geteilten Frontends/FPU sollte für beste Performance zunächst nur ein Thread pro Kern (nach AMD-Nomenklatur: Modul) laufen, erst wenn alle Kerne/Module bereits belastet sind, wird mittels CMT der zweite Thread genutzt. Auch hier sinkt die Einzelthreadleistung etwas, die verdoppelte Threadzahl gleicht dies allerdings mehr als aus.

Hier liegst du meiner Meinung nach falsch. Da beim CMT die gesamte Pipeline duppliziert wird, können im Falle von Integer-Operationen beide Kerne fast vollkommen unabhängig voneinander agieren.
Das Frontend spielt dabei weniger eine Rolle, da es keinen Einfluss auf den Durchsatz hat solange das Frontend breit genug ausgelegt ist. Das könnte man mit der Größe des Arbeitsspeichers vergleichen, sobald genug davon da ist bringen weitere Vergrößerungen nichts mehr.
Die geteilte FPU kann bei entsprechendem Code allerdings wirklich verlangsamend wirken, wobei man berücksichtigen sollte, dass der Anteil an FP-Ops bei den meisten Programmen im einstelligen Prozentbereich liegt und dass die FPU der BD Architektur mehr als den doppelten Durchsatz einer K10 FPU schafft.
Viel wichtiger für eine gute Performance ist da vermutlich der gemeinsame L2-Cache der Cores eines Moduls. Deswegen würde ich Threads eines Tasks auf das gleiche Module schedulen, selbst wenn andere Module/Kerne noch frei sind.
 
Hmm, ein 2-Kerner mit CMT ist ein 4-Kerner?!?!? :)


Frag AMD, warum die das so nennen. ;)

Viel wichtiger für eine gute Performance ist da vermutlich der gemeinsame L2-Cache der Cores eines Moduls. Deswegen würde ich Threads eines Tasks auf das gleiche Module schedulen, selbst wenn andere Module/Kerne noch frei sind.

Das hat schon beim Core 2 Quad keine Leistung gebracht, und dessen Kerne mussten, wenn nicht jene mit geteiltem L2 genutzt werden, über den langsamen FSB kommunizieren. ;) Aber warten wir es ab, ich würde glatt darauf wetten wollen, dass zwei Threads auf verschiedenen Modulen im Regelfall deutlich schneller sein werden, als auf ein- und demselben.
 
Dann ist doch die eigentliche Frage, wie verhält sich die Geschwindigkeit eines hypothetischen AMD gegenüber eines hypothetischen Intel Kerns. Wenn der hypothetische Intel Kern jetzt 60% schneller wäre als ein hypothetischer AMD Kern, würde dem AMD Kern sein überlegenes CMT nichts bringen.

Und wenn ich mir jetzt anschaue wie drastisch langsamer der x2 AMD, den ich mir gestern bestellt habe, gegenüber einem x2 Intel ist, dann kann ich mir gut vorstellen, dass Intel diese 60% erreicht.
Bei gleichem Takt sind das afaik eher 10-20% zwischen einem Phenom II und Nehalem Kern.

Welche relevanten Vergleichswerte hast du da bitteschön betrachtet :confused:
 
Bei der Wette würde ich dagegenhalten. Außer bei sehr FPU-lastigen Sachen entspricht ein Modul bei allen performance-relevanten Aspekten einem normalen Dual-Core und sollte daher auch die gleiche Leistung erreichen.
 
Wer den Balken im eigenen Auge nicht sieht, soll auch nicht über den Splitter im Auge des Anderen herziehen. Ohne Smliey.
Wer nichts zum Thema beizutragen hat, darf gerne auch mal gar nichts sagen. Mit Smiley. :rolleyes:

Mein Neffe in der 3. Klasse könnte nachweisen, dass diese Aussage mathematisch nicht stimmen kann. Und der hat keine Ahnung wer oder was AMD oder Intel sind. 80% kann nicht gleichzeitig "Untergrenze" und "Durchschnitt" sein, wenn noch andere Zustände ungleich 80% besetzt werden können.
Wenn du mal richtig lesen würdest, das steht auch gar nicht da. Vielleicht kann dir dein Neffe ja noch was über die deutsche Sprache beibringen. Ich sagte doch, die 80% sind momentan Durchschnitt. AMD rechnet idR aber konservativ. Wer also unbedingt nach Absoluten sucht, kann die 80% eher als Untergrenze betrachten. Btw, Untergrenze kann sehr wohl Durchschnitt sein. Nämlich dann, wenn Untergrenze = Obergrenze. Tja, dein Neffe hat genauso wie du noch einiges zu lernen. Bitte versuche hier nicht, mit mathematischen Aspekten klugzuscheissen. Ich kann dir schon jetzt sagen, diese Diskussion verlierst du. ;)

Dann ist doch die eigentliche Frage, wie verhält sich die Geschwindigkeit eines hypothetischen AMD gegenüber eines hypothetischen Intel Kerns. Wenn der hypothetische Intel Kern jetzt 60% schneller wäre als ein hypothetischer AMD Kern, würde dem AMD Kern sein überlegenes CMT nichts bringen.

Und wenn ich mir jetzt anschaue wie drastisch langsamer der x2 AMD, den ich mir gestern bestellt habe, gegenüber einem x2 Intel ist, dann kann ich mir gut vorstellen, dass Intel diese 60% erreicht.
Ein AMD X2 ist bei gleichem Takt nicht drastisch langsamer als ein Intel X2. Keine Ahnung, wo du diese Weisheit her hast. Aber sie entspricht definitiv nicht dem Durchschnitt. Und falls du Clarkdale meinst, das ist kein X2 im eigentlichen Sinne, da er 4 logische Prozessoren hat. Dazu taktet er mittels Turbo teils auch deutlich höher. Und um genau diese logischen Prozessoren geht es. Wenn du gründlicher lesen würdest, dazu habe ich schon weiter oben etwas geschrieben. Bezogen auf einen logischen Prozessor (Thread) werden sich Bulldozer und Sandy Bridge wohl nicht viel nehmen. Man braucht kein Prophet zu sein, um zu sagen, dass ein Bulldozer mit 4 Modulen (8 logische Prozessoren) um einiges schneller sein wird als Sandy Bridge mit 4 Kernen (8 logische Prozessoren). Die Frage ist, wie ein Bulldozer mit 4 Modulen gegenüber Westmere / Sandy Bridge mit 6 Kernen abschneidet. Im Serverbereich wird es dann auf 8 Bulldozer Module vs 8-10 Intel Kerne hinauslaufen.
 
Zuletzt bearbeitet:
Man braucht kein Prophet zu sein, um zu sagen, dass ein Bulldozer mit 4 Modulen (8 logische Prozessoren) um einiges schneller sein wird als Sandy Bridge mit 4 Kernen (8 logische Prozessoren).

Das ist höchst fraglich. Momentan sind 6 K10.5 Kerne gerade einmal annähernd so schnell wie 4 i7 Kerne mit SMT. SB sollte etwas um 15% IPC und evntl. nocheinmal 5-10% höhere SMT-Profite mit sich bringen - da reichen selbst 80% CMT noch lange nicht für gleiche Leistung bei gleichem Takt. Mit realistischeren 60-70% durch CMT schon gleich gar nicht. Bleibt noch die Frage, wie sich die Taktraten von SB und BD präsentieren werden.
 
Bulldozer

10-20%+ IPC
80%+ CMT
höhere Taktraten als K10.5

Sandy Bridge

5-10% IPC
5% SMT
Taktraten vergleichbar mit Westmere

So sehen die Unterschiede (exklusiv AVX) gegenüber aktuellen CPUs realistisch aus und nicht Träumereien.
 
@Grummel

Grummel schrieb:
Wer den Balken im eigenen Auge nicht sieht, soll auch nicht über den Splitter im Auge des Anderen herziehen. Ohne Smliey.



Mein Neffe in der 3. Klasse könnte nachweisen, dass diese Aussage mathematisch nicht stimmen kann. Und der hat keine Ahnung wer oder was AMD oder Intel sind. 80% kann nicht gleichzeitig "Untergrenze" und "Durchschnitt" sein, wenn noch andere Zustände ungleich 80% besetzt werden können..............
Wenn man die deutsche Sprache nicht wirklich versteht, ist es wohl besser Fragen zu stellen. Andere Menschen angreifen, nur weil einem das Verständnis fehlt, geschriebene Worte zu deuten, ist ganz sicher der falsche Weg.
mr.dude schrieb:
CMT sorgt nicht für "bis zu 80%". Wenn überhaupt, dann ist 80% eher eine Untergrenze. Ist aber auch nicht ganz so wichtig. Die 80% gelten momentan für den Durchschnitt.
Hier hat wohl jemand behauptet, dass CMT bis zu 80% maximal bringen kann. mr.dude hat dies verneint und schreibt, dass die 80% eher als Untergrenze zu sehen sind, anstatt als maximale mehr Leistung. Allerdings sieht mr.dude CMT im Bereich der Mehrleistung als durchschnittlich 80% und nicht die von jemanden behaupteten bis maximal 80%.
Hier wurde keine Rechnung gemacht, sondern eine Aussage getroffen.
Insofern solltest du von deinem Neffen eine Nachhilfe in Deutsch beantragen.
 
Zuletzt bearbeitet:
Bulldozer

10-20%+ IPC
80%+ CMT
höhere Taktraten als K10.5

Sandy Bridge

5-10% IPC
5% SMT
Taktraten vergleichbar mit Westmere

Hey cool, dann schieß ich auch mal los :):

Bulldozer

5-10% IPC
60% CMT
gleiche Taktraten wie Thuban

Sandy Bridge

15-20%+ IPC
15%+ SMT
Taktraten deutlich über Westmere

Ich denke es sollte klar sein, dass sich die Wahrheit irgendwo dazwischen abspielt. ;) Und klar sein sollte auch: Momentan fehlen dem schnellsten K10.5 gut und gerne 60% auf den schnellsten Westmere in gut parallelisierten Szenarien. Es wird mehr als einen Generationssprung kosten, einen solchen Rückstand wett zu machen. Schon eine deutliche Annäherung wäre ein sehr, sehr großer Erfolg, sowohl für das Image als auch wirtschaftlich.

@Grummel: Epic. :bigok:
 
und wieder ein sinnloser besuch in diesem thread, mehr fakten wenn es welche gibt und weniger von den vielen posts welche über meinem post platziert sind.

und wer kennt schon die echte leistung des BD <- brandneue architektur ?? die spekus sind ja mal ganz nett, aber hier wird mehr die glaskugel ausgepackt als alles andere... das hier is kein speku thread soweit ich das sehe...

nich böse gemeint aber hab den thread erstmal von meinen abos genommen, weils nervt :/

btt

greetz neow
 
Zuletzt bearbeitet:
Herausforderung angenommen!
Das war keine Herausforderung. Du sollst diesen Unsinn einfach bleiben lassen. Das war der Punkt, falls du dies nicht erkannt haben solltest. So wie du, erstmal Leute persönlich angreifen und beleidigen, und das dann mit Klugscheisserei über Aussagen, die so nie gemacht wurden, auf die Spitze zu treiben, ohne jeglichen Themenbezug, führt man jedenfalls keine sachliche Diskussion. DU warst derjenige, der hier völlig grundlos Polemik und Unsachlichkeit ins Spiel brachte. Denk mal darüber nach.

Zu deinen Argumenten: du berufst dich also auf den Fall: Untergrenze = Obergrenze.
Nein, tue ich nicht. Das sollte eigentlich klar geworden. Ich habe dir lediglich einen Fall genannt, für den deine mir gegenüber geäusserte Unterstellung keinen Sinn ergibt, wie deine Unterstellung generell. Bevor du mir hier irgendwas vorwirfst, solltest du erstmal gründlich lesen, was ich geschrieben habe. Denn dein "dass diese Aussage mathematisch nicht stimmen kann" Vorwurf ist weder bezogen auf den Kontext noch logisch korrekt oder zielführend.

D.h. jetzt ist das SMT von Intel doch nicht so grottig?
Wer hat von "grottig" gesprochen? Ich kann niemanden sehen. Wir haben lediglich CMT und SMT verglichen. Ich kann bei deiner Behauptung keinen Bezug dazu sehen, da du mit dem Athlon X2 mit einer CPU vergleichst, die keines von beidem hat.
Und was Clarkdale betrifft, Fakt ist nunmal, 4 logische Prozessoren sind mehr als 2 logische Prozessoren. Und damit ist auch klar, dass eine solche CPU mehr Leistungskapazitäten hat als zB ein X2 oder C2D. Wenn du aber auf Basis der gleichen Anzahl von logischen Prozessoren vergleichst, sieht das schon wieder anders aus. Der schnellste K10.5 ist momentan ähnlich schnell wie Intels schnellste x86 CPU, in bestimmten Bereichen, zB HPC, sogar schneller. Beide haben 12 logische Prozessoren. AMD hat allerdings noch 32 nm in der Hinterhand und eben eine komplett neue Architektur, die sicherlich nicht weniger effizient ist. Insofern muss AMD nicht aufholen, wie manche schreiben. Die Frage ist einfach, wer den grösseren Sprung macht. Und da sehe ich mehr Potenzial bei AMD. Sandy Bridge wird kein grosser Sprung gegenüber Westmere. So viel lehrt uns zumindest die Vergangenheit. Es ist eine Weiterentwicklung der aktuellen Architektur, im aktuellen Fertigungsverfahren. Ein paar Prozent mehr IPC sind immer drin, genauso wie ein eventuell etwas bessere funktionierendes Hyperthreading. Bei 32 nm ist man schon. Also grossartig höhere Taktraten wirst du auch nicht sehen. Und viel mehr Kerne auch nicht. 8-10 Kerne halte ich hier maximal für realistisch. Wenn Bulldozer gegenüber Magny-Cours pro Fläche und pro Watt nicht mehr zu bieten hat, dann hätte AMD definitiv etwas falsch gemacht. Und das ist eher wenig realistisch. Und CMT wird eben dabei helfen, die Effizienz pro Fläche und pro Watt gegenüber dem Vorgänger um einiges zu erhöhen.

Und seit wann hat ein i3 einen Turbo?
Du solltest langsam mal anfangen, gründlich zu lesen. Wer sprach denn vom i3? :rolleyes: Ich sprach von Clarkdale. Und das Wörtchen "teils" ist unübersehbar und damit sollte auch klar sein, dass sich die Aussage nicht auf alle Modelle bezieht.


Sry, wenn ich das so sagen muss, aber dein Beitrag ist ein schönes Beispiel für Polemik, fehlendem Textverständnis, Unsachlichkeit, Off-topic, persönlichen Angriffen und keinerlei Substanz. Das könnte man wirklich als warnendes Beispiel pinnen. Und darauf solltest du dir nichts einbilden. Diese Art, Diskussionen zu führen, solltest du dir endlich mal abgewöhnen. Ist ja nicht das erste Mal. Dann kann man sich auch die Retourkutsche sparen. Und diesen Ratschlag solltest du annehmen und Einsicht walten lassen, um schleunigst auf eine vernünftige Diskussionsebene zurückzukommen, anstatt noch weiter rumzustänkern. ;)
Es ist leider genau das eingetreten, was ich befürchtet habe. Einige unbelehrbare AMD Basher, die Namen sind ja bekannt, torpedieren wieder mal einen AMD Thread. Vernünftige Diskussion, gerade was die technische Seite betrifft, sind damit kaum noch möglich. Es muss natürlich immer wieder mit irgendwelchen sinnfreien Scheinargumenten gebetsmühlenartig hervorgehoben werden, wie toll Intel ist und sein wird. Und das langweilt nicht nur, sondern ödet mittlerweile nur noch an und ist fernab der Realität. Ich kann daher auch die Reaktion von Leuten wie neowkewl2k verstehen, was schade ist. Ich kann nur hoffen, die Mods schauen da nicht einfach nur zu. Die Leute, die hier permanent stänkern, sind ihnen ja auch bekannt.
 
Der schnellste K10.5 ist momentan ähnlich schnell wie Intels schnellste x86 CPU, in bestimmten Bereichen, zB HPC, sogar schneller. Beide haben 12 logische Prozessoren.

Nur mal zu diesem unsinnigen Vergleich: Wir haben ~700mm² gegen ~240mm². Skalier beide mal auf gleiche Die-Size, gerne auch fertigungsbereinigt. Dann enden wir bei Deneb vs. Nehalem, beide ~260mm², letzterer aber ~50% schneller.
 
Nur mal zu diesem unsinnigen Vergleich: Wir haben ~700mm² gegen ~240mm². Skalier beide mal auf gleiche Die-Size, gerne auch fertigungsbereinigt. Dann enden wir bei Deneb vs. Nehalem, beide ~260mm², letzterer aber ~50% schneller.

lol das ist dem endverbraucher sowas von egal wie "groß" die die-size ist... soll intel doch größer bauen..
 
Es ist leider genau das eingetreten, was ich befürchtet habe. Einige unbelehrbare AMD Basher, die Namen sind ja bekannt, torpedieren wieder mal einen AMD Thread. Vernünftige Diskussion, gerade was die technische Seite betrifft, sind damit kaum noch möglich.

Ich bin der Diskussion erst wieder beigetreten, als du Undertaker perönlich angegriffen hast, was mir negativ aufgefallen war. Wie man in den Wald reinruft, so schallt es nun mal hinaus.

Zur technischen Diskussion wollte ich beitragen, indem ich von einem in meinen Augen abgehandelten %-Zahl Vergleich bzgl. SMT/CMT, wo kein weiterer Erkenntnisgewinn mehr zu erwarten ist, auf einen Vergleich der Basis, auf die sich die Prozente beziehen, hinaus wollte. Für mich wäre dies interessant gewesen und für geneigte Leser vermutlich auch, weil sie dadurch die absolute Leistung hätten abschätzen können.

Aber da meine technische Diskussion zum Thema Bulldozer den AMD Fanboys/Mitarbeitern nicht passt, wird man natürlich sofort selbst das Ziel persönlicher Angriffe.

Mir solls egal sein. Ich bin gespannt wie sich der Bulldozer im nächsten Jahr real schlägt. Schließlich passt der ja anscheinend sogar in mein neues Board. Aber auf das AMD Marketing Geschwätz gebe ich jedenfalls nichts.
 
Zuletzt bearbeitet:
lol das ist dem endverbraucher sowas von egal wie "groß" die die-size ist... soll intel doch größer bauen..

Die Size bedeutet nuneinmal Fertigungskosten und damit letztlich auch Endkundenpreise. Könnte AMD bei gleicher Die-Size mehr Leistung / bei kleinerem Die identische Leistung fertigen, würden die niedrigeren Produktionskosten entweder Preissenkungen möglich machen, oder aber z.B. höhere Ausgaben für F&E und damit langfristig eine bessere Konkurrenzfähigkeit.

Aber auf das AMD Marketing Geschwätz gebe ich jedenfalls nichts.

Das sollte man übrigens bei keinem Hersteller, eh sich mr dude wieder persönlich angegriffen fühlt. ;)
 
...mal wieder großes kino hier!


Hey cool, dann schieß ich auch mal los :):

"...... Momentan fehlen dem schnellsten K10.5 gut und gerne 60% auf den schnellsten Westmere in gut parallelisierten Szenarien. Es wird mehr als einen Generationssprung kosten, einen solchen Rückstand wett zu machen. Schon eine deutliche Annäherung wäre ein sehr, sehr großer Erfolg, sowohl für das Image als auch wirtschaftlich.

@Grummel: Epic. :bigok:

oder eben deutlich mehr kerne in der nächsten generation.
ich denke ein 6+6cmt BD könnte es richten, zumindest dann wenn es wie du sagst um stark parallelisierte anwendungen geht!
 
Bulldozer ist bei AMD schon einsatzbereit, die IPC wird 50% mehr als beim K8 ausfallen.
 
Status
Für weitere Antworten geschlossen.
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh