AMDs Bulldozer 50 Prozent schneller als Core i7? (Update)

Status
Für weitere Antworten geschlossen.
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Da muss ich dich noch ein paar Wochen vertrösten.
 
Warum wird meine Frage gelöscht?
Nochmals
Könnte mir bitte jemand erklären was logische CPUs sind? Oder was ist gemeint mit logische CPUs?
Diese Frage hat ja schon jemand gestellt und wurde nicht beantwortet.
Könnte mir wenigstens der Löscher dieser Frage meine Frage beantworten?
 
Zuletzt bearbeitet:
Warum wird meine Frage gelöscht?
Nochmals
Könnte mir bitte jemand erklären was logische CPUs sind? Oder was ist gemeint mit logische CPUs?
Diese Frage hat ja schon jemand gestellt und wurde nicht beantwortet.
Könnte mir wenigstens der Löscher dieser Frage meine Frage beantworten?

einfach ausgedrückt sind logische cpus das was das betriebssystem als cpu ansieht. zb ist eine 4 kern intel cpu mit smt, für windows eine 8 kerncpu.

SMT
 
selbst wenn ne cpu 20 kerne hat....
solange sie eine cpu mit 4 kernen bei gleicher tdp deutlich schlägt und dabei nicht zu teuer ist dann bin ich zufrieden. unabhängig von den ghz zahlen^^
 
naja wenn die pro kern leistung dann nur 1/3 vom 4 kerner wär wäre sie aber dann bei vielen Anwendungen deutlich langsamer

ich hätt da lieber ne dualcore cpu mit der leistung einer 4kern oder 8 kern cpu :-)
 
Die Frage, die nach wie vor bleibt, ist: Wie schneidet BD ab, wenn nur vier Threads (oder weniger) laufen und damit die Hälfte der Integer-Cores nichts macht, während bei Intel nach wie vor vier "fette" Cores rechnen? Das ist derzeit das spannendste an BD. Denn schon beim Thuban sieht man, dass er bei Multithreading in Sachen Performance/Euro auf Höhe eines Sandy Bridge arbeitet, sind es aber vier oder weniger Threads (insbesondere Spiele), dann liegt er meilenweit zurück. Hier muss und wird AMD ansetzen. Daher sind die +50% auf einen i7-950 auch mit Vorsicht zu genießen. +50% schafft würde wohl auch ein Thuban mit zwei zusätzlichen Kernen und ein bisschen mehr L3 packen.
Du rechnest den Ausführungseinheiten zu viel Bedeutung bei. Wichtiger ist das, was davor passiert (Fetch, Decode, Schedule). Hier trennt sich die Spreu vom Weizen. Ausführungseinheiten müssen letztendlich einfach nur ausreichend dimensioniert sein. Sprich, die vom Scheduler ausgespuckten µOps müssen von den Ausführungseinheiten schnell genug abgearbeitet werden, damit das Frontend nicht ins Stocken gerät.
Interessanter ist die Frage, ob und wie viel Performance verloren geht, wenn 2 Threads auf einem Modul statt 2 ausgeführt werden. Offenbar sieht AMD dort keine Probleme. Ich habe da aber Bedenken. Das gleiche Problem hat(te) Intel ja auch, was sich mit Windows 7 allerdings gebessert hat, indem zwischen Kernen und logischen Prozessoren strikter differenziert wird.


Das Fragezeichen steht da nicht nur zum Spaß. Die Frage ist doch aber eben, welche CPU eher unter einer nicht sonderlich gut parallelisierten Anwendung leidet. Ein i7, der deshlab nur 4 Threads bearbeitet, sollte ja eigentlich immernoch ~80% seiner Leistung haben (also ob eben kein Hyperthreading vorhanden wäre), aber wie sieht es da beim Bulldozer aus?
Meine Frage habe ich auch nicht zum Spass im Konjunktiv formuliert. Du zäumst das Pferd von der falschen Seite auf. Ich gehe davon aus, dass sich Bulldozer und Sandy Bridge in solchen Szenarien nicht viel geben werden. Kann die CPU hingegen komplett ausgelastet werden, erwarte ich Bulldozer bei gleicher Anzahl an logischen Prozessoren vorn, je nach dem, um wie viel CMT besser skaliert als SMT.


einfach ausgedrückt sind logische cpus das was das betriebssystem als cpu ansieht. zb ist eine 4 kern intel cpu mit smt, für windows eine 8 kerncpu.
Das schimpft sich aber logischer Prozessor und nicht logische CPU. CPU nennt man normalerweise das gesamte Package und ist implizit physisch. Also das, was du letztendlich in den Sockel platzierst. Das muss übrigens kein einzelner Chip samt Träger, sondern kann auch eine MCM Lösung sein. Von logischer CPU spricht man eher bei Virtualisierung.
 
Zuletzt bearbeitet:
AMD behauptet ja 1 Thread im Modul = 100% 2 Threads = 160%

bzw pro int core gesehen wenn das modul nur 1 thread hat bringt der int kern 100% wenn beide int cores ausgelastet sind nur mehr 80%

frage wäre nur ob sie da von unabhängigen threads ausgehen oder von abhängigen, wenn sie zum teil voneiannder abhängig sind oder mit den selbend aten rechnen gibts durch den gemeinsamen L2 sicher nen kleine boost
 
Zuletzt bearbeitet:
y33H@ schrieb:
Die Frage, die nach wie vor bleibt, ist: Wie schneidet BD ab, wenn nur vier Threads (oder weniger) laufen und damit die Hälfte der Integer-Cores nichts macht, während bei Intel nach wie vor vier "fette" Cores rechnen?

Wenn nur ein Thread läuft, dürften alle ressourcen für einen Kern bereitstehen, d.h. relativ hohe pro Thread Leistung. Wenn jetzt 2 oder 4 Threads laufen dürfte die Performance nicht so gut sein wie bei einem, wobei die IPC bei 2 Threads immernoch höher sein soll als damals beim Phenom 2, wenn dieser 2 Threads bearbeitet.
Und wieso nach wie vor 4 Fette Cores? Fett weil die ressourcen bei mehreren Threads nicht weniger werden? Wie groß der Nachteil ist, wird man sehen.
Aber die Performance im Schnitt wird wohl das entscheidende sein.
Zumal die Bedeutung von Kernen und die Vergleichbarkeit derer mit Intel eh immer komplizierter wird.

Zudem könnten bei 2 oder 4 Threads ja 2 bzw. 4 Module arbeiten und volle ressourcen zur Verfügung stellen, anstatt für beispielsweise 2 Threads nur 1 Modul arbeiten zu lassen, mit dem Nachteil dass es nur mehr 80% der Leistung sind, als wenn nun 2 Module arbeiten und pro Modul 1 Kern als 1 Thread arbeitet.

Zählst du die real auf dem Die vorhandenen Integer-Cores, steht Intel besser dar. Ich bin für letzteres, denn das ist physisch vorhanden.

Wieso steht Intel da besser da? Kennst du denn die Leistung eines BD-Moduls?
Physisch vorhanden sind die Integer-Kerne bei AMD genauso, warum steht Intel da besser da?

KlausW schrieb:
AMD behauptet ja 1 Thread im Modul = 100% 2 Threads = 160%

Ein Modul schafft 80% der Leistung eines fiktiven vollwertigen BD Dualcores.
Manche vermuten ein Speedup durch den 2ten Integer-Kern im Modul einen Speedup von 80% und rechnen das dann auf 180% zusammen.
 
Zuletzt bearbeitet:
@KlausW

Das Thema hatten wir erst. Von 160% in Bezug auf ein Modul hat AMD bisher nichts gesagt. Die Aussage war:
the word from our engineers is that adding a second integer core to each bulldozer module is ~5% silicon but nets ~80% performance uplift over a single integer core
Wobei das imo nicht automatisch bedeutet, dass in der Praxis ein Thread im Modul 100% erreicht und zwei Threads 180%. Hier muss man abwarten, wie die Lastverteilung letztendlich genau funktioniert, da noch andere Faktoren im Spiel sind. In den Compiler Logs war immer mal etwas von einem "accelerated mode" zu lesen. Es ist auch nicht unwahrscheinlich, dass bei nur einem Thread im Modul mehr Takt durch Turbo Boost bereitgestellt wird.
 
Hier gab es von AMD missverständliche Aussagen, niemand weiß was man glauben soll, denn es gibt den Link und den anderen.
Von 160% in Bezug auf ein Modul hat AMD bisher nichts gesagt.

Aber doch von 80% des Moduls im Vergleich zu einem vollwertigen Dualcore.
Was stimmt denn nun? :)
 
Zuletzt bearbeitet:
Die Aussagen waren bisher recht unmissverständlich (imo).

(1) ein Modul = 80% Performance eines fiktiven normalen Bulldozer Dual-Core
(2) der zweite Integer Kern eines Moduls sorgt für 80% mehr Performance gegenüber einem fiktiven Modul mit nur einem Integer Kern

Von 160% wurde jedenfalls nichts gesagt und auch von JF explizit dementiert. Wenn man in Punkt (1) für einen solchen fiktiven Dual-Core 200% ansetzt, kämen zwei Module auf 160%. Ist aber egal. Normalisiert sind das auch 80%.
 
Zuletzt bearbeitet:
Aber ein Bulldozer Modul leistet nur 80% eines vollwertigen, fiktiven BD Dualcores.
Also sind die Rechnungen mit 180% falsch, wenn:

ein Modul = 80% Performance eines fiktiven normalen Bulldozer Dual-Core

dies zutrifft.

(1) ein Modul = 80% Performance eines fiktiven normalen Bulldozer Dual-Core
(2) der zweite Integer Kern eines Moduls sorgt für 80% mehr Performance gegenüber einem fiktiven Modul mit nur einem Integer Kern

Das sind 2 verschiedene Aussagen.
Denn bei Nummer 1 sinds in der Summe 80% eines fiktiven Dualcores und bei Nummer 2 90% Leistung eines fiktiven BD dualcores.
 
Zuletzt bearbeitet:
Deine Einwände haben zwei Haken.

1. Wir wissen nicht, wie Bulldozer funktioniert. Simple Arithmetik bringt uns da nicht ans Ziel.
2. Was ich geschrieben habe, ist das, was AMD bisher als Info rausgegeben hat. Inwiefern die Angaben stimmen, können wir nicht überprüfen.
 
Meine güte integer cores hin oder her^^ die gesammt leistung der module zählt^^.

Die hd4870 hat auch nicht mehr leistung mit seinen 800 sp als eine gtx580 mit ihren 512sp.

Bulldozer wird wohl zeigen dass es langsam nicht mehr um die leistung pro kern gehen wird.

Verstehe diesen Vergleich nicht.
HD 4870 965 Millionen Transistoren, GTX 580 3 Milliarden Transistoren. Über 3 mal mehr.
 
Zuletzt bearbeitet:
Verstehe diesen Vergleich nicht.
HD 4870 965 Millionen Transistoren, GTX 580 3 Milliarden Transistoren. Über 3 mal mehr.

er sagt dass es die allermeisten leute die sich einen PC/CPU kaufen nicht interessiert warum die eine CPU schneller ist als die andere. bzw. dass es den Leuten schlichtweg egal ist ob da nun 4/8kerne oder 4 Module/8Kerne arbeiten.

Letztendlich zählt wieviel Leistung man für sein Geld bekommt.
 
warum werden hier willkürlich posts gelöscht von irgendwelchen möchtegern super hero moderatoren ? und das alles ohne kommentar ... nur weil ich meine meinung sagte ?

aber posts wie diese bleiben ? (siehe zitate)


langsam aber sicher hab ich das luxx satt mit seinen sogenannten "moderatoren" ...pff

Min FPS sind beim intel viel viel höher!!
Bei crysis ist es noch übler!! min FPS 20 für den AMD und 38 beim intel sprechen ne andere sprache!
Habe das die letzte zeit mehr als genug getestet!
Ein x4 oder x6 reicht selbst mit oc nicht aus um bei full hd eine HD6970 konstant ins gpu limit laufen zu lassen wobei der i5 750 vom kumpel sogar @1360x1050 schon nicht mehr limitiert wenn 3,6Ghz anliegen!

@~DeD~
vergiss die tests weil in den games gibt es immer wieder bereiche in den ein CPU limit auftritt und das selbst bei fullhd mit max settings daher kann ich dir sagen das die ganzen tests die es gibt nix wert sind!!
Ich habe das in letzter zeit mehr als genug getestet und bei crossfire wird das ganze noch schlimmer!
Ich schau nur noch auf 640x480er tests!
Nach meinen ganzen tests habe ich nun auch beschlossen mir einen i7 2600K zu kaufen genauso wie mein kumpel mit seinem X6@4,2 da wird echt geschockt wahren das die amds so kacke sind!

ich kann kaum in worte fassen, wie schnuppe es mir ist ob der neue AMD 50% oder 20% oder -10% der leistung eines I7 950 hat.

Hab vor kurzem von meinem betagten Core2Quad 6700 auf nen I5 upgedatet und merke null komm null unterschied im alltäglichen betrieb...
Die frage ist immer wieder... wers braucht.....
2FPS mehr beim zocken... juhuuuu... und sonst... eiert die mehrzahl derer die meinen .... muss ich haben... 90% der zeit die se am PC sitzen im Luxx rum und freuen sich über jeden der se hoch leben lässt... doch... ja... da braucht man schon so nen geschoss ;)
Spare auch schon länger für nen Porsche, brauch was zum einkaufen fahren *gg*

ja, tripple SLI.. genau...
Würd ich noch bei Mami und Papi wohnen wäre das evtl ne feine sache, leider muss die mehrheit aber die stromrechnung selbst zaheln, tripple SLI ist also eher selten anzutreffen.
Davon abgesehen... und was hast von nem Tripple SLI, fährst ja nur nen FullHD an, wo willst du also mit der leistung hin?
Läuft damit irgend ein spiel dann besser als mit der 580 oder schreibt es sich damit Forenbeiträge schneller, oder ists nur zum pipmatz verlängern?
Fragen über fragen *gg* und über die sinnhaftigkeit darf man sowieso nicht nachdenken.
Und solche käufer sind den herstellern ja eh die liebsten.. kaufen ohne verstand ^^
Schon ein komisches argument für einen prozessor... der is besser weil der I5 kein Tripple SLI kann... *gg*
Naja, zumindest macht ein tripple SLI eins... es macht den raum schön warm, is doch auch was wert ^^

So geil das gebashe zu sehen. Wie dumm kann man sein seinen Glauber einer Firma zu schenken :d

Ich wette ihr seid auch diejenigen, die sich am meisten über verteuerung des Stromes und erhöhung der Benzinpreise aufregen und im Forum AMD/NV/Intel den Tod wünschen kaum zu glauben :d
 
Einfach abwarten und sehen was kommt. Jetzt in Euphorie zu geraten hat doch keinen Sinn.
 
ist doch nur ne MarketingEnte um SB zu torpedieren, keine weiteren Tests von 2. Stelle dazu, noch irgend was konkretes, ist mal wieder nur eine Hype um nix, wer glaubt schon das AMD von nix auf sofort nen Prozzi mit 50% Mehrleistung als Intels Flagschiff raus zaubert, das sind doch nur die Fanboys mit ihren Inteluntergangsträumen, AMD hat schon immer bewiesen das sie nicht mal nen Vorteil nutzen können, als Sie z.bspl. EINMAL etwas besser waren (5%), schon so eine Fred los zu lassen zeigt auch die Kompetenz hier, fehlen nur noch Fakevideos von selbstfliegen AMd Rechnern, mfg
 
ist doch nur ne MarketingEnte um SB zu torpedieren, keine weiteren Tests von 2. Stelle dazu, noch irgend was konkretes, ist mal wieder nur eine Hype um nix, wer glaubt schon das AMD von nix auf sofort nen Prozzi mit 50% Mehrleistung als Intels Flagschiff raus zaubert, das sind doch nur die Fanboys mit ihren Inteluntergangsträumen, AMD hat schon immer bewiesen das sie nicht mal nen Vorteil nutzen können, als Sie z.bspl. EINMAL etwas besser waren (5%), schon so eine Fred los zu lassen zeigt auch die Kompetenz hier, fehlen nur noch Fakevideos von selbstfliegen AMd Rechnern, mfg

da beweist du mal wieder dein völlig fehlendes wissen aber hauptsache irgendeinen dünnpfiff gepostet ... :wink:


aja mfg ...
 
ist doch nur ne MarketingEnte um SB zu torpedieren, keine weiteren Tests von 2. Stelle dazu, noch irgend was konkretes, ist mal wieder nur eine Hype um nix, wer glaubt schon das AMD von nix auf sofort nen Prozzi mit 50% Mehrleistung als Intels Flagschiff raus zaubert, das sind doch nur die Fanboys mit ihren Inteluntergangsträumen, AMD hat schon immer bewiesen das sie nicht mal nen Vorteil nutzen können, als Sie z.bspl. EINMAL etwas besser waren (5%), schon so eine Fred los zu lassen zeigt auch die Kompetenz hier, fehlen nur noch Fakevideos von selbstfliegen AMd Rechnern, mfg
Nur dass der i7-950 nicht gerade Intels Flagschiff ist und diese Meldung somit bedeuten würde, dass Bulldozer je nach Anwendung vielleicht knapp schneller wird als ein i7-980X.
 
Zuletzt bearbeitet von einem Moderator:
[....] Fanboys[...] AMD hat schon immer bewiesen das sie nicht mal nen Vorteil nutzen können, als Sie z.bspl. EINMAL etwas besser waren (5%),
Welch Ironie das du von Fanboys sprichst. Aber redest wohl gerne über dich.
Wenn es dir um Fakten gehen würde so würdest du auch erwähnen weshalb dieser Vorteil nicht genutzt werden könnte. Oh wait.... das würde ja deine kleine Lieblingsfirma in ein schlechtes Licht rücken...

zeigt auch die Kompetenz
Also bei dir sehe ich nichts davon.... :rolleyes:

und du bist wirklich Jahrgang 62? Oh man
 
Zuletzt bearbeitet:
Also bis vor 8 Posts, war das hier sehr interessant zu Lesen. Hier sind auf jedenfall ein paar User unterwegs die Ahnung von der Architektur einer CPU haben und sich einen Kopf um die mögliche Leistung eines neuen Prozessors machen. Frei von Intel oder AMD gebashe. Wäre schön wenn das so bleibt :coolblue:
 
Meine Frage habe ich auch nicht zum Spass im Konjunktiv formuliert. Du zäumst das Pferd von der falschen Seite auf. Ich gehe davon aus, dass sich Bulldozer und Sandy Bridge in solchen Szenarien nicht viel geben werden. Kann die CPU hingegen komplett ausgelastet werden, erwarte ich Bulldozer bei gleicher Anzahl an logischen Prozessoren vorn, je nach dem, um wie viel CMT besser skaliert als SMT.
Dann kannst du sicher auch erklären, wie du darauf kommst? Nicht weil ich es nicht glauben will, sondern weil sich das mir aus den wenigen Angaben, die wir bisher zu Leistung haben, einfach nicht erschließt.
 
Du rechnest den Ausführungseinheiten zu viel Bedeutung bei. Wichtiger ist das, was davor passiert (Fetch, Decode, Schedule). Hier trennt sich die Spreu vom Weizen. (...)

Zusätzlich zu dem was du bzgl. zwei Threads pro Modul geschrieben hast, wird denk ich noch Mischbelastung interessant, also wenn nicht nur die integer cores angesprochen werden, sondern auch noch die FP-Einheit. Eine sorteinreine Belastung ist eher in Benchmarks interessant, in der Realität wirst du aber das nicht häufig haben.
Die Frage ist also, wenn mann von den 180% Steigerung ausgeht bei 2 integer cores, wieviel bleibt davon übrig wenn man zusätzlich FP-Instruktionen mit einfließen lässt. In dem Fall profitiert aktuell ggf. von SMT. Interessant wird dann natürlich noch die Unterstützung vom OS, mit Win7 hat MS in Zusammenarbeit mit Intel wohl einiges bzgl. der Optimierung hinsichtlich SMT gemacht. Aber ich denke du wirst recht behalten und weder Intel noch AMD werden sich da viel nehmen.
 
Ehrlich gesagt: mir is vollkommen Wumpe wie ein Proz bei irgendwelchen Benchmarks abschneidet.
Meine Frage ist:
- wie viele Kerne nutzt das Programm das ich habe?
1? Reicht eine CPU
2? Brauche ich zwei
4? Muss ich vier haben
Mehr unterstützt im Moment kein Game. Und dafür brauche ich den Rechner hauptsächlich.
Die meisten nutzen nur zwei Prozessoren. Ich fahre immer noch einen schnellen C2D mit guter Peripherie. Ende.
 
AMD behauptet ja 1 Thread im Modul = 100% 2 Threads = 160%

Wem dem so wäre, wäre das meines Erachtens sogar positiv für AMD. Denn wenn ein Modul nur 80% der Leistung eines normalen Dual-Cores bringt - der BD damit ein rechnerischer "6,4-Kerner" wäre - und der 4-Modul BD trotzdem ungefähr so schnell wie ein 2600k wäre, dann würde das bedeuten, dass AMD gerade im Bereich, in dem sie bisher ihre größte Schwäche hatten, nämlich der Rechenleistung pro Kern, deutlich aufgeholt haben.

Denn das mehr und mehr an Kernen bringt ja nichts, wenn z.B. im normalen Office/Internet/Multimedia Betrieb keine 4 Kerne genutzt werden. Da muss einfach mehr Leistung pro Kern her, um einen Unterschied zu spüren. Und wenn AMD das gelungen wäre, wäre das schon ein großer Fortschritt.
 
Dann kannst du sicher auch erklären, wie du darauf kommst? Nicht weil ich es nicht glauben will, sondern weil sich das mir aus den wenigen Angaben, die wir bisher zu Leistung haben, einfach nicht erschließt.
Nun ja, erklären werde ich das jetzt nicht nochmal. Das haben wir alles schon mehrfach durchgekaut. Ich kann dich an dieser Stelle nur an Dresdenboys Blog verweisen. Dort wurden viele Details zur Architektur zusammengetragen. Der springende Punkt für mich ist, dass beide Hersteller pro logischem Prozessor eine 4-fach OoO Engine implementiert haben. Alles weitere wird man sehen. Momentan gibt es einfach noch zu viele Unbekannte, wie Cache, Scheduler, Takt, usw, um genau Prognosen zu machen.


ist doch nur ne MarketingEnte um SB zu torpedieren, keine weiteren Tests von 2. Stelle dazu, noch irgend was konkretes, ist mal wieder nur eine Hype um nix, wer glaubt schon das AMD von nix auf sofort nen Prozzi mit 50% Mehrleistung als Intels Flagschiff raus zaubert, das sind doch nur die Fanboys mit ihren Inteluntergangsträumen, AMD hat schon immer bewiesen das sie nicht mal nen Vorteil nutzen können, als Sie z.bspl. EINMAL etwas besser waren (5%), schon so eine Fred los zu lassen zeigt auch die Kompetenz hier, fehlen nur noch Fakevideos von selbstfliegen AMd Rechnern, mfg
Ich würde empfehlen, erstmal alles gründlich durchlesen. Du schreibst nun schon zum wiederholten male Blödsinn. Ich wüsste jedenfalls nicht, dass der i7-950 Intels Flaggschiff wäre. Es wäre auch wünschenswert, wenn du solche inhaltslosen und unsachlichen Beiträge in Zukunft einfach bleiben lässt. Das hilft hier keinem weiter.


Zusätzlich zu dem was du bzgl. zwei Threads pro Modul geschrieben hast, wird denk ich noch Mischbelastung interessant, also wenn nicht nur die integer cores angesprochen werden, sondern auch noch die FP-Einheit. Eine sorteinreine Belastung ist eher in Benchmarks interessant, in der Realität wirst du aber das nicht häufig haben.
Die Frage ist also, wenn mann von den 180% Steigerung ausgeht bei 2 integer cores, wieviel bleibt davon übrig wenn man zusätzlich FP-Instruktionen mit einfließen lässt.
Kommt auf die Anwendung an. Im Schnitt über alle möglichen Szenarien hinweg machen Speicher- und Integer-Instruktionen das meiste des Codes aus (>80%). Bis SSE sehe ich da auch noch kein Problem. Jedem Integer Kern steht dann ein dedizierter 128-bit FMAC zur Verfügung. Interessant wird es eigentlich erst bei AVX. Dann müssen sich beide Integer Kerne die FPU Ressourcen teilen.
 
Du rechnest den Ausführungseinheiten zu viel Bedeutung bei. Wichtiger ist das, was davor passiert (Fetch, Decode, Schedule). Hier trennt sich die Spreu vom Weizen. Ausführungseinheiten müssen letztendlich einfach nur ausreichend dimensioniert sein. Sprich, die vom Scheduler ausgespuckten µOps müssen von den Ausführungseinheiten schnell genug abgearbeitet werden, damit das Frontend nicht ins Stocken gerät.

Die Ausführungseinheiten sind wirklich nicht der Knackpunkt, das Frontend (bis auf die Branch Prediction) aber auch nicht. Du kannst bei normalen CPU Programmen das Front-End beliebig breit machen und auch entsprechend viele FUs dazu bauen und würdest trotzdem nicht mehr viel Leistung rausholen. Der limitierende Faktor sind einerseits Datenabhängigkeiten und andererseits Kontrollflussabhängigkeiten aka. bedingte Sprünge.

Datenabhängigkeiten lassen sich nicht beheben, man kann nur versuchen sie möglichst zu umgehen (-> Out of Order Execution, Multithreading).

Bei bed. Sprüngen kommt die Sprungvorhersage zum Einsatz.

Will man also die Performance erhöhen, muss man den Umgang mit einem oder beiden Problem(en) verbessern.

Intel hat bei Nehalem und Sandy Bridge hauptsächlich OoO Execution und teilweise Multithreading verbessert, das sorgt dafür, dass die FUs besser ausgelastet werden -> höhere IPC, höhere Performance, relativ viele Transistoren.

Eine andere Methode ist es einfach die Pipelinelänge zu verändern, d.h. man erhöht die Taktfrequenz. Dadurch steigt zwar nicht die Auslastung der Einheiten, aber da die Einheiten schneller Arbeiten, steigt trotzdem die Performance (ohne dass die Datenabhängigkeiten stärker werden). Natürlich ist das ganze nicht so einfach (hat man am P4 gesehen). Denn je länger die Pipeline wird, desto stärker fallen falsch vorhergesagt Sprünge ins Gewicht. Ergo besteht hier das Hauptproblem darin die Sprungvorhersage möglichst gut zu machen oder alternative Lösungen für falsch vorhergesagt Sprünge zu finden. Außerdem muss man beachten, dass mit steigender Taktfrequenz auch die Stromverbrauch zunimmt.
AMD versucht sich mit BD an dieser Methode. Die Kontrollflussabhängigkeiten versucht man mit Hilfe einer sehr stark aufgebohrten Branch Prediction Unit zu kompensieren. Andererseits hat man auch noch mehre Patente, die in dem Bereich noch weitere Verbesserungen beschreiben, z.B. eager execution (Ausführung von beiden Pfaden nach einer Bedingung auf eng gekoppelten Kernen). Das Problem mit dem höheren Stromverbrauch versucht man durch feingranulares Clock- und Powergating zu kompensieren, d.h. die Transistoren takten höher (-> brauchen mehr Strom), dafür reduziert man die Anzahl der Transistoren, die aktiv sind (-> weniger Stromverbrauch).

Interessanter ist die Frage, ob und wie viel Performance verloren geht, wenn 2 Threads auf einem Modul statt 2 ausgeführt werden. Offenbar sieht AMD dort keine Probleme. Ich habe da aber Bedenken. Das gleiche Problem hat(te) Intel ja auch, was sich mit Windows 7 allerdings gebessert hat, indem zwischen Kernen und logischen Prozessoren strikter differenziert wird.

Das Problem hatte Intel deswegen, weil sich 2 Threads dann z.B. um 3 ALUs und eine SSE Einheit gestritten haben. Das Problem hat AMD nicht, den jeder Thread hat seine eigene Pipeline mit seinen eigenen ALUs. Die einzige Sache, wo sich die beiden Threads behindern können ist bei 256Bit AVX Instruktionen.


AMD behauptet ja 1 Thread im Modul = 100% 2 Threads = 160%

bzw pro int core gesehen wenn das modul nur 1 thread hat bringt der int kern 100% wenn beide int cores ausgelastet sind nur mehr 80%

Ich glaube viele nehmen die damalige Aussage zu sehr auf die Goldwaage. Es wurde SMT mit CMT verglichen und dabei gesagt statt +5% Transistoren für +20% Leistung bekäme man für +15% Transistoren +80% Leistung. Einfach 2x80% zu nehmen ist da doch recht weit hergeholt. Aufgrund der Architektur sollte bei reinem Int-Code durchaus +100% drin sein.

frage wäre nur ob sie da von unabhängigen threads ausgehen oder von abhängigen, wenn sie zum teil voneiannder abhängig sind oder mit den selbend aten rechnen gibts durch den gemeinsamen L2 sicher nen kleine boost

Bei der obigen Aussage hatten sie vermutlich weder das eine noch das andere im Sinn, sondern wollten nur verdeutlichen, dass CMT im Vergleich zu SMT deutlich mehr bringt. Aber es richtig, dass bei "abhängigen" Threads der gemeinsame L2 Cache ein Vorteil bringen sollte.

Wenn nur ein Thread läuft, dürften alle ressourcen für einen Kern bereitstehen, d.h. relativ hohe pro Thread Leistung. Wenn jetzt 2 oder 4 Threads laufen dürfte die Performance nicht so gut sein wie bei einem, wobei die IPC bei 2 Threads immernoch höher sein soll als damals beim Phenom 2, wenn dieser 2 Threads bearbeitet.

Das ist eine schwere Abschätzung. Ich glaube nicht, dass die zusätzlichen Ressourcen bei nur einem Thread/Modul so viel bringen, entsprechend glaube ich auch nicht, dass die Leistung bei 2 Threads / Modul stark abnimmt. Bei speziellen Tasks, die sehr auf einen großen L2-Cache angewiesen sind, mag das vielleicht zutreffen, aber im Mittel wird der Unterschied vermutlich nicht so groß sein, denn die kritischen Bereiche sind weiterhin separat pro Kern vorhanden.
Im Vergleich zum K10.5 wurde sowohl die Anzahl der FUs/Kern reduziert, als auch die Pipeline verlängert, was beides der IPC abträglich ist. Da AMD aber bereits bestätigt hat, dass die IPC größer sein wird als beim K10.5 scheinen sie auch den Rest optimiert zu haben. Allerdings erwarte ich auf Grund der ersten beiden Punkte keine all zu starke IPC-Verbesserung.

Zudem könnten bei 2 oder 4 Threads ja 2 bzw. 4 Module arbeiten und volle ressourcen zur Verfügung stellen, anstatt für beispielsweise 2 Threads nur 1 Modul arbeiten zu lassen, mit dem Nachteil dass es nur mehr 80% der Leistung sind, als wenn nun 2 Module arbeiten und pro Modul 1 Kern als 1 Thread arbeitet.

Ich tippe auf Grund des BD Designs (schlankere Pipelines, dafür höherer Takt) eher auf eine Strategie, die Threads auf wenige Modulen zu bündeln und dafür die anderen Module abzuschalten. Dafür darf dann der Turbo üppiger ausfallen. Der höhere Takt dürfte sich im Optimalfall in linear steigender Leistung ausdrücken. Die zusätzlichen Ressourcen dagegen bringen nur relativ wenig und kosten trotzdem viel Strom.



Aber ein Bulldozer Modul leistet nur 80% eines vollwertigen, fiktiven BD Dualcores.
Also sind die Rechnungen mit 180% falsch

Ich würde sagen, sie sind weder falsch noch richtig, gehen einfach daran vorbei, was damals mit der Aussage bezweckt wurde, nämlich zu verdeutlichen, dass CMT mehr bringt als SMT.

Zusätzlich zu dem was du bzgl. zwei Threads pro Modul geschrieben hast, wird denk ich noch Mischbelastung interessant, also wenn nicht nur die integer cores angesprochen werden, sondern auch noch die FP-Einheit. Eine sorteinreine Belastung ist eher in Benchmarks interessant, in der Realität wirst du aber das nicht häufig haben.
Die Frage ist also, wenn mann von den 180% Steigerung ausgeht bei 2 integer cores, wieviel bleibt davon übrig wenn man zusätzlich FP-Instruktionen mit einfließen lässt. In dem Fall profitiert aktuell ggf. von SMT. Interessant wird dann natürlich noch die Unterstützung vom OS, mit Win7 hat MS in Zusammenarbeit mit Intel wohl einiges bzgl. der Optimierung hinsichtlich SMT gemacht. Aber ich denke du wirst recht behalten und weder Intel noch AMD werden sich da viel nehmen.

Da die 256Bit FPU eines Moduls eigentlich aus 2x 128Bit besteht, die auch separat arbeiten können, ändert sich eigentlich nicht viel (K10.5/Nehalem 1x 128Bit FPU). Es kann also pro Takt entweder ein Kern eine 256Bit AVX-Instruktion absetzen oder eben 2 128Bit Instruktionen oder jeder Kern je eine 128Bit Instruktion. Ungünstiges Scheduling sollte bei CMT weniger ausmachen als bei SMT. Es könnte sich aber negativ auf den Stromverbrauch und damit auf den max. Turbo auswirken (siehe oben).

Sandy Bridge hat hingegen einen Vorteil bei 256Bit AVX-Instruktionen, da es je eine pro Kern und Takt ausführen kann. Das wird aber wohl häufig dadurch kompensiert, dass AMD FMA unterstützt, dabei werden eine Addition und eine Multiplikation zusammen ausgeführt (zählt als 2 Ops), so dass man in diesem Fall auch auf 2 256Bit Ops / Takt und Modul käme.
 
Zuletzt bearbeitet:
Status
Für weitere Antworten geschlossen.
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh