AMDs Bulldozer 50 Prozent schneller als Core i7? (Update)

Fatima · 03.02.2011

Es ist egal wie groß die DIE-Fläche ist. Der Preis bestimmt und beinhaltet auch die DIE-Fläche. Wenn der Preis, Leistung und Verbrauch stimmt, kann von mir aus und für 95% der User es egal sein ob die DIE Fläche 12km² oder 18km²

beträgt. Das sind dann für mich wieder nur reine Fanboy Stories. Da kann sich dann die Minderheit darum prügeln, die mit ihre 5% eh kein Gehör oder Beachtung finden wird. Für den Hersteller der 18km² DIE-Fläche ist das völlig ohne Belang.

Duplex · 03.02.2011

Bulldozer (Orochi DIE) ist sogar kleiner als der Phenom2 X6

das hat JF-AMD mehrmals bestätigt.
so gesehen sind die 4 Physischen Kerne kleiner & geschätzt 50-70% schneller als Thuban.

mr.dude · 03.02.2011

Undertaker 1 schrieb:
Nein, ich kenne keine Werte.

Ok, also ist dein Einwand wertlos. Und dabei wollen wir es belassen. Bis wir genaue Werte kennen, ist 5% sicherlich ein guter Richtwert. Wer glaubt, es sei weniger oder mehr, kann sich das ja dann selber nochmal mit seinem Wert durchrechnen. Ich würde empfehlen, du machst genau das, und teilst uns dann dein Ergebnis mit. Sry, aber das ist einfach wieder mal nur sinnfrei und uneinsichtig deinerseits. Selbst wenn SMT nichts kosten würde, was natürlich Blödsinn ist, stünden immer noch 12% mehr Fläche bei über 30% mehr Performance für CMT. Auch dieses Verhältnis ist mehr als eindeutig.

Undertaker 1 schrieb:
Es ist klar, dass SMT nur dann sinnvoll ist, wenn die Pipeline mit einem Thread noch nicht wirklich gut ausgelastet ist.

Nö. Das Ziel von SMT hat mit der Pipeline erstmal gar nichts am Hut. Bestimmte Einheiten der Pipeline werden für SMT einfach nur vervielfacht oder verbreitert. Der Sinn von SMT liegt immer noch darin, die Ausführungseinheiten besser auszulasten. Die zwar Teil der Pipeline sind, aber eben nicht pauschal die Pipeline. Und die Ausführungseinheiten besser auszulasten, ist natürlich auch bei einem CMT-basierten Design problemlos machbar, siehe Sun.

Undertaker 1 schrieb:
Der Beweis dafür ist denkbar einfach: Würde SMT auch bei BD noch nennenswerte Profite bringen, hätte man es implementiert, und wenn es nur für die Servermodelle aktiviert werden würde.

Klar, das ist DER Beweis. Was sonst. :haha:

Undertaker 1 schrieb:
Ein Bulldozer hat 4MB L2+L3 pro Modul, nicht 2MB - und damit über 38mm².

Immer die gleiche Leier. :rolleyes:

Du hast es scheinbar immer noch nicht kapiert. Es ging um Kernlogik, nicht um irgendwelchen Cache. Eine gleichwertige Cachemenge wurde lediglich genommen, da keine genauen Zahlen ohne Cache bekannt sind. Wenn dir das Spass macht, dann ziehe sämtlichen Cache eines Moduls ab und vergleiche das mit der Kernlogik eines Sandy Bridge Kerns. Darum geht es. Die Menge des Caches kann eh von Design zu Design variieren.

Limit64 schrieb:
Es gibt zwar nur ein Frontend pro Modul, das aber im Vergleich zum Vorgänger fast den doppelten Durchsatz hat. Das gleiche gilt für die FPU. Der L2-Cache wurde gleich vervierfacht.

Diese Komponenten sind trotzdem nur einmal vorhanden. Intel hat bei Nehalem ja ebenfalls einiges verbreitert, damit SMT nicht im Keim erstickt. Ausserdem sollte man bei einigem vorsichtig sein. Wer sagt uns denn, dass die FPU wegen CMT verbreitert wurde? Dagegen spricht zB AVX. IIRC waren in früheren Patenten nur 2x 64-bit beschrieben, die für das ursprünglich geplante SSE5 auch gereicht hätten.

Limit64 schrieb:
Vorgegeben war gleiche Leistung bei gleichem Stromverbrauch. Es ist richtig, dass nicht jede Anwendung mit dem Takt skaliert, aber das trifft nur auf Anwendungen zu, bei denen andere Hardware limitiert, z.B. Speicher, Grafikkarte, I/O Subsystem.

Vorgegeben war gleiche Performance bei gleicher Leistungsaufnahme @ default. Was ich darüber hinaus vergleiche, um mich zu entscheiden, zB wie sich Performance und Leistungsaufnahme mit höherem oder niedrigerem Takt entwickeln, darfst du schon noch mir überlassen. Unsinnig ist daran natürlich nichts.

Limit64 schrieb:
Was Durchsatz und Sprungvorhersage angeht, wurde bei HT überhaupt nichts verändert.

Darüber hat auch keiner ein Wort verloren. Bleibe bitte beim Thema. Mal abgesehen davon ist diese Behauptung auch ziemlich falsch. ZB wurde die Reservation Station (1/3 mehr µOps) vergrössert. Ähnliches gilt für andere Buffer. Der Durchsatz wurde an einigen Stellen also sehr wohl geändert, und zwar deutlich.

Limit64 schrieb:
Das Frontend wurde deutlich erweitert (Fetch, Decode, Sprungvorhersage, usw).

Deutlich? Und was hat zB Sprungvorhersage konkret mit CMT zu tun? Einiges mag breiter ausgelegt sein für CMT. Wie viel es ist, können wir aber noch nicht einschätzen. Und wie gesagt, auch bei SMT muss die Pipeline teilweise aufgebohrt werden. In diesem Punkt unterscheiden sich CMT und SMT also gar nicht so sehr.

Limit64 schrieb:
Naja, es ist schon richtig, das einige Veränderungen von K10.5 zu BD sich eher negativ auf die IPC auswirken sollten, z.B. die längere Pipeline und 2-issue statt 3-issue

Ohne die genaue Arbeitsweise zu kennen, sind solche Aussagen nur irreführend. Strikt genommen hat Bulldozer zwar nur 2 Issue Slots gegenüber 3 Issue Slots beim K10. Diese arbeiten aber anders. Der springende Punkt ist ein anderer. Es sind 4 Instruction Pipelines bei Bulldozer vs 3 Instruction Pipelines bei K10. K10 konnte pro Takt durchgehend maximal 3 Instruktionen verarbeiten, bei Bulldozer sind es hingegen 4. Da sollte sich also nichts negativ auf die IPC auswirken. Eher im Gegenteil.

Limit64 schrieb:
Also den Vergleich sollte BD locker gewinnen

Kann man so nicht sagen. Wenn alle 8 logischen Prozessoren ausgelastet werden können, ja, vermutlich in den meisten Fällen. Bei 4 oder weniger ausgelasteten logischen Prozessoren könnten beide hingegen recht nahe beieinander liegen, je nach Anwendung.

Limit64 schrieb:
was aber auch nicht sonderlich überraschend ist, wenn man die Die-Größen und die Anzahl der Kerne vergleicht.

Doch, genau dann. Beide haben ja gleich viele physische Kerne, die ähnlich viel Logik besitzen, und gleich viele logische Prozessoren, die gleich viele Threads parallel verarbeiten können. Nicht sonderlich überraschend wäre es vielmehr, da bisher eben viel vom CMT-Design durchgesickert ist.

Opteron · 03.02.2011

Limit64 schrieb:
Das wäre dann doch so etwas wie ein schwarzer Schimmel? Naja, es ist schon richtig, das einige Veränderungen von K10.5 zu BD sich eher negativ auf die IPC auswirken sollten, z.B. die längere Pipeline und 2-issue statt 3-issue, aber es wurde von JF bereits bestätigt, dass die Single-Thread IPC trotzdem höher liegen soll, von daher eine unnötige Diskussion bis es erste Tests gibt.

Ich bin da echt gespannt, wie das am Ende ausgeht. Vermutlich hatte die 3te Pipe im K10 wirklich nur einen Winzeffekt. Sieht man ja auch bei Intel, 2fach SMT bringt maximal so um die +30% bei je 3 Ports an denen wiederum je 3 Execution Units hängen.
Anders herum gesagt: Mit nur einem Thread gibts ca. 30% Resourcenoverhead in den Exec Units. Wenn man nach "bewährter" Äpfel/Birnen Logik die 30% auf AMD überträgt, sollte es demnach nicht viel Verlust aufgrund der 2Pipes geben. 3 -30% = 2,1, gerundet 2, und das sind eh nur ganz grobe Angaben, so genau ist die Schätzung eh nicht ^^

Wichtiger wird sein die 2 Pipes gut, anständig und zügig mit Daten zu befüttern. Wenn da das dicke Front-End entsprechend der Patentschriften kommt sollte das damit kein Problem sein, load-store OoO wird auch helfen. Die 2MB L2 klingen ebenfalls gut um Speicherlatenzen niedrig und die Kernauslastung hoch zu halten.

SMT profitiert ja auch von langen Speicherlatenzen, wenn 1 Thread warten muss hat Thread 2 komplett freie Bahn. Sieht man auch jetzt schön bei Sandy. Dessen IPC ist gestiegen, die SMT Effizienz aber gesunken. Eben weil der L3 jetzt @fullspeed läuft, sinkt die Zeit in der ein Thread auf Speicheranfragen warten muss, somit gibts weniger HTh SpeedUp, da bereits ein einzelner Thread flott(er) unterwegs ist.

Eigentlich ironisch: Je mehr IPC Intel aus dem Design herauspresst, desto schlechter wird der SMT Speedup.

Bin mal gespannt, wo das mittel/langfristig hinführt, mal schauen welcher Umbau bei Haswell kommt. Würde mich nicht wundern, wenn Intel da dann auch ne Art CMT einführen würde, Glew arbeitet ja auch wieder bei Intel. Nur ist das bei Intels aktueller Architektur komplizierter, da INT & FP Resourcen nicht so schön getrennt sind. Sowas ist optimal für SMT, aber für CMT nicht so praktisch.

Man könnte mutmaßen, dass Intel für einen Cluster dann auf die 2Port Einteilung der Prä-Conroe Ära zurückgeht. Aber damit kommt man nicht an AMDs FlexFPU heran. Lösung wäre dann nochmal zusätzliches SMT, aber naja verkompliziert das Design wieder und behindert somit den Takt. Ausserdem ist die Frage dann, ob das mit nur 2 Ports noch soviel bringen würde.

CMT nur für INT Cluster und SMT für die FPU wie jetzt bei nem AMD Modul ist eigentlich ziemlich perfekt. Simpel und (hoffentlich ^^) effektiv.

Naja abwarten was sie mit Haswell machen ... gibts eigentlich schon nen Haswell Thread ? Der letzte Absatz war dann etwas OT ^^

ciao

Alex

Grummel · 03.02.2011

ShiningStar_66 schrieb:
habs warscheinlich übersehen, aber gibt es schon benches zu BD?

Wenn AMD schlau wäre, würden sie den BD Release auf nächste Woche vorziehen. SB liegt angeschossen am Boden - was für eine traumhafte Wettbewerbssituation (für AMD). Jetzt noch bis April, Mai oder Juni zu warten wäre... nun ja, ziemlich dämlich. Selbst wenn sie nicht genügend Chips für alle Interessenten zum Start anbieten können, egal, jetzt wäre die Zeit für den Release.

~DeD~ · 03.02.2011

Grummel schrieb:
Wenn AMD schlau wäre, sollten sie den BD Release auf nächste Woche vorziehen. SB liegt angeschossen am Boden - was für eine traumhafte Wettbewerbssituation (für AMD). Jetzt bis April zu warten wäre... nun ja, ziemlich dämlich. Selbst wenn sie nicht genügend Chips für alle Interessenten zum Start anbieten können, egal, jetzt wäre die Zeit für den Release.

amd hat nich nichtmal richtig mit der serienfertigung begonnen.. also was sollen sie vorstellen!?

Grummel · 03.02.2011

Wenn sie das Ding im April in den Läden haben wollen, müssen sie es in 2 Wochen in die Schiffsbäuche packen. Also werden die BDs doch schon irgendwo vom Band rollen, oder nicht? O.k., vielleicht ist das mit dem April Release auch ein Ente.

Aber es ist eine riesige Chance für AMD jetzt auf den Markt zu gehen. Die Presse, die sie sich jetzt einheimsen können, während Intel am Boden liegt, wäre unbezahlbar. Sollen sie halt irgendwo eine Produktionsstraße anschmeissen und die Dinger verkaufen, wie sie vom Band kommen. Etwas Knappheit am Anfang hat auch noch keinem Produkt geschadet. Siehe Apple.

NoGo · 03.02.2011

Grummel schrieb:
Wenn AMD schlau wäre, sollten sie den BD Release auf nächste Woche vorziehen. SB liegt angeschossen am Boden - was für eine traumhafte Wettbewerbssituation (für AMD). Jetzt bis April zu warten wäre... nun ja, ziemlich dämlich. Selbst wenn sie nicht genügend Chips für alle Interessenten zum Start anbieten können, egal, jetzt wäre die Zeit für den Release.

Ja, der Release wäre jetzt wirklich perfekt, jedoch reicht die Produktpalette die immoment aktuell ist, ganz einfach alle Hersteller von Komplett PC´s auf AMD setzen werden.

Jeder der jetzt auf die Sandys umsteigen will hat jetzt ein Problem:

1. Das die Verfügbarkeit der Sandys schlecht ist.
2. Das es keine Mainboards gibt. :fresse:

Ich ärgere mich selber, wollte mir auch nen Sandy zulegen, habe AM2/3 LGA 13/55 übersprungen. Jetzt gibts das Board welches nächste Woche released werden sollte bis April nicht mehr... :rolleyes:

Opteron · 03.02.2011

Grummel schrieb:
Wenn AMD schlau wäre, würden sie den BD Release auf nächste Woche vorziehen. SB liegt angeschossen am Boden - was für eine traumhafte Wettbewerbssituation (für AMD). Jetzt noch bis April, Mai oder Juni zu warten wäre... nun ja, ziemlich dämlich. Selbst wenn sie nicht genügend Chips für alle Interessenten zum Start anbieten können, egal, jetzt wäre die Zeit für den Release.

Eben es wäre dämlich, eben deswegen wirds triftige Gründe geben wieso sie es nicht machen, z.B. der Grund, dass noch keine Chips auf Lager sind ^^
Wäre noch dämlicher wenn die Hochglanzpresse voller toller Reportagen wäre, aber es die Dinger im April/Mai zu kaufen gäbe.

Das wäre eigentlich dann genau die Kopie der aktuellen Sandy Situation ^^

Grummel · 03.02.2011

Aber so 2 Monate sollte das Management doch rausholen können. Zum Einen reicht es bestimmt, mit 50% der ursprünglich geplanten Menge an den Start zu gehen, was bestimmt ein paar Wochen Zeit spart. Des Weiteren könnten sie die erste Ladung Chips per Luft- anstelle von Seefracht verschicken - wieder ein paar Wochen gespart.

Wer bei den Großen mitpielen möchte, muss auch mal Gas geben können. Sonst kriegt AMD den Titel "Königin der Bremser".

Aber o.k. vielleicht ist der Release gar nicht für April geplant. Mein C3 Athlon kam damals auch irgendwie ewig später als geplant.

Mondrial · 03.02.2011

Und du meinst, ein Paperlaunch ohne kaufbare Produkte wäre dann gute Presse...

Ich denke AMD treibt den Launch in gesundem Maß voran um eben genau solche Fehler wie bei Intel zu vermeiden.

Grummel · 03.02.2011

Mondrial schrieb:
Und du meinst, ein Paperlaunch ohne kaufbare Produkte wäre dann gute Presse...

Nein, aber wie ich oben geschrieben habe, ein Launch mit 50% der Menge schon.

Mondrial schrieb:
Ich denke AMD treibt den Launch in gesundem Maß voran um eben genau solche Fehler wie bei Intel zu vermeiden.

Ich denke, solche Fehler können immer auftreten. Ob AMD den BD morgen oder in einem Jahr auf den Markt bringt. Mein C3 Athlon hat z.B. immer noch den C&Q Bug... das ist in meinen Augen kein Grund zum Bremsen. Und eine beschleunigte Logistik der fertigen Produkte führt auch zu keinen Entwicklungsfehlern.

CyLord · 03.02.2011

Von einem CnQ ist mir nichts bekannt. Liegt eher an der Platine. Eher bekannt ist der C1E-Fehler, der nicht nur durch eine neue Revision des Prozessors behoben wird, sondern auch Anpassungen im BIOS.

OT71 · 03.02.2011

Mondrial schrieb:
Und du meinst, ein Paperlaunch ohne kaufbare Produkte wäre dann gute Presse...

Ich denke AMD treibt den Launch in gesundem Maß voran um eben genau solche Fehler wie bei Intel zu vermeiden.

paperlaunch ist mist...aber so ein paar benchmarks könnten sie ja rausrücken, um die leute neugierig zu machen.

vorrausgesetzt man blamiert sich mit den ergebnissen nicht :fresse:

Mondrial · 03.02.2011

Grummel schrieb:
Nein, aber wie ich oben geschrieben habe, ein Launch mit 50% der Menge schon.

Und das bringt dann was? 2 vielleicht 3 Wochen? Anfang März soll eine erste Präsentation stattfinden, ob für ausgesuchte Pressevertreter oder das breite Publikum ist unklar. Wahrscheinlich startet dann auch die Massenproduktion, was für eine Lieferbarkeit im April/Mai sprechen würde.

Grummel schrieb:
Ich denke, solche Fehler können immer auftreten. Ob AMD den BD morgen oder in einem Jahr auf den Markt bringt. Mein C3 Athlon hat z.B. immer noch den C&Q Bug... das ist in meinen Augen kein Grund zum Bremsen. Und eine beschleunigte Logistik der fertigen Produkte führt auch zu keinen Entwicklungsfehlern.

Und ich denke, dass hier nichts "gebremst" wird. Nur weil Intel nun Probleme mit Sandy Bridge bzw. dessen Boards hat, kann AMD nicht einfach mehrere Monate früher launchen, auch nicht mit 50%...

Grummel · 03.02.2011

Ich bin halt davon ausgegangen, dass BD ab April im Laden liegt. So wurde es hier jedefalls wiederholt dargestellt. Wenn die Massenproduktion aber noch gar nicht angefangen hat und das Ding doch eher im Mai oder gar erst im Juni im Laden liegt, dann kann man einen vorgezogenen Launch natürlich vergessen.

Der Sinn wäre halt pures Marketing. So könnte man Intel einen extra Schlag mitgeben.

Und BD hätte für wenige Monate quasi ein Monopol ohne Konkurrenz - so wie SB es bis zum BD hätte, wenn ihre Boards nicht Müll wären. Monopolist sein und keine Konkurrenz haben zahlt sich in der Regel für ein Unternehmen sehr gut aus - selbst wenn es nur für ein paar Monate ist.

Kyraa · 03.02.2011

Es wäre nicht mal Marketing. Aus folgendem Grund: Laut Definition ist Marketing eine Zusammenfassung aller absatzssteigernden Maßnahmen eines Unternehmens. Wenn du nix zu verkaufen hast, kannst du deine Absätze nicht steigern...

Lasst AMD mal in Ruhe machen. Lieber sollen sie es richtig machen. Eine solide Ausgangsbasis ist viel wichtiger als für nen Zeitraum von paar Wochen n paar Marktanteile zu gewinnen, wenn es nachher sowieso alle wieder vergessen haben, dass da mal was mit Intels Chipsätzen war.

FM4E · 03.02.2011

Die letzten Beiträge haben mit dem Thema nichts zu tun. Dafür bietet sich der Bulldozer-Sammelthread an. :wink:

Grummel · 03.02.2011

Fragmaster4Ever schrieb:
Die letzten Beiträge haben mit dem Thema nichts zu tun. Dafür bietet sich der Bulldozer-Sammelthread an.

Dieser Thread ist doch eh zu einem zweiten BD Sammelthread mutiert (was wohl auch am Marketing für den BD liegt, da der Thread einen so schönen plakativen Titel hat

).

Und wenn ich mich recht entsinne, wurden on topic Beiträge auch noch mit Begeisterung gelöscht.

Bitch · 03.02.2011

Und nicht vergessen die Bulldozer konkurenz stellt aktuell noch der nehalem gulftown das sandy pendant dazu wirds wohl erst mit dem bulldozer zusammen geben

Limit64 · 06.02.2011

mr.dude schrieb:
Nö. Das Ziel von SMT hat mit der Pipeline erstmal gar nichts am Hut. Bestimmte Einheiten der Pipeline werden für SMT einfach nur vervielfacht oder verbreitert. Der Sinn von SMT liegt immer noch darin, die Ausführungseinheiten besser auszulasten. Die zwar Teil der Pipeline sind, aber eben nicht pauschal die Pipeline.

Das Ziel von SMT ist die bessere Auslastung der Pipeline. Die von dir erwähnte "Vervielfachung" der Hw betrifft doch nur den Registersatz und den ein oder anderen Puffer. Beides hat keinen Einfluss auf den max. Durchsatz, ergo wird damit nur die Auslastung der Pipelinestufen erhöht und damit der ganzen Pipeline.

mr.dude schrieb:
Vorgegeben war gleiche Performance bei gleicher Leistungsaufnahme @ default. Was ich darüber hinaus vergleiche, um mich zu entscheiden, zB wie sich Performance und Leistungsaufnahme mit höherem oder niedrigerem Takt entwickeln, darfst du schon noch mir überlassen. Unsinnig ist daran natürlich nichts.

Ok, wir machen ein Vergleich bei bestimmten Einstellungen, aber entscheidend sind dann die Werte bei ganz anderen Einstellungen. Sehr sinnvoll. Naja, dann brauchen wir zumindest nicht weiter darüber zu reden.

mr.dude schrieb:
Und wie gesagt, auch bei SMT muss die Pipeline teilweise aufgebohrt werden. In diesem Punkt unterscheiden sich CMT und SMT also gar nicht so sehr.

Unterschied,
SMT -> max. Durchsatz bleibt gleich, aber höhere Auslastung,
CMT -> mehr Hardware für höheren max. Durchsatz, höhere Auslastung optional.

mr.dude schrieb:
Ohne die genaue Arbeitsweise zu kennen, sind solche Aussagen nur irreführend. Strikt genommen hat Bulldozer zwar nur 2 Issue Slots gegenüber 3 Issue Slots beim K10. Diese arbeiten aber anders. Der springende Punkt ist ein anderer. Es sind 4 Instruction Pipelines bei Bulldozer vs 3 Instruction Pipelines bei K10. K10 konnte pro Takt durchgehend maximal 3 Instruktionen verarbeiten, bei Bulldozer sind es hingegen 4. Da sollte sich also nichts negativ auf die IPC auswirken. Eher im Gegenteil.

Ob man die AGUs mitzählt oder nicht, ist eine Frage über die man streiten kann. Man kann sie nur bedingt einsetzen (int add/mul?) und auch nur dann, wenn gerade reine Register Ops ausgeführt werden, was zumindest bei x86 Code nicht der Normalfall ist. Daher werden die beiden AGUs kaum eine 3. vollwertige ALU/AGU-Combi ersetzen können. Zumindest gibt es zur Zeit keine Anhaltspunkte, dass AMD in der Hinsicht irgend ein Wunder aus dem Hut zaubert.

Opteron schrieb:
Ich bin da echt gespannt, wie das am Ende ausgeht. Vermutlich hatte die 3te Pipe im K10 wirklich nur einen Winzeffekt. Sieht man ja auch bei Intel, 2fach SMT bringt maximal so um die +30% bei je 3 Ports an denen wiederum je 3 Execution Units hängen.
Anders herum gesagt: Mit nur einem Thread gibts ca. 30% Resourcenoverhead in den Exec Units. Wenn man nach "bewährter" Äpfel/Birnen Logik die 30% auf AMD überträgt, sollte es demnach nicht viel Verlust aufgrund der 2Pipes geben. 3 -30% = 2,1, gerundet 2, und das sind eh nur ganz grobe Angaben, so genau ist die Schätzung eh nicht ^^

Dem zuzufügen wäre vielleicht noch, dass die IPC bei AMD (und damit die Anzahl der Takte, wo wirklich alle 3 ALUs arbeiten) sowieso schon geringer ist als bei Intel.

Opteron schrieb:
CMT nur für INT Cluster und SMT für die FPU wie jetzt bei nem AMD Modul ist eigentlich ziemlich perfekt. Simpel und (hoffentlich ^^) effektiv.

Das ist eben der Weg, den man gehen muss, wenn man nicht genügend Entwicklungsressourcen zur Verfügung hat, ganz nach dem KISS Prinzip. Übrigens, das richtige Wort wäre "effizient", nicht "effektiv"

mr.dude · 06.02.2011

Limit64 schrieb:
Das Ziel von SMT ist die bessere Auslastung der Pipeline. Die von dir erwähnte "Vervielfachung" der Hw betrifft doch nur den Registersatz und den ein oder anderen Puffer. Beides hat keinen Einfluss auf den max. Durchsatz

Doch, hat es. Und das Ziel von SMT ist immer noch die bessere Auslastung der Ausführungseinheiten und nicht der Pipeline generell. Für letzteres sind andere Masznahmen notwendig, wie verbesserte OoO Techniken, bessere Sprungvorhersage, etc.

Limit64 schrieb:
Ok, wir machen ein Vergleich bei bestimmten Einstellungen, aber entscheidend sind dann die Werte bei ganz anderen Einstellungen.

Nein.

Limit64 schrieb:
SMT -> max. Durchsatz bleibt gleich, aber höhere Auslastung,
CMT -> mehr Hardware für höheren max. Durchsatz, höhere Auslastung optional.

Nicht wirklich. Der Durchsatz bestimmter Logik ändert sich bei SMT, und damit auch die Auslastung der Ausführungseinheiten. Bei CMT ändert sich der Durchsatz bestimmter Logik ebenfalls, nur stehen noch zusätzliche Ausführungseinheiten zur Verfügung.

Limit64 schrieb:
Ob man die AGUs mitzählt oder nicht, ist eine Frage über die man streiten kann.

Es ist völlig belanglos, ob man AGUs mitzählt oder nicht. Letztendlich geht es darum, welche Operationen von den jeweiligen Ausführungseinheiten ausgeführt werden können und wie sich diese Operationen prozentual auf den gesamten Maschinencode verteilen. Und ein hoher Prozentsatz sind nunmal Speicheroperationen.

Limit64 schrieb:
Daher werden die beiden AGUs kaum eine 3. vollwertige ALU/AGU-Combi ersetzen können.

Müssen sie auch gar nicht. Wenn die Auslastung dafür umso höher ist, können sie locker die 3 ALU/AGU Pärchen des K10 übertreffen. Und gerade das war anscheinend ein Schwerpunkt bei der Entwicklung von Bulldozer, wenn man den Aussagen von JF Glauben schenken darf. ZB arbeitet Load/Store in Bulldozer vollständig OoO. Das war bei K10 noch nicht so. Load/Store MicroOps von verschiedenen MacroOps war dort nur in bestimmten Situationen möglich. Zudem gibt es auch Anzeichen, dass die AGUs in Bulldozer mehr Funktionalität besitzen.

Limit64 · 07.02.2011

mr.dude schrieb:
Doch, hat es. Und das Ziel von SMT ist immer noch die bessere Auslastung der Ausführungseinheiten und nicht der Pipeline generell. Für letzteres sind andere Masznahmen notwendig, wie verbesserte OoO Techniken, bessere Sprungvorhersage, etc.

Wie Pipelining funktioniert weißt du aber? Du kannst die Ausführungseinheiten nicht besser auslasten ohne gleichzeitig auch alle anderen Pipelinestufen besser auszulasten, es sei denn du hattest zuvor dort einen Flaschenhals, den du durch verbreitern umgangen hast. Das ist bei den aktuellen CPUs aber nicht das Problem, sondern genügend ILP herauszuquetschen.

mr.dude schrieb:
Nicht wirklich. Der Durchsatz bestimmter Logik ändert sich bei SMT, und damit auch die Auslastung der Ausführungseinheiten. Bei CMT ändert sich der Durchsatz bestimmter Logik ebenfalls, nur stehen noch zusätzliche Ausführungseinheiten zur Verfügung.

Bei SMT ändert sich nur der effektive Durchsatz, aber nicht der max. Durchsatz. Also verbessert man nur die Auslastung/Effizienz. Bei CMT erhöht man in erster Linie den max. Durchsatz, mögliche Effizienz-Steigerungen kommen optional noch dazu.

mr.dude schrieb:
Es ist völlig belanglos, ob man AGUs mitzählt oder nicht. Letztendlich geht es darum, welche Operationen von den jeweiligen Ausführungseinheiten ausgeführt werden können und wie sich diese Operationen prozentual auf den gesamten Maschinencode verteilen. Und ein hoher Prozentsatz sind nunmal Speicheroperationen.

Hier reden wir mal wieder aneinander vorbei. K10 hat jeweils 3 ALU/AGU, BD nur je 2. Das verringert erst einmal den max. Durchsatz. Das BD durch verschiedene Optimierungen (z.B. das erwähnte OoO bei L/S) der effektive Durchsatz trotzdem besser sein könnte (und laut JF auch ist), habe ich ja auch schon erwähnt.

Duplex · 07.02.2011

ist doch egal ob BD 2 oder 4 Issue Design ist, Fakt ist er hat mehr Single & Multithread Leistung als K10.

Fatima · 07.02.2011

Ich frage mich was man aus diesem Gespräch als möglicher Leser ziehen könnte?

Wie lautet das Fazit?

smoothwater · 07.02.2011

Ganz simpel: abwarten...

Devil Ag · 07.02.2011

Fatima schrieb:
Ich frage mich was man aus diesem Gespräch als möglicher Leser ziehen könnte?

Wie lautet das Fazit?

Das Fazit lautet das keiner weiß wie schnell der BD wirklich wird und um was zum Quatschen zu haben redet man eben über % Zahlen, wo/wie die Auslastung besser sein könnte, Kerne/Module,......

y33H@ · 07.02.2011

Duplex schrieb:
ist doch egal ob BD 2 oder 4 Issue Design ist, Fakt ist er hat mehr Single & Multithread Leistung als K10.

Es ist kein Fakt, da es noch keine entsprechen öffentlichen unabhängigen Benchmarks gibt. Multithreading schneller zu sein mit 8 vs. 6 Int-Cores ist klar.

Duplex · 07.02.2011

JF-AMD hat mehrmals bestätigt das die Singlethread Leistung gegenüber K10 höher ist, das kannst du aus seinem Beiträgen von amdzone sehen.

Fatima · 07.02.2011

Devil Ag schrieb:
Das Fazit lautet das keiner weiß wie schnell der BD wirklich wird und um was zum Quatschen zu haben redet man eben über % Zahlen, wo/wie die Auslastung besser sein könnte, Kerne/Module,......

Also praktisch auch nur. Der eine denkt eher positiv und der andere eher negativ, wie sich am Ende die Leistung von Bulldozer bemerkbar macht.
Hatten wir das nicht schon seit gefühlten 100 Jahren?

y33H@ schrieb:
Von Donanim Haber kommen seit Jahren News und sehr oft korrektes (nicht wie bei Fud). Die Folie aber sieht strange aus.

Vierte Anfrage. Kannst du mal Beispiele zeigen?

AMDs Bulldozer 50 Prozent schneller als Core i7? (Update)

Banned

Urgestein

Urgestein

Semiprofi

Semiprofi

Enthusiast

Semiprofi

Banned

Semiprofi

Semiprofi

Urgestein

Semiprofi

Enthusiast

Enthusiast

Urgestein

Semiprofi

[Online] - Redakteur, Horst

Redakteur

Semiprofi

Banned

Enthusiast

Urgestein

Enthusiast

Urgestein

Banned

Enthusiast

Semiprofi

Enthusiast

Urgestein

Banned