AMDs Bulldozer bzw. was kommt nach dem K10

w0mbat · 11.11.2009

Ok, der 2009 Financial Analyst Day findet gerade statt und es gibt einige Infos zum "Bulldozer".

- CPUs basierend auf dem BD Design sind AM3 kompatibel
- 2010 werden die ersten "Zambezi" Samples an Kunden ausgeliefert, Start 2011
- 32nm high-K metal gate

daysleeper83 · 11.11.2009

Arbeitet Dresdenboy bei AMD :coolblue:

? Sieht ziemlich nach seinem Diagramm aus

Das Ding wird mal richtig fies werden.

w0mbat · 11.11.2009

Ich sehe gerade, hat das Teil wirklich 8 Int Pipes? Das kann doch nicht sein, oder?

Mondrial · 11.11.2009

Na mal sehen was am Ende rauskommt. Spekus sind immer schön und gut, eine relativ pünktliche und problemlose Markteinführung wäre Gold wert...

mr.dude schrieb:
Bulldozer wird übrigens mit bis zu 16 Kernen kommen. Wobei das dann wiederum MCM/DCM sein dürfte.

Klingt plausibel wenn man sich den 12Core Opteron auf der Folie ansieht...

Undertaker 1 · 11.11.2009

mr.dude schrieb:
3DNow! wurde sogar weitläufiger eingesetzt als SSE4 bisher. SSE4(.1) wurde nunmehr vor 2 Jahren eingeführt und ist praktisch nicht existent in Software. Ganz wenige Ausnahmen wie DivX, was Intel auch nur forciert hat, bestätigen nur die Regel. Das ist aber auch nicht der richtige Thread dafür. Also halte dich mit deinen Intel Glorifizierungen und AMD Gebashe zurück. Das will hier keiner lesen. 3DNow! war als Technologie sehr wichtig, da es erstmals FP SIMD ermöglichte und somit alles andere als ein Flop. Was mit FMA4 passiert, werden wir sehen. Momentan scheint die Hardware für Intel dafür zu problematisch zu sein. Wenn Haswell ein komplett neue Architektur wird, muss das aber nicht so bleiben. 16 Kerne sind übrigens schon lange bestätigt. Einfach mal ein paar Seiten zurückblättern. Und nein, der Turbo von Intel wird nicht einfach nur kopiert, zumal den Intel auch nur kopiert hat.

Du hast noch nicht ganz verstanden, was der Unterschied zwischen Kernen und dem ist, was AMD Cluster nennt.

Angekündigt sind 8 Kerne. Und das 3DNow kein Flop war, naja das ist eine sehr interessante Ansicht (btw. war auch 3Dnow nur die Fortführung des Pfades, der mit MMX eingeschlagen wurde und der dann mit SSE fortgesetzt wurde - und einen Vergleich mit SSE sollte 3DNow bzgl. des Erfolges wohl eher meiden). SSE4.1/.2 hingegen ist einer der größten Schritte der letzten Jahre auf diesem Gebiet überhaupt gewesen und verglichen mit SSE4a ist der Erfolg schon fast "überwältigend".

AMD hat beim aktuellen Marktanteil einfach keine Chance, soetwas durchzuboxen, sofern sich Intel nicht wie bei IA64 einen Patzer erlaubt. Wenn hingegen FMA3 von AMD bereits praktisch als Standard akzeptiert wird, braucht man kein Prophet zu sein um zu sehen, wie das ganze ausgeht. Also bitte mal den neutralen Blick wahren.

Wichtig für Bulldozer wird, dass er endlich den eklatanten Nachteil von Leistung pro Takt und Kern steigert. Parallelisierbarkeit hat Grenzen und einen abnehmenden Ertrag.

mr.dude schrieb:
SSE4 ist dagegen die unbedeutendste Befehlserweiterung, sowohl inhaltlich als auch was Verbreitung betrifft, die die x86 ISA bisher erfahren hat.

Nein. Da stimmt mir auch mein guter Freund Opteron zu:

"Richtig interessant wird es erst wieder mit SSE4.1 und SSE 4.2, die beide zusammen die größte x86-Erweiterung seit 2000 darstellen"

http://www.planet3dnow.de/vbulletin/showthread.php?t=362353

Da kennen wir uns wohl einfach besser aus als du.

Und jetzt stoppe bitte deinen Spam, den hier wirklich kein Mensch lesen will.

mr.dude · 11.11.2009

daysleeper83 schrieb:
Arbeitet Dresdenboy bei AMD ? Sieht ziemlich nach seinem Diagramm aus

Hehe, das gleiche war auch mein erster Gedanke. Einziger auffälliger Unterschied liegt bei der FPU, auch wenn es am Ende bezüglich Durchsatz auf das gleiche hinausläuft. Respekt an Dresdenboy.

w0mbat schrieb:
Ich sehe gerade, hat das Teil wirklich 8 Int Pipes? Das kann doch nicht sein, oder?

Warum nicht? Bulldozer scheint ein Int Monster zu werden. FP liefert dann die NextGen GPU, welche laut den Folien für den gleichen Zeitraum vorgesehen ist.

@Undertaker
Höre bitte auf, hier wieder irgendwelche Sinnlosigkeiten zu kolportieren. Bulldozer ist mit 16 Kernen angekündigt. Ende der Geschichte. Und 3DNow! hatte mit MMX so viel zu tun wie ein Kreis mit einem Quadrat. Eine Fortführung war das keinesfalls. 3DNow! basiert auf AltiVec. SSE4 ist dagegen die unbedeutendste Befehlserweiterung, sowohl inhaltlich als auch was Verbreitung betrifft, die die x86 ISA bisher erfahren hat.
Und nun komme zum Thema zurück. Hier geht es um Bulldozer. Für Intel Glorifizierungen würde ich einen separaten Thread empfehlen. :rolleyes:

PitGST · 11.11.2009

Ihr schweift echt wieder total vom Topic ab.

mr.dude · 11.11.2009

Bobcat ist übrigens ein eigenständiges Design, entwickelt von einem separaten Team.

Sieht schon mal interessant aus.

[HOT] · 11.11.2009

Dafür sieht er BD aber zu ähnlich

.

Duplex · 11.11.2009

interessante News, 2010 gibts erstmal nur eine 6 Kern CPU für Desktop & Server mit 30% Leistungssteigerung gegebüber 4 Kern K10.5

Bulldozer wird bestimmt ein Monster ab leider erst 2011, aber mitte 2010 sollten wir schon Benches sehen^^hoffen wir mal das Bulldozer alle Intel CPUs bis dahin im Schatten stellt.

w0mbat · 11.11.2009

Ich denke es ist gar nicht man so unrealistisch dass BD noch 2010 kommt. AMD ist da in letzter Zeit sehr vorsichtig und die kompletten CPU-Vorstellungen waren alle früher als erwartet, nun wurden die neuen K10.5 Produkte auch schon auf H1 2010 vorgezogen (bisher war immer von H2 die Rede).

Also ist es nicht so weit hergezogen dass AMD vielleicht in 6 Monaten verkündet dass BD ins Q4 2010 rutscht. Zumal das Tape-out schon passiert ist (wenn auch das erste).

Duplex · 11.11.2009

Hoffen wir mal das AMD Bulldozer vorzieht, ich kaufe mir sofort ein AMD Bulldozer Bundle

8x4000 MHz...

Undertaker 1 · 11.11.2009

Anandtech hat übrigens nochmal eine schöne Erklärung zu dem, was man bei Bulldozer unter einem Kern verstehen darf, parat - hatte ja hier noch nicht jeder ganz verstanden.

http://www.anandtech.com/cpuchipsets/showdoc.aspx?i=3674

"A single Bulldozer core will appear to the OS as two cores, just like a Hyper Threaded Core i7. The difference is that AMD is duplicating more hardware in enabling per-core multithreading. The integer resources are all doubled, including the schedulers and d-caches. It’s only the FP resources that are shared between the threads. The benefit is you get much better multithreaded integer performance, the downside is a larger core."

Die bis zu 8 Kerne werden also mit 16 Threads gefüttert, dazu potentiell höherem Performance-Gewinn als das bisher mit SMT der Fall ist. Dafür ist natürlich auch der Transistorbedarf höher, als die 1-2% zusätzlich bei einer SMT-Implementierung.

Duplex · 11.11.2009

8 Kerne + 16 Threads & schneller als SMT klingen interessant

Undertaker 1 · 12.11.2009

Das Prinzip einer geteilten FPU für mehrere Integer-Kerne gabs übrigens bereits in der Vergangenheit, der Niagara von Sun.

Aber ein entscheidender Punkt wird natürlich auch die Singlethread-Performance, nur immer weiter steigende Kern-/Cluster-/Threadzahlen bei niedriger Leistung pro einzelnem Kern kann bei nicht perfekt parallelisiertem Code schnell zur Bremse werden. In dem Bereich lässt sich bisher ja leider nur wenig abschätzen.

Opteron · 12.11.2009

[HOT] schrieb:
Dafür sieht er BD aber zu ähnlich .

Das ist nur ein Grobschema .. das sagt nichts aus .. genausogut kannst Du ein Kaninchen mit nem Elefanten vergleichen .. beide schauen ähnlich aus, da sie 4 Beine haben ;-)

Bobcat wird mMn ein 2/3 K8, ist das Sinnvollste was man machen kann

---------- Beitrag hinzugefügt um 00:09 ---------- Vorheriger Beitrag war um 00:08 ----------

Duplex schrieb:
8 Kerne + 16 Threads & schneller als SMT klingen interessant

Eventuell nur 4 Kerne und 8 Threads .. .es ist immer noch nicht raus, wie AMD die CMT Kerne zählt ...

Edit: So schnell kanns gehen:
http://www.planet3dnow.de/photoplog/index.php?n=8211

Also nur 4 Module á 8 kerne = 8 Threads pro Die

---------- Beitrag hinzugefügt um 00:10 ---------- Vorheriger Beitrag war um 00:08 ----------

w0mbat schrieb:
Ich sehe gerade, hat das Teil wirklich 8 Int Pipes? Das kann doch nicht sein, oder?

Du weisst es sicherlich mittlerweile aus den anderen Foren, aber der Vollständigkeit halber, das sind ziemlich sicher je 2 INT ALUs plus 2 AGUs. Da steht ja nur "pipelines" und nicht INT pipeline ;-)

ciao

Alex

YB0b · 12.11.2009

Undertaker 1 schrieb:
Du hast noch nicht ganz verstanden, was der Unterschied zwischen Kernen und dem ist, was AMD Cluster nennt. Angekündigt sind 8 Kerne. Und das 3DNow kein Flop war, naja das ist eine sehr interessante Ansicht (btw. war auch 3Dnow nur die Fortführung des Pfades, der mit MMX eingeschlagen wurde und der dann mit SSE fortgesetzt wurde - und einen Vergleich mit SSE sollte 3DNow bzgl. des Erfolges wohl eher meiden). SSE4.1/.2 hingegen ist einer der größten Schritte der letzten Jahre auf diesem Gebiet überhaupt gewesen und verglichen mit SSE4a ist der Erfolg schon fast "überwältigend". AMD hat beim aktuellen Marktanteil einfach keine Chance, soetwas durchzuboxen, sofern sich Intel nicht wie bei IA64 einen Patzer erlaubt. Wenn hingegen FMA3 von AMD bereits praktisch als Standard akzeptiert wird, braucht man kein Prophet zu sein um zu sehen, wie das ganze ausgeht. Also bitte mal den neutralen Blick wahren.
Wichtig für Bulldozer wird, dass er endlich den eklatanten Nachteil von Leistung pro Takt und Kern steigert. Parallelisierbarkeit hat Grenzen und einen abnehmenden Ertrag.

Nein. Da stimmt mir auch mein guter Freund Opteron zu:

"Richtig interessant wird es erst wieder mit SSE4.1 und SSE 4.2, die beide zusammen die größte x86-Erweiterung seit 2000 darstellen"

http://www.planet3dnow.de/vbulletin/showthread.php?t=362353

Da kennen wir uns wohl einfach besser aus als du. Und jetzt stoppe bitte deinen Spam, den hier wirklich kein Mensch lesen will.

Mit "größte" ist gemeint, dass es am meisten neue Befehle bringt/am meisten logik hinzukommt.

Ob sich der Aufwand dabei überhaupt lohnt bezweifle ich, da die große Mehrheit der Anwender keine wissenschaftliche Programme benutzt und eher selten Videos konvertiert, wenn der Konverter es ünerhaupt nutzt.

Von 3DNow profitierte so gut wie jeder.

Ist schon haarstreubend, was du dir da zusammeninterpretierst.

Opteron · 12.11.2009

Oh die OT Diskussion hatte ich übersehen. Da ich genannt wurde nur der erste und letzte Kommentar:

Interessant != bedeutend ;-)
Das erste ist meine Privatmeinung, das zweite die Meinung der zahlreichen Firmen, die das implementieren (oder eben nicht) ;-)

So und nun Schluss damit, macht Euch nen x86 Befehlserweiterungsthread auf, und gut is

ciao

Alex

[HOT] · 12.11.2009

Bei Llano war klar, dass das Tapeout schon erfolgt ist, aber BD ist neu

. Auf jeden Fall spricht das sehr für einen gut laufenden 32nm SOI-Prozess.

Undertaker 1 · 12.11.2009

Das sollte auch so sein, 1,5 Jahre oder noch früher vor dem Launch ist bei CPUs üblich.

mr.dude · 12.11.2009

Hier nochmal eine Roadmap, die bestätigt, dass Bulldozer bis zu 16 Kerne ("Interlagos") haben wird - hatte ja hier noch nicht jeder ganz verstanden. :rolleyes:

Als Kern versteht AMD bei Bulldozer das, was bisher als Integer Cluster diskutiert wurde. Anandtech liegt also wieder mal falsch. Aber für AMD Informationen sollte man diese Seite sowieso meiden, aus bekannten Gründen. Dazu noch eine Veranschaulichung eines Bulldozer "Moduls".

Interessant dazu auch noch einige weitere Informationen von John Fruehe, was nochmals unterstreicht, warum AMD kein Interesse an SMT hat.

For those that said HT was such a great technology because for 5% more die space they get a 10-20% performance bump, the word from our engineers is that adding a second integer core to each bulldozer module is ~5% silicon but nets ~80% performance uplift over a single integer core.

I have been saying for a long time that the HT tradeoff was not worth it, this is why.

Undertaker 1 · 12.11.2009

Nur blöd, dass schon rein technisch der CVT-Transistorbedarf zwingend höher sein muss als für SMT, da ein größerer Teil des Kernes verdoppelt werden muss. Typisches Marketing-Blabla also. Genauso wie man bei SMT auch die größere Zahl als "Kern" bezeichnen könnte. In beiden Fällen wird ein Teil doppelt ausgeführt, was bei CVT in größerem Maß stattfindet, damit mehr Leistung bringen kann, aber auch mehr kostet. Und zwar zwingend. :wink:

mr.dude · 12.11.2009

Du weisst natürlich wieder mal alles besser als die Ingenieure selbst, von denen sicherlich kein "Marketing-Blabla" kommt. Übrigens, SMT erfordert nahezu die Verdopplung des Frontends, sowie Vergrösserung weiterer Ressourcen. Diese teilweisen Redundanzen fallen bei AMDs Ansatz wiederum weg. Und das sind nicht wenige Transistoren. Du bist natürlich auch nicht hier, um Intels Lösungen wieder mal zu glorifizieren und pragmatische Aussagen einfach mal unkommentiert stehen zu lassen. :rolleyes:

Undertaker 1 · 12.11.2009

Bitte? Welche Transistoren willst du bei CMT im Vergleich zu SMT einsparen können? Das Gegenteil ist der Fall, zu allem was du bereits für SMT verdoppeln musst, also z.B. diverse Register und den Befehlsdecoder, brauchst du bei CMT ebenso. Zusätzlich hast du bei CMT z.B. den gesamten Integer-Teil doppelt.

CMT benötigt zwangsläufig mehr Transistoren als SMT. Aber eine neutrale Betrachtung kann man bei dir wohl nicht erwarten.

mr.dude · 12.11.2009

Nein. CMT braucht zB keine doppelten Register für FP (FPU, SSE). Genauso wie Redundanzen für Prefetching und Decoding wegfallen.
Aber eine neutrale Betrachtung kann man bei dir ja nicht erwarten. Eines ist aber sicher, AMDs Ingenieure wissen, wovon sie sprechen, im Gegensatz zu dir. Und demnach ist der Transistoraufwand nicht grösser bei CMT. Und selbst wenn er das wäre, das ist unerheblich, wenn die Performance von 80%+ stimmt. Intel hat jetzt schon deutlich grössere Kerne. Keine Basis für deine Argumentation. :rolleyes:

Undertaker 1 · 12.11.2009

mr.dude schrieb:
Nein. CMT braucht zB keine doppelten Register für FP (FPU, SSE).

...und bringt in diesem Bereich auch keine Mehrleistung. Ein Trade-off. Und wen interessiert Größe pro Kern? mm² pro Leistung zählen, und da liegt AMD deutlich zurück.

mr.dude · 12.11.2009

Schlag mal nach, was ein Trade-off ist. AMDs FPU Implementierung hat damit nichts zu tun. Zumindest wenn man es mit SMT vergleicht. Ausserdem bezogen sich die Prozentangaben auf generelle Performance, nicht explizit Int oder FP. Nun ja, wenn man keine Ausreden mehr hat, muss man halt welche erfinden.
Der Leistungsindikator heisst übrigens Performance pro mm² und nicht mm² pro Leistung. Und ja, nach deiner Sichtweise hast du recht. Bei mm² pro Leistung liegt AMD zurück. Was heisst, sie brauchen weniger Fläche für die gleiche Leistung. Was im Endeffekt besser und effizienter ist.
Immer wieder amüsant und haarsträubend dein offtopic Käse. :rolleyes:

Undertaker 1 · 12.11.2009

Mein Gott, erbärmlich wie du dich an diesem Dreher hochziehen musst, wenn die Argumente fehlen. Momentan braucht man ~1/3 mehr Fläche für die gleiche Leistung (Instanbul zu Nehalem). Und das, wo man sich gerade im "guten" Jahr befindet, wo man im gleichen Prozess unterwegs ist, alle 2 Jahre hat man zudem noch den Prozessnachteil.

che new · 12.11.2009

Undertaker 1 schrieb:
Momentan braucht man ~1/3 mehr Fläche für die gleiche Leistung (Instanbul zu Nehalem). Und das, wo man sich gerade im "guten" Jahr befindet, wo man im gleichen Prozess unterwegs ist, alle 2 Jahre hat man zudem noch den Prozessnachteil.

Was hat der ganze K10,5/Nehalem-Vergleich mit Bulldozer zu tun? Davon kann man doch nicht ableiten wie guter oder schlecht der Bulldozer mit CMT im Vergleich zu Sandy Bridge mit SMT dastehen wird. Überflüssiger OT-Spam. Man bekommt den Eindruck dir geht es hier gar nicht um das Thema inkl. der zugehörigen Technologie, sonder lediglich darum zum 1000 mal zu erwähnen das AMD zurückliegt, wo auch immer.

hung00r · 13.11.2009

Hardware-Infos.com: AMDs Bulldozer-Architektur nimmt Formen an

Unter dem Namen APM Boost Technology vermutet Fudzilla zudem ein Feature, welches ähnlich wie Intels Turbo Mode agieren könnte, nämlich bei Single-Threaded-Applikationen den Takt der benutzten Kerne automatisch heraufzusetzen.
Genährt oder besser gesagt erweitert wird diese Idee von zugrunde liegenden AMD-Patenten. Diese suggerieren, dass AMD nicht nur Kerne ansich unterschiedlich takten wird, sondern auch einzelne Funktionseinheiten (ALUs, FPUs, Caches etc.) unabhängig voneinander - selbstverständlich im festgelegten TDP-Rahmen.

was könnte man sich denn da an taktveränderungen vorstellen, angenommen es könnten die einzelnen Funktionseinheiten wirklich unabhängig voneinander getaktet werden?
Nachdem da nichts so komplexes wie ein ganzer kern übertaktet wird, kann man doch "OC-bottlenecks" umgehen
("Beispiel": FPU lässt sich von haus aus nicht gut takten, der integer-cluster ist aber viel taktfreudiger und kann single-threaded relativ zum standardtakt viel höher takten)

was haltet ihr davon? nachdem es soweit ich gesehen hab, auf keiner folie vom Financial Analyst Day erwähnt wurde, wie wahrscheinlich ist es dass es überhaupt (gut) funktioniert?

AMDs Bulldozer bzw. was kommt nach dem K10

Enthusiast

Enthusiast

Enthusiast

Urgestein

Enthusiast

Urgestein

Moderator

Urgestein

Enthusiast

Urgestein

Enthusiast

Urgestein

Enthusiast

Urgestein

Enthusiast

Semiprofi

Enthusiast

Semiprofi

Enthusiast

Enthusiast

Urgestein

Enthusiast

Urgestein

Enthusiast

Urgestein

Enthusiast

Urgestein

Enthusiast

Enthusiast

Neuling

Ähnliche Themen