[Sammelthread] AMD Bulldozer "Zambezi" 32nm "New CPU Architecture" Sockel AM3+ [Part 3]

w0mbat · 28.05.2011

Pirate85 schrieb:
Da muss ich Cole 100% recht geben. Wenn AMD Leistung bringt dann werden sie auch das Geld dafür verlangen.

Aktuelles Beispiel ist ja die HD6990 zum Bleistift - schnellste Grafikkarte = teuerste Grafikkarte

da bin ich andere meinung. im gpu segment hat amd bzw. ati eine ganz andere stellung als amd in cpu bereich.

wenn bd gleichshcnell wie sb wir, kann man ziemlich sicher davon ausgehen, dass amd bd günstiger anbieten wird. sie müssen eben noch den markennamen ausgleichen.

unl34shed · 28.05.2011

aber die A64 Zeiten sind auch vorbei. So einen Leistungssprung wird es (mMn) nicht mehr so schnell geben. Außerdem waren die Verkaufszahlen von AMD zu dem Zeitpunkt sehr gering, da bei OEMs nicht zu kaufen, trotz Leistung. Und irgendwie müssen die Entwicklungskosten wieder rein und das geht dann nur durch nen hohen Preis.

Mittlerweile hat es AMd sogar in dem Mediamarkt gepackt,

cRaZy-biScuiT · 28.05.2011

unl34shed schrieb:
Mittlerweile hat es AMd sogar in dem Mediamarkt gepackt,

Weil sie die guten Herren- und Damen auch verklagt haben. Gott sei Dank! :teufel:

sapphire_fan · 28.05.2011

unl34shed schrieb:
Mittlerweile hat es AMd sogar in dem Mediamarkt gepackt,

das hölte ich fürn Ger+cht. In dem aktuellen Propekt von MM war kein EINZIGER AMD PC!!!!

BUFUMAN · 28.05.2011

ja aber das war schon 1998 klar als ich von heute auf morgen amd, cyrix rechner aus dem laden nehmen sollte.

also das hat 13 Jahre gedauert. Und für Intel hat es sich dicke gelohnt!
Da haben sich die Kunden die birne vor mir fast ausgeschlagen um einen Pentium 450Mhz und Co. zu bekommen.

Da haben wa noch verkauft.
Jetzt heisst es Billig Billig........ ist da noch das dabei? und das? warum nicht?

---------- Beitrag hinzugefügt um 13:20 ---------- Vorheriger Beitrag war um 13:19 ----------

Das mit dem Prospekt ist ne interessante sache. Kommt ein produkt rein gibt es dafür WKZ. zahlt der eine hersteller nicht gibts auch keine präsenz.

Gelag · 28.05.2011

ONE_FOR_ALL schrieb:
BD 1% schneller als SB(was ja im bereich des möglichen wäre) und 5 Euro günstiger das wäre für mich ein super kaufargument.

Nicht wirklich, wenn man die knappe Mehrperformance nur unter Auslastung aller Kerne erreicht, die nun mal nicht immer gegeben ist, um es vorsichtig zu formulieren.

Bei Verwendung von <=4 Threads wäre BD nach wie vor deutlich hinter Intels 2500k, der preis-leistungstechnisch interessantesten SB-CPU, zudem spielt der Übertaktungsspielraum eine Rolle, wo Sandy Bridge glänzt und Bulldozers Potential noch in den Sternen steht.

Für mich muss deutlich mehr rüberkommen als 1%, da ich keinerlei Verbundenheit mit einem der beiden CPU-Hersteller verspüre (vielleicht abgesehen davon, dass Intel eine starke Konkurrenz haben sollte, um die Preise auf einem vernünftigen Niveau zu halten).

ColeTrickle · 28.05.2011

w0mbat schrieb:
da bin ich andere meinung. im gpu segment hat amd bzw. ati eine ganz andere stellung als amd in cpu bereich.

wenn bd gleichshcnell wie sb wir, kann man ziemlich sicher davon ausgehen, dass amd bd günstiger anbieten wird. sie müssen eben noch den markennamen ausgleichen.

gerade weswegen,eine neue architektur zu entwickeln kostet massiv kapital,gerade im in dieser branche sind forschung und entwicklung enorme kostenstellen.amd hat nunmal auch das ziel gewinn zu erwirtschaften,das amd evtl. etwas günstiger ist als intel kann durch aus möglich sein,nur sollte niemand denken,dass amd eine gleich starke cpu wie z.b. 2600 k für 100 euro weniger anbietet.Intel könnte einen preiskrieg mit amd aufgrund der vielen erfolgreichen geschäftsjahre und damit einhergehenden höheren eigenkapital reserve viel länger durchstehen.

nochmal auch amd ist ein unternehmen was ziele verfolgt,diese sind nunmal marktwirtschaftlich definiert und haben keine wohlfahrtszüge.

wenn der preis von 320 us dollar der wahrheit entspricht ist das fast identisch dem us preis der 2600 k und somit kommen wir auch auf einen ähnlichen euro preis.denn händler und co wollen bestimmt auch noch was verdienen

Sir Ozelot · 28.05.2011

Ich glaube kaum, dass AMD sich als Ziel gesetzt hat Intel zu überholen. Das ist so garnicht möglich, wenn man sich beide Firmen mal genauer anschaut

Eher glaube ich,dass man gezwungen war sich auf was neues einzulassen um überhaupt Wettbewerbsfähig zu bleiben...
Ich drücke AMD die Daumen und hoffe/wünsche das es sich gelohnt hat.

Egal wie die Leistung nun wird, ich für meinen Teil werde zu 90% das System wechseln, da ich eher zu AMD Sympathisiere ^^

ColeTrickle · 28.05.2011

Sir Ozelot schrieb:
Ich glaube kaum, dass AMD sich als Ziel gesetzt hat Intel zu überholen. Das ist so garnicht möglich, wenn man sich beide Firmen mal genauer anschaut
Eher glaube ich,dass man gezwungen war sich auf was neues einzulassen um überhaupt Wettbewerbsfähig zu bleiben...
Ich drücke AMD die Daumen und hoffe/wünsche das es sich gelohnt hat.

Egal wie die Leistung nun wird, ich für meinen Teil werde zu 90% das System wechseln, da ich eher zu AMD Sympathisiere ^^

Ich sympathisiere weder mit AMD noch mit Intel, ebenso bei AMD/ATI und nV, ist vollkommen egal was im Rechner werkelt. Aber von einem 2500K zu BD zu wechseln ist doch meiner Meinung nach eher unzweckmäßig, außer BD sollte doch mehr als 20% schneller sein.

Sir Ozelot · 28.05.2011

ColeTrickle schrieb:
Ich sympathisiere weder mit AMD noch mit Intel, ebenso bei AMD/ATI und nV, ist vollkommen egal was im Rechner werkelt. Aber von einem 2500K zu BD zu wechseln ist doch meiner Meinung nach eher unzweckmäßig, außer BD sollte doch mehr als 20% schneller sein.

Muss er das ?

Meine 90% setzen sich hauptsächlich aus dem Verbrauch zusammen. Falls der BD im Verbrauch schlechter ist, dann kommen die 10% zum Einsatz, weil das für mich ein klarer Defizit ist. Ich hab das SB System ein paar Monate und da kommt mir AMD gerade recht um mal wieder was anderes auszuprobieren.

EDIT: Frage, warum läuft deine CPU mit 4,5Ghz ? Für die kleine ATI reichen auch 4Ghz um die voll auszulasten.

ColeTrickle · 28.05.2011

Sir Ozelot schrieb:
Muss er das ?

Meine 90% setzen sich hauptsächlich aus dem Verbrauch zusammen. Falls der BD im Verbrauch schlechter ist, dann kommen die 10% zum Einsatz, weil das für mich ein klarer Defizit ist. Ich hab das SB System ein paar Monate und da kommt mir AMD gerade recht um mal wieder was anderes auszuprobieren.

EDIT: Frage, warum läuft deine CPU mit 4,5Ghz ? Für die kleine ATI reichen auch 4Ghz um die voll auszulasten.

1. die CPU läuft mit 4,0Ghz, da sie zur Zeit eh nur im Idle ist und ich kaum zocke, so konnte ich untervolten auf 0,65V im Idle.

2. deinen Satz verstehe ich nicht, bissel unglücklich formuliert.

3. die CPU läuft dann mit 4,0Ghz, wenn ich Rechenpower benötige, z.B. bei Rechenanwendungen und Simulationen für die Uni, aber die kleine ATI ist immerhin auf ATI 5870 Niveau und somit garnicht so weit weg von den "großen" Single GPU's.

4. Wenn ich den Satz von Dir aber dennoch richtig interpretiere ist Verbrauch für dich ein Kaufargument, das aber für Deinen BD wieder Rohstoffe verbaut wurden und du rein theoretisch SB fast bis zur Ewigkeit hättest befeuern können ist egal? So nach dem Motto, will 10€ Strom im Jahr sparen und kauf eine neue CPU für 150€ mehr, aber der ökologische Gedanke zäjlt, ach ja, die Fertigung meiner neuen CPU hat ja Energie und Rohstoffe gekostet.

Die Intention meines ersten Postings war es nicht Deinen angestrebten Wechsel zu beurteilen, sondern Deine Sympathiekundgebungen, mir geht es nämlich lamgsam gegen den ... das Intel und nV immer die bösen großen Unternehmen sind und AMD ja nur lieb ist und am liebsten alles verschenken würde. AMD würde in einigen Angelegenheiten ebenso handeln wie Intel (Thema Dell und Co.) und AMD verschenkt auch keine Prozessoren, aber hauptsache alle spekulieren, das das Top Modell ja so viiiiieeeel billiger wird als der SB 2600K, man muß eben einfach mal Ahnung von Marktwirtschaft haben, das ist jetzt nicht böse gemeint, ist aber so.

wega · 28.05.2011

würde sagen für die "kleine" AMD karte reicht noch viel weniger

Sir Ozelot · 28.05.2011

Um zu beurteilen, ob man sich in Marktwirtschaft auskennt oder nicht müsste man denjenigen schon kennen

Du kennst mich nicht, du weißt nicht was ich Studiert habe, wo ich schon überall arbeiten war,was ich mache, usw....Ich muss mich hier auch nicht rechtfertigen, da ich nur meine Meinung geschrieben habe, ohne jemanden mit irgendwelchen geschreibsel beleidigen zu wollen . Das wiederum machst du, indem du schreibst, dass sich Leute in Marktwirtschaft nicht auskennen, obwohl du denjenigen nicht kennst

Auch gehts mir nicht um den Strom den ich Verbrauche, da ich keinen zahle und nein ich wohne schon seit Ewigkeiten nicht mehr bei Mutti ^^

Ich habe auch nie geschrieben, dass Intel und NV böse sind. Schau mal in mein Systeminfo

Es geht mir in erster Linie um die Sympathie zu AMD, mehr nicht. Dein Argument war, dass es sich nicht lohnt.....
Ist doch egal, lass mich/User doch wechseln. Ist ein Hobby und das kostet halt Geld.

Alles gut ?

Gruß

Gamer68 · 28.05.2011

mir ist das alle egal ,ich kaufe worauf ich bock habe ,wenn ich was kaufe was ich möchte dann hat sich das auch gelohnt und wenn der BD einigermassen an der leistung von sandy kommt und der preis auch noch passt ,dann habe ich bestimmt auch wieder amd ,die frage ist halt wie er sich übertakten lässt bei mir

brasillion · 28.05.2011

das schöne bei dem amd finde ich das es da nicht so nen 0815 oc gibt wie beim sandy (hatte auch schon einen!). Was ich damit meine ist das es nur per multi quasi geht und man nur mit einem K modell so richtig übertakten kann. Nicht wie es halt sonst viele machen,einfach nen billigen CPU kaufen und auf teuren CPU Takt hauen. Find ich schade,da die 115x CPU`s an sich gut sind. Ok dafür sind die K modelle nicht wirklich teuer,das muss man auch dazu sagen,aber finde es trotzdem doof irgendwie.

Habe momentan nen sockel 1156 und werde sehr wahrscheinlich auch auf Bulldozer wechseln. Allein weil mein Board schon nen teildefekt hat.Hoffe echt das AMD da nen guten CPU bringt und nicht so nen reinfall wie damals der Phenom 1. Aber sehe es Positiv,es gibt schonmal gute Boards für Sockel AM3+

Gamer68 · 28.05.2011

naja den leuten kann man es nie recht machen ,es gab noch nie soviel leistung für das geld wie bei sandy,naja wirklich schwer ist das OC bei amd auch net ,eigentlich wenns an max geht sogar einfacher,für ein 24h setting ist es natürlich mit sandy einfacher

Duplex · 28.05.2011

Phenom 1 & 2 sind ja nur getunte Athlon64 CPUs mit mehr Kernen & Cache.
Mit Bulldozer wird AMD einen neuen Kerne haben, wie gesagt der aktuelle Phenom2 basiert noch auf A64 von 2003, Uncore & FPU Erweiterung bei K8 @45nm oder K10 wie das Marketing ihn bezeichnet ist keine neue Architektur.

brasillion · 28.05.2011

ja das weiss ich auch,wie gesagt sandy ist ne super CPU. Aber würde mir wünsche das da was am BLCK geht und man die kleinen dual cores übertakten kann. Gibt halt manche die haben keine 170€ für einen cpu und nur 100€ und diese leute können es dann halt nicht mit dem Sandy und müssen entweder zu nem 1156 dual greifen oder nem phenom 2,wo ich aber finde das es keine alternative ist mit dem verbrauch

.

Deswegen hoffe ich das der Bulldozer der hammer wird. aber meistens passiert ja das gegenteil wenn man zuviel erwartet

Duplex · 28.05.2011

Sandy ist auch kein heilsbringer, was sind 4,5Ghz Takt? Das hat mein Nehalem vor paar Jahren schon mit D0 Stepping gepackt

Klar kann man die BD CPUs über den Refrenztakt ähnlich wie S1366 übertakten, BD passt in AM3 Socket, das Bios wird also mind. das gleiche Spielraum bieten, die guten AMD Boards schaffen statt 200 Referenztakt gleich 350, mein 1055T packt 300x14 ohne Probleme :wink:

Bei Bulldozer darf man nicht vergessen das die Pipeline gegenüber Athlon/Phenom von 12 Stufen auf 15-18 verlängert wurde, mit 16KB L1D Cache deutet das auf hohen Takt Spielraum gegenüber das aktuelle CPU Design, 32nm SOI + High K Metall Gates ist auch ein Vorteil für hohe Taktraten, bei Intel gibt es HighK seit 45nm, bei AMD kommt das erst ab 32nm zum einsatz, sogesehen ist AMDs 45 > 32nm umstieg größer als Intels 45 > 32nm wechsel.

wega · 28.05.2011

News Übersicht: kommende AM3+ Mainboards (Update: Gigabyte A-990FXA-UD3, GA-990XA-UD3 und GA-990FXA-D3) - Planet 3DNow! Forum

beim asus gefallen mir die phasen um die ecke irgendwie nicht. darum wirds das UD7

Duplex · 28.05.2011

Mir gefälllt das UD5 & UD7 auch besser

ColeTrickle · 28.05.2011

Duplex schrieb:
Sandy ist auch kein heilsbringer, was sind 4,5Ghz Takt? Das hat mein Nehalem vor paar Jahren schon mit D0 Stepping gepackt

Klar kann man die BD CPUs über den Refrenztakt ähnlich wie S1366 übertakten, BD passt in AM3 Socket, das Bios wird also mind. das gleiche Spielraum bieten, die guten AMD Boards schaffen statt 200 Referenztakt gleich 350, mein 1055T packt 300x14 ohne Probleme

Bei Bulldozer darf man nicht vergessen das die Pipeline gegenüber Athlon/Phenom von 12 Stufen auf 15-18 verlängert wurde, mit 16KB L1D Cache deutet das auf hohen Takt Spielraum gegenüber das aktuelle CPU Design, 32nm SOI + High K Metall Gates ist auch ein Vorteil für hohe Taktraten, bei Intel gibt es HighK seit 45nm, bei AMD kommt das erst ab 32nm zum einsatz, sogesehen ist AMDs 45 > 32nm umstieg größer als Intels 45 > 32nm wechsel.

aber auf keinen fall hast du einen nehalem mit lukü und alltagstauglicher vcore auf 4,5 ghz gebracht.da brauchte man schon eine wakü,damit gehen die sb's schon auf 5ghz...

Duplex · 28.05.2011

ColeTrickle schrieb:
aber auf keinen fall hast du einen nehalem mit lukü und alltagstauglicher vcore auf 4,5 ghz gebracht.da brauchte man schon eine wakü,damit gehen die sb's schon auf 5ghz...

CPU wurde mit WaKü gekühlt, aber nur 1.35v für 4.5Ghz & 1.3v für 4.4Ghz, mit guter Luft Kühlung ist ein Betrieb ohne Probleme möglich

Gamer68 · 28.05.2011

Duplex schrieb:
Sandy ist auch kein heilsbringer, was sind 4,5Ghz Takt? Das hat mein Nehalem vor paar Jahren schon mit D0 Stepping gepackt

Klar kann man die BD CPUs über den Refrenztakt ähnlich wie S1366 übertakten, BD passt in AM3 Socket, das Bios wird also mind. das gleiche Spielraum bieten, die guten AMD Boards schaffen statt 200 Referenztakt gleich 350, mein 1055T packt 300x14 ohne Probleme

Bei Bulldozer darf man nicht vergessen das die Pipeline gegenüber Athlon/Phenom von 12 Stufen auf 15-18 verlängert wurde, mit 16KB L1D Cache deutet das auf hohen Takt Spielraum gegenüber das aktuelle CPU Design, 32nm SOI + High K Metall Gates ist auch ein Vorteil für hohe Taktraten, bei Intel gibt es HighK seit 45nm, bei AMD kommt das erst ab 32nm zum einsatz, sogesehen ist AMDs 45 > 32nm umstieg größer als Intels 45 > 32nm wechsel.

ja das 4.5ghz rellativ locker sind und bei den D0 schon fasst auf letzter rille waren ,also ich bitte dich,wenn du alles vergessen hast dann guck in den listen von den 920er oder xeons und dann von sandy ,danach zieh mal ein mittel wert raus ,du wirst dich erschrecken

Duplex · 28.05.2011

Dann nehmen wir das als Beispiel

Nehalem 4,0Ghz (45nm)
Sandy Bridge 4,5Ghz (32nm)
12,5% Unterschied

Bei BD erwarte ich gegenüber Thuban 20-25% mehr OC Potential!

Arikus83 · 28.05.2011

Hmm, bin wohl falsch hier, sieht ja aus wie der SB und Nehalem OC Thread.

Gamer68 · 28.05.2011

Duplex schrieb:
Dann nehmen wir das als Beispiel

Bei BD erwarte ich gegenüber Thuban 20-25% mehr OC Potential!

das was du schreibst ist reine spekulation ,auch wen ich mir das wünsche .klar hat sandy höheren gund takt ,aber das ist doch voll latte und bei AMD kann es ja nur noch besser werden

Duplex · 28.05.2011

Kennt jemand Andy Glew, das war der Pentium Pro Chefentwickler bei Intel, der hat früher auch mal bei AMD gearbeitet, das Bulldozer CMP/CMT Konzept war ja damals sein Konzept/Idee, Intel wollte das nicht, der hat sich sehr gefreut als er gehört hat das AMD mit seinem Konzept arbeitet, der hat mal gesagt das Bulldozer bei gleichem Energiebudget im vergleich zum aktuellen Design 20-25% höher takten kann, wahrscheinlich weil Bulldozer eine längere Pipeline als K8/K10 hat, dann gibt es noch HighK Metall Gates als Vorteil, was Intel seit 45nm nutzt, die Wolfdale CPUs konnte man z.b weitaus höher als die vorgänger takten.

Gamer68 · 28.05.2011

das hat man alles schon gelesen ,aber für mich alles spekulation

Duplex · 28.05.2011

Comment von Andy Glew (ist schon älter)

http://www.amdzone.com/phpbb3/viewtopic.php?f=52&t=137076&st=0&sk=t&sd=a&start=25#p171058

Andy Krazy Glew

Newsgroups: comp.arch
From: "Andy \"Krazy\" Glew" <ag-n...@patten-glew.net>
Date: Sat, 14 Nov 2009 22:50:01 -0800
Local: Sun, Nov 15 2009 7:50 am
Subject: Re: Bulldozer details + bobcat
Reply | Reply to author | Forward | Print | View thread | Show original | Report this message | Find messages by this author

> Bulldozer details + bobcat

BRIEF:

AMD's Bulldozer is an MCMT (MultiCluster MultiThreaded)
microarchitecture. That's my baby!

DETAIL:

Thursday was both a very good day and a very bad day for me. Good,
because my MCMT ideas finally seem to be going into a product. Bad,
because I ended up driving 4 hours from where I work with IV in the
Seattle area back to Portland, to my wife who was taken to a hospital
emergency room. The latter is personal. The former is, well, personal
too, but also professional.

I can't express how good it feels to see MCMT become a product. It's
been public for years, but it gets no respect until it is in a product.
It would have been better if I had stayed at Intel to see it through.
I know that I won't get any credit for it. (Except from some of the guys
who were at AMD at the time.) But it feels good nevertheless.

The only bad thing is that some guys I know at AMD say that Bulldozer is
not really all that great a product, but is shipping just because AMD
needs a model refresh. "Sometimes you just gotta ship what you got." If
this is so, and if I deserve any credit for CMT, then I also deserve
some of the blame. Although it might have been different, better, if I
had stayed.

I came up with MCMT in 1996-2000 while at the University of Wisconsin.
It became public via presentations.

I brought MCMT back to Intel in 2000, and to AMD in 2002.

I was beginning to despair of MCMT ever seeing the light of day. I
thought that when I left AMD in 2004, the MCMT ideas may have left with
me. Apparently not. I must admit that I am surprised to see that the
concept endured so many years - 5+ years after I left, 7+ years to
market. Apparently they didn't have any better ideas.

True, there were rumors. For example, Chuck Moore presented a slide
with Multicluster Multithreading on it to analysts in 2004 or 2005. But
things went quiet. There were several patents filed, with diagrams that
looked very much like the ones I drew for the K10 proposal. But, one
often sees patent applications for cancelled projects.

Of course, AMD has undoubtedly changed and evolved MCMT in many ways
since I first proposed it to them. For example, I called the set of an
integer scheduler, integer execution units, and an L1 data cache a
"cluster", and the whole thing, consisting of shared front end, shared
FP, and 2 or more clusters, a processor core. Apparently AMD is calling
my clusters their cores, and my core their cluster. It has been
suggested that this change of terminology is motivated by marketing, so
that they can say they have twice as many cores.

My original motivation for MCMT was to work around some of the
limitations of Hyperthreading on Willamette. E.g. Willamette had a very
small L0 data cache, 4K in some of the internal proposals, although it
shipped at 8K. Two threads sharing such a tiny L0 data cache thrash.
Indeed, this is one of the reasons why hyperthreading is disabled on
many systems, including many current Nhm based machines with much larger
closest-in caches.

At the time, the small L0s were a given. You couldn't build a
Willamette style "fireball" high frequency machine, and have a much
bigger cache, and still preserve the same small cache latency.

To avoid threads thrashing each other, I wanted to give each thread
their own L0. But, you can't do so, and still keep sharing the
execution units and scheduler - you can't just build a 2X larger array,
or put two arrays side by side, and expect to have the same latency.
Wires. Therefore, I had to replicate the execution units, and enough of
the scheduler so that the "critical loop" of Scheduler->Execution->Data
Cache was all isolated from the other thread/cluster. Hence, the form
of multi-cluster multi-threading you see in Bulldozer.

True, there are differences, and I am sure more will become evident as
more Bulldozer information becomes public. For example, although I came
up with MCMT to make Willamette-style threading faster, I have always
wanted to put SpMT, Speculative Multithreading, on such a substrate.
SpMT has potential to speed up a single thread of execution, by
splitting it up into separate threads and running the separate threads
on different clusters, whereas Willamette-style hyperthreading, and
Bulldizer-style MCMT (apparently), only speed up workloads that have
existing independent threads. I still want to build SpMT. My work at
Wisconsin showed that SpMT on a Willamette substrate was constrained by
Willamette's poor threading microarchitecture, so naturally I had to
first create the best explicit threading microarchitecture I could, and
then run SpT on top of it.

If I received arows in my back for MCMT, I received 10 times as many
arrows for SpMT. And yet still I have hope for it. Unfortunately, I am
not currently working on SpMT. Haitham Akkary, the father of DMT,
continues the work.

I also tried, and still continue, to explore other ways of speeding up
single threads using multiple clusters.

Although I remain an advocate of SpMT, I have always recognized the
value of MCMT as an explicit threaded microarchitecture.

Perhaps I should say here that my MCMT had a significant difference from
clustering in, say, the Alpha 21264,
http://www.hotchips.org/archives/hc10/2 ... 10.1.1.pdf
Those clusters bypass to each other: there is a fast bypass within a
cluster, and a slightly slower (+1 cycle) bypass of results between
clusters. The clusters are execution units only, and share the data
cache. This bypassing makes it easy (or at least easier) to spread a
single thread across both clusters. My MCMT clusters, on the other
hand, do NOT bypass to each other. This motivates separate threads per
cluster, whether explicit or implicit.

I have a whole taxonomy of different sorts of clustering:
* fast vs slow bypass clusters
* fully bypassed vs. partially bypassed
* mechanisms to reduce bypassing
* physical layout of clusters
* bit interleaved datapaths
* datapaths flowing in opposite directions,
with bypassing where they touch
* what's in the cluster
* execute only
* execute + data cache
* schedule + execute + data cache
* renamer + schedule + execute + datacache
...
* what gets shared between clusters
* front-end
* renamer?
* data-cache - L0? L1? L2?
* TLBs...
* MSHRs...
* FP...

Anyway: if it has an L0 or L1 data cache in the cluster, with or
without the scheduler, it's my MCMT. If no cache in the cluster, not
mine (although I have enumerated many such possibilities).

Motivated by my work to use MCMT to speed up single threads, I often
propose a shared L2 instruction scheduler, to load balance between the
clusters dynamically. Although I admit that I only really figured out
how to do that properly after I left AMD, and before I joined Intel.
How to do this is part of the Multi-star microarchitecture, M*, that is
my next step beyond MCMT.

Also, although it is natural to have a single (explicit) thread per
cluster in MCMT, I have also proposed allowing two threads per cluster.
Mainly motivated by SpMT: I could fork to a "runt thread" running in
tghe same cluster, and then migrate the run thread to a different
cluster. Intra-cluster forking is faster than inter-cluster forkng, and
does not disturb the parent thread.
But, if you are not doing SpMT, there is much less motivation for
multiple threads per cluster. I would not want to do that unless I was
also trying to build a time-switched lightweight threading system.
Which, as you can imagine if you know me, I have also proposed. In
fact, I hope to go to the SC'09 Workshop on that topic.

I will be quite interested to see whether Bulldozer's cluster-private L1
caches (in AMD's swapped terminology, core-private L1 caches) are write
through or write-back. Willamette's L0 was write-through. I leaned
towards write-back, because my goal was to isolate clusters from each
other, to reduce thrashing. Also, because write-back lends itself
better to a speculative versionong cache, useful for SpMT.

With Willamette as background, I leaned towards a relatively small, L0,
cache in the cluster. Also, such a small L0 can often be pitch-matched
with the cluster execution unit datapath. A big L1, such as Bulldozer
seems to have, nearly always has to lie out of the datapath, and
requires wire turns. Wire turns waste area. I have, from time to time,
proposed putting the alignment muxes and barrel shifters in the wire
turn area. I'm surprised that a large cluster L1 makes sense, but that's
the sort of thing that you can only really tell from layout.

Some posters have been surprised by sharing the FP. Of course, AMD's K7
design, with separate clusters for integer and FP, was already half-way
there. They only had to double the integer cluster. It would have been
harder for Intel to go MCMT, since the P6 family had shared integer and
FP. Willamette might have been easier to go MCMT, since it had separate FP.

Anyway... of course, for FP threads you might like to have
thread-private FP. But, in some ways, it is the advent of expensve FP,
like Bulldozer's 2 sets of 128 bit, 4x32 bit, FMAs, that justify integer
MCMT: the FP is so big that the overhead of replicating the integer
cluster, including the OOO logic, is a drop in the bucket.
You'd like to have per-cluster-thread FP, but such big FP workloads are
often so memory intensive that they thrash the shared-between-clusters
L2 cache: threading may be disabled anyways. As it is, you get good
integer threads via MCMT, and you get 1 integer thread and 1 FP thread.
Two FP threads may have some slowdown, although, again, if memory
intensive they may be blocking on memory, and hence allowing the other
FP thread t use the FP. But two purely computational FP threads will
almost undoubtedly block, unless the schedulers are piss-poor and can't
use all of the FP for a single thread (e.g. by being too small).

I certainly want to explore possibilities such as SpMT and other single
thread speedups. But I know that you can't build all the neat ideas in
one project. Apparently MCMT by itself was enough for AMD Bulldozer.
(Actually, I am sure that there are other new ideas in Bulldozer. Just
apparently not SpMT or spreading a single thread across clusters.) Look
at the time-lag: 10-15 years from when I came up with MCMT in
Wisconsin, 1996-2000. It is now 7-5 years from when I was at AMD,
2002-2004, and it will be another 2 years or so before Bulldozer is a
real force in the marketplace.

I don't expect to get any credit for MCMT. In fact, I'm sure I'm going
to get shit for this post. I don't care. I know. The people who were
there, who saw my presentations and read my proposals, know. But, e.g.
Chuck Moore wasn't there at start; he came in later. Even Mike Haertel,
my usual collaborator, wasn't there; he was hired in later, although
before Chuck. Besides, Mike Haertel thinks that MCMT is obvious.
That's cool, although I ask: if MCMT is obvious, then why isn't Intel
doing it? Companies like Intel and AMD need idea generating people like
me about once every 10 years. In between, they don't need new ideas.
They need new incremental improvements of existing ideas.

Anyway... It's cool to see MCMT becoming real. It gives me hope that my
follow-on to MCMT, M* may still, eventually, also become real.

[Sammelthread] AMD Bulldozer "Zambezi" 32nm "New CPU Architecture" Sockel AM3+ [Part 3]

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Urgestein

Urgestein

Urgestein

Urgestein

Urgestein

Semiprofi

Urgestein

Banned

Urgestein

Banned

Urgestein

Urgestein

Urgestein

Semiprofi

Urgestein

Urgestein

Urgestein

Banned

Urgestein

Urgestein

Banned

Urgestein

Banned

Urgestein