AMD bezieht Stellung - Bulldozer aus strategischen Gründen verschoben

Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
FPU auf sowas optimiert: aber die FPU hat doch ueberhaupt keine Moeglichkeit zu entscheiden wie FPU-lastig die einzelnen Threads sind, wieviel Zeit sie brauchen und welcher Thread schlimmer gestalled wird wenn man ihm FPU-Zeit wegnimmt.

OS muss es beruecksichtigen: Ist ne Moeglichkeit, halte ich aber fuer unwahrscheinlich, ich gehe davon aus dass man will dass der Bulldozer auch auf allen aktuellen OS's ohne Patches mit normaler Geschwindigkeit laeuft.

Anderes Modul: Was, wenn kein anderes Modul idle ist?

Wie ist das bei SMT?

Für die FPU ist die Lage etwas anders, da diese nur mit starker (Hand-)Optimierung gut ausgelastet werden kann (und selbst da kann es algorithmenseitig Einschränkungen geben, die die Erreichung hoher Durchsätze behindern), aber bei normalem Compiler-Code weiter vom Optimum entfernt ist als Integer-Einheiten.
D.h. dass hier die Leistung nur in Sonderfällen einbrechen würde.
 
Zuletzt bearbeitet:
Wie ist das bei SMT?

Ehrlich gesagt: Keine Ahnung. Waere auch interessant.


Quelle der Grafik ist übrigens folgender Post: Was kommt (nach den ersten Deneb (K10.5+)) fuer den Desktop bis zum Launch der BD(APUs)? - Seite 6 - Planet 3DNow! Forum

Dort findet sich noch mehr zum Design. Unteranderem kann das auch eure Dikussion um die FPU erhellen.

Wenn ich das richtig verstehe, steht da aber im wesentlichen nur, dass in den meisten Situationen die FPU eh nicht ausgelastet ist und das von mir angesprochene Problem dadurch selten auftritt. Aber was, wenn es auftritt *gruebel*?
 
4physisch 4 logisch ist bei amd nicht der fall...
entweder 8 logisch oder 8 physisch, da die threads parralel aber getrennt cmt laufen, bei intel parralel aber nicht getrennt smt
Die Threads laufen bei CMT genauso wenig getrennt. Sie müssen sich zB das komplette Frontend teilen. Nochmal, entweder du sprichst von 4 physischen Kernen oder von 8 logischen Prozessoren, da eben ein physischer Kern zwei logische Prozessoren zur Verfügung stellt. Es sind aber nicht 4 physische + 4 logische oder was du auch immer recht unverständlich zum Ausdruck bringen wolltest.


SMT beruht darauf, durch die Vorspiegelung zweier logischer Kerne die Rechenwerke des einen physischen Kerns besser auszulasten, was in erster Linie durch Vollpacken der Pipeline des physischen Kerns passiert.
CMT geht hier einen Schritt weiter und verdoppelt auch Teile der Kernlogik.
Teile der Kernlogik werden auch bei SMT vervielfacht, wie zB Registersatz. Sagen wir eher, bei CMT werden zusätzlich auch Ausführungseinheiten vervielfacht.


Was, wenn beide Threads ploetzlich die FPU nutzen wollen? Wie entscheidet der Prozessor, welcher Thread zu welchen Teilen FPU-Zeit bekommt?
Ich zitiere mal aus dem Optimization Guide:
2.11 Floating-Point Unit
The AMD Family 15h processor floating point unit (FPU) was designed to provide four times the raw
FADD and FMUL bandwidth as the original AMD Opteron and Athlon 64 processors. It achieves this
by means of two 128-bit fused multiply-accumulate (FMAC) units which are supported by a 128-bit
high-bandwidth load-store system. The FPU is a coprocessor model that is shared between the two
cores of one AMD Family 15h compute unit. As such it contains its own scheduler, register files and
renamers and does not share them with the integer units. This decoupling provides optimal
performance of both the integer units and the FPU. In addition to the two FMACs, the FPU also
contains two 128-bit integer units which perform arithmetic and logical operations on AVX, MMX
and SSE packed integer data.
A 128-bit integer multiply accumulate (IMAC) unit is incorporated into FPU pipe 0. The IMAC
performs integer fused multiply and accumulate, and similar arithmetic operations on AVX, MMX
and SSE data. A crossbar (XBAR) unit is integrated into FPU pipe 1 to execute the permute
instruction along with shifts, packs/unpacks and shuffles. There is an FPU load-store unit which
supports up to two 128-bit loads and one 128-bit store per cycle.
FPU Features Summary and Specifications:
The FPU can receive up to four ops per cycle. These ops can only be from one thread, but the
thread may change every cycle.
Likewise the FPU is four wide, capable of issue, execution and
completion of four ops each cycle. Once received by the FPU, ops from multiple threads can be
executed.
• Within the FPU, up to two loads per cycle can be accepted, possibly from different threads.
• There are four logical pipes: two FMAC and two packed integer. For example, two 128-bit
FMAC and two 128-bit integer ALU ops can be issued and executed per cycle.
• Two 128-bit FMAC units. Each FMAC supports four single precision or two double-precision
ops.
• FADDs and FMULs are implemented within the FMAC’s.
Es gibt auch ein Blog zur Flex-FPU.
 
Gut, jetzt wäre noch interessant zu wissen, wie der Scheduler auf CMT unt Turbocore reagiert, bzw. am besten reagieren sollte, um die beste Energieeffizienz zu erhalten.
 
Teile der Kernlogik werden auch bei SMT vervielfacht, wie zB Registersatz. Sagen

Danke für die Berichtigung.


Bulldozer ist ein interessantes Gebilde und könnte meine erste AMD-CPU werden. Mal sehen, wie sich das entwickelt.
 
Was ist den hier wieder los?

AMDs Folien haben bestätigt das ein Bulldozer Modul (Physischer Core) bei kleinerer Fläche schneller als 2x K10 (Phenom, Opteron) Kerne sind!

Laut JF-AMD ist ein 16 Kerner (8Modul) 50% schneller als ein 12 Kerner (K10) im Server Specrate Bench, halbieren wir jetzt die Modul Anzahl von 8 > 4, also 8 vs. 6 Kerne, dann ist Zambezi schon 50% schneller als Thuban bzw. Phenom 2 X6 und wäre in Cinebench 30% vor dem i7-2600, also i7-980x Level.

1 Bulldozer CMT Modul hat 2x Cluster oder 2x Integer Cores die geteilte Ressourcen wie L2 Cache, FPU, AVX nutzen, das heißt jeder Ken in Windows hat nicht seine eigene Ressourcen zur verfügung, hier wird geteilt & deswegen sind es keine echten 8 Kerne, 4 Module sind 4x Physiche Kerne, eig. 4 Kerne / 8 Threads, CMT ist nur eine bessere Alternative zu SMT, aber das Marketing von AMD wird 4 CMT Kerne als 8 Kerne vermarkten :fresse:

Ich selber bin gegen sowas, ich hätte im Desktop 4 Module als 4 Kerne mit 8 Threads vermarktet, im Server hätte ich dagegen 4 Module als 8 Kerne verkauft :)

bzgl. Singlethread
Nochmal 1 Modul hat 2 Integer Cores, in Singlethread braucht aber nur 1 Integer Core laufen, das heißt wenn 1 Core aus einem Modul eigenständig arbeitet, dann hat er alle Ressourcen aus einem Modul zur eigenen verwendung, also 256 Bit FPU, 2MB L2 statt 2x1MB Cache usw. alles was im Modul bei 2 Kerne geteilt wird muss bei 1 Thread nicht mehr geteilt werden, das ergibt in Singlethread mehr Leistung pro Takt!

Also in Singlethread hat Bulldozer mehr IPC als in >2 Threads

Bei 4 Threads braucht man eig. nur durch Powergating 2 Module deaktivieren & hat 125W TDP für 2 Module / 4 Threads +>>> mehr Turbo Spielraum weil 2 Module stromlos sind!

Bei 8 Threads laufen alle 4 Module mit Standard Basistakt inkl. Turbo, bei AVX entweder 1x 256 Bit oder aber 2x128 Bit.


Ich selber erwarte gegenüber dem i7-2600 im Durchschnitt mind. 20% mehr Leistung :wink:
 
Zuletzt bearbeitet:
d

AMDs Folien haben bestätigt das ein Bulldozer Modul (Physischer Core) bei kleinerer Fläche schneller als 2x K10 (Phenom, Opteron) Kerne sind!

Laut JF-AMD ist ein 16 Kerner (8Modul) 50% schneller als ein 12 Kerner (K10) im Server Specrate Bench, halbieren wir jetzt die Modul Anzahl von 8 > 4, also 8 vs. 6 Kerne, dann ist Zambezi schon 50% schneller als Thuban bzw. Phenom 2 X6 und wäre in Cinebench 30% vor dem i7-2600, also i7-980x Level.


Gut möglich.
Aber das kann durch die Taktraten noch verändert werden..


Deiner Vermartungsstrategie stimme ich zu, ein Kern, der doppelt mal so schnell ist, dazu nicht mal viel mehr Energie braucht klingt grandios..

PS: Vorschlag an die Hersteller:
bei den Spitzenmodellen könnte man alternativ zum offenen Multiplikator auch selbst die TPD und die maximale Temperatur einzustellen, scheint mir, wenn man nicht gerade Rekorde vornehmen will, deutlich sinnvoller..
 
Zuletzt bearbeitet:
Ich hab nicht zugehört, könntest du das nochmal wiederholen?:)
ne danke du hast zumindest mir 1-2 fragen logisch erläutert

mal ne ganz dumme frage auch wenns die ned gibt

kann ich MultiThreading so verstehen das man die Leistungsfähigkeit eines Kerns in das niveau des Itaniums bringt? Also nur die Richtung von wegen Wirkungsgrad/Kern
 
Einige denken wirklich das AMD eine neue Architektur vermarktet die nicht schneller sei als ein Intel 250 € Mainstream Modell wie der i7-2600 :fresse:

AMDs Ingenieure sind doch nicht dumm, die sind nicht minderwärtiger als Intels Mitarbeiter oder ähnliches!

20-30% mehrleistung als ein X6 wäre für AMD Totschlag Nr.1

Leute was sind 30%??? Das ist doch nicht euer Ernst, fragen wie wenn ein Modul schneller als 2 aktuelle Kerne wären usw. ist doch keine ernte Frage? Wir befinden uns im Jahr 2011 vor SB-E, AMD muss auch mal lange balken zeigen!

man man man 30% is nix, das aktuelle Design vom Phenom mit 32nm Strukturen, mehr Cache & mehr Takt machen billige 30% schon innerhalb kurzer Zeit fertig....Nehalem Shrink 45nm > Westmere 32nm hat schon 30-50% gebracht.
 
Bleiben wir beim Thema, VIA hat im x86 Markt nichts zu sagen, AMD & INTEL bestimmen hier alles!

Eine Frage des preises?

AMD wird niemals wegen 30% ein Bulldozer vermarkten, AMD hat sehr viele Ressourcen in BD investiert und ganz bestimmt nicht für 30%!

Wie gesagt ein K10 Shrink mit 8 Kernen, 4MB L2 & 8MB L3 in 32nm Strukturen, dann brauchst du kein Bulldozer mehr und sofort 30% mehr Leistung, deswegen kann das doch keine ernste Frage sein!
 
Naja
Realistisch betrachtet hat die Transistorzahl + Transistorgrösse etwas mit der Stromaufnahme zu tun...
Wenn der Sandy E 6 bzw 8 kerne hat sind das 1,2-1,6MRD transistoren
4Bulldozer Module hingegen "nur" 850Mio

Ob die Cmt besser arbeitet als die Smt wird sich zeigen. Hier geht es, wie auch alle bisher genannten Preise, um das schlagen des I7 2600k, genauso wie auf Amd s Roadmaps, Amd den Bulldozer gegen i5 2500 und i7 2600 stellt.

bekomm ich noch ne Antwort auf meine Frag? vma auch per PM
 
AMD wird niemals wegen 30% ein Bulldozer vermarkten, AMD hat sehr viele Ressourcen in BD investiert und ganz bestimmt nicht für 30%!


Richtig erkannt. Deswegen musste AMD den Bulldozer verschieben nehme ich an. Durch die zu gering ausgefallenen Taktfrequenzen konnte AMD die anfänglich angepeilten Hochrechnungen und Leistungsziele mit Bulldozer nicht verwirklichen. Die Spekulationen zuletzt sprachen von enttäuschenden IPC Werten. Bulldozer braucht im Desktop hohe Taktraten. Es wäre zu befürchten, dass AMD den performance Sektor im Desktop Markt zukünftig aufgibt und wir nur noch einen Mitspieler zur Auswahl haben, was nicht gut auf die Preise schlagen dürfte. AMD setzt vermehrt auf ihr Zugpferd Billigsegment (Brazos) und den unteren Mainstream (Llano). Ich habe das Gefühl als wenn AMD den performance Sektor immer stärker vernachlässigt. Das zeigt AMDs Verhaltensweise und wie sie auf tech news der einschlägigen Seiten reagieren - verspätet oder gar nicht. Diese Zielgruppe wird von AMD augenscheinlich als nicht lukrativ genug erachtet.
 
Zuletzt bearbeitet:
Einige denken wirklich das AMD eine neue Architektur vermarktet die nicht schneller sei als ein Intel 250 € Mainstream Modell wie der i7-2600 :fresse:

AMDs Ingenieure sind doch nicht dumm, die sind nicht minderwärtiger als Intels Mitarbeiter oder ähnliches!

20-30% mehrleistung als ein X6 wäre für AMD Totschlag Nr.1

Leute was sind 30%??? Das ist doch nicht euer Ernst, fragen wie wenn ein Modul schneller als 2 aktuelle Kerne wären usw. ist doch keine ernte Frage? Wir befinden uns im Jahr 2011 vor SB-E, AMD muss auch mal lange balken zeigen!

man man man 30% is nix, das aktuelle Design vom Phenom mit 32nm Strukturen, mehr Cache & mehr Takt machen billige 30% schon innerhalb kurzer Zeit fertig....Nehalem Shrink 45nm > Westmere 32nm hat schon 30-50% gebracht.

Insofern könnte BD durchaus 80% leistungsfähiger als K10 pro mm² sein.
Mal sehen, Intel hat auch schon Angst vor BD, da sie grade nichts aktuell konkurrenzfähiges haben (optimistisch) gesagt. Im 300$ Bereich.

PS: habt ihr gesehen, was sich AMD von enhanced Bulldozer in Sachen Energieeffizienz erwartet?
Ich denke, sowas veröffentlicht man nicht grundlos.
 
Zuletzt bearbeitet:
seh ich anders
ok es weder keine 3mio bullys in der zeit wie der zacate verkauft schon garkeine 100mio wie intels atom...
aber wenn der bully mit i5 i7 2600 konkuriert ist er eine klasse alternative für leute die intels hd grafik nicht mitbezahlen oder haben wollen... den markt sollte man nicht unterschätzen
 
Wie groß soll dieser Markt sein? 20% der hier registrierten Leute?
 
Richtig erkannt. Deswegen musste AMD den Bulldozer verschieben nehme ich an. Durch die zu gering ausgefallenen Taktfrequenzen konnte AMD die anfänglich angepeilten Hochrechnungen und Leistungsziele mit Bulldozer nicht verwirklichen.
Das glaube ich nicht, selbst wenn Bulldozer mit einem weiteren Stepping 500MHz mehr erreichen würde, wenn AMD mit der IPC nicht zufrieden ist, dann wäre das Gesamt Ergebniss trotz 500MHz mehr Takt auch nicht viel besser, übertakte mal eine CPU von 3000 auf 3500MHz, im Durchschnitt bringt das vielleicht 10% :wall:
Die Spekulationen zuletzt sprachen von enttäuschenden IPC Werten. Bulldozer braucht im Desktop hohe Taktraten.
Wer hat das im Umlauf gebracht?

Es wäre zu befürchten, dass AMD den performance Sektor im Desktop Markt zukünftig aufgibt und wir nur noch einen Mitspieler zur Auswahl haben, was nicht gut auf die Preise schlagen dürfte.
Nein dann müssen Sie auch die Server ausgeben, die verwenden doch den gleichen Orochi Chip, Interlagos soll laut Spekus z.b. schneller als SB 8C/16T sein.

Außerdem wird Bulldozer immer weiterentwickelt, wie kann man eine neue Architektur so schnell aufgeben? Stichwort: Spekulatives Multithreading, aus 8 Cores werden 4 Monster Cores, dann wäre das Modul Konzept erfolgreicher als gedacht, in 22nm braucht man dann nur Module erweitern und kann mit 8 Modulen auch 8 Threads ausführen, IPC steigt dann gewaltig! Dresdenboy hat mal bei P3DNow gesagt das es dafür schon Patente gibt.
AMD setzt vermehrt auf ihr Zugpferd Billigsegment (Brazos) und den unteren Mainstream (Llano). Ich habe das Gefühl als wenn AMD den performance Sektor immer stärker vernachlässigt. Das zeigt AMDs Verhaltensweise und wie sie auf tech news der einschlägigen Seiten reagieren - verspätet oder gar nicht. Diese Zielgruppe wird von AMD augenscheinlich als nicht lukrativ genug erachtet.

Brazos war doch nur eine Antwort auf Atom, das Bobcat Design ist auch nicht NEU, er ist weiterhin mit K8 verwandt, die FPU ist aber neu.

Edit: Die AM3+ Bretter sind verfügbar, brauche sowieso einen neuen 2. PC, werde mir einfach das Gigabyte UD5 & ein x2 für 30 € kaufen bis die Bulldozer CPUs da sind, landet sowieso im Büro ;)
 
Zuletzt bearbeitet:
seh ich anders
ok es weder keine 3mio bullys in der zeit wie der zacate verkauft schon garkeine 100mio wie intels atom...
aber wenn der bully mit i5 i7 2600 konkuriert ist er eine klasse alternative für leute die intels hd grafik nicht mitbezahlen oder haben wollen... den markt sollte man nicht unterschätzen

2012 wird BD zur APU. Damit hat er auf jeden Fall da seinen Sinn.
Das würde auch die evtl niedrige CPU Leitung von Llano ausgleichten.
Also lohnt er sich auf jeden Fall für AMD und wird verbessert dann sicher häufiger verkauft als Atom.
 
Du weißt aber auch genau das die meisten den 2600k mit ordentlicher Übertaktung fahren. Ob der Bulldozer jemals so hoch kommt ist fraglich. Also glaube ich Deine 20% erst wenn die da sind. Sollte der Bulldozer wirklich so gut werden kaufe ich mir einen als Zweitsystem. Für mich wirds sowieso Sandy-E ;)
Wenn das Stepping keine Bugs mitbringt & die Patante bezgl. Front/Backend stimmen, dann sind 5Ghz mit Wasser kein Problem.

Mein X6 1055T @45nm (Architektur 8 Jahre alt) packt mit WaKü 4,2Ghz

Bulldozer hat 3 direkte Vorteile gegenüber einen 45nm Phenom

1. 32nm SOI
2. High K Metal Gate (verwendet Intel seit Wolfdale 45nm, bringt deutlich mehr Takt!)
3. Längere Pipeline

Das Bulldozer CMP Konzept stammt ursprünglich von Andy Glew, Intel Pentium Pro Chef, der hat mal gesagt das Bulldozer bei gleichem Energie Budget ca. 25% höher takten kann ;)
 
Zuletzt bearbeitet:
Das Bulldozer CMP Konzept stammt ursprünglich von Andy Glew, Intel Pentium Pro Chef, der hat mal gesagt das Bulldozer bei gleichem Energie Budget ca. 25% höher takten kann ;)
im vergleich zu einem sack kartoffeln?! :fresse2:
naja, aber weniger energieverbrauch ist bitter nötig.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh