[Sammelthread] AMD Bulldozer "Zambezi" 32nm "New CPU Architecture" Sockel AM3+ [Part 3]

@Opteron: 4 Dekoder bei 20% Auslastung heißt pro Takt nicht mal einen Befehl. ???
Jo, da passiert viel, was das Ganze behindert, I$/D$ Miss, Branches, zu lange Befehle (Intel hat nur einen 16byte Fetch, da passen oft nicht mehr als 3 Ops rein, v.a. bei x64, mit AVX wirds wieder besser, aber das hat erstmal ja keine Auswirkung), etc. pp.

Auf die Schnelle muss der P6 herhalten:
Im Mittel 0,87 Instr/Takt (Seite 2, Mitte links)

http://web.njit.edu/~jhu/ece690/Lectures/Lec06_I_Dyn_Examples_h6.pdf

Kann jetzt gerne höher sein, aber recht viel mehr als um 1-1,5 ist man auch heute nicht. Die 3-4 Dekoder braucht man nur, wenns mal richtig flutscht.

Auf Dein Argument des Energiesparens durch Nutzen des µOp Caches bei Sandy und Abschalten des Decoders, kann man das auch anders herum sehen: Bulldozer brächte das nicht, da die Decoder ja mit 2 Threads gut beschäftigt sind. Aber trotzdem ist sowas ist auch aus anderen Gründen ganz brauchbar.
 
Zuletzt bearbeitet:
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Zambezi Prototyp?

zambezibmcj.jpg

zambezi2t8gy.jpg


¡¾Ã°ËÀ͵ÅÄÍÆÍÁ»úÒÔ¼°´«ËµÖеÄFM1£¡¡¿-CPU´óÌÖÂÛÂÛ̳-ZOLÖйشåÔÚÏß
 
Made in Malaysia? Ich dachte die werden bei GF in Europa gefertigt?
Da steht 2010 drauf. Wurden die schon letzes Jahr an Partner gesendet?
 
Meist steht ja noch "Diffused in germany" drauf. Made bzw Assembled in Malaysia/China steht schon immer drauf.

Erste Samples wurden doch glaub ich schon im November verschickt.
 
Die Frage wurde bereits gestellt aber wie so oft in derartigen Diskussionen gekonnt ignoriert....:rolleyes:..."Wie und mit was testet denn die c't Last?"

Übrigens fehlt bei CPU-Vollast noch der Verbrauch der IGP...

Nö da fehlt nix wenn die wirklich das Gesammtsystem gemessen haben.
Also mit Speicher, HDD,Laufwerk,....
Hab den Test nicht gelesen, aber ihr redet da wohl aneinander vorbei.
 
Es geht hier aber um CPU-Last. Bulldozer hat keine IGP. Außerdem verbraucht die IGP soweit ich weiß nix, wenn sie deaktiviert ist.

Allerdings muss man sie in die TDP natürlich mit einbeziehen, weil sie jemand benutzen könnte. Das darf man nicht vergessen.
 
"Wie und mit was testet denn die c't Last?"
Die Software wird im Artikel der vorletzten c't nicht erwähnt, lediglich dass die Systeme 'soweit möglich' abgespeckt und mit IGP betrieben wurden. Ich nehme mal an Cinebench oder sowas kommt zum Einsatz, das kommt dem praktischen Extremfall schon sehr nahe. Man könnte mal bei Anandtech schauen, die haben ähnliche Ergebnisse und vermutlich auch die Software genauer benannt.
 
anandtech hat alles andere als ähnliche Ergebnisse, vorallem im idle...;)

System der c´t: Intel DH67BL, 4GB RAM, SSD, 80+ NT, Maus+Tastatur

Verbrauch idle: 24W
" CPU-load: 101W
" CPU+IGP-load: 129W

Auch ohne das genaue Auslastungsszenario zu kennen, kommen wir bei diesen Werten nach herausrechnen der Verluste durch NT und Wandler dem TDP-Rahmen von 95W schon recht nahe.

Aber nun bitte :btt: Wir werden sehen, ob Intel es nötig hat den Takt (stark) anzuheben bzw. Kerne hinzuzufügen...
 
Made in Malaysia? Ich dachte die werden bei GF in Europa gefertigt?
Der Chip wird in Dresden gefertigt. Das CPU-Package wird dann in Asien fertiggestellt.

Da steht 2010 drauf. Wurden die schon letzes Jahr an Partner gesendet?
Bisher war es so, dass das Jahr nichts mit dem Herstellungsdatum zu tun hat. Das Jahr bezieht sich auf die Marke, also zB Athlon II oder Phenom II. Ich bin mir nicht sicher, ob das ES Llano oder Zambezi ist, würde aufgrund der Pin-Belegung mal auf letzteres tippen, aber beides ist als Marke sicherlich schon letztes Jahr fix gewesen.
 
Auch ohne das genaue Auslastungsszenario zu kennen, kommen wir bei diesen Werten nach herausrechnen der Verluste durch NT und Wandler dem TDP-Rahmen von 95W schon recht nahe.

Also ohne mich in diese INTEL vs. AMD Diskussion mit einzuklinken,...ist es nicht so das die TDP ehr die thermischen Eigenschaften einer CPU (in diesem Fall) beschreibt und der Verbrauch ein deutlich höherer sein kann.

Ich verstehe das so das die TDP-Angaben interessant für Laptop´und Notbook sowie Serverräume sind.

Sprich wenn ich eine 20 Watt Glühbirne habe mit einem Wirkungsgrad von 12%, dann hab ich eine TDP von 17,6 Watt. Jetzt zu meiner Rechenaufgabe, wie kann ich ohne den Wirkungsgrad der CPU oder deren Stromaufnahme zu kennen anhand der TDP irgendwelche Aussagen treffen, also ausser die größe des Lüfters zu bestimmen meine ich.
 
Ich würde mal spontan behaupten, praktisch die gesamte aufgenommene elektrische Energie wird in thermische Energie (=Abwärme) umgewandelt.
 
Also ohne mich in diese INTEL vs. AMD Diskussion mit einzuklinken,...ist es nicht so das die TDP ehr die thermischen Eigenschaften einer CPU (in diesem Fall) beschreibt und der Verbrauch ein deutlich höherer sein kann.
Die verbrauchte Energie wird doch (fast) komplett in Abwärme umgewandelt, oder gibt deine CPU noch eine andere Art von Energie ab?

Die TDP an sich gibt an, welche Abwärme die Kühlung der CPU(des Systems) bewältigen können muss. Dabei gibts verschiedene Klassen, in die die Hersteller ihr CPUs dann einordnen. Hier gehts nun darum, dass Sandy Bridge aktuell den 95W TDP-Rahmen schon ganz gut ausreizt und Intel einen sogenannten "Taktkrieg" vielleicht nicht so einfach mitgehen kann, wie es Einige hier sehen wollen...
 
Kann man die Dinger auch ocen oder oder ist das dann in der vc jenseits von gut und böse?
Ist ne ernstgemeinte Frage.
 
Kann man die Dinger auch ocen oder oder ist das dann in der vc jenseits von gut und böse?
Ist ne ernstgemeinte Frage.

klar kann man die auch übertakten, ähnlich wie Blaus Sockel 1366 via BCLK oder freien Multiplikator, bei Grün gibt es Refrenztakt ab 200, mein Asus macht z.b. 350 Referenztakt statt 200 :)

der Umstieg von 45 > 32nm ist größer als Blaus 45 > 32nm Umstellung
Blau verwendet seit 45nm High K Metall Gates, dadurch sind höhere Taktraten möglich.

Bei Grün gibt es High K erst ab 32nm, deshalb ist 32nm SOI bei Grün eine guter Prozess für die Bulldozer CPU, das Design ist zudem auf höhere Taktraten optimiert worden

K8/K10 (Athlon, Phenom) Pipeline = 12 Stufen

Bulldozer Pipeline = 15 Stufen

Bezüglich OC & Temperaturen ist noch nichts bekannt, die TDP bleibt bei max. 125W
 
Zuletzt bearbeitet:
ich weiß zwar nicht was blau und grün ist :-) ich dachte nur man weiß ~ etwas über vc bei ca. 30% OC.

Und hat sich AMD mal irgendwo und irgenwie übers Hardware TCPA geäußert wie es Intel ja so schön heimlich durchs Hintertürchen (SB) eingeführt hat.
 
Glaube du verwechselst AMD mit ATI, jetzt zurück zum Thema, ist offtopic.
 
Lasst das mit den Farben.

Dunkelgrün=AMD
Hellgrün=Nvidia
Blau=Intel
Rot=ATI (gibts nicht mehr)
 
Ich steige jetzt auch mal in die Diskussion ein, da ich mich hierfür schon länger interessiere ;)

Ich würde auf der einen Seite gerne mal wissen wieso die "Module" des Bulldozers nicht als vollwertige Kerne annerkant werden. Es ist doch dem Hersteller überlassen ob der den L2-Cache dem einzelnen Kern zuordnet, oder 2 Kernen. Und es kann doch trotzdem sein das ein Kern dann schneller ist als einer von Sandy Bridge. Also ein Kern und nicht ein Modul. Das bedeutet das ein 4 Kerner mit 2 Modulen einen Sandy Bridge schlagen kann weil die Architektur effizenter ist.
Oder ist es so sicher das AMD nur durch seine Kerne die Leistung skalieren wird???

Ich denke auch darüber nach mir einen neuen PC zu bauen. Lohnt es sich von einem Core 2 Quad Q9550 auf einen Bulldozer hochzurüsten, was die wahrscheinlich Leistung angeht?

Gruß Dan Kirpan
 
Ich würde auf der einen Seite gerne mal wissen wieso die "Module" des Bulldozers nicht als vollwertige Kerne annerkant werden. Es ist doch dem Hersteller überlassen ob der den L2-Cache dem einzelnen Kern zuordnet, oder 2 Kernen.

Bulldozer hat CMT Module, hier müssen sich die 2 Integer Cores pro Modul die Ressourcen siehe Grafik teilen, deshalb ein CMT Modul > 1 Physischer Core > Windows > 2 Cores.
bulldozer-6s9vr88um.jpg



Und das hier ist ein CMP Modul, wie man auf der Grafik sieht hat jeder Integer Core seine eigenen Ressourcen zur verfügung, CMP ist also ein echter Dual Core Modul mit 2 vollwertigen Kernen, den gibt es aber nicht, sondern nur obiger CMT Bulldozer.
bulldozer-5kbl9umgq.jpg

Und es kann doch trotzdem sein das ein Kern dann schneller ist als einer von Sandy Bridge. Also ein Kern und nicht ein Modul. Das bedeutet das ein 4 Kerner mit 2 Modulen einen Sandy Bridge schlagen kann weil die Architektur effizenter ist.
Intel hat grundsätzlich mehr IPC (Leistung pro Takt) + SMT, AMD setzt auf mehr Takt + Integer Cores statt SMT. In Multithreading wird Zambezi mit Sicherheit schneller als ein SB 4C/8T.

Zu der Leistung pro Kern kann man aktuell noch nicht viel sagen außer spekulieren, wenn 1 integer Core aus einem Modul alleine arbeitet, dann hat er alle Ressourcen inkl. Cache, das heißt 1 Core aus einem Modul hat dann mehr IPC + mehr Turbo Takt.
 
Zuletzt bearbeitet:
wie sieht es denn mit den Anwendungen aus ? Müssen die 8 threads verarbeiten können oder nur 4 um das volle Potential von den CPUs auszuschöpfen ?
Was bringen mir die vielen Kerne/Threads, die die CPU verarbeiten kann, wenn sie im Endeffekt garnicht genutzt werden...
Die meisten Programme, die man so nutzt, nutzten ja nur 2 cores, wenn überhaupt, und Spiele fangen gerade erst an von quadcore zu profitieren und selbst da hält es sich in Grenzen.
 
Müssen die 8 threads verarbeiten können oder nur 4 um das volle Potential von den CPUs auszuschöpfen ?
Für das volle Potential: 8 Threads. Lässt man nur vier Theads laufen, steigt relativ zu Acht Threads jedoch die Geschwindigkeit pro Thread. Insofern ist es nicht mit 'homogenen' Kernen wie bei einem AMD Phenom zu vergleichen.

Auch ohne das genaue Auslastungsszenario zu kennen, kommen wir bei diesen Werten nach herausrechnen der Verluste durch NT und Wandler dem TDP-Rahmen von 95W schon recht nahe.
Ein Messwert - Zwei Interpretationen. Wir werden sehen, wer Recht behält.
 
inwiefern steigt denn die Geschwindigkeit, wenn nur 4 Threads verwendet werden ? Durch Takterhöhung oder dadurch, daß wenn nur ein Kern gebraucht wird pro Modul, dieser Kern auf alle Resourcen des Moduls zurückgreifen kann und wie hoch steigt die Geschwindigkeit im Vergleich zu einem 4 Kern/4 Thread Prozessors ?
 
Richtig. Erstens kann die CPU dann durch den "neuen" Turbo möglicherweise höher getaktet werden und zweitens kann der Kern dann auf alle geteilten Ressourcen(Flex-FPU, Shared L2) des gesamten Moduls zugreifen. Aber ich glaube nicht, dass dir jetzt schon jemand den Performancegewinn nennen kann. Das müssen erst Tests zeigen.
 
So wie es aussieht, takten die Kerne sowieso schon auf mindestens 4 GHz mit Turbo. Wenn die CPU nur 4 Threads bekommt (unter Win7+) takten die Kerne jeweils höher, weil nur ein Kern pro Modul benötigt wird. Soweit die Theorie. Wenn wir jetzt also das Topmodell nehmen (offenbar 3,5GHz Grundtakt) taktet das Frontend auf 3,5GHz und die Kerne mit 4GHz. Sollte die CPU weniger Threads bekommen, takten die Kerne dann meinetwegen auf 4,3GHz (wieviel genau weiss bisher keiner) und die brachliegenden Kerne werden entsprechend runtergetaktet. Da besteht auch die einzige Gemeinsamkeit mit dem bisherigen TurboCore des Thuban.
Die Kerne (=Integer-Cluster) sind nach bisherigen Erkenntnissen absolute Hochtakt-Designs (kleiner Cache, schlankes Design), während der Rest der CPU für relativ normale Taktraten ausgelegt ist. Ein großes Fragezeichen steht noch an der FPU. Ob die auf Basistakt läuft oder auch den Turbo nutzen kann ist bisher völlig offen.
 
Zuletzt bearbeitet:
wie sieht es denn mit den Anwendungen aus ? Müssen die 8 threads verarbeiten können oder nur 4 um das volle Potential von den CPUs auszuschöpfen ?
In Multithreading natürlich alle Cores.
Wie das später in Games geregelt wird ist nicht bekannt, evtl. arbeitet 1 Core aus einem Modul mit dicken Turbo >1Ghz+ & Modul Ressourcen allein, ist aber nur eine Spekulation.
Was bringen mir die vielen Kerne/Threads, die die CPU verarbeiten kann, wenn sie im Endeffekt garnicht genutzt werden...
Die meisten Programme, die man so nutzt, nutzten ja nur 2 cores, wenn überhaupt, und Spiele fangen gerade erst an von quadcore zu profitieren und selbst da hält es sich in Grenzen.
Bulldozer hat Power & Clock-Gating
Theoretisch kann man damit z.b. 3 Module stromlos deaktivieren, dann kann Modul 1 bis 125W TDP sehr hoch takten, keine plan wie AMD das programmiert hat?
 
amd geht wohl in Richtung intelligente CPU, je nach anwendug werden unterschiedlich viele kerne mit unterschiedlichem Takt betrieben klingt Interessant, dass nenne ich enthusiasmus wenn die Spieleentwickler nicht auf multicores setzten wie sich das einige wünschen, dann wird eben von seitens der CPU entwickler das Steuer in die Hand genommen^^
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh