[Sammelthread] AMD Bulldozer "Zambezi" 32nm "New CPU Architecture" Sockel AM3+ [Part 3]

naja von der bandbreite war ja der Phenom 2 ja schon nicht so der brüller und mit 50% mehr wäre das auch noch immer nicht so doll mit ca.7800MB/s!
Ich vergleich sowas gerne mit intel weil wenn man mal sieht was der SB nun für einen mächtigen durchsatz hat ist das schon gewaltig!
Ich glaube das maximum was nen kumpel mit nem x6@4,2Ghz + 3Ghz NB + DDR1866 CL6 1T gehabt hat war was von knapp über 14000MB/s
wärend da ein I5 750@ oc das schonmal lang geschlagen hat und der SB nun bei mir z.B. zwischen 24000-27000MB/s durchzieht! Nicht das dem BD dann die bandbreite ausgeht!

:kotz:

Wenn man die jämmerlichen Benchmarkroutinen von Everest/AIDA64 nutzt, kommt man auf solche bescheidenen Ergebnisse.
Seltsamerweise sank beim Phenom2 die Bandbreite bei Everest/Aida, bei SiSoft Sandra allerdings, waren die Werte realistisch.
Aber schön das wir die genutzten Benchmarkprogramme angeben, bevor wir Unsinn verbreiten. :-[
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
ab wann soll denn quadchannel für den desktop kommen? AM4?

Kommt zwangsläufig mit DDR4, da dort jedes Modul einen eigenen Kanal erfordert. Solange wirds auch dauern. Bandbreitentechnisch ist das eh egal. Solange keine interne Grafik dabei ist, hat man auch bei DualChannel keine Chance die Bandbreite auszulasten mit normalen Anwendungen.
 
Zuletzt bearbeitet:
Ich hätte mal eine Frage zur Cache-Kohärenz beim Bulldozer/K10:
Man sagt ja, die Caches beim K10 würden exklusiv arbeiten, dh. ein Speicherbereich des RAMs darf nur im L1, L2 oder L3-Cache als Kopie hinterlegt sein, nie jedoch gleichzeitig in zwei Caches.

Wenn man jetzt numerisch eine Funktion C berechnen will, die als Eingangsvariablen z.B. die Matrix A(x,y,z) sowie Matrix B(x,y,z) nutzt, wirft das im Multithreading-Betrieb ein logisches Problem auf.
C(x,y,z) = F ( A(x,y,z) , B(x,y,z) )

Wenn man das Problem in vier Arbeitspakete zerlegt (dazu teile man B(x,y,z) in vier Teile), muss man zur Berechnung jedes Elements von C(x,y,z) trotzdem auf die komplette Matrix A zugreifen.
Entweder man legt man A im recht lahmen L3-Cache ab, auf welchen alle Kerne zugreifen können.
Alternativ kann man die Matrix A ständig zwischen den L1-, L2 und L3-Caches umkopieren. Abgesehen von der verschenkten Energie, kostet das Zeit. Insbesondere wenn man Richtung eines NUMA-Systems geht, deren Prozessoren durch eine recht langsame Hypertransport-Schnittstelle verbunden sind.

Will man mit vielen Threads arbeiten, wäre es doch viel besser, wenn Daten in den Caches beliebig vieler Kerne liegen können, solange darauf nur lesend zugegriffen wird. Erst bei Schreibzugriffen müsste man alle anderen Kerne zur Syncronisation anhalten. Geht AMD diesen Schritt beim Bulldozer?
 
in den bisher gezeigten Folien heisst es, der Cache sei inklusive, also alles was in L1 liegt, liegt auch in L2 und L3.
 
Ich hätte mal eine Frage zur Cache-Kohärenz beim Bulldozer/K10:
Man sagt ja, die Caches beim K10 würden exklusiv arbeiten, dh. ein Speicherbereich des RAMs darf nur im L1, L2 oder L3-Cache als Kopie hinterlegt sein, nie jedoch gleichzeitig in zwei Caches.
Woher hast du das? Inklusive heisst doch, dass ein Cache niedrigerer Stufe immer im höherstufigen Cache verfügbar ist, zB mittels Write-Through. Bei exklusiven Caches wird dies eben nicht gemacht. Dh, sämtlicher Cache ist frei verfügbar. Deshalb kann ein Speicherbereich trotzdem in mehreren Caches vorhanden sein.


in den bisher gezeigten Folien heisst es, der Cache sei inklusive, also alles was in L1 liegt, liegt auch in L2 und L3.
Ich habe bisher nur etwas davon gelesen, dass L1/L2 inklusive sind. Also der L1 befindet sich auch in L2. Der L3 soll hingegen weiterhin exklusiv sein. Wobei ich nicht ausschliessen möchte, dass der L1 auch im L3 hinterlegt wird. Fragt sich nur, inwiefern das wirklich Sinn macht.
 
Arikus83 schrieb:
in den bisher gezeigten Folien heisst es, der Cache sei inklusive, also alles was in L1 liegt, liegt auch in L2 und L3.

Würde beim Bulldozer Design vielleich auch etwas mehr Sinn machen.

mr. dude schrieb:
Fragt sich nur, inwiefern das wirklich Sinn macht.

Nuja, dann können die Module oder Integer kerne schneller miteinander kommunizieren, auch wenn dann mehr redundante Daten liegen bleiben, aber dafür hat man den Cache ja leicht (pro Modul) vergrößert.

Naja, man regelts anscheinend über etwas höheren Takt im Vergleich zum K10.

"An 8MB level 3 cache, composed of 4 independent 2MB subcaches, is built on a 32nm SOI process. It features column-select aliasing to improve area efficiency, supply gating and floating bitlines to reduce leakage power, and centralized redundant row and column blocks to improve yield and testability. The cache operates above 2.4GHz at 1.1V. [...]"

Da steht nur dass die 2MB Caches unabhängig von insgesamt 8mb L3Cache sind, doer doch exklusiv?
K.A.
 
Zuletzt bearbeitet:
Woher hast du das? Inklusive heisst doch, dass ein Cache niedrigerer Stufe immer im höherstufigen Cache verfügbar ist, zB mittels Write-Through. Bei exklusiven Caches wird dies eben nicht gemacht. Dh, sämtlicher Cache ist frei verfügbar. Deshalb kann ein Speicherbereich trotzdem in mehreren Caches vorhanden sein.
Hatte ich mal gelesen, dass ein AMD Athlon Daten nicht zweimal im Cache hat und man eigentlich die Caches addieren müsste. Die Wortbezeichnung 'exklusiv' ist dann wenig zutreffend gewählt, 'nicht-inklussiv' oder 'laissez-fair' wäre zutreffend.

Ist also wirklich so, dass man Speicherbereiche in den privaten Caches (L2 & L1) aller Kerne als Kopie hinterlegen kann (bzw. der Prozessor das so macht)?
 
Der Screen ist nicht von mir, habe ihn eben von einem Kollegen erhalten, welcher ihn glaube ich in unserem bekannten us Hardwareforum aufgeschnappt hat.
 
Der Screen ist nicht von mir, habe ihn eben von einem Kollegen erhalten, welcher ihn glaube ich in unserem bekannten us Hardwareforum aufgeschnappt hat.
Jo, da hat sich einer graphisch Mühe gegeben. Blöderweise hat der Fälscher aber das BD Manual nicht gelesen. Die L1D Assoziativität ist falsch, das muss 4fach statt 2fach heißen.

Kann auch kein CPUZ Fehler sein, denn es gab bereits Leaks, die das richtig auslesen konnten, so muss das ausschauen:
bulldozercpuz286k.png


Ergo:

FAKE

ciao

Alex
 
Zuletzt bearbeitet:
Ein hingeworfener Link ohne Quellenangabe erweckt von alleine schon große Skepsis.
 
SSE4A sollte doch meines Wissen wegfallen.?
 
Nuja, dann können die Module oder Integer kerne schneller miteinander kommunizieren
Schon klar, "Kerne" können dann auf den L1 anderer "Kerne" zugreifen. Trotzdem nochmal die Frage, inwiefern macht das wirklich Sinn? Für die Kommunikation zwischen den zwei Integer Clustern eines Moduls sehe ich keinen. Die haben ja den L2. Und muss ein Modul nun den L1 eines anderen Moduls kennen? Was bringt es im Endeffekt in realen Szenarien? Der L3 ist ja weiterhin ein Victim Cache. Er dient also nicht primär zur Kernkommunikation, sondern ist sozusagen das "Auffangbecken" für die Daten, die aus dem L1 bzw L2 fliegen.


Ist also wirklich so, dass man Speicherbereiche in den privaten Caches (L2 & L1) aller Kerne als Kopie hinterlegen kann (bzw. der Prozessor das so macht)?
Ja, kann man.


Jo, da hat sich einer graphisch Mühe gegeben. Blöderweise hat der Fälscher aber das BD Manual nicht gelesen. Die L1D Assoziativität ist falsch, das muss 4fach statt 2fach heißen.

Kann auch kein CPUZ Fehler sein, denn es gab bereits Leaks, die das richtig auslesen konnten, so muss das ausschauen:
http://www.abload.de/img/bulldozercpuz286k.png

Ergo:

FAKE
Nicht so voreilig. Was bisher Fake war und was nicht, können wir schlecht nachprüfen. Cache und Assoziativität mittels CPUID auszulesen, ist jedenfalls nicht so trivial, wie man annehmen könnte. Da sich bei Bulldozer hier einiges geändert hat, könnte das auch noch am fehlenden CPU-Z Support liegen. Interessanter ist eigentlich, dass bei dem Screen Extended MMX fehlt. Wenn man den Befehlssatz bereinigt und 3DNow rausschmeisst, warum nicht auch Extended MMX, was von Intel nicht unterstützt wird? Wäre zumindest plausibel. Erst recht, da sich die Extended MMX Opcodes wohl teilweise mit SSE überschneiden und Bulldozer nun alle bisherigen SSE Versionen unterstützt. Auf der anderen Seite, wer die CPU-Z Versionsnummer unkenntlich macht, hat wohl irgendwas zu verbergen. :d
 
Zuletzt bearbeitet:
Nicht so voreilig. Was bisher Fake war und was nicht, können wir schlecht nachprüfen. Cache und Assoziativität mittels CPUID auszulesen, ist jedenfalls nicht so trivial, wie man annehmen könnte.
Was ist denn kompliziert dran ? Bisher klappte das auf alle Fälle ganz gut, und BD hat anscheinend laut aktuellem CPUID PDF mit XOP und AVX aber ohne SSE5 die gleichen Flags. Wenns anders wäre, würde sie es ja wohl angeben ;-)
Da gibts dann die bekannten CPUID Einträge:
This provides the processor’s first level cache and TLB characteristics for each core.
CPUID Fn8000_0005_ECX L1 Cache and TLB Identifiers
Bits Description
31:24 L1DcSize: L1 data cache size in KB. L1 data cache size in KB.
23:16 L1DcAssoc: L1 data cache associativity. L1 data cache associativity. See: CPUID
Fn8000_0005_EDX[L1IcAssoc].
15:8 L1DcLinesPerTag: L1 data cache lines per tag. L1 data cache lines per tag.
7:0 L1DcLineSize: L1 data cache line size in bytes. L1 data cache line size in bytes.
Wenn also die Cachegröße richtig erkannt, wird, dann sollte die Abfrage ja wohl auch für die Assoziativität klappen, ist ja die gleiche Technik.

Da sich bei Bulldozer hier einiges geändert hat, könnte das auch noch am fehlenden CPU-Z Support liegen. Interessanter ist eigentlich, dass bei dem Screen Extended MMX fehlt. Wenn man den Befehlssatz bereinigt und 3DNow rausschmeisst, warum nicht auch Extended MMX, was von Intel nicht unterstützt wird? Wäre zumindest plausibel. Erst recht, da sich die Extended MMX Opcodes wohl teilweise mit SSE überschneiden und Bulldozer nun alle bisherigen SSE Versionen unterstützt. Auf der anderen Seite, wer die CPU-Z Versionsnummer unkenntlich macht, hat wohl irgendwas zu verbergen. :d
Hmm, stimmt das Enhanced MMX ist mysteriös. Schlimmstenfalls ein fake in beiden Fällen ;-)

Ansonsten könnte ich mir noch vorstellen, dass der CPUZ Programmierer etwas geschlampt hat, und das neue 3DNOWPREFETCH Bit (das Einzige was von 3DNow übrig bleibt), aufs bereits bestehende MMX(+) Ausgabeformat umleitet. Klingt aber auch gewagt ;-)

Bliebe noch die Erklärung, das MMX+ wirklich nicht gestrichen ist. Eventuell hat man ja wg. XOP eh die Funktionalität einbauen müssen, und hats deswegen dringelassen.

Oder es ist eben doch auch ein fake :(

Wie auch immer, dem neuen Screenshot traue ich auf alle Fälle nicht übern weg. Was da auch noch merkwürdig ist, ist die Plattform Angabe. Die kann man wirklich nicht auslesen ... also wo sollen da die 942 Pin Info herkommen ? Bisher wars außerdem so, dass CPUZ die CPU PIns angegeben hat, da hat der Bulldozer aber nicht 942, sondern 941, deswegen paßt er ja mechanisch in den AM3 Sockel, das Thema wurde hinlänglich durchgekaut.
 
Zuletzt bearbeitet:
@Opteron
Selbst wenn der Screen echt wäre, was bringt uns das? Wir wissen immer noch nicht wieviel IPC & Takt 4 Module haben, IPC & Takt ist das wichtigste.
Wir wissen nur das ein Modul schneller als ein K10 Dual Core ist, von JF-AMD das die Singlethread Leistung besser als K10 ist & das Design mehr IPC als K10 hat, aber ohne Prozent Angaben kommen wir nicht weiter.
Aber egal in 4 Wochen gehts sowieso los.
 
Zuletzt bearbeitet:
Hoffe nach dem launch gibt es eine Sandtiger 2009 vs. Zambezi 2011 Story, mich würde interessieren warum BD 2 Jahre verschoben wurde, Sandtiger war mit 8 Kernen in 45nm geplant und sollte Nehalem konkurrenz machen.
AVX war nicht der grund, damals hatte AMD SSE5, nur wegen dem Takt verschiebt man ein Design nicht, vielleicht werden wir es niemals erfahren.
 
Möchte garnicht bestreiten das es ein Fake ist, aber es wäre der erste 8 Core (4Modul) BD. Die anderen ES waren ja die 6 Core, vielleicht hat man jetzt neuere ES im umlauf, so das die Boardpartner nochmal das Bios oder so anpassen können...

Die nächsten vier Wochen werden sehr lang werden :d
 
Was ist denn kompliziert dran ? Bisher klappte das auf alle Fälle ganz gut, und BD hat anscheinend laut aktuellem CPUID PDF mit XOP und AVX aber ohne SSE5 die gleichen Flags.
Ich kann mich an Fälle erinnern, wo es durchaus nicht klappte. Verlinke doch mal ein deiner Meinung nach aktuelles CPUID PDF. Ich habe hier nur Version 2.34 von September 2010. Und die Cache Infos stammen dort noch von Juli 2007. Ich glaube kaum, dass da Bulldozer schon eingearbeitet war. Und nicht trivial ist es zum einen deswegen, weil diese Cache Infos im herstellerspezifischen Funktionsbereich liegen. Man muss entsprechenden Support also separat für jeden Hersteller pflegen. Zum anderen sind die von CPUID zurückgelieferten Cache Infos nicht immer direkte Werte, sondern müssen teils über Tabellen interpretiert werden. Und wer sagt uns, dass sich hier mit Bulldozer nichts geändert hat? Zudem besitzt Bulldozer pro Modul nun zweimal L1D. Woher wissen wir, ob die Infos dazu nicht auch zweimal in CPUID hinterlegt werden? Man schreibt zwar zu Fn8000_0005 immer:
This provides the processor’s first level cache and TLB characteristics for each core.
Das kann aber nicht mehr aufgehen, da L1D nun 1x pro (Integer) Kern, L1I jedoch 1x pro Modul vorhanden ist. Da müssen also Änderungen an den CPUID Spezifikationen vorgenommen werden.


Wie auch immer, dem neuen Screenshot traue ich auf alle Fälle nicht übern weg.
Ist ja auch ok. Trotzdem halte ich es für verfrüht, es als Fake abzustempeln. Es gibt auch noch andere Sachen, neben Extened MMX, die ich am neuen Screen für authentischer halte. ZB sind beim neuen Screen die Bezeichner für nicht gefüllte Felder ausgegraut, so wie man es auch erwarten würde. Das ist bei deinem verlinkten alten und vermeintlich echten Screen nicht der Fall.
 
@Duplex
Wegen dem Fertigungsprozess, warum sonst.

Das glaube ich irgendwie nicht, 45nm ist nicht 65nm, ein gutes Beispiel ist Magny Cours mit 12x 2,4Ghz Basis Takt :)

Du willst mir sagen das der ursprüngliche BD mit 8 Kernen in 45nm keine 3Ghz Takt @140W TDP packen würde? aber MC schaft dagegen 12x 2,4Ghz bei gleicher Fertigung...

Vielleicht hat das Design damals bei Leistung pro Takt nicht überzeugt, z.b. 8 Kerne mit K8 IPC @3Ghz, das könnte ein Grund gewesen sein, in der zwischenzeit hat man auch die Cache Größen für L2 & L3 für 32nm neu angepasst, dann noch AVX Instruction statt SSE5 erweitert, mit High K Metall Gates & 32nm hat man dann zusätzlichen Takt Spielraum geschaft, zwischendurch noch Turbo 2.0 entwickelt und teilweise bei Thuban ausgetestet, Ultra LowK wurde bei Thuban auch eingesetzt, erstmal testen was es bringt, dann später bei BD einsetzen damit man mehr Potential hat....
 
Zuletzt bearbeitet:
Ich kann mich an Fälle erinnern, wo es durchaus nicht klappte. Verlinke doch mal ein deiner Meinung nach aktuelles CPUID PDF. Ich habe hier nur Version 2.34 von September 2010. Und die Cache Infos stammen dort noch von Juli 2007. Ich glaube kaum, dass da Bulldozer schon eingearbeitet war. Und nicht trivial ist es zum einen deswegen, weil diese Cache Infos im herstellerspezifischen Funktionsbereich liegen. Man muss entsprechenden Support also separat für jeden Hersteller pflegen. Zum anderen sind die von CPUID zurückgelieferten Cache Infos nicht immer direkte Werte, sondern müssen teils über Tabellen interpretiert werden. Und wer sagt uns, dass sich hier mit Bulldozer nichts geändert hat? Zudem besitzt Bulldozer pro Modul nun zweimal L1D. Woher wissen wir, ob die Infos dazu nicht auch zweimal in CPUID hinterlegt werden? Man schreibt zwar zu Fn8000_0005 immer:

Das kann aber nicht mehr aufgehen, da L1D nun 1x pro (Integer) Kern, L1I jedoch 1x pro Modul vorhanden ist. Da müssen also Änderungen an den CPUID Spezifikationen vorgenommen werden.
Hmm, ok das mit dem L1I$ könnte Problemchen geben, ich ging halt pauschal davon aus, dass sich an den Cacheeinträgen nichts ändern würde, nachdem in der von Dir genannten Version (ich hatte natürlich die gleiche) bereits der SSE5 -> XOP/FMA Schritt eingeführt wurde. Von der Sichtweise sollte das PDF damit auf den neuesten Stand sein. Aber mal schauen, was am Ende rauskommt, ist ja eigentlich egal, ob das Ding jetzt fake ist, oder nicht, da hat Duplex mal recht, was haben wir davon :fresse:

Ist ja auch ok. Trotzdem halte ich es für verfrüht, es als Fake abzustempeln. Es gibt auch noch andere Sachen, neben Extened MMX, die ich am neuen Screen für authentischer halte. ZB sind beim neuen Screen die Bezeichner für nicht gefüllte Felder ausgegraut, so wie man es auch erwarten würde. Das ist bei deinem verlinkten alten und vermeintlich echten Screen nicht der Fall.
Ok, aber was sagst Du zum "Package 942" ? Woher sollte CPUz das kennen ?

Das glaube ich irgendwie nicht, 45nm ist nicht 65nm, ein gutes Beispiel ist Magny Cours mit 12x 2,4Ghz Basis Takt :)

Du willst mir sagen das der ursprüngliche BD mit 8 Kernen in 45nm keine 3Ghz Takt @140W TDP packen würde? aber MC schaft dagegen 12x 2,4Ghz bei gleicher Fertigung...

Vielleicht hat das Design damals bei Leistung pro Takt nicht überzeugt, z.b. 8 Kerne mit K8 IPC @3Ghz, das könnte ein Grund gewesen sein, in der zwischenzeit hat man auch die Cache Größen für L2 & L3 für 32nm neu angepasst, dann noch AVX Instruction statt SSE5 erweitert, mit High K Metall Gates & 32nm hat man dann zusätzlichen Takt Spielraum geschaft, zwischendurch noch Turbo 2.0 entwickelt und teilweise bei Thuban ausgetestet, Ultra LowK wurde bei Thuban auch eingesetzt, erstmal testen was es bringt, dann später bei BD einsetzen damit man mehr Potential hat....
Jo, früher war high-k (zusammen mit ULK) auch schon bei 45nm mit eingeplant. War eventuell der springende Punkt, der den Unterschied machte. Das BD Design geht auf alle Fälle mehr über den Takt als der K10. Wenn man da nicht viel erreichen kann, weil der Großteil schon per Leakage drauf geht, hat man nicht viel von.
Rechnet man nach Milchmädchenmanier einen BD Kern = 2 K10 Kerne, dann bleiben bei Deinem 12Kern MC nur 6 Kerne übrig, dazu dann noch mehr Cache. Da sind die 140W mit 2 bzw. 4 zusätzlichen Kernen pi*Daumen schnell erreicht ohne Takterhöhung.
 
wakü besitzer sollts freuen. die haben ja kein prob odentlich was weg zu kühlen was sich in nem hohen takt bemerkbar machen sollte
 
Die Frage ist jedoch wie BD auf Kälte skaliert, wenn mann sich Sandy ansieht, geht da nicht wirklich viel.

Wovon hängt es denn ab ob eine Architektur auf Kälte skalliert oder nicht?

Kann man das mit einplanen bei der Entwicklung.
 
Werde das Gefühl nicht los, daß BD sehr wohl sehr konkurrenzfähig, wenn nicht um ein Eck besser als SB wird. Warum sonst hätte Intel den Launch der Sandy E Plattform vorverlegen sollen? (Juni Mobos, September CPU). Es war ja immer erst von Dezember die Rede.
 
Habe den FX8 im März auf einer Herstellervorführung auf der Messe live "erleben" dürfen, das was man da auf einer Win7 Plattform vorgeführt hat war schon ziemlich beeindruckend, trotzdem werden sich erst in "freier Wildbahn" jede Stärke und jede Schwäche offenbahren.
Die ersten Benches im Serverbereich gab es ja wohl schon und da hat der Bulldozer wohl richtig vorgelegt, bleibt nur zu hoffen dass das 1zu1 auch für Die Desktop CPUs so umgesetzt wird. Würde es AMD gönnen, nach den Jahren endlich mal wieder zeigen zu können was sie drauf habe.
Was mich ein wenig beunruhigt ist diese massive Core und Threadanzahl, ich überlege ja schon fieberhaft welche oftwaren ich mir kaufen muss damit 16Threads ausgelastet bekomme wenn ich mal meinen Bulli hab :grrr:
Fürchte das wird die Software teurer als der ganze Rechner :motz:
 
Zuletzt bearbeitet:
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh