Gesichert ist er noch nicht
Ist doch völlig belanglos, was gesichert ist oder nicht. Bisher ist nichts von einem nativen 2-Modul Bulldozer bekannt. Und bisher steht auch nur Orochi als einziges Bulldozer Design auf der Roadmap. Insofern spricht momentan nichts für einen nativen 2-Modul Bulldozer. Ich halte diesen mittlerweile auch für weniger wahrscheinlich, obwohl ich ihn gerne gesehen hätte. Zum einen, weil er sich mit anderen Produkten in die Quere kommt. Zum anderen aber auch, da die 32 nm Kapazitäten zu Beginn nicht ausreichen dürften. Llano muss ja auch noch gefertigt werden.
Da ein guter Teil des 4-Modul-Dies mit ~320mm² nicht linear herunterskaliert werden kann
Genau so schaut das Design aber aus. Als ob man es einfach "halbieren" könnte. Vielleicht hat AMD ja noch so etwas in Planung. Aber wie gesagt, zu Beginn würde ich damit nicht mehr rechnen. Vielleicht wurde das auch mehr im Hinblick auf eine 2-Modul Bulldozer APU gemacht.
Mal stur zwei Module und 4MB Cache von den 320mm² abgezogen ergibt ~250mm² (2x30,9mm² pro Modul + 4x 3,85mm² pro MB L3) - noch ein bisschen Kleinkram (weniger HT-Links?) weg und wir landen vielleicht bei 220-230mm², so in der Größenordnung.
Da gehen aber nicht nur diese Transistoren weg. Wie man auf dem Die Shot sehen kann, ist recht viel Fläche zwischen den einzelnen Komponenten. Diese fällt natürlich ebenfalls weg. Ein 2-Modul Bulldozer für den Mainstream-/Value-Markt muss auch nicht unbedingt L3 haben (siehe Propus/Regor). Der könnte also auch komplett wegfallen. Mit 2x 2 MiB L2 wäre man schon ausreichend bestückt. Ebenso fallen Interconnects und anderer Kram weg. Mich würde es daher nicht wundern, wenn man das Design auf die Hälfte reduzieren könnte oder gar mehr. Man schaue sich einfach mal den 2-Kern Regor an, der mit <120 mm² nicht mal halb so gross wie der 4-Kern Deneb (258 mm²) ist.
Flächenbedarf und Leistungsgewinn einer Technik wie SMT sind natürlich essentiell architekturabhängig.
Nur teilweise. Und was auch überhaupt nichts an meiner Aussage ändert.
Du ziehst für die Größenbetrachtung von SMT den 9 Jahre alten und noch in 130nm gefertigten Northwood heran, was sich in keiner Weise in ähnlicher Relation bei einem vielfach komplexeren Sandy Bridge Kern übertragen lässt.
Da machst du aber einen Fehler. Die Angaben waren relativ. Es spielt daher erstmal überhaupt keine Rolle, in welcher Strukturgrösse ein Kern vorliegt. Wenn du genaue Angaben zu Nehalem hast, dann nur her damit. Dann vergleichen wir nochmal. Bis dahin sind 5% sicherlich ein guter Richtwert. Ob es am Ende nun 3, 5 oder 8% sind, spielt auch keine wirkliche Rolle. Das wird am Verhältnis nichts entscheidend ändern.
Du vergeichst die Leistung von einem Kern mit SMT und einem Modul zweier verschiedener Architekturen, ohne zunächst zu wissen, ob ein Thread auf einem BD-Modul auch die gleiche Leistung wie ein Thread auf einem Sandy Bridge Kern liefert
Der nächste Fehler deinerseits. Was ein einzelner Thread macht, ist völlig belanglos in diesem Zusammenhang. Es geht um den Vergleich von CMT und SMT. Und da sowohl AMD als auch Intel dies 2-fach implementiert haben, vergleichen wir natürlich auch 2 logische Prozessoren. Also 2 logische Prozessoren auf CMP Basis vs 2 logische Prozessoren auf CMT Basis vs 2 logische Prozessoren auf SMT Basis.
Du vergisst, dass BD auch noch 2MB L3 pro Modul besitzt
Und ein weiterer Fehler deinerseits. Nein, das habe ich natürlich nicht vergessen. Das ist aber erstens noch nicht bewertbar bezüglich Performance. Zweitens ist es auch nicht so, dass Intel keinen L3 hätte. Und drittens sollte das im Schnitt keine gravierenden Auswirkungen haben. Ua auch deshalb schrieb ich ja "grob".
Ein Modul mit dem dazugehörigen Anteil L3 ist damit 38,6mm² und somit schon mehr als 30% größer als ein Sandy Bridge Kern inkl. SMT und dazugehörigem L3.
Dieser Vergleich ist in dem Zusammenhang natürlich unsinnig, da dann das Cache Verhältnis 2:1 beträgt. Wir können ja mal sämtlichen L3 streichen. Mal schauen, wie "schnell" Sandy Bridge dann noch ist. Idealerweise sollte das Verhältnis bei einem Vergleich 1:1 sein, was zwischen AMD und Intel aufgrund der unterschiedlichen Cache Implementierung nicht so ohne weiteres machbar ist. Selbst L2 und L3 zeigen da bezüglich Performance Unterschiede. Deshalb sagte ich ja, dass man im Grunde die selbe Architektur einmal mit CMT und einmal mit SMT vergleichen müsste. Gründlicher lesen!
Für unseren "groben" Vergleich sind diese Sachen aber erstmal vernachlässigbar. Um exakte Resultate geht es dabei gar nicht.
Auch in anderen Teilen eines Dies, z.B. dem Speichercontroller, kann der Hersteller mehr oder weniger Fläche investieren, im Gegenzug zu dem ein- oder anderen Prozent an letztlicher Leistung. Soetwas können wir im Regelfall kaum bis gar nicht herausrechnen, so dass letztlich einzig der Vergleich der gesamten resultieren Diefläche halbwegs* sinnvoll ist.
Dann gilt es aber zu beachten, dass man nicht nur Performance vergleicht. Und dann einen gemeinsamen Nenner zu finden, ist praktisch unmöglich. Orochi wurde ja zB auch dafür designed, dass er als MCM Package mit Quad-Channel Speicher in 4P Systemen arbeitet. Wie viel Performance liefert Sandy Bridge dort nochmal? 0%?
Konzepte wie CMT und SMT anhand des gesamt Dies zu vergleichen, ist daher absoluter Unsinn. So denken ja auch die Ingenieure nicht. Die ermitteln am Reissbrett erstmal, was pro Kern zu holen ist, und dimensionieren dementsprechend das gesamte Die. Ob das Ergebnis sinnvoll ist, kann man natürlich anhand von Vergleichen versuchen zu beurteilen. Aber wie gesagt, das hat dann nichts mehr mit einem CMT vs SMT Vergleich zu tun.
Nur gibt es einen entscheidenden Unterschied.
CMT wird wohl bei allen BDs verwendet und SMT nur bei den "Topmodellen", d.h. es kann dann gut sein, dass sich 4 Module mit 8 Kernen (ohne SMT) messen müssen.
8 Kerne ohne SMT? Welche CPU soll das denn sein? Ich sehe da keine. Spielt aber auch keine Rolle. Wir vergleichen natürlich erstmal vollwertige Designs, also 4 Bulldozer Module vs 4 Sandy Bridge Kerne + SMT. Wie sich abgespeckte Modelle einordnen, wird man sehen müssen.
Allerdings ist die 4Kerner vs. 8 Kerner Diskussion müßig und auch letztendlich völlig wurscht
Sag ich doch. Nur ist es eben leicht abwegig, zu irgendwelchen Folien, die von bis zu 50% mehr Performance gegenüber einem i7-950 sprechen, einfach zu sagen, "keine Kunst, Zambezi hat ja auch doppelt so viele Kerne". Hat er eben nicht, wenn man Kerne auf gleicher Basis vergleicht. Letztendlich haben beide 8 logische Prozessoren und können damit bis zu 8 Threads parallel verarbeiten. Das sollte die Vergleichsgrundlage sein. Völlig egal, was man nun als Kern definiert.
Laut AMD bringt ein CMT "Dual-Core" 80% der Performance eines CMP Dual-Core. Wie willst du denn die fehlenden 20% ausgleichen und noch einiges drauflegen, um "relativ deutlich über der IPC eines Dual-Core Phenom II" zu liegen? Takt, und damit auch Turbo, kann es ja nicht sein, da du von IPC sprachst. Wie gesagt, das funktioniert nur über Verbesserungen der Logik, einem besseren Fertigungsprozess, der besseren Cache und schnellere Schaltzeiten der Transistoren ermöglicht, etc. Durch das CMT Design selbst funktioniert das nicht. Das ist auch gar nicht der Sinn von CMT.