AMDs Bulldozer 50 Prozent schneller als Core i7? (Update)

Status
Für weitere Antworten geschlossen.
Gesichert ist er noch nicht
Ist doch völlig belanglos, was gesichert ist oder nicht. Bisher ist nichts von einem nativen 2-Modul Bulldozer bekannt. Und bisher steht auch nur Orochi als einziges Bulldozer Design auf der Roadmap. Insofern spricht momentan nichts für einen nativen 2-Modul Bulldozer. Ich halte diesen mittlerweile auch für weniger wahrscheinlich, obwohl ich ihn gerne gesehen hätte. Zum einen, weil er sich mit anderen Produkten in die Quere kommt. Zum anderen aber auch, da die 32 nm Kapazitäten zu Beginn nicht ausreichen dürften. Llano muss ja auch noch gefertigt werden.

Da ein guter Teil des 4-Modul-Dies mit ~320mm² nicht linear herunterskaliert werden kann
Genau so schaut das Design aber aus. Als ob man es einfach "halbieren" könnte. Vielleicht hat AMD ja noch so etwas in Planung. Aber wie gesagt, zu Beginn würde ich damit nicht mehr rechnen. Vielleicht wurde das auch mehr im Hinblick auf eine 2-Modul Bulldozer APU gemacht.

Mal stur zwei Module und 4MB Cache von den 320mm² abgezogen ergibt ~250mm² (2x30,9mm² pro Modul + 4x 3,85mm² pro MB L3) - noch ein bisschen Kleinkram (weniger HT-Links?) weg und wir landen vielleicht bei 220-230mm², so in der Größenordnung.
Da gehen aber nicht nur diese Transistoren weg. Wie man auf dem Die Shot sehen kann, ist recht viel Fläche zwischen den einzelnen Komponenten. Diese fällt natürlich ebenfalls weg. Ein 2-Modul Bulldozer für den Mainstream-/Value-Markt muss auch nicht unbedingt L3 haben (siehe Propus/Regor). Der könnte also auch komplett wegfallen. Mit 2x 2 MiB L2 wäre man schon ausreichend bestückt. Ebenso fallen Interconnects und anderer Kram weg. Mich würde es daher nicht wundern, wenn man das Design auf die Hälfte reduzieren könnte oder gar mehr. Man schaue sich einfach mal den 2-Kern Regor an, der mit <120 mm² nicht mal halb so gross wie der 4-Kern Deneb (258 mm²) ist.

Flächenbedarf und Leistungsgewinn einer Technik wie SMT sind natürlich essentiell architekturabhängig.
Nur teilweise. Und was auch überhaupt nichts an meiner Aussage ändert.

Du ziehst für die Größenbetrachtung von SMT den 9 Jahre alten und noch in 130nm gefertigten Northwood heran, was sich in keiner Weise in ähnlicher Relation bei einem vielfach komplexeren Sandy Bridge Kern übertragen lässt.
Da machst du aber einen Fehler. Die Angaben waren relativ. Es spielt daher erstmal überhaupt keine Rolle, in welcher Strukturgrösse ein Kern vorliegt. Wenn du genaue Angaben zu Nehalem hast, dann nur her damit. Dann vergleichen wir nochmal. Bis dahin sind 5% sicherlich ein guter Richtwert. Ob es am Ende nun 3, 5 oder 8% sind, spielt auch keine wirkliche Rolle. Das wird am Verhältnis nichts entscheidend ändern.

Du vergeichst die Leistung von einem Kern mit SMT und einem Modul zweier verschiedener Architekturen, ohne zunächst zu wissen, ob ein Thread auf einem BD-Modul auch die gleiche Leistung wie ein Thread auf einem Sandy Bridge Kern liefert
Der nächste Fehler deinerseits. Was ein einzelner Thread macht, ist völlig belanglos in diesem Zusammenhang. Es geht um den Vergleich von CMT und SMT. Und da sowohl AMD als auch Intel dies 2-fach implementiert haben, vergleichen wir natürlich auch 2 logische Prozessoren. Also 2 logische Prozessoren auf CMP Basis vs 2 logische Prozessoren auf CMT Basis vs 2 logische Prozessoren auf SMT Basis.

Du vergisst, dass BD auch noch 2MB L3 pro Modul besitzt
Und ein weiterer Fehler deinerseits. Nein, das habe ich natürlich nicht vergessen. Das ist aber erstens noch nicht bewertbar bezüglich Performance. Zweitens ist es auch nicht so, dass Intel keinen L3 hätte. Und drittens sollte das im Schnitt keine gravierenden Auswirkungen haben. Ua auch deshalb schrieb ich ja "grob". ;)

Ein Modul mit dem dazugehörigen Anteil L3 ist damit 38,6mm² und somit schon mehr als 30% größer als ein Sandy Bridge Kern inkl. SMT und dazugehörigem L3.
Dieser Vergleich ist in dem Zusammenhang natürlich unsinnig, da dann das Cache Verhältnis 2:1 beträgt. Wir können ja mal sämtlichen L3 streichen. Mal schauen, wie "schnell" Sandy Bridge dann noch ist. Idealerweise sollte das Verhältnis bei einem Vergleich 1:1 sein, was zwischen AMD und Intel aufgrund der unterschiedlichen Cache Implementierung nicht so ohne weiteres machbar ist. Selbst L2 und L3 zeigen da bezüglich Performance Unterschiede. Deshalb sagte ich ja, dass man im Grunde die selbe Architektur einmal mit CMT und einmal mit SMT vergleichen müsste. Gründlicher lesen! ;) Für unseren "groben" Vergleich sind diese Sachen aber erstmal vernachlässigbar. Um exakte Resultate geht es dabei gar nicht.

Auch in anderen Teilen eines Dies, z.B. dem Speichercontroller, kann der Hersteller mehr oder weniger Fläche investieren, im Gegenzug zu dem ein- oder anderen Prozent an letztlicher Leistung. Soetwas können wir im Regelfall kaum bis gar nicht herausrechnen, so dass letztlich einzig der Vergleich der gesamten resultieren Diefläche halbwegs* sinnvoll ist.
Dann gilt es aber zu beachten, dass man nicht nur Performance vergleicht. Und dann einen gemeinsamen Nenner zu finden, ist praktisch unmöglich. Orochi wurde ja zB auch dafür designed, dass er als MCM Package mit Quad-Channel Speicher in 4P Systemen arbeitet. Wie viel Performance liefert Sandy Bridge dort nochmal? 0%? ;) Konzepte wie CMT und SMT anhand des gesamt Dies zu vergleichen, ist daher absoluter Unsinn. So denken ja auch die Ingenieure nicht. Die ermitteln am Reissbrett erstmal, was pro Kern zu holen ist, und dimensionieren dementsprechend das gesamte Die. Ob das Ergebnis sinnvoll ist, kann man natürlich anhand von Vergleichen versuchen zu beurteilen. Aber wie gesagt, das hat dann nichts mehr mit einem CMT vs SMT Vergleich zu tun.


Nur gibt es einen entscheidenden Unterschied.
CMT wird wohl bei allen BDs verwendet und SMT nur bei den "Topmodellen", d.h. es kann dann gut sein, dass sich 4 Module mit 8 Kernen (ohne SMT) messen müssen.
8 Kerne ohne SMT? Welche CPU soll das denn sein? Ich sehe da keine. Spielt aber auch keine Rolle. Wir vergleichen natürlich erstmal vollwertige Designs, also 4 Bulldozer Module vs 4 Sandy Bridge Kerne + SMT. Wie sich abgespeckte Modelle einordnen, wird man sehen müssen.


Allerdings ist die 4Kerner vs. 8 Kerner Diskussion müßig und auch letztendlich völlig wurscht
Sag ich doch. Nur ist es eben leicht abwegig, zu irgendwelchen Folien, die von bis zu 50% mehr Performance gegenüber einem i7-950 sprechen, einfach zu sagen, "keine Kunst, Zambezi hat ja auch doppelt so viele Kerne". Hat er eben nicht, wenn man Kerne auf gleicher Basis vergleicht. Letztendlich haben beide 8 logische Prozessoren und können damit bis zu 8 Threads parallel verarbeiten. Das sollte die Vergleichsgrundlage sein. Völlig egal, was man nun als Kern definiert.

Laut AMD bringt ein CMT "Dual-Core" 80% der Performance eines CMP Dual-Core. Wie willst du denn die fehlenden 20% ausgleichen und noch einiges drauflegen, um "relativ deutlich über der IPC eines Dual-Core Phenom II" zu liegen? Takt, und damit auch Turbo, kann es ja nicht sein, da du von IPC sprachst. Wie gesagt, das funktioniert nur über Verbesserungen der Logik, einem besseren Fertigungsprozess, der besseren Cache und schnellere Schaltzeiten der Transistoren ermöglicht, etc. Durch das CMT Design selbst funktioniert das nicht. Das ist auch gar nicht der Sinn von CMT.
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Ist doch völlig belanglos, was gesichert ist oder nicht. Bisher ist nichts von einem nativen 2-Modul Bulldozer bekannt. Und bisher steht auch nur Orochi als einziges Bulldozer Design auf der Roadmap. Insofern spricht momentan nichts für einen nativen 2-Modul Bulldozer. Ich halte diesen mittlerweile auch für weniger wahrscheinlich, obwohl ich ihn gerne gesehen hätte. Zum einen, weil er sich mit anderen Produkten in die Quere kommt. Zum anderen aber auch, da die 32 nm Kapazitäten zu Beginn nicht ausreichen dürften. Llano muss ja auch noch gefertigt werden.

Gerade das macht ein natives 2-Modul Design wahrscheinlich. Sofern man keine grottenschlechten Yields hat, würde man die Hälfte eines ohnehin schon großen Dies brachliegen lassen - und das bei einem tendenziell volumenstarken Mainstreammodell. Ein weiteres Indiz: 4MB L3 Cache bei dem 2-Modul Modell wären untypisch, alle Deneb-basierten Phenom II X2 kamen mit vollem L3. Ebenso auch das 3-Modul-Modell von Bulldozer, welches mit vollen 8MB antritt - hier haben wir einen teildeaktivierten Die.

Genau so schaut das Design aber aus. Als ob man es einfach "halbieren" könnte. Vielleicht hat AMD ja noch so etwas in Planung. Aber wie gesagt, zu Beginn würde ich damit nicht mehr rechnen. Vielleicht wurde das auch mehr im Hinblick auf eine 2-Modul Bulldozer APU gemacht.

Dann halbiere mal den Speichercontroller. Oder das Power Control Modul. Am grundlegenden Design der einzelnen Blöcke mit den Modulen und dem L3 wird sich bei einem so modularen Aufbau wenig ändern, ergo auch nichts an der Fläche zwischen den Komponenten - alles andere würde ein wahnsinniges Redesign erfordern und den ganzen Sinn eines modularen Aufbaus ad absurdum führen.

Nur teilweise. Und was auch überhaupt nichts an meiner Aussage ändert.

Nein, sogar absolut grundlegend. Zusätzliche Registersätze kosten bei einem so komplexen Die wie dem von Sandy Bridge natürlich entsprechend weniger (prozentual) Ressourcen, als bei einem auf heutige Fertigungstechnik umgerechneten winzigen P4-Die.
Der zweite Punkte ist die Auswirkung auf die Leistung: Wenn man ein Design von vornherein mit SMT plant, wird ein entsprechend breiter (4-issue seit Nehalem) Kern erst sinnvoll. Die gesamte Architektur wird unter diesem Gesichtspunkt gestaltet.

Da machst du aber einen Fehler. Die Angaben waren relativ. Es spielt daher erstmal überhaupt keine Rolle, in welcher Strukturgrösse ein Kern vorliegt.

Den Fehler machst du, denn interessant ist die strukturgrößenbereinigte Kernfläche, die vom P4 bis zu Sandy Bridge massiv in die Höhe geschossen ist. Der Flächenanteil der für SMT notwendigen zustäzlichen Registersätze, siehe oben, geht damit auch in relativer Sicht zurück. Dazu haben wir auch keinen P4 in 32nm, sondern eine völlig andere Architektur.

Der nächste Fehler deinerseits. Was ein einzelner Thread macht, ist völlig belanglos in diesem Zusammenhang. Es geht um den Vergleich von CMT und SMT. Und da sowohl AMD als auch Intel dies 2-fach implementiert haben, vergleichen wir natürlich auch 2 logische Prozessoren. Also 2 logische Prozessoren auf CMP Basis vs 2 logische Prozessoren auf CMT Basis vs 2 logische Prozessoren auf SMT Basis.

Wenn belanglos ist, wie schnell ein einzelner Thread ist, sind auch deine 33,33% Mehrleistung belanglos und damit die gesamte Rechnung. Ferner klappt auch dein Größenvergleich nicht mehr, da sich dieser auf ganz konkrete Architekturen bezieht. Ja was denn nun?

Und ein weiterer Fehler deinerseits. Nein, das habe ich natürlich nicht vergessen. Das ist aber erstens noch nicht bewertbar bezüglich Performance. Zweitens ist es auch nicht so, dass Intel keinen L3 hätte. Und drittens sollte das im Schnitt keine gravierenden Auswirkungen haben. Ua auch deshalb schrieb ich ja "grob".

Offensichtlich schon, in den 30,9mm² des Moduls ist der zugehörige L3 Cache nicht enthalten, in den 29,5mm² des Kernes mit SMT schon. Das sind mal flockig 25% Fläche, die du da unterschlägst - das ist mehr als grob und grundlegend unsinnig. Von einem Bulldozer ohne L3 ist nichts zu hören und würde es einen geben, wäre er langsamer.

Dieser Vergleich ist in dem Zusammenhang natürlich unsinnig, da dann das Cache Verhältnis 2:1 beträgt. Wir können ja mal sämtlichen L3 streichen. Mal schauen, wie "schnell" Sandy Bridge dann noch ist. Idealerweise sollte das Verhältnis bei einem Vergleich 1:1 sein, was zwischen AMD und Intel aufgrund der unterschiedlichen Cache Implementierung nicht so ohne weiteres machbar ist.

Da Bulldozer auch den doppelten Cache gegenüber einem Sandy Bridge mit SMT und gleicher Threadzahl haben wird, ist das ganz und gar nicht unsinnig sondern die Realität. Seit wann gleichen wir einfach mal die Cachemengen an, die je nach Architektur einen völlig anderen Einfluss auf die Performance haben können? Und dann nehmen wir aber dennoch die Bulldozer-Performance mit L3 wenn es um den Leistungsvergleich geht? Also selektiver geht es wohl kaum.


Dann gilt es aber zu beachten, dass man nicht nur Performance vergleicht. Und dann einen gemeinsamen Nenner zu finden, ist praktisch unmöglich. Orochi wurde ja zB auch dafür designed, dass er als MCM Package mit Quad-Channel Speicher in 4P Systemen arbeitet.

Und Sandy Bridge hat noch eine GPU an Board. Die nebenbei bemerkt einen weitaus größeren Teil des Die einnimmt, als bei Bulldozer alle HT-Links zusammen. Kann man also gerne herausrechnen: Ein HT-Link liegt bei etwa 5mm², die IGP bei etwa 40mm².
 
Zuletzt bearbeitet:
Gerade das macht ein natives 2-Modul Design wahrscheinlich.
Nein, gerade das macht einen nativen 2-Modul Bulldozer eher unwahrscheinlich. Ein entsprechendes Design, eine neue Maske, entsprechende Fertigungskapazitäten, usw sind nichts, was man einfach mal im Vorbeigehen macht. Das verschlingt etliches an Ressourcen, die ich momentan einfach nicht sehe.

Ein weiteres Indiz: 4MB L3 Cache bei dem 2-Modul Modell wären untypisch, alle Deneb-basierten Phenom II X2 kamen mit vollem L3. Ebenso auch das 3-Modul-Modell von Bulldozer, welches mit vollen 8MB antritt - hier haben wir einen teildeaktivierten Die.
Und das untermauert deine Theorie vom nativen 2-Modul Bulldozer nochmal konkret womit?

Dann halbiere mal den Speichercontroller. Oder das Power Control Modul. Am grundlegenden Design der einzelnen Blöcke mit den Modulen und dem L3 wird sich bei einem so modularen Aufbau wenig ändern, ergo auch nichts an der Fläche zwischen den Komponenten
Davon hat auch niemand gesprochen. Bei dem, was wegfällt, fallen aber natürlich auch die Flächen dazwischen weg. Es ist also nicht einfach damit getan, 2x 30,9 mm² abzuziehen. Da geht wesentlich mehr weg.

Nein, sogar absolut grundlegend. Zusätzliche Registersätze kosten bei einem so komplexen Die wie dem von Sandy Bridge natürlich entsprechend weniger (prozentual) Ressourcen, als bei einem auf heutige Fertigungstechnik umgerechneten winzigen P4-Die.
Irrelevant. Ich sprach gar nicht vom kompletten Die, sondern von einem einzelnen Kern. Gründlicher lesen! ;)

Der zweite Punkte ist die Auswirkung auf die Leistung: Wenn man ein Design von vornherein mit SMT plant, wird ein entsprechend breiter (4-issue seit Nehalem) Kern erst sinnvoll. Die gesamte Architektur wird unter diesem Gesichtspunkt gestaltet.
Ebenfalls irrelevant. 4-issue hatte Intel auch schon vor Nehalem. Das ist in Bezug auf CMT und SMT auch der unkritischste Teil. Ob man ein breiteres Frontend mit zwei schlankeren Backends verbindet oder ein doppelt ausgelegtes Frontend mit einem breiteren Backend, macht keinen grundlegenden Unterschied. Beides verlangt entsprechend viele Datenpfade.

Den Fehler machst du, denn interessant ist die strukturgrößenbereinigte Kernfläche, die vom P4 bis zu Sandy Bridge massiv in die Höhe geschossen ist. Der Flächenanteil der für SMT notwendigen zustäzlichen Registersätze, siehe oben, geht damit auch in relativer Sicht zurück. Dazu haben wir auch keinen P4 in 32nm, sondern eine völlig andere Architektur.
Nein, den Fehler machst nur du. Erstmal verlangt SMT nicht nur einen zusätzlichen Registersatz. Da ist mehr notwendig. Und zweitens, wie gesagt, die Strukturbreite ist irrelevant, da die Angaben relativ waren. Wenn du konkrete Zahlen zu Nehalem hast, dann nur her damit. Bis dahin bleibt dein Einwand wertlos. Das eine oder andere Prozent ändert nichts grundlegend am Verhältnis.

Wenn belanglos ist, wie schnell ein einzelner Thread ist, sind auch deine 33,33% Mehrleistung belanglos und damit die gesamte Rechnung.
Begründung? Die 33,33% beziehen sich auf 2 logische Prozessoren, also das, was das Design im gesamten hergibt. Was willst du da mit einem einzelnen Thread und Teillast? Das war überhaupt nicht das Thema.

Ferner klappt auch dein Größenvergleich nicht mehr, da sich dieser auf ganz konkrete Architekturen bezieht.
Irrelevant, -> "grober" Vergleich. Es hat auch niemand behauptet, dass der Vergleich zwischen jeglichen CMT und SMT Implementierungen so ausfällt. Bulldozer und Sandy Bridge sind aber nunmal die einzigen Anhaltspunkte, die wir momentan haben. Und mehr sollte auch nicht verglichen werden.

Offensichtlich schon, in den 30,9mm² des Moduls ist der zugehörige L3 Cache nicht enthalten, in den 29,5mm² des Kernes mit SMT schon.
Ebenfalls irrelevant. Es ging im Wesentlichen um die Kernlogik. Und da es dazu keine genauen Zahlen gibt, lässt es sich nur mit einer gleichwertigen Menge an Cache vergleichen. Und davon sind bei beiden 2 MiB enthalten. Aber du hast recht, der Vergleich ist nicht ganz fair. Da L3 idR dichter gepackt ist, wird Intel hier etwas bevorteilt. Aber auch das ist für den Vergleich vernachlässigbar, zumal die Fläche hier sowieso gut 1 mm² geringer ausfällt.

Von einem Bulldozer ohne L3 ist nichts zu hören und würde es einen geben, wäre er langsamer.
Die paar Prozent bei bestimmten Workloads sind ebenfalls irrelevant für einen "groben" Vergleich.

Da Bulldozer auch den doppelten Cache gegenüber einem Sandy Bridge mit SMT und gleicher Threadzahl haben wird, ist das ganz und gar nicht unsinnig sondern die Realität. Seit wann gleichen wir einfach mal die Cachemengen an, die je nach Architektur einen völlig anderen Einfluss auf die Performance haben können? Und dann nehmen wir aber dennoch die Bulldozer-Performance mit L3 wenn es um den Leistungsvergleich geht?
Wie gesagt, für unseren groben Vergleich erstmal vernachlässigbar, da wir noch nichts zur Performance sagen können. Wenn man als Indiz Regor und einen Phenom II X2 vergleicht, liegen gerade mal 5% im Schnitt dazwischen. In den Anwendungen bei ComputerBase, die nahezu linear mit den Kernen skalieren, ist der Unterschied sogar gerade mal im Toleranzbereich für Messungenauigkeiten. Und hier liegt der Unterschied bezüglich Cache pro Thread sogar bei Faktor 3,5. Ich nehme stark an, 16 MiB Cache insgesamt (L2+L3) wurde bei Orochi vor allem wegen Server verbaut. In typischen Client Anwendungen wird der Unterschied vermutlich eher marginal ausfallen.

Und Sandy Bridge hat noch eine GPU an Board. Die nebenbei bemerkt einen weitaus größeren Teil des Die einnimmt, als bei Bulldozer alle HT-Links zusammen. Kann man also gerne herausrechnen: Ein HT-Link liegt bei etwa 5mm², die IGP bei etwa 40mm².
So einfach ist das nicht. Da gibt es noch wesentlich mehr Logik zu beachten. Und einfach wegrechnen ist auch nicht, da das Design ohne diese Logik anders ausschauen würde. Das Die muss immer noch rechteckig sein. Generell ist das gesamte Die für einen Vergleich einfach ungeeignet, da Orochi in erster Linie für Server designed wurde, Sandy Bridge hingegen in erster Linie für den Client Markt. Daher kann man als einzigen sinnvollen Vergleich erstmal nur einzelne Komponenten vergleichen, wie eben die Kernlogik eines Moduls und eines SMT Kerns, da diese auch so in anderen Designs wiederzufinden sein werden, egal wie viel Cache und Uncore sie letztendlich zusätzlich spendiert bekommen.


Übrigens, nur mal eine Frage am Rande, da du nicht den Eindruck machst, das Wort zu kennen. Du weisst schon, was "grob" bedeutet? Du hängst dich hier an Kleinkram auf, der für den Vergleich irrelevant ist. Niemand hat von einem genauen Vergleich gesprochen. Oder glaubst du, der Flächenbedarf verringert sich durch SMT um 50% und von 8 auf 16 MiB Cache legt Bulldozer 50% an Performance zu? :rolleyes:
 
Zuletzt bearbeitet:
Davon hat auch niemand gesprochen. Bei dem, was wegfällt, fallen aber natürlich auch die Flächen dazwischen weg. Es ist also nicht einfach damit getan, 2x 30,9 mm² abzuziehen. Da geht wesentlich mehr weg.

Wer sagt das diese freien Flächen auch tatsächlich frei sind und nicht einfach nur unbekannt ist was diese Flächen beinhalten? Eventuell beinhalten diese Flächen Schaltkreise die man nicht einfach weglassen kann. Also einfach zu sagen nur weil ein oder zwei Modul(e) weg kommen fallen auch automatisch andere Teile weg wäre dann doch etwas zu einfach.

Nein, den Fehler machst nur du. Erstmal verlangt SMT nicht nur einen zusätzlichen Registersatz. Da ist mehr notwendig. Und zweitens, wie gesagt, die Strukturbreite ist irrelevant, da die Angaben relativ waren. Wenn du konkrete Zahlen zu Nehalem hast, dann nur her damit. Bis dahin bleibt dein Einwand wertlos. Das eine oder andere Prozent ändert nichts grundlegend am Verhältnis.

Undertaker1 hat hier volkommen recht - nur weil bei einem Nothwood SMT 5% zusätzliche Fläche/Transistoren benötigt hat heisst das noch lange nicht das das bei SB auch so ist. Das sagt einem ja schon der Hausverstand. Wenn SMT (Hausnummer) 5000 Transistoren benötigt, SB aber im Kern (Hausnummer) doppelt so viele Transistoren hat dann macht SMT schon nurmehr einen zusätzlichen Bedarf von 2,5% aus.

mfg
 
Zuletzt bearbeitet:
Wer sagt das diese freien Flächen auch tatsächlich frei sind und nicht einfach nur unbekannt ist was diese Flächen beinhalten? Eventuell beinhalten diese Flächen Schaltkreise die man nicht einfach weglassen kann. Also einfach zu sagen nur weil ein oder zwei Modul(e) weg kommen fallen auch automatisch andere Teile weg wäre dann doch etwas zu einfach.
Und was genau soll sich da befinden?

nur weil bei einem Nothwood SMT 5% zusätzliche Fläche/Transistoren benötigt hat heisst das noch lange nicht das das bei SB auch so ist.
Nochmal, wenn ihr konkrete Zahlen habt, dann her damit. Ansonsten sind diese Einwände wertlos und führen zu nichts. Das Verhältnis ändert sich dadurch nicht gravierend.

Wenn SMT (Hausnummer) 5000 Transistoren benötigt, SB aber im Kern (Hausnummer) doppelt so viele Transistoren hat dann macht SMT schon nurmehr einen zusätzlichen Bedarf von 2,5% aus.
Irrelevant. Dann werden aus 25% mehr Effektivität für CMT eben 22% mehr Effektivität. Einige wenige Prozent in die eine oder andere Richtung ändert doch überhaupt nichts am grundlegenden Sachverhalt. Wie mittlerweile schon etliche male erwähnt, der Vergleich sollte gar keinen Anspruch auf absolute Exaktheit haben. Ist das endlich mal angekommen?
 
Undertaker1 hat hier volkommen recht - nur weil bei einem Nothwood SMT 5% zusätzliche Fläche/Transistoren benötigt hat heisst das noch lange nicht das das bei SB auch so ist. Das sagt einem ja schon der Hausverstand. Wenn SMT (Hausnummer) 5000 Transistoren benötigt, SB aber im Kern (Hausnummer) doppelt so viele Transistoren hat dann macht SMT schon nurmehr einen zusätzlichen Bedarf von 2,5% aus.

Exakt. Damit hätte sich die Effektivität glatt verdoppelt. Bei 1% Flächenbedarf verfünffacht. Und nur mal um die Größenordnung zu verdeutlichen: Ein Northwood hatte mit 55M Transistoren nur etwa 1/20 von Sandy Bridge - gut möglich also, dass selbst 1% noch zu hoch angesetzt ist. Aber jede Spekulation ist letztlich sinnlos, wir wissen nuneinmal nichts genaues. Genausowenig bringt es etwas, zu sagen wie schnell ein Bulldozer ohne L3 wäre. Auch einen Sandy Bridge Kern könnte man bei 20-30% IPC-Einbußen wohl locker halb so groß bauen, Gesetz des abnehmenden Ertrages. Wie immer zählt, was letztlich hinten rauskommt - und das sind wohl knapp 50% mehr Fläche für Bulldozer zu einem 4C/8T Sandy Bridge mit IGP oder knapp 40% mehr als ein 6C/12T Westmere. Nun, dass lässt entsprechende Erwartungen an die Leistung eines solch großen 8-Kern Dies aufkeimen. :wink:
 
Und was genau soll sich da befinden?

Ich gehe davon aus das man die nicht aus Spaß dort hin gemacht hat.

Nochmal, wenn ihr konkrete Zahlen habt, dann her damit. Ansonsten sind diese Einwände wertlos und führen zu nichts.

Da wir keine konkreten Zahlen haben ist deine Rechnung wertlos - sie bezieht schlicht etwas mit ein was nicht bekannt ist.

Wie mittlerweile schon etliche male erwähnt, der Vergleich sollte gar keinen Anspruch auf absolute Exaktheit haben. Ist das endlich mal angekommen?

Sie sind nicht nur nicht Exakt sondern einfach irgenwie mit alten Zahlen einer völlig anderen Architektur drauflosgerechnet - absolut uninteressant.

mfg
 
Zuletzt bearbeitet:
leute was ist denn jetzt mit dem bulldozer, mal was handfestes wäre ganz nett.. ich finde es ja schön wie sich die zwei gockel da oben seit Seiten beharken - aber ich versteh da ehrlich gesagt nur bahnhof ^^
 
Laut AMD bringt ein CMT "Dual-Core" 80% der Performance eines CMP Dual-Core. Wie willst du denn die fehlenden 20% ausgleichen und noch einiges drauflegen, um "relativ deutlich über der IPC eines Dual-Core Phenom II" zu liegen?

Sollte Bulldozer 25% mehr IPC haben als der Phenom II, rechnen 2 Integer Kerne in einem Modul etwas schneller als 2 echte Kerne vom Phenom, wenn das mit den 80% stimmt.
Ich bin beim 4 Modul Bulldozer gespannt, wenn nur 4 Kerne genutzt werden können und daher 4 vollwertige Module mit je einem belasteten Kern arbeiten.
Da dürfte AMD imho Chancen haben davonzuziehen.
 
leute was ist denn jetzt mit dem bulldozer, mal was handfestes wäre ganz nett.. ich finde es ja schön wie sich die zwei gockel da oben seit Seiten beharken - aber ich versteh da ehrlich gesagt nur bahnhof ^^

AMD wird auf der ISSCC (20-24 Februar) neben Intel & IBM vertreten sein und Details zur neuen Bulldozer Architektur bekanntgeben.
 
Ich gehe davon aus das man die nicht aus Spaß dort hin gemacht hat.
Das ist keine Antwort auf meine Frage. Hast du noch einen konkreten Vorschlag? Falls nicht, betrachten wir den Einwand ebenfalls erstmal als irrelevant. Ich wüsste nämlich nicht, was sich dort befinden sollte. Einzige Möglichkeit wäre das Clock-Grid. Aber wenn das Modul wegfällt, fällt auch das Clock-Grid für das Modul weg. Wie schon gesagt, beim Wegfall eines Moduls geht wesentlich mehr als 30,9 mm² weg. Ganz zu schweigen von der restlichen Logik, wie Interconnects oder L3.

Da wir keine konkreten Zahlen haben ...
Und damit ist euer Einwand wertlos. Erst gross rumschreien, aber selbst nichts beisteuern. Grosses Kino. :rolleyes: 5% ist sicherlich ein guter Richtwert. Ob es jetzt tatsächlich 3, 5 oder 8% sind, ändert nichts grundlegend. Gleiches gilt für den Einwand des L3. Es sollte also klar sein, dass CMT pro Fläche deutlich effektiver als SMT arbeitet, sofern die bisherigen Infos stimmen.

Sollte Bulldozer 25% mehr IPC haben als der Phenom II, rechnen 2 Integer Kerne in einem Modul etwas schneller als 2 echte Kerne vom Phenom, wenn das mit den 80% stimmt.
Takt nicht vergessen. 25% mehr IPC sind gar nicht notwendig. Ich halte das auch für zu optimistisch.
 
Es sollte also klar sein, dass CMT pro Fläche deutlich effektiver als SMT arbeitet, sofern die bisherigen Infos stimmen.

Es kann deutlich effektiver, genauso aber deutlich ineffektiver sein - wir haben ausschließlich Zahlen zu einem hier irrelevanten Pentium 4. Dazu nocheinmal, ein solcher Vergleich ist von vornherein sinnlos, weil an eine Architektur nicht einfach CMT oder SMT "rangepflanzt" wird, wie du dir das recht naiv vorstellst, sondern die gesamte Architektur vollkommen anders darauf abgestimmt wird. So kommt Bulldozer pro Modul mit der doppelten Cachemenge und benötigt für die Taktbarkeit wohl recht große Freiflächen zwischen den Modulen, was letztlich in einer knapp 50% größeren Fläche gegenüber einem 4C/8T Sandy Bridge mündet. IGP und einige HT-Links herausgerechnet noch etwas mehr, mit ~5mm² sind die Interconnects recht klein.
Mit seinen 8 (Int-)Kernen wird Bulldozer allerdings auch eine wohl deutlich höhere Multithreadleistung bringen, was der größeren Fläche angemessen erscheint.
 
Es kann deutlich effektiver, genauso aber deutlich ineffektiver sein
Für letzteres spricht momentan aber nichts. Wie man ja an dem Vergleich gesehen hat. CMT braucht weniger als 10% mehr Fläche, sorgt aber für über 30% mehr Performance. So schwer ist das eigentlich nicht zu verstehen. Das müssen auch die notorischen Intel Schönreder langsam mal einsehen. Die Kernlogik ist bei Bulldozer und Sandy Bridge ähnlich gross, ~30 mm² (inklusive 2 MiB Cache), was einem physischen Kern bzw 2 logischen Prozessoren entspricht. Die gesamten Dies lassen sich dabei aber natürlich nicht direkt vergleichen, da diese für zwei unterschiedliche Märkte designed wurden, was dementsprechend Unterschiede bezüglich Cache, Interconnects, Speicheranbindung, etc mit sich bringt.
 
Zuletzt bearbeitet:
braucht man für die neue Bulldozer CPU ein neues Motherboard? oder könnte man jetzt einen AMD PC kaufen und dann mit BUlldozer aufrüsten wenn er draussen ist?
 
Auf der sicheren Seite bist du erstmal nur mit einem AM3+ Board. Wie es mit AM3 ausschaut, kann man bisher noch nicht sagen. Offiziell wird AM3 jedenfalls nicht unterstützt.
 
Für letzteres spricht momentan aber nichts.

Nicht mehr oder weniger als für den anderen Fall. Was man hingegen sehr sicher sagen kann ist, dass SMT bei Bulldozer und CMT bei Sandy Bridge jeweils wenig Sinn machen würde, da die ganze Architektur entsprechend auf das jeweilige Konzept ausgerichtet ist. Beurteilen können wir letztlich nur Leistung pro Gesamtfläche, maximal abzüglich der Fläche der für die Performance uninteressanten IGP bzw. zusätzlichen HT-Links.
 
Nicht mehr oder weniger als für den anderen Fall.
Viel viel mehr als weniger. ;)

Was man hingegen sehr sicher sagen kann ist, dass SMT bei Bulldozer und CMT bei Sandy Bridge jeweils wenig Sinn machen würde
Nein, das kann man in der Tat absolut nicht sagen. CMT und SMT lassen sich sogar gut kombinieren, siehe Sun.

Beurteilen können wir letztlich nur Leistung pro Gesamtfläche
Jup, haben wir ja gemacht. ~30 mm², 2 logische Prozessoren, 60% vs 80% Performance im Vergleich zu einem entsprechenden CMP Design. Ist relativ eindeutig.


Nein, ist ein AM3 Board. Soweit ich weiss gibt es offiziell noch keine AM3+ Boards. Die werden sicherlich erst in den nächsten Wochen gelaunched.
 
Zuletzt bearbeitet:
Viel viel mehr als weniger. ;)

Da wir keinen Flächenbedarf einer aktuellen SMT-Implementierung kennen, spricht weder etwas dafür noch dagegen. Wir wissen es schlicht nicht, ganz einfach.

Nein, das kann man in der Tat absolut nicht sagen. CMT und SMT lassen sich sogar gut kombinieren, siehe Sun.

Wo habe ich etwas gegenteiliges gesagt? Ich sprach von ganz konkreten Designs, lies doch nochmal das Posting. :) Speziell bei Bulldozer ist es z.B. zweifelhaft, dass hier noch ähnliche Reserven der Auslastungssteigerung durch SMT wie bei SB bestehen.

Jup, haben wir ja gemacht.

Jup. 320mm² für den 4M/8C BD zu 216mm² für den 4C/8T SB, SBe kennen wir ja leider noch nicht. Bei knapp 50% Mehrleistung für Bulldozer zum 4C/8T Modell hätten wir eine ähnliche Effizienz pro Fläche, können wir nur abwarten.
 
Modul = 80% eines fiktiven DC; 2ter Int-Core = +80%
 
Das hatten wir doch wenige Seiten vorher schon breit geklärt. Es sind 90%, nicht 80%.
Weil das Modul 180% des Kerns leistet.
Ob jetzt 80 oder 90% ... :wayne: Ist mir mittlerweile sowas von egal, wurde alles schon 100x in allen Foren durchgekaut.

Hängt so oder so sicherlich auch vom Code ab. Ausserdem - wenn nur 1 Thread läuft, dann sinds 100%, nicht 90 ^^
 
Da wir keinen Flächenbedarf einer aktuellen SMT-Implementierung kennen
5% ist ein guter Richtwert. Von daher vernachlässigbar. Wenn du genaue Werte kennst, dann teile sie uns einfach mit.

Wo habe ich etwas gegenteiliges gesagt?
Na offenbar denkst du so. Ansonsten hättest du nicht behauptet, SMT würde bei Bulldozer wenig Sinn machen, genauso CMT bei Sandy Bridge. Oder kannst du belegen, dass entsprechende Implementierungen nichts bringen würden? Ich denke nicht.

Genau. ~30 mm² für Kernlogik (inklusive 2 MiB Cache), 2 logische Prozessoren, 60% vs 80% Performance im Vergleich zu einem entsprechenden CMP Design. Ist relativ eindeutig. Das gesamte Die ist natürlich irrelevant für einen CMT vs SMT Vergleich, da hier noch viele andere Faktoren reinspielen.


Das hatten wir doch wenige Seiten vorher schon breit geklärt. Es sind 90%, nicht 80%.
Weil das Modul 180% des Kerns leistet.
Offenbar ist es nicht geklärt, wenn immer noch solche Unklarheiten bestehen. Es sind 80%. Schau auf die AMD Folien. Was zwei Integer Kerne eines Moduls gegenüber einem Integer Kern eines Moduls leisten, ist eine andere Baustelle. Das hat mit dem Vergleich CMT vs CMP erstmal nichts zu tun.
 
Zuletzt bearbeitet:
5% ist ein guter Richtwert. Von daher vernachlässigbar. Wenn du genaue Werte kennst, dann teile sie uns einfach mit.

Nein, ich kenne keine Werte. Du ebensowenig, außer eine völlig belanglose Angabe von einem knapp Faktor 20 kleineren P4 - diese kann nichteinmal als Anhaltspunkt dienen.


Na offenbar denkst du so. Ansonsten hättest du nicht behauptet, SMT würde bei Bulldozer wenig Sinn machen, genauso CMT bei Sandy Bridge.

Ja, dass denke ich auch weiterhin - und das ist etwas anderes, als das was du mir vorhin unterstellen wolltest. Es ist klar, dass SMT nur dann sinnvoll ist, wenn die Pipeline mit einem Thread noch nicht wirklich gut ausgelastet ist. Das ist bei einem fetten 4-Issue Sandy Bridge der Fall, bei einem bewusst schlanken BD-Kern wohl kaum gleichermaßen. Der Beweis dafür ist denkbar einfach: Würde SMT auch bei BD noch nennenswerte Profite bringen, hätte man es implementiert, und wenn es nur für die Servermodelle aktiviert werden würde.

~30 mm² für Kernlogik (inklusive 2 MiB Cache), 2 logische Prozessorenachlässigbar.

Ein Bulldozer hat 4MB L2+L3 pro Modul, nicht 2MB - und damit über 38mm². Deine Rechnung ist auch weiterhin vollkommen falsch. Genauso kannst du auch nicht andere Teile eines Dies einfach weglassen, selbst Freiflächen können durch eine Verbesserung der Taktbarkeit einen Einfluss auf die Performance haben.
 
Im Kontext von CMP, alles was dazugehört, Frontend, Ausführungseinheiten, L1, L2, usw. Und davon gibt es einiges pro Modul eben auch nur einmal.

Es gibt zwar nur ein Frontend pro Modul, das aber im Vergleich zum Vorgänger fast den doppelten Durchsatz hat. Das gleiche gilt für die FPU. Der L2-Cache wurde gleich vervierfacht.


Deshalb schrieb ich ja auch "vermutlich". ;) Für eine endgültige Entscheidung braucht es natürlich mehr Informationen. So wie zB die IPC abhängig vom Code ist, skaliert auch nicht jede Anwendung 1:1 mit dem Takt. Man müsste auch vergleichen, wie die CPUs nicht nur bezüglich Performance bei höherem Takt skalieren, sondern auch bezüglich Leistungsaufnahme. Usw.

Das ist Unsinn. Vorgegeben war gleiche Leistung bei gleichem Stromverbrauch. Es ist richtig, dass nicht jede Anwendung mit dem Takt skaliert, aber das trifft nur auf Anwendungen zu, bei denen andere Hardware limitiert, z.B. Speicher, Grafikkarte, I/O Subsystem. Das Problem ist aber dann unabhängig von der Frage Takt oder IPC.



Nein. Du scheinst die Technologien wirklich nicht richtig verstanden zu haben.

Das Kompliment kann ich zurückgeben.

Was du schreibst, könnte man genauso gut umgekehrt formulieren.

Dafür bräuchte man aber sehr sehr viel guten Willen.

"Bei CMT geht es darum, die Pipelines besser auszulasten. Bei SMT geht es darum, Transistoren einzusparen." Würde genauso nicht falsch sein.

Wie oben, mit sehr sehr viel gutem Willen kann man vieles sagen. Wenn man aus der Architektur eine Intension ablesen will, wäre die Aussage aber entweder falsch oder die Designer (sowohl bei Intel, wie auch bei AMD) ziemlich verwirrt beim Entwurf.


Der grundsätzliche Unterschied ist einfach, während bei SMT das Frontend vervielfacht wird

Was Durchsatz und Sprungvorhersage angeht, wurde bei HT überhaupt nichts verändert.

wird bei CMT das Backend vervielfacht.
Das Frontend wurde deutlich erweitert (Fetch, Decode, Sprungvorhersage, usw). Es ist richtig, das es nicht explizit verdoppelt wurde, aber wenn der Durchsatz sich verdoppelt, wen interessiert es dann, ob implizit oder explizit?
Das Backend wurde teils implizit (FPU, L2), teils explizit (Scheduler, ALU, ...) vervielfacht.





Ein CMT basiertes Modul mit K10.5 Architektur

Das wäre dann doch so etwas wie ein schwarzer Schimmel? Naja, es ist schon richtig, das einige Veränderungen von K10.5 zu BD sich eher negativ auf die IPC auswirken sollten, z.B. die längere Pipeline und 2-issue statt 3-issue, aber es wurde von JF bereits bestätigt, dass die Single-Thread IPC trotzdem höher liegen soll, von daher eine unnötige Diskussion bis es erste Tests gibt.




Nur gibt es einen entscheidenden Unterschied.
CMT wird wohl bei allen BDs verwendet und SMT nur bei den "Topmodellen", d.h. es kann dann gut sein, dass sich 4 Module mit 8 Kernen (ohne SMT) messen müssen. Je nach Preislage.
Schliesslich sieht der Anwender ja nur die Threads im Taskmanager und ihm ist egal, ob er nun 300 Euro für eine 4 Modul-CPU oder einen nativen 8 Kerner bezahlt hat.

Meinst du einen Intel 8-Kerner? Der wäre aber im Vergleich zu BD deutlich größer und bei Intel's üblicher Preisgestaltung in einer vollkommen anderern Preiskategorie.

Zum einen, weil er sich mit anderen Produkten in die Quere kommt. Zum anderen aber auch, da die 32 nm Kapazitäten zu Beginn nicht ausreichen dürften. Llano muss ja auch noch gefertigt werden.

Ich kann's nicht fassen, aber wir sind tatsächlich mal einer Meinung. Einen 2-Kerner in Modul-Bauweise wird man mMn erst mit dem Llano-Nachfolger sehen.

Wir vergleichen natürlich erstmal vollwertige Designs, also 4 Bulldozer Module vs 4 Sandy Bridge Kerne + SMT. Wie sich abgespeckte Modelle einordnen, wird man sehen müssen.

Also den Vergleich sollte BD locker gewinnen, was aber auch nicht sonderlich überraschend ist, wenn man die Die-Größen und die Anzahl der Kerne vergleicht. Sollte der Preis trotzdem vergleichbar sein, müsste Intel sich etwas überlegen.


Wie gesagt, das funktioniert nur über Verbesserungen der Logik, einem besseren Fertigungsprozess, der besseren Cache und schnellere Schaltzeiten der Transistoren ermöglicht, etc. Durch das CMT Design selbst funktioniert das nicht. Das ist auch gar nicht der Sinn von CMT.

Und schon wieder einer Meinung.

Nunja, das war mein letzter Post zu SMT/CMT, versprochen.
 
2 Issue ooo Design muss keine Nachteile gegenüber 4 Issue ooo Design haben wenn Logik, IPC & Takt stimmen

skalibml.jpg
 
noch gibt es keine Benches. aber bald kommen welche, das warten lohnt sich :wink:
 
klar den Kunden kann die Fläche egal sein, solange die Chips bezahlbar sind spielt die Chipfläche keine rolle & selbst wenn es 500mm² sind :wayne:

auch können die spekulierten 320mm² für Orochi falsch sein, nächstes Jahr soll ja ein 5 Modul BD kommen, OK 1 Modul macht nur ca. 30mm² aus, vielleicht wird der rest dann einfach enger gepackt...
 
Zuletzt bearbeitet:
Status
Für weitere Antworten geschlossen.
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh