AMDs Bulldozer 50 Prozent schneller als Core i7? (Update)

Status
Für weitere Antworten geschlossen.
8MB L2 plus 8MB L3, das sollte erstmal fürs Gröbste reichen ^^
Die 8x16kB L1D$ + 4x64kB L1I$ lassen wir bei solchen Größenordnungen mal locker hinten runterfallen ;-)

gibt es schon was neues bzgl. Trace Cache ? wie hoch ist die wahrscheinlichkeit das BD das auch hat?
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
(...) Wollte nur damit sagen das wenn ich 8 kerne hab es mir nix bringt das z.B. der masterthread ..... auf einem kern halt den rest der cpu ausbremst und deshalb wieder die IPC wichtig ist! (...)
Ein "Masterthread" wird - speziell bei einem Spiel - versuchen nicht zu bremsen, sondern einen optimalen "Flow" aufrecht zu erhalten. Speziell auch dann wenn er so programmiert wurde, daß das Spiel auf unterschiedlich leistungsfähigen Plattformen läuft. Das läuft (vereinfacht) so ab:
Die gesamten Bildausgabe-Berechnungen (Szenen, Objekte, Bewegungen) wird die CPU dem GPU-Subsystem überlassen - aber erst nachdem sie diesem übermittelt hat, was dargestellt werden soll - und wie. Vereinfacht gesagt: die Perspektive, sich verändernd von rechts --> links, oben --> unten, Zoom hinein oder hinaus, Geschoss-Flugbahnen - und mit welcher Geschwindigkeit, etc. All' diese vom Benutzer verursachten "Echtzeit-Ereignisse" muß die CPU verarbeiten und als verwertbare Parameter "weiterreichen", das Rendering mit seinen parallel prozessierbaren Aufgaben übernimmt dann die GPU alleine. Kommen noch zusätzliche Bildoptimierungsaufgaben wie PhysX hinzu, so kann es sein, daß die CPU auch diese mit übernehmen muß.

Somit wird klar, daß speziell "Action-geladene" Spiele sich nicht durch eine sehr gleichmäßige Auslastung aller CPU-Kerne auszeichnen können - hier geht es um ständig wechselnde 'ad hoc' Anforderungen. Wenn man also sein Spiele-Portfolio daraufhin prüft, auf welche Hardwareplattform es optimiert wurde, kann man auch (einigermaßen) beurteilen, auf welcher Plattform es ohne nennenswerte Einschränkungen gut läuft, und welche ggf. "Overkill" ist.

Ganz anders sieht es beim hochwertigen Multithreaded AV- und 3D-Rendering aus: bei POV-Ray, Cinema 3D und bei anderen Anwendungen, wie z.B. hochwertigen AV-Schnittprogrammen und Konvertern herrschen hoch parallelisierte Prozesse vor, die i.d.R. so viele Kerne auslasten, wie sie nur kriegen können: bei jedem "Run" werden für die Tonkanäle, die Titeleinblendungen, die Korrekturen (z.B. Rauschen- und Farben), und die "Effekte" jew. eigene Threads initiiert. Von einer 6C/12T CPU profitieren solche Anwendnungen gewaltig, von einer Workstation mit 2 entspr. Xeons (8C/16T od. 12C/24T) natürlich noch mehr! Und von möglichst hoher RAM-Bandbreite! Bei Spielen hingegen wären sie merkwürdig "ineffizient", d.h. sie kommen auch nicht über die obere Grenzleistung des Grafik-Subsystems hinaus - selbst wenn das entspr. Spiel auf 4- oder 6-Cores (= Threads) optimiert ist. Da liegt dann viel Leistung brach.

Es gibt eben keine "eierlegende Wollmilchsau" unter den CPU's ..... ;)

Und das ist nicht Hersteller-spezifisch. Bei Rendering-Jobs schlägt ein X6 1090T @ Standard-Takt einen Q9550 @ 4.0 GHz. Man kann natürlich dem Q eine Graka zur Seite stellen, die hardwaremäßig encoden (CUDA, AMD Avivo/Stream) kann - aber die meisten werden es nicht gerne hören, daß in diesem Bereich solche GP/GPU Lösungen qualitativ unterlegen sind - OK um eine schnelle Preview zu generieren, aber das (deutlich bessere) Produktionsergebnis erfolgt durch CPU-Rendering.
Solange also Spiele (speziell die eigenen oder die, die man gerne hätte) nicht von Multithreading > 4 Threads profitieren, dürften bis auf weiteres 4 IPC-Starke Kerne ohne HT (SMT) hinreichen - z.B. in Form eines i7 2500(k) (4T/4C)
Wer mehr als nur Spiele nutzt - z.B. AV-Schnitt / Konvertierung als Hobby - wird bis auf weiteres sowohl mit einem X6 1090T/1100T (ggf. etwas übertaktet), als auch mit einem i7 2600(k) (4C/8T) gut zurechtkommen - oder er wartet auf BD. Je nach dessen tatsächlicher Leistungsstärke könnte der doch schon in die Domäne des i7 980x (6C/8T) einbrechen und so viel Geld sparen helfen ;) Und eine feine, ausgereifte Plattform ohne ersichtliche Einschränkungen brächte er mit AM3+ ja auch mit. Was nicht heißt, daß man die nicht extra bezahlen muß ..... :d
 
Da kommt genau das gleich rum wie bei Sandy. Im Moment blockiert halt die NB, da die bei 2GHz nicht mehr als DDRX-1066 durchläßt. Multipliziert man das Ganze mit 1,3 dann kommt man auf die Bandbreite, die man für DDR3-1333 brauch, der Rest wird über NB Takt gehen. Für 1866 ist man ab ca. 2,6 Ghz auf der sicheren Seite, laut ISSCC Manual ist der L3 für 2,4+ GHz ausgelegt, also 2,6 sollten da kein Problem sein.

Aber Deine 10GB/s kommen mir etwas wenig vor, 13-14 sollten es schon sein. Siehe die Sandra Werte hier:
AMD Phenom II X6 1100T Black Edition : Benchmarks: SiSoft Sandra 2010 - Review Hartware.net

Wenn Du wirklich nur 10GB/s hast, dann benchst Du mit dem falschen Programm, oder Deine NB taktet mit weniger als 2 GHz.

ciao

Alex

Ok das wäre dann echt beachtlich wenn AMD das packt :d
Ich habe es mit Everest getestet im bezug auf lesewerte! Kopierdurchsatz war glaube auch in richtung 13000
 
Die Everest Werte unterscheiden sich auch von Version zu Version... Das muss also nicht immer und überall gleich sein ;)
 
Nochmal: AMD bezeichnet den als 8 Kerner
Nochmal, das macht AMD nicht generell. Alle Ingenieure und technischen Unterlagen sprechen von 4 Kernen. Lediglich das Marketing spricht von 8 Kernen. Nur sollte man sich in diesem Fall nicht davon blenden lassen. Zambezi hat 4 vollwertige Kerne und keinen mehr. Genauso wie Sandy Bridge. Punkt. Es ist der gleiche logische Aufbau. Der einzige Unterschied ist, dass Intel SMT nutzt, um die Anzahl der logischen Prozessoren pro Kern zu verdoppeln. AMD hingegen nutzt CMT, um exakt das gleiche zu erreichen.

Eine CPU mit hoher Kernleistung (IPC) wird in ihrer Leistung - sowohl im Single- als auch im Multithreaded-Bereich - einer CPU niedrigerer Kernleistung (IPC) bei gleicher Kernzahl und gleichem Takt überlegen sein.
Gleicher Takt ist ein Sonderfall und kommt so gut wie nie vor bei konzeptionell unterschiedlichen Designs. Versteift euch mal bitte nicht so auf einen Faktor. Letztendlich müssen die Ingenieure den besten Kompromiss aus allen Faktoren finden und nicht das maximal Machbare eines einzelnen Faktors. Und pro logischem Prozessor lautet die Formel dafür Takt * IPC * Watt * Fläche. Und selbst das ist nur die halbe Wahrheit, wenn man das gesamte Design der CPU berücksichtigen muss. Da kommen dann noch Sachen wie Skalierung, shared Cache, etc dazu.

Vergleiche zwischen CPUs unterschiedlicher Kernleistung (IPC) und Kernanzahl führen nur zu Verwirrung - und sind daher nicht objektiv.
Wieso? Wenn ähnlicher Flächen- und Energieaufwand betrieben wird, spricht nichts dagegen. Nicht objektiv wird es eher dann, wenn man Vergleiche auf ein bestimmtes Testszenario ausrichtet, was einer CPU besser liegt.


Schaut euch die FPS an und auch die auslastung beider karten (ganz rechts mitte ist lüfter) und rechnet mal hoch wie viel FPS noch brach liegen wenn die CPU nicht limitieren würde!
Liefere doch erstmal Auslastungswerte der CPU. Ansonsten lässt sich überhaupt nicht beurteilen, inwiefern die CPU limitiert.

intel hat es doch schonmal versucht mit dem prescott die mega schlechte IPC mit taktraten von bis zu 10Ghz weg zu machen aber was ist drauß geworden??
Das sollte man trotzdem nicht pauschalisieren. Netburst war einfach Murks und hatte einige grundlegende Fehler im Design. Wie man es mit hohen Taktraten besser macht, zeigte ja zuletzt IBM. Nochmal, IPC ist kein Allheilmittel. Man muss es immer in Relation betrachten. Ein Kern mit 1 GHz und 100% IPC bei 10 W bringt dir überhaupt nix, wenn der Kern einer anderen CPU mit 80% IPC bei 10 W 1,5 GHz schafft. Der erste Kern hat dann zwar mehr IPC, ist aber unterm Strich schlechter, da er bei gleicher Leistungsaufnahme weniger Performance liefert oder bei gleicher Performance mehr Energie braucht. Was also hat dir die höhere IPC gebracht? Gar nichts! Der einzige Fall, wo ich zustimmen würde, wenn beide Kerne gleich viel Performance bei gleicher Leistungsaufnahme liefern. Dann würde ich vermutlich auch den mit mehr IPC bevorzugen. Das ist aber eher ein sehr unwahrscheinliches Szenario.


ich weiß nicht was mit dem BD möglich ist das vermute ich einfach nur da ich nicht glaube das AMD weit über 5Ghz kommen wird mit OC und da Intel das ja auch packt hoffe ich einfach das AMD dann mehr IPC power hat weil das würde die erreichten taktraten dann in einem anderm licht darstellen oder??
Dann hoffst du aber vermutlich vergebens. Das war nicht das alleinige Designziel von Bulldozer. Der Clue an Bulldozer ist vor allem das CMT Design. Hier wird er sich von der Konkurrenz absetzen können. Beim Rest sollte man hingegen auf keine Wunder hoffen. Was aber auch nicht heissen soll, dass er dann schlechter als die Konkurrenz ist.


Du sagtest doch, CMP sei ein Kern und SMT ist ein Kern, wieso spricht du dann von 80 und 120% und nicht bei beiden von 100%, hmmm?
Man sollte sich als Basis 2 herkömmliche CMP Kerne mit jeweils einem logischen Prozessor und der jeweiligen Architektur vorstellen. Ein Bulldozer Modul (CMT) liefert 80% der Performance dieses CMP Dual-Cores. Wenn du das Modul als 2 "Kerne" siehst, also ihn in seine logischen Prozessoren unterteilst, dann wäre das pro "Kern" 80% der Performance eines CMP Kerns. Bei Sandy Bridge hingegen machst du diese Unterteilung nicht. Du nimmst den kompletten physischen Kern, also 100% im Vergleich zum CMP Kern, und durch SMT kommen nochmals etwa 20% hinzu.

CMP Kern = ein logischer Prozessor = 100%
Bulldozer "Kern" (Marketing) = ein logischer Prozessor = 80%
Sandy Bridge Kern = 2 logische Prozessoren = 120%

Dass dieser Vergleich hinkt, die Dimensionierung der Kerne also nicht 1:1 vergleichbar ist, sollte doch selbst einem Laien auffallen.

AMD spricht von acht Kernen, was vollkommen richtig ist, da es zwei Int-Cores pro Modul sind. Also hat Zambezi acht physische Kerne und ist ein Octacore.
Nö, ist es nicht. Zumindest nicht, wenn man die Kerne mit Intel vergleichen will. Man sieht auf dem Orochi Die Shot mehr als deutlich, dass es nur 4 physische Kerne sind. Bis aufs Marketing spricht bei AMD auch keiner von 8 Kernen.

SMT lastet die Kerne nur besser aus, SMT-Kerne aber sind "nur" logische CPUs. Du willst doch nicht ernsthaft behaupten, 8 Int-Cores seien das gleiche wie 4 Int-Cores?!
Irrelevant. Implementationsdetails wie Decoder, Scheduler, Rechenwerke, etc sind für diesen Punkt nicht von Bedeutung. SMT und CMT verfolgen das gleiche Ziel, die logischen Prozessoren pro Kern zu erhöhen. Nur machen sie das auf unterschiedliche Weise. Der logische Aufbau ist trotzdem der selbe, 4 CMP Kerne, 8 logische Prozessoren mit 8 Register Sets. Wenn ihr Zambezi trotzdem als 8-Kerner bezeichnen wollt, weil es das Marketing so vorgibt, bitteschön. Dann unterlasst aber wenigsten solche dümmlichen Kommentare in euren Artikeln und klärt die Leser darüber auf, dass Zambezi in Wirklichkeit genauso so viele physische Kerne und logische Prozessoren wie Sandy Bridge hat. Irgendwie ist es leider immer wieder das gleiche mit PCGH, Hauptsache Intel schönreden. Wenn ihr schon von 2 Kernen mehr für Zambezi schreibt, warum schreibt ihr nicht auch, dass Intels Kernlogik dafür doppelt so gross ist? Ich glaube, wir kennen beide die Antwort, oder? :rolleyes:
 
Hallo zusammen,
Wer mit dem X6 Bencht, sollte mal versuchen via msconfig nur 4 Kerne zu nutzen, damit ein 1:1 Vergleich zwischen Sandy Bridge und Thuban möglich wird! Hintergrund ist tatsächlich der L3 Cache der pro Kern beim X6 geringer ausfällt. ;)
Wer alle Kerne nutze möchte muß die entsprechende Software nutzten, nur leider scheinen da die Programmierer etwas faul zu sein und nutzen nur max. 4 Kerne. (ist auch nicht schlimm die Masse nutzt nunmal nicht mehr als 4 Kerne)

Mag mal jemand mit einem Sand Bridge K Modell testen ob er bei 800MHz CPU Takt auch auf ähnliche Werte kommt (im ideal Fall auch mit einer GTX580@stock)


MfG
 
Zuletzt bearbeitet:
99% GPU-load... Das läuft doch immernoch im GPU-Limit. Warum auch so eine Grafikdemo testen, wenn man die CPU-Leistung wissen will? :confused: Da gibts es doch weitaus bessere und vor allem reale Spiele...
 
Ist bei pc spielen nicht das eigentlich problem das es fuer gammel konsolen programmiert wird?
Und wir muessen uns dann mit der schlechten umsetzung zanken...
 
gibt es schon was neues bzgl. Trace Cache ? wie hoch ist die wahrscheinlichkeit das BD das auch hat?
Nö leider nicht, ich warte auf die ISSCC Präsentation.
MMn ist das zwar seehr wahrscheinlich, da das FrontEnd auf dem DIE Foto wirklich fett ist, und der Rest in den Patenten bisher auch 1:1 zutraf, aber 100% sicher ist halt nix :(
Naja, nur noch 4 Wochen :)
Ok das wäre dann echt beachtlich wenn AMD das packt :d
Ich habe es mit Everest getestet im bezug auf lesewerte! Kopierdurchsatz war glaube auch in richtung 13000
Jo Everest bencht etwas AMD nachteilig, das nützt z.B nicht die beiden L1 Ports beim Lesen, da Intel das nicht hat. Sandra ist in dem Fall ausnahmsweise aussagekräftiger ;-)
 
Was für Speicher wird man denn bei Bulldozerplattformen nutzen können/sollen ? Reicht da auch gewöhnlicher ddr3 1333 Ram ? Hab noch nichts dazu gefunden.
 
@wecaluxx + Powerplay
So etwas wie einen "Masterthread", der einen Hauptteil der Last trägt, versucht man heute eher zu vermeiden. Dieses Konzept stammt noch aus der Zeit, als die CPUs hauptsächlich noch einen oder max. zwei Kerne hatten. Zu der Zeit hat man ein Programm sehr grob in große Blöcke (KI, Grafik, Physik, Sound, Eingabe, ...) eingeteilt und die dann auf eine feste Anzahl an Threads verteilt. State-of-the-Art ist aber mittlerweile eine viel feineres Multithreading, bei dem die großen Blöcke selbst noch einmal parallelisiert werden (z.B. Schleifen oder kleine Blöcke von Instruktionen).

@Powerplay
Selbst wenn es noch einen "Masterthread" gibt, der die Leistung begrenzt, ist nicht die IPC entscheidend, sondern die Single-Thread-Performance (IPC * Taktfrequenz). Denn eine doppelt so hohe Taktfrequenz ergibt die gleiche Performance wie eine doppelt so hohe IPC.


Nochmal, das macht AMD nicht generell. Alle Ingenieure und technischen Unterlagen sprechen von 4 Kernen. Lediglich das Marketing spricht von 8 Kernen. Nur sollte man sich in diesem Fall nicht davon blenden lassen.

Bei allen Infos/Unterlagen von AMD habe ich bisher immer entweder etwas von 4 Modulen oder 8 Kernen gelesen. Hast du einen Link zu einer offiziellen Quelle, bei der das anders ist?

Zambezi hat 4 vollwertige Kerne und keinen mehr.

Was muss ein Kern besitzen um "vollwertig" zu sein?

Genauso wie Sandy Bridge. Punkt. Es ist der gleiche logische Aufbau.

Du willst also damit sagen, dass ein BD Modul den gleichen logischen Aufbau hat wie ein SB-Kern? Also das ist eindeutig Quatsch.

Der einzige Unterschied ist, dass Intel SMT nutzt, um die Anzahl der logischen Prozessoren pro Kern zu verdoppeln. AMD hingegen nutzt CMT, um exakt das gleiche zu erreichen.

Nun ja, der Unterschied zwischen SMT und CMT ist aber der, dass man bei SMT nur doppelt so viele logische Kerne erhält, die keine eigenen Recheneinheiten besitzen. Bei CMT hat man dagegen keine logischen Kerne, sondern echte physische Kerne mit eigenen Recheneinheiten.

Der einzige Fall, wo ich zustimmen würde, wenn beide Kerne gleich viel Performance bei gleicher Leistungsaufnahme liefern. Dann würde ich vermutlich auch den mit mehr IPC bevorzugen. Das ist aber eher ein sehr unwahrscheinliches Szenario.

Ich nehme an, hier ist die Durchschnittsperformance über eine größere Menge an Applikationen gemeint ist. In dem Fall würde ich die höhere Taktfrequenz vorziehen, denn

Designs mit hohem Takt, geringerer IPC haben gewöhnlich deutlich weniger Logikschaltkreise. Daher sollte im Idle-Fall der Stromverbrauch im Vergleich niedriger sein.

IPC ist Code-abhängig. Die IPC-Optimierungen in der CPU funktionieren nur bei passendem Code. Selbst die ausgefeiltesten IPC-Optimierungen können nicht jeden Code beschleunigen. Eine höhere Taktfrequenz beschleunigt hingegen prinzipiell jede Art von Code, egal wie schlecht er auch sein mag.


Irrelevant. Implementationsdetails wie Decoder, Scheduler, Rechenwerke, etc sind für diesen Punkt nicht von Bedeutung.

A ja, also der komplette interne Aufbau der CPU ist nicht relevant?

SMT und CMT verfolgen das gleiche Ziel, die logischen Prozessoren pro Kern zu erhöhen.

Du tust immer so, als wäre SMT und CMT fast das gleiche, aber die größte Gemeinsamkeit ist der ähnliche Name. Der Aufbau eines CMT-Moduls und eines SMT-Kerns ist fast genau so unterschiedlich wie der zwischen einer Single-Core und einer Dual-Core CPU. SMT fügt einem einzelnen Kern einen zusätzlichen Registersatz hinzu. CMT ist ein Dual-Core, der sich ein Front-End und die FPU teilt, wobei beides im Vergleich zum Vorgänger praktisch doppelt so groß/breit ausgelegt wurde. Bei SMT geht es darum die Pipelines besser auszulasten, bei CMT geht es darum Transistoren einzusparen (zumindest bei BD, für den Nachfolger wird ja über einige Features spekuliert, die zusätzlichen Nutzen aus der Modulbauweise ziehen sollen).

Der logische Aufbau ist trotzdem der selbe, 4 CMP Kerne, 8 logische Prozessoren mit 8 Register Sets.

Also Dekoder, Scheduler, Recheneinheiten usw. sind nicht relevant, aber die Register sind es? Bitte eine Begründung dafür.
 
Was für Speicher wird man denn bei Bulldozerplattformen nutzen können/sollen ? Reicht da auch gewöhnlicher ddr3 1333 Ram ? Hab noch nichts dazu gefunden.
Mit 16MB Cache und besserem Prefetchern: Ja ^^
Ausnahme: Streaming Anwendungen, also so ca. 0,01% von dem, was man so macht, dazu gehören dann natürlich auch Bandbreitenbenches ;-)
 
Bei allen Infos/Unterlagen von AMD habe ich bisher immer entweder etwas von 4 Modulen oder 8 Kernen gelesen. Hast du einen Link zu einer offiziellen Quelle, bei der das anders ist?
Dann hast du maximal PR-Folien gesehen. In meiner Signatur findest du einen Link zu Dresdenboys Blog. Dort sind zB etliche Patente verlinkt. Einiges davon hatte ich auch immer mal wieder verlinkt, zB hier.

Was muss ein Kern besitzen um "vollwertig" zu sein?
Im Kontext von CMP, alles was dazugehört, Frontend, Ausführungseinheiten, L1, L2, usw. Und davon gibt es einiges pro Modul eben auch nur einmal.

Du willst also damit sagen, dass ein BD Modul den gleichen logischen Aufbau hat wie ein SB-Kern?
Oberflächlich, ja. 1 CMP Kern, 2 logische Prozessoren. Dass sich der interne Aufbau unterscheidet, sollte klar sein.

Nun ja, der Unterschied zwischen SMT und CMT ist aber der, dass man bei SMT nur doppelt so viele logische Kerne erhält, die keine eigenen Recheneinheiten besitzen. Bei CMT hat man dagegen keine logischen Kerne, sondern echte physische Kerne mit eigenen Recheneinheiten.
Es gibt keine "logischen Kerne". Davon spricht man maximal im Zusammenhang mit Virtualisierung. Du meinst logische Prozessoren. Und da unterscheiden sich CMT und SMT nicht. Der Unterschied liegt maximal in der Implementierung, was für die Anzahl der logischen Prozessoren aber belanglos ist.

Ich nehme an, hier ist die Durchschnittsperformance über eine größere Menge an Applikationen gemeint ist. In dem Fall würde ich die höhere Taktfrequenz vorziehen, denn

Designs mit hohem Takt, geringerer IPC haben gewöhnlich deutlich weniger Logikschaltkreise. Daher sollte im Idle-Fall der Stromverbrauch im Vergleich niedriger sein.

IPC ist Code-abhängig. Die IPC-Optimierungen in der CPU funktionieren nur bei passendem Code. Selbst die ausgefeiltesten IPC-Optimierungen können nicht jeden Code beschleunigen. Eine höhere Taktfrequenz beschleunigt hingegen prinzipiell jede Art von Code, egal wie schlecht er auch sein mag.
Deshalb schrieb ich ja auch "vermutlich". ;) Für eine endgültige Entscheidung braucht es natürlich mehr Informationen. So wie zB die IPC abhängig vom Code ist, skaliert auch nicht jede Anwendung 1:1 mit dem Takt. Man müsste auch vergleichen, wie die CPUs nicht nur bezüglich Performance bei höherem Takt skalieren, sondern auch bezüglich Leistungsaufnahme. Usw.

A ja, also der komplette interne Aufbau der CPU ist nicht relevant?
Für Softwareentwickler und die Definition der logischen Prozessoren, ja, ist irrelevant. Das interessiert erst wieder die Compilerbauer, wenn sie für eine bestimmte Architektur optimieren.

Du tust immer so, als wäre SMT und CMT fast das gleiche
Nein, tue ich nicht. Ich sagte lediglich, dass sie das gleiche Ziel verfolgen.

Der Aufbau eines CMT-Moduls und eines SMT-Kerns ist fast genau so unterschiedlich wie der zwischen einer Single-Core und einer Dual-Core CPU. SMT fügt einem einzelnen Kern einen zusätzlichen Registersatz hinzu. CMT ist ein Dual-Core, der sich ein Front-End und die FPU teilt, wobei beides im Vergleich zum Vorgänger praktisch doppelt so groß/breit ausgelegt wurde. Bei SMT geht es darum die Pipelines besser auszulasten, bei CMT geht es darum Transistoren einzusparen (zumindest bei BD, für den Nachfolger wird ja über einige Features spekuliert, die zusätzlichen Nutzen aus der Modulbauweise ziehen sollen).
Nein. Du scheinst die Technologien wirklich nicht richtig verstanden zu haben. Was du schreibst, könnte man genauso gut umgekehrt formulieren. "Bei CMT geht es darum, die Pipelines besser auszulasten. Bei SMT geht es darum, Transistoren einzusparen." Würde genauso nicht falsch sein. Es geht bei beiden Technologien in erster Linie darum, die Anzahl der logischen Prozessoren zu erhöhen, um vorhandene Logik besser zu nutzen. Der grundsätzliche Unterschied ist einfach, während bei SMT das Frontend vervielfacht wird, wird bei CMT das Backend vervielfacht. Aber wie gesagt, das sind Implementationsdetails, die uns herzlich egal sein können. Das clevere an CMT ist einfach, dass der Gewinn pro zusätzlicher Fläche um einiges höher ausfällt.

Also Dekoder, Scheduler, Recheneinheiten usw. sind nicht relevant, aber die Register sind es? Bitte eine Begründung dafür.
Ein Register Set gehört zum logischen Prozessor. Was du hier mit Decoder, Scheduler, Recheneinheiten, usw willst, ist mir unklar.
 
Das clevere an CMT ist einfach, dass der Gewinn pro zusätzlicher Fläche um einiges höher ausfällt.

Das kann mangels bekannter Zahlen für SMT außerhalb von Northwood genausogut andersherum sein. Bei diesem noch vergleichsweise winzigen P4-Die waren es noch 1-2% Transistoren und 5% Fläche, was sich selbstverständlich aber in keiner Weise mit der Implementierung in einer anderen Architektur in einem anderen Herstellungsprozess vergleichen lässt. Wie effizient das gesamte Design letztlich in Bezug auf Leistung/Fläche ist wird sich erst mit kommenden Benchmarks zeigen können, hier wird der 216mm² Sandy Bridge (~175mm² ohne IGP, siehe Die-Shots) wohl eher in der Größenklasse eines 2-Modul Bulldozer spielen. Mal schauen, wie dort bei ähnlicher Fläche die Leistungsfähigkeit aussieht. :)
 
Doch egal ob 8 Kerner oder nicht, immer diese fade Diskussion. Man wird wohl durch den praktischen (Mehr-)Nutzen der 8 Integer Kerne eben von einen 8 Kerner sprechen.
 
Mr. Dude schrieb:
Nö, ist es nicht. Zumindest nicht, wenn man die Kerne mit Intel vergleichen will. Man sieht auf dem Orochi Die Shot mehr als deutlich, dass es nur 4 physische Kerne sind. Bis aufs Marketing spricht bei AMD auch keiner von 8 Kernen.

Vergleichbar ist da schon mal gar nichts, da muss man gar nicht vergleichen und bringt auch nichts.
CMT arbeitet deutlich anders wie einfaches SMT und deutlich gewinnbringender, so dass die IPC bei 2 Kernen pro Modul wohl relativ deutlich über der IPC eines dualcores Phenom II liegt.
Bei Intel sind nur zusätzliche Register vorhanden, bei AMD Integer Kerne.
Gibt die oder die Argumentation.

Ich würde mich aber dafür entscheiden von 4 Modulen und 8 Kernen zu sprechen, so wird es auch beworben und die Merhleistung durch den zweiten Integer Kern im Modul ist beachtlich hoch, zudem werden lediglich die REssourcen geteilt, wenn ein Modul nun voll ausgelastet wird.
Imho ein Octacore für mich.

Undertaker 1 schrieb:
hier wird der 216mm² Sandy Bridge (~175mm² ohne IGP, siehe Die-Shots) wohl eher in der Größenklasse eines 2-Modul Bulldozer spielen.

Wohl um die 160mm².
So schnell wird der Bulldozer meiner Meinung nach nicht werden, wenn AMD keine Zwischenentwicklung zwischen phenom II und Bulldozer sieht, gibt ja schließlich keine einmoduligen Prozessoren, oder kommen die noch?
 
Jetz wird seit gefühlten 20 Jahren der Bulldozer mehr oder weniger in dem Himmel gelobt. Das kann ja fast nur eine Enttäuschung werden nachdem sich viele derart reingesteiergt haben. Ich würd ja nun auch langsam gern mal wissen was hier Sache ist.
 
Ich denke nicht, dass er der Renner wird, allerdings wird er mit Sandy Bridge gut mithalten können, besonders bei multitheading.
Ein Indiz dafür sind die niedrigen Preise von Sandy.
 
Wenn AMD schlau ist, kommt die Tage ein offizielles Benchmark von Bulldozer. Denn gerade durch die Probleme mit SB warten viele sowieso mit dem Kauf eines PCs (ok, vllt. auch nur ein paar wenige %), aber die könnte man als Kunden gewinnen.
 
Auf ner Folie, die mal im dem anderen BD Thread gepostet wurde, war irgendwas für Februar angekündigt. Nächsten Monat gibts bestimmt erste Informationen.
 
Ich denke nicht, dass er der Renner wird, allerdings wird er mit Sandy Bridge gut mithalten können, besonders bei multitheading.
Ein Indiz dafür sind die niedrigen Preise von Sandy.

So weit würd ich jetzt eher nicht gehen, wo doch die SB Plattform für den Mainstream sein soll.
 
Wie effizient das gesamte Design letztlich in Bezug auf Leistung/Fläche ist wird sich erst mit kommenden Benchmarks zeigen können, hier wird der 216mm² Sandy Bridge (~175mm² ohne IGP, siehe Die-Shots) wohl eher in der Größenklasse eines 2-Modul Bulldozer spielen. Mal schauen, wie dort bei ähnlicher Fläche die Leistungsfähigkeit aussieht.
Bisher ist nichts von einem nativen 2-Modul Bulldozer bekannt. Ein 2-Modul Bulldozer dürfte auch kleiner sein (<150 mm²?). Insofern wird es einen solchen Vergleich nicht geben. Was aber auch gar nicht notwendig ist und sowieso nur irreführend wäre, da man dann das gesamte Design vergleichen würde und nicht nur CMT mit SMT.

Wir können das ganze anhand der bekannten Informationen mal durchspielen. Laut AMD kostet CMT zusätzlich 12% Fläche pro Modul. Keine Ahnung, ob Intel für Nehalem Infos rausgegeben hat. Beim P4 sprach man jedenfalls von etwa 5% für SMT. Dh, CMT braucht hier 6,67% mehr Fläche pro Modul/Kern. Die konkreten Zahlen für ein Bulldozer Modul inklusive 2 MiB shared Cache betragen übrigens 30,9 mm², für einen Sandy Bridge Kern inklusive 2 MiB shared Cache 29,5 mm² (4,75% Unterschied). 80% soll die Performance eines Moduls gegenüber 2 CMP Kernen betragen. Ein SMT Kern hingegen erreicht nur etwa 60% gegenüber 2 CMP Kernen. Was 33,33% mehr Performance für das Modul bedeutet. Unterm Strich also knapp 7% mehr Fläche für gut 33% mehr Performance. Ist natürlich ein recht grober Vergleich. Und genau genommen müsste man die selbe Architektur einmal mit CMT und einmal mit SMT vergleichen. Es zeigt aber sehr gut, wo die Reise hingeht. CMT arbeitet letztendlich effektiver. Und je mehr Logik auf dem Die vorhanden ist (Cache, Uncore), umso günstiger wird das Verhältnis für CMT.


Vergleichbar ist da schon mal gar nichts, da muss man gar nicht vergleichen und bringt auch nichts.
Nun ja, scheinbar haben das einige aber noch nicht ganz begriffen. Ansonsten müsste man nicht solche dummen Sprüche wie bei PCGH lesen. Egal was man nun als Kern bezeichnet, letztendlich haben Bulldozer und Sandy Bridge gleich viele logische Prozessoren. Und nur das ist aus Anwendersicht von Bedeutung, da man entsprechend viele Threads parallel ausführen kann.

CMT arbeitet deutlich anders wie einfaches SMT und deutlich gewinnbringender, so dass die IPC bei 2 Kernen pro Modul wohl relativ deutlich über der IPC eines dualcores Phenom II liegt.
Relativ deutlich glaube ich erst, wenn ich es sehe. Das hat dann aber weniger mit CMT zu tun, sondern einfach mit den generellen Verbesserungen (Sprungvorhersage, Code-Fusion, Befehlssatzerweiterungen, Cache, etc). Ein CMT basiertes Modul mit K10.5 Architektur sollte eher weniger IPC als ein Dual-Core Phenom II haben.


Auf ner Folie, die mal im dem anderen BD Thread gepostet wurde, war irgendwas für Februar angekündigt. Nächsten Monat gibts bestimmt erste Informationen.
Du meinst vermutlich die ISSCC 2011. Die Veranstaltung geht vom 20. bis 24. Februar und dort sollte es neue Infos zu Bulldozer geben. Preise, genaue Termine, Benchmarks und dergleichen sollte man aber nicht erwarten. Das ist eine Technologiekonferenz.
 
Zuletzt bearbeitet:
Bisher ist nichts von einem nativen 2-Modul Bulldozer bekannt. Ein 2-Modul Bulldozer dürfte auch kleiner sein (<150 mm²?).

Gesichert ist er noch nicht, recht wahrscheinlich ist eine 2-Modul Version allerdings. Aber zurück zur Grundüberlegung: Da ein guter Teil des 4-Modul-Dies mit ~320mm² nicht linear herunterskaliert werden kann (IMC beispielsweise), sind die theoretisch halbierten 160mm² für eine 2-Modul-Version mit 4MB L3 von vornherein unmöglich. Mal stur zwei Module und 4MB Cache von den 320mm² abgezogen ergibt ~250mm² (2x30,9mm² pro Modul + 4x 3,85mm² pro MB L3) - noch ein bisschen Kleinkram (weniger HT-Links?) weg und wir landen vielleicht bei 220-230mm², so in der Größenordnung.

Was aber auch gar nicht notwendig ist und sowieso nur irreführend wäre, da man dann das gesamte Design vergleichen würde und nicht nur CMT mit SMT.

Natürlich, denn nichts anderes können wir vergleichen. Flächenbedarf und Leistungsgewinn einer Technik wie SMT sind natürlich essentiell architekturabhängig.

Wir können das ganze anhand der bekannten Informationen mal durchspielen. Laut AMD kostet CMT zusätzlich 12% Fläche pro Modul. Keine Ahnung, ob Intel für Nehalem Infos rausgegeben hat. Beim P4 sprach man jedenfalls von etwa 5% für SMT. Dh, CMT braucht hier 6,67% mehr Fläche pro Modul/Kern. Die konkreten Zahlen für ein Bulldozer Modul inklusive 2 MiB shared Cache betragen übrigens 30,9 mm², für einen Sandy Bridge Kern inklusive 2 MiB shared Cache 29,5 mm² (4,75% Unterschied). 80% soll die Performance eines Moduls gegenüber 2 CMP Kernen betragen. Ein SMT Kern hingegen erreicht nur etwa 60% gegenüber 2 CMP Kernen. Was 33,33% mehr Performance für das Modul bedeutet. Unterm Strich also knapp 7% mehr Fläche für gut 33% mehr Performance. Ist natürlich ein recht grober Vergleich.

Das ist nicht nur grob, sondern völlig falsch. Erster Fehler: Du ziehst für die Größenbetrachtung von SMT den 9 Jahre alten und noch in 130nm gefertigten Northwood heran, was sich in keiner Weise in ähnlicher Relation bei einem vielfach komplexeren Sandy Bridge Kern übertragen lässt. Zweiter Fehler: Du vergeichst die Leistung von einem Kern mit SMT und einem Modul zweier verschiedener Architekturen, ohne zunächst zu wissen, ob ein Thread auf einem BD-Modul auch die gleiche Leistung wie ein Thread auf einem Sandy Bridge Kern liefert - denn nur dann klappt die Milchmädchenrechnung 160%/120% = Faktor 1,33 an Mehrleistung. Dritter Fehler: Du vergisst, dass BD auch noch 2MB L3 pro Modul besitzt und benötigt, um seine bisher noch unbekannte Leistung zu erbringen. Ein Modul mit dem dazugehörigen Anteil L3 ist damit 38,6mm² und somit schon mehr als 30% größer als ein Sandy Bridge Kern inkl. SMT und dazugehörigem L3.

Man merkt schnell wie leicht man auf dem Bananendampfer landet, wenn man blind irgendwelche Teile eines Dies herauspickt, die aber so gar nicht miteinander verglichen werden können - wie ein BD-Modul ohne L3-Cache, welches natürlich eine vollkommen andere Performance liefern würde als die reale Version mit 2MB. Selbst ein Vergleich eines Moduls mit L3 gegen einen Sandy Bridge Kern inkl. L3 hat Schwächen: Auch in anderen Teilen eines Dies, z.B. dem Speichercontroller, kann der Hersteller mehr oder weniger Fläche investieren, im Gegenzug zu dem ein- oder anderen Prozent an letztlicher Leistung. Soetwas können wir im Regelfall kaum bis gar nicht herausrechnen, so dass letztlich einzig der Vergleich der gesamten resultieren Diefläche halbwegs* sinnvoll ist.

*: Und auch hier lauern weitere Stolpersteine: Natürlich muss auch die TDP vergleichbar sein und die Performance bei verschiedenen Threadzahlen verglichen werden. Eine hohe Multithreadleistung über viele kleine, taktschwache Kerne ist vergleichsweise simpel und billig (in Transistoren) - ein paar Prozent (Singlethread-)Leistung z.B. durch eine Vergrößerung der Caches ist dagegen äußerst ineffizient in Bezug auf die Diegröße.
 
Zuletzt bearbeitet:
letztendlich haben Bulldozer und Sandy Bridge gleich viele logische Prozessoren. Und nur das ist aus Anwendersicht von Bedeutung, da man entsprechend viele Threads parallel ausführen kann.

Nur gibt es einen entscheidenden Unterschied.
CMT wird wohl bei allen BDs verwendet und SMT nur bei den "Topmodellen", d.h. es kann dann gut sein, dass sich 4 Module mit 8 Kernen (ohne SMT) messen müssen. Je nach Preislage.
Schliesslich sieht der Anwender ja nur die Threads im Taskmanager und ihm ist egal, ob er nun 300 Euro für eine 4 Modul-CPU oder einen nativen 8 Kerner bezahlt hat.

Momentan ist es ja genau umgekehrt, 4 Intel Kerne messen sich mit 6 AMD Kernen. Dem Anwender ist das egal, denn der Preis (inkl. kompletter Plattform, Features, usw.) entscheidet (bei nicht Fanboys).
 
Und nur das ist aus Anwendersicht von Bedeutung, da man entsprechend viele Threads parallel ausführen kann.

Sicherlich ist das von Bedeutung.
Allerdings ist die 4Kerner vs. 8 Kerner Diskussion müßig und auch letztendlich völlig wurscht, hauptsache die Leistung stimmt pro Takt und pro Thread irgendwie
Allerdings werden sich da Tester mit Sicherheit in die Haare kommen.

Octacore schrieb:
Doch egal ob 8 Kerner oder nicht, immer diese fade Diskussion. Man wird wohl durch den praktischen (Mehr-)Nutzen der 8 Integer Kerne eben von einen 8 Kerner sprechen.

So würd ichs stehen lassen.

Mr. Dude schrieb:
Ein CMT basiertes Modul mit K10.5 Architektur sollte eher weniger IPC als ein Dual-Core Phenom II haben.

Glaube ich kaum.Außerdem kommt dazu noch die unbekannte Turbo+ Takt und ich denke da wird AMD zum ersten mal seit längerer Zeit wieder stark zulegen.
Ein 2 ModulBulldozer wird laut eine chinesischen Seite mit bis zu 4x 4,2ghz takten und ein 4 Modul Bulldozer mit bis zu 8x 4,0ghz, das dürfte genug sein um Sandy Bridge und auch den i7 980x zu gefährden.
Zudem wird AMD wie immer den Fertigungsprozess optimieren und je nach Bedarf das eine oder andere mhz noch draufpacken.
 
Zuletzt bearbeitet:
Hi,

ich bin grad leider nicht so recht auf dem laufenden

kann mal jemand kurz den ungefähren Erscheinungszeitraum eines 8Kern BD nennen? :d
(natürlich nach möglichst aktuellem Kenntnisstand^^)

Ende Q1 / Q2 / Q3 würde schon reichen :)

das wäre top

MfG The-Master
 
wahrscheinlich ende Q2 verfügbar. vorstellung könnte schon bei der Cebit stattfinden, muss aber nicht ;)
 
Zuletzt bearbeitet:
Danke :)

Mein Server hat sich eine neue CPU verdient, aber bis dahin kann ich noch warten :)
 
Jetz wird seit gefühlten 20 Jahren der Bulldozer mehr oder weniger in dem Himmel gelobt. Das kann ja fast nur eine Enttäuschung werden nachdem sich viele derart reingesteiergt haben. Ich würd ja nun auch langsam gern mal wissen was hier Sache ist.

Du bist doch kein AMD Käufer. Somit kann ich nicht verstehen dass du nun so viel Gefühl in den BD steckst und du von Enttäuschung sprichst.
 
Status
Für weitere Antworten geschlossen.
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh