[Sammelthread] AMD Bulldozer "Zambezi" 32nm "New CPU Architecture" Sockel AM3+ [Part 3]

Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Ich glaube auch nicht, dass Intel da was zwischen schieben wird. Sollte sich AMD mit Bulldozer regulär die "Perfomance-Krone" holen, stehen je schon Sandy Bridge E und Ivy Bridge am Start um zu versuchen sich diesen Platz an der theoretischen Sonne zurück zu holen... ;)

Aber es ist müssig über etwas diskutieren was noch in den Sternen steht, da wir immer noch keine Rückschlüße in Bezug auf den Bulldozer ziehen können, außer, dass es ihn gibt und AMD ihn verkaufen will. Kommt Zeit kommt Bulldozer... ;)
 
Zuletzt bearbeitet:
Glaube ich auch nicht. Bei Intel weiß man sehr lange vorher was kommt und was nicht. Siehe jetzt auch die SB-E Modelle Monate vor launch. Wenn es einen 2600k Nachfolger geben sollte, dann sollte er dieses Jahr folgen. Nächstes Jahr kommt Ivy Bridge, warum sollte Intel einen 2700k bringen, umso kleiner fällt doch der Vorsprung der Nachfolgegeneration aus und umso kleiner wird der Abstand zum 4 Core SB-E.
 
mirko10 schrieb:
Glaube ich auch nicht. Bei Intel weiß man sehr lange vorher was kommt und was nicht. Siehe jetzt auch die SB-E Modelle Monate vor launch.

Ich bin mir da nicht so sicher. Ich denke da kommt noch ein 2700k.
Schließlich hat man taktmäßig noch reserven zur ersten Sockel 2011 CPU.
 
Ihr seid da wieder etwas aus dem Takt geraten. Es wäre schön, wenn ihr wieder synchron mit dem Threadtitel schreiben würdet.
 
Zuletzt bearbeitet:
Das ist keine Frage des Könnens, sondern des Wollens. Davon ab wird sich der Bulldozer auf dem Papier (also bei MT-Benchmarks) bis zum Erscheinen von SNB-E 6C/12T als schnellste Consumer-CPU behaupten können; davon gehe ich aus.
 
Ich würde mir schonmal DDR3 Ram kaufen, bevor die Preise wieder steigen.
Gibts da beim Bd schon Informationen bezüglich Nutzen von Ram > 1333Mhz?

1600er kostet bei meinem Händler halt 50% mehr. :O
/€: Sind doch nur 7€ mehr
 
Zuletzt bearbeitet:
er soll bis zu 1886 können aber ob es merklich was bringt kp. bei Llano bringt es was wegen der GPU, die hat der BD aber nicht.

btw. 50% mehr sind aktuell nicht viel 10-20€
 
Deshalb schlagen sich die AMDs K10-Modelle singlethreaded auch so toll und liegen mit den Intels (ohne Turbo) auf einer Linie.
Was willst du plötzlich mit singlethreaded? Die Rede war von "pro Thread". Und ich habe doch bereits die Werte von Cinebench oben gepostet, ~0,69 Punkte pro Thread für den i7-870, ~0,98 Punkte pro Thread für den X6 1100T, bei vergleichbarer Grösse der Kernlogik. Der X6 ist pro Thread in dem Fall also schneller. Oder anders formuliert, mit der gleichen Grösse an Kernlogik generiert AMD mehr Performance pro Thread. Wo soll also das Problem sein? Klar, du kannst jetzt einen Nehalem ohne Hyperthreading hernehmen und dann sagen, dass der X6 pro Thread doch nicht schneller ist. Nur solltest du dann bedenken, dass die Gesamtperformance in Cinebench ohne Hyperthreading ein ordentliches Stück niedriger ausfällt. Ein X6 1075T ist dann zB immer noch gut 35% schneller als ein i5-760.

Vielleicht ist es dir nicht aufgefallen, worauf ich hinaus wollte. Ihr betrachtet das Thema eindimensional, was es aber nicht ist. Behauptungen wie AMD wäre pro Thread zu langsam, sind einseitige Polemik und entsprechen schlichtweg nicht den Tatsachen. Was den Tatsachen entspricht, hängt von der Vergleichsbasis ab. Lässt du nur einen Thread laufen, ist Nehalem meist schneller. Lässt du hingegen den gesamten Prozessor auslasten, also inklusive Hyperthreading, ist der X6 pro Thread meist schneller. Und das sind auch jene Designentscheidungen, über die sich die Ingenieure Gedanken machen müssen und worauf letztendlich der Fokus gelegt wird. Ein Patentrezept für die eierlegende Wollmilchsau gibt es nun mal nicht. Du magst ja deine Wünsche haben und eine hohe singlethreaded Performance bevorzugen. Und sicherlich wäre es auch für AMD kein Problem, einen solchen Prozessor zu entwickeln. Nur, wozu? Ist das wirklich sinnvoll, wenn man dabei Abstriche beim Multithreading machen muss? Wo liegt die Zukunft? Bei Single- oder Multithreading? Die Anwendungen, wo es auf Performance ankommt, sind mittlerweile meist eh multithreaded. Und falls das mal nicht der Fall ist, weil sich nicht jede Aufgabe beliebig parallelisieren lässt, singlethreaded lässt sich auch durch Turbo recht ordentlich steigern, je nach Prozessor teils 50% und mehr. Selbst singlethreaded Anwendungen können sehr gut mit logischen Prozessoren skalieren. Nämlich dann, wenn du mehrere Instanzen der Anwendung hast. Typisches Beispiel, LAME. Ein Kodierer für MP3, der rein singlethreaded ist. Macht es wirklich einen Unterschied, ob das Konvertieren einer Datei ein paar Sekunden länger dauert? Oder ist es nicht sinnvoller, wenn du beim Konvertieren ganzer Alben etliche Minuten einsparen kannst?

Ich denke, AMD ist mit dem clusterbasierten Konzept schon auf dem richtigen Weg. Vielleicht wird das in Zukunft ja noch ausgebaut. Statt zwei Cluster pro Modul könnte ich mir auch 3 oder 4 Cluster pro Modul vorstellen. Ein noch breiteres Frontend und eine noch "fettere" FPU, die noch mehr Instruktionen pro Takt bei einem Thread verarbeiten können. Bei 3 oder 4 Threads aber dennoch effizient sind und eine hohe Performance pro Thread erreichen. Und das alles mit vergleichsweise wenig Transistorlogik im Vergleich zu 3 oder 4 herkömmlichen Kernen. Vielleicht stockt man dann auch die Integer Cluster noch etwas auf. Mit dem Clock-Grid sollte es eigentlich möglich sein, einzelne Komponenten, auch Ausführungseinheiten, bei Nichtnutzung lahm zu legen, so dass diese nicht unnötig Energie verschwenden. Interessant finde ich auch den Gedanken, die Integer Cluster zu vereinheitlichen, halt wie man es bei der FPU gemacht hat. Das wären aktuell 8 Instruction Pipelines mit 4 ALU + 4 AGLUs. Je nach Anzahl der Threads und Auslastung wird dann jedem Thread eine bestimmte Anzahl an Pipelines zur Verfügung gestellt. Ein Thread könnte so die vollen Ressourcen nutzen für hohe IPC. 2-4 Threads würden dann vielleicht 10-25% an IPC pro Thread verlieren, aber trotzdem noch auf eine hohe Gesamtperformance kommen. Und das alles ohne signifikant mehr Energie zu benötigen.

Aber das ist Zukunftsmusik und hat auch alles seine Grenzen, da der Aufwand dann teilweise potenziell steigt bei maximal linearem Gewinn. Wie auch immer, Potenzial ist jedenfalls vorhanden. Bei bdver1 geht es erstmal darum, dass das Ding überhaupt läuft.

Klar, besonders im Integerbereich hat ein Bulldozer-Kern (also ein halbes Modul) richtig zugelegt. Es wird sich erst noch zeigen müssen, ob die Streichung von Int-Pipelines im Vergleich zum alten K8 durch eine bessere Auslastung kompensiert werden kann.
Es ging vielmehr um gemeinsam genutzt Ressourcen. Die Integer Cluster gehören aktuell nicht dazu. Und wie kommst du darauf, dass Integer Pipelines gestrichen wurden? Jeder Cluster hat nun 4 Integer Pipelines, K8/K10 hat lediglich 3 Integer Pipelines pro Kern. Der Unterschied ist, während bei K8/K10 jede Pipeline ihren eigenen Scheduler und ein ALU/AGU Pärchen hatte, besitzt Bulldozer einen Unified Scheduler für alle Pipelines mit jeweils einer Ausführungseinheit, ALU oder AGLU.

Btw: Kennt sich hier irgendjemand mit SSE-Programmierung in Assembler aus?
Jup, wieso?


Obwohl es schon irgendwie süß ist, wie er um den x6 schönzurechnen, vom 2500k - von dem seit dem ersten Post von Duplex zu dieser Sache die Rede ist - ablenkt und so einen alten i7 ausgräbt.
Falls es dir nicht aufgefallen sein sollte, der i5 2500 ist 32 nm. Wie Schaffe89 schon anmerkte, ich habe zwei Prozessoren im gleichen Node verglichen, was imo nur fair ist bei einem Architekturvergleich. Den i5 2500 / i7 2600 können wir dann ja mit Zambezi vergleichen, die beide 32 nm sind. ;) Ausserdem habe ich zu den Aussagen von Duplex nichts gesagt. Es ging um deine Aussage.
 
Was willst du plötzlich mit singlethreaded? Die Rede war von "pro Thread". Und ich habe doch bereits die Werte von Cinebench oben gepostet, ~0,69 Punkte pro Thread für den i7-870, ~0,98 Punkte pro Thread für den X6 1100T, bei vergleichbarer Grösse der Kernlogik. Der X6 ist pro Thread in dem Fall also schneller. Oder anders formuliert, mit der gleichen Grösse an Kernlogik generiert AMD mehr Performance pro Thread. Wo soll also das Problem sein? Klar, du kannst jetzt einen Nehalem ohne Hyperthreading hernehmen und dann sagen, dass der X6 pro Thread doch nicht schneller ist. Nur solltest du dann bedenken, dass die Gesamtperformance in Cinebench ohne Hyperthreading ein ordentliches Stück niedriger ausfällt. Ein X6 1075T ist dann zB immer noch gut 35% schneller als ein i5-760.

Dafür hat er auch 50% mehr Kerne oder wenn man so will, logische Prozessoren für die Berechnung zur Verfügung.
Ich verstehe aber nicht warum du dir immer wieder für derartige Vergleiche CPUs mit SMT raussuchst. SMT macht logisch die pro Thread Leistung kaputt, eben weil zwei Threads auf einem Core laufen. Bringt dir in Summe aber eben etwas mehr Leistung.
Ein Vergleich von einem Intel Quadcore + SMT (also bei acht Threads) müsste sinnvollerweise gegen einen AMD Quadcore belastet mit ebenso acht Threads verglichen werden. Und dann schau dir an, was an Pro Thread Leistung übrig bleibt.

Und um das auch auf den Bulldozer zu beziehen. Der Bulldozer wird genau so wie die Intels mit SMT pro Thread Leistung verlieren, wenn man ihn unter Volllast betreibt und das Ergebnis mit einem Vergleicht, wo nur die halbe Anzahl an Threads tuckern wird... (also dort wo nur ein Core des Moduls belastet wird)
Die preisfrage ist, wie gut läuft der Bulldozer bei einem sinnvollen Vergleich. Im Moment hängt AMD hier stark hinterher. Nutzt man Multithreaded Benches wie den Cinebench für die pro Thread Leistung, könnte AMD dazu noch das Problem bekommen, das der Turbo nicht sein volles Potential (Takt) ausspielen kann... Es bleibt also spannend ;)

Was mich aber viel eher interessieren würde, wird der BD auf G34 ohne spezielles Bios wenigstens anlaufen um das Bios flashen zu können oder muss der Stand des Bioses mindestens BD kompatibel sein.
Die Phenom II liefen ja oft als unknown CPUs und brachten so Möglichkeiten zum Bios flash ;)
 
Ihr seid da wieder etwas aus dem Takt geraten. Es wäre schön, wenn ihr wieder synchron mit dem Threadtitel schreiben würdet.

Recht hast du, nur wäre schön, wenn es einem flotten Bulldozer ein i7 2700k resultiert, dann haben wir hoffentlich nen kleinen aber feinen Preiskampf.

Dafür hat er auch 50% mehr Kerne oder wenn man so will, logische Prozessoren für die Berechnung zur Verfügung.

Soviel ich verstehe nimmt er als BAsis aber vorrangig die Kernlogik.
Es ist immer entscheidend, welche Basis für einen Vergleich herangezogen wird, und da würde es sich anbieten eben jetzt bald mal vorrangig eben auf Kernlogik oder Threads umzuswitchen, denn Kerne sind als Terminus oder als Vergleichbasis sowieso obsolet.

Ich verstehe aber nicht warum du dir immer wieder für derartige Vergleiche CPUs mit SMT raussuchst.

Hab ich doch oben schon erläutert. Er hat die zu pauschale Aussage von Grummel mit diesem Beispiel widerlegt.
Jetzt kann man das auf Kernlogik, Fertigungsprozess ausdehnen und da seine Phantasie schweifen lassen.

SMT macht logisch die pro Thread Leistung kaputt, eben weil zwei Threads auf einem Core laufen.

Wohl, nur wird man sich in Zukunft besser auf dieser Basis um irgendetwas streiten können bzw fast müssen, vor allem wenn AMD später mehr Integer Einheiten in ein Modul pappt oder vielleicht zu CMT noch SMT dazuschmeißt.

OFTopic: @ fdsonne

Wieso wird der Thread hier eigentlich nicht beendet und ein neuer angefangen?
Bei dem 1. und 2. war nach 1500 Beiträgen schluss? :)
 
Dafür hat er auch 50% mehr Kerne oder wenn man so will, logische Prozessoren für die Berechnung zur Verfügung.
Die aber nicht mehr Transistorbudget erfordern. Das war ja der Punkt daran, nicht die Anzahl der Kerne.

Ich verstehe aber nicht warum du dir immer wieder für derartige Vergleiche CPUs mit SMT raussuchst.
Ich nehme vollwertige Designs und keine teilkastrierten. Und zur Intel Architektur gehört seit Nehalem eben wieder Hyperthreading.

Ein Vergleich von einem Intel Quadcore + SMT (also bei acht Threads) müsste sinnvollerweise gegen einen AMD Quadcore belastet mit ebenso acht Threads verglichen werden.
Nee, das ist Quatsch. Der AMD Quad-Core besitzt viel weniger Kernlogik und stellt auch nur 4 logische Prozessoren zur Verfügung. Das macht ja Null Sinn in dem Kontext. Wenn es dir um die Anzahl der Threads geht, dann könnte man einen aktuellen AMD Quad-Core nur sinnvoll gegen einen Intel Quad-Core ohne SMT vergleichen. Den gibt es seit Nehalem aber nicht mehr. Und nein, nur weil SMT deaktiviert wurde, ist es trotzdem vorhanden, samt der dafür intern vergrösserten Puffer und dergleichen, was auch ohne SMT genutzt wird. Der letzte Intel Quad-Core ohne SMT war Yorkfield / Harpertown. Mit Bulldozer hast du aber wieder eine bessere Vergleichsbasis bezüglich Threads. 4M/8T Zamebzi vs 4C/8T SB bei vergleichbarer Grösse der Kernlogik. Und wenn du CMT und SMT aussen vor lassen willst, dann lässt du eben nur jeweils einen Thread pro Bulldozer Modul oder SB Kern laufen.

Und um das auch auf den Bulldozer zu beziehen. Der Bulldozer wird genau so wie die Intels mit SMT pro Thread Leistung verlieren
Ja, aber eben deutlich weniger. Bei Intel fällt die Performance pro Thread mit SMT auf etwa 60%, bei Bulldozer sollen es etwa 80-90% sein. Und gegenüber K10.5 soll die Performance pro Thread ja trotzdem steigen.
 
Zuletzt bearbeitet:
Für mich klingt das alles nach schönrederei ;)
Man sucht "krampfhaft" nach Argumenten um das AMD Produkt besser dastehen zu lassen. Objektiv betrachtet ist dies aber eben nicht der Fall... Aber jeder darf ja denken wie er möchte ;) Und ich hab keine Lust auf Postzerflückerei...

OFTopic: @ fdsonne

Wieso wird der Thread hier eigentlich nicht beendet und ein neuer angefangen?
Bei dem 1. und 2. war nach 1500 Beiträgen schluss? :)

Man splittet aktuell nicht mehr, weil die Serverlast nicht mehr das Problem ist bei großen Threads ;)

Ja, aber eben deutlich weniger. Bei Intel fällt die Performance pro Thread mit SMT auf etwa 60%, bei Bulldozer sollen es etwa 80-90% sein. Und gegenüber K10.5 soll die Performance pro Thread ja trotzdem steigen.

Auch wenn ein Modul mit zwei Threads belastet wird!?
Ich denke hier wird Windows noch gehörig ein Wörtchen mitreden, was das angeht... Bis Vista gabs ja teils massive Nachteile durch SMT bei schlechter Threadzuweisung. Das gleiche könnte dem BD auch blühen...
 
Zuletzt bearbeitet:
Für mich klingt das alles nach schönrederei
Naja, wie es für dich klingt, spielt aber erstmal keine Rolle. ;) Für andere klingt Grummel nach Polemik, wo krampfhaft versucht wird, AMD schlechtzureden. Ich habe seine pauschale Behauptung mit Fakten widerlegt, völlig pragmatisch, nicht mehr und nicht weniger. Wer da wieder etwas hineininterpretieren will, was gar nicht gesagt wurde, scheint eh nicht ganz objektiv und unvoreingenommen an die Sache ranzugehen.

Auch wenn ein Modul mit zwei Threads belastet wird!?
Ja.

Das gleiche könnte dem BD auch blühen...
Naja, mittlerweile macht es Windows 7 besser. Die Situation ist also nicht mehr vergleichbar. Und wie gesagt, die Nachteile durch falsche Threadzuweisung sind bei Bulldozer eben weniger gravierend.
 
Naja, wie es für dich klingt, spielt aber erstmal keine Rolle. ;) Für andere klingt Grummel nach Polemik, wo krampfhaft versucht wird, AMD schlechtzureden. Ich habe seine pauschale Behauptung mit Fakten widerlegt, völlig pragmatisch, nicht mehr und nicht weniger. Wer da wieder etwas hineininterpretieren will, was gar nicht gesagt wurde, scheint eh nicht ganz objektiv und unvoreingenommen an die Sache ranzugehen.
Objektiv gesehen erkennt man aber auch, wann genau die Leistung pro Thread entscheidend ist. Nämlich genau dann, wenn eben die Software nicht auf die Anzahl der Recheneinheiten skalliert. Und genau dann kann dir auch SMT in dem Fall nicht zum Nachteil werden.
Geht man den Schritt weiter, kann man sogar völlig pauschal sagen, das SMT mit Windows 7 (bzw. Linux/Unix OS neuerer Generation) diesen theoretischen Nachteil, den du ansprichst, in der Praxis nie aufzeigen wird.
Entweder SMT bringt durch genügend Last erzeugende Threads Mehrleistung im Vergleich zu ohne SMT. Oder aber die pro Thread Leistung der selben CPU bei maximal halber Last gibt den Speed an. (weil durch Windows 7 der SMT Part des Cores nicht beansprucht wird)

Es gibt also in meinen Augen in der Praxis keinen Nachteil dadurch. Und genau hier wird es für mich zum schönreden... Ein theoretischer Nachteil der praktisch überhaupt nicht zum Tragen zu kommt.


Naja, mittlerweile macht es Windows 7 besser. Die Situation ist also nicht mehr vergleichbar. Und wie gesagt, die Nachteile durch falsche Threadzuweisung sind bei Bulldozer eben weniger gravierend.

Das stimmt natürlich, dennoch bleibt abzuwarten, wie Windows 7 reagiert. Für das OS meldet sich die CPU mit acht Kernen. Bei Intel tut man es mit zwei/vier/sechs Kernen + SMT.
Ich denke wir werden in Zukunft entweder was nachgepatchtes oder spätestens in Windows 8 nativen Support für die Modulbauweise sehen.
Auch wenn der Nachteil durch CMT geringer ausfällt ist er dennoch vorhanden und steht einem ordentlichen Vergleich unter Umständen im Weg.
 
@ Motkachler

Was sagt uns der Link? Das ist über ein Jahr alt und alles bekannt.
 
Für manche Server ist ja die Antwortzeit ausschlaggebend, z.B. im Börsenbereich. Da wäre CMT evtl. aufgrund des 'gleichmäßigeren' Instruktionenflusses kalkulierbarer, weil kein 'Stop-&-Go' zweier Threads erfolgt. Ist aber reine Spekulation meinerseits, kenne mich zu wenig mit Intels Hyperthreading aus. Sofern die Antwortzeit wirklich entscheidend ist, würde ich Hyperthreading ausschalten und hochgetaktete Quadcores verwenden.

Mal abgesehen von der Absenkung der Performance pro Thread mit Hyperthreading ist Cinebench wohl auch die falsche Applikation für eine Diskussion. Man bräuchte ein gut parallelisiertes Integer-Rechenprogramm.
 
Objektiv gesehen erkennt man aber auch, wann genau die Leistung pro Thread entscheidend ist. Nämlich genau dann, wenn eben die Software nicht auf die Anzahl der Recheneinheiten skalliert. Und genau dann kann dir auch SMT in dem Fall nicht zum Nachteil werden.
Geht man den Schritt weiter, kann man sogar völlig pauschal sagen, das SMT mit Windows 7 (bzw. Linux/Unix OS neuerer Generation) diesen theoretischen Nachteil, den du ansprichst, in der Praxis nie aufzeigen wird.
Welchen theoretischen Nachteil soll ich angesprochen haben? Und wieso habe ich das Gefühl du sprichst über etwas, was gar nicht das Thema war? Über Nachteile von SMT hat jedenfalls keiner gesprochen.
 
Ich bin neugierig ob Bulldozer überhaupt noch in diesem Jahr auf den Markt kommt. Da scheint es doch Probleme zu geben, fragt sich nur welcher Art. Der Erscheinungstermin wird ja immer mehr nach hinten verschoben, bzw. kenne ich jetzt gar keinen festgelegten Zeitpunkt.
 
Ich bin neugierig ob Bulldozer überhaupt noch in diesem Jahr auf den Markt kommt. Da scheint es doch Probleme zu geben, fragt sich nur welcher Art. Der Erscheinungstermin wird ja immer mehr nach hinten verschoben, bzw. kenne ich jetzt gar keinen festgelegten Zeitpunkt.

Da die Produktion der 45nm-Riege offenbar schon eingestellt wurde wirds wohl nicht anders gehen, denn bis 2012 haben die mit Sicherheit keine Lagerbestände mehr :d. Mal im Ernst: Bis 2012 wird sich das definitiv nicht mehr verschieben können.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh