AMD Bulldozer FX-8000/6000/4000 Series "Zambezi" 32nm Info & Sammelthread
AMD Bulldozer FX-8000/6000/4000 Series
"Zambezi" 32nm Info & Sammelthread
Mit der Nehalem-Architektur hat Intel einen Schritt hin zu einem modularen Aufbau seines Designs gemacht. Somit ist es für Intel auch relativ einfach die Architektur an die verschiedenen Anforderungen der unterschiedlichen Märkte anzupassen. AMD versucht mit Bulldozer nun einen ähnlichen Weg. Die Basis stellt dabei das Bulldozer-Modul dar. AMD spricht hier von einem Dual-Core-Modul, da zwei unabhängige Integer-Cores und ein Single-Shared-Floating-Point-Core vorhanden sind, welche Instruktionen von zwei unabhängigen Threads entgegennehmen können. Dieses Dual-Thread-Design ist größer als ein Single-Core, aber deutlich kleiner als ein typischer Dual-Core mit redundanten Komponenten. In der Theorie geht AMD davon aus, dass dieses Design schneller als ein Single-SMT-Core (Hyper Threaded) arbeiten kann, aber langsamer als ein "echter" Dual-Core ist. Gegenüber einem normalen Dual-Core lassen sich aber 12 Prozent Die-Fläche einsparen.
Ein Prozessor muss aber nicht nur aus einem dieser Module bestehen, sondern es können bis zu vier Bulldozer-Module zusammengesetzt werden. Im Resultat ergeben sich Prozessoren mit zwei bis acht der neuen Kerne. Jeder dieser Kerne wird dem OS als logischer Prozessor angezeigt, ähnlich wie es auch bei Intels HyperThreading-Technologie der Fall ist. Eine CPU, die aus vier Bulldozer-Modulen besteht, wird also als ein 8-Kern-Prozessor im Windows Task Manager auftauchen. AMD will mit dieser Idee einen guten Kompromiss zwischen einem Single-Core mit SMT (HyperThreading), der eben eigentlich ein Single-Core ist, und einem Dual-Core, der oftmals unnötig viele Ressourcen brachliegen lässt, gefunden haben. Mit der Einführung des AMD Phenom hatten viele bereits mit starken Änderungen in der Architektur gerechnet, doch AMD blieb dem K8-Design treu, und so konnte Intel in der Performance pro Takt immer weiter davon ziehen. Mit Bulldozer soll nun das Design erscheinen, auf das AMD-Nutzer schon etwas länger gewartet haben.
Taucht man etwas tiefer in die Mikro-Architektur eines Bulldozer-Moduls ein, werden Gemeinsamkeiten mit Intels Westmere sichtbar. So ist das Modul wie beim Phenom zwar bei einem 64 kB L1-Cache des Instruction-Fetcher geblieben, dieser gibt Anweisungen aus zwei Threads aber an vier Decoder weiter und nicht mehr an nur drei. Aus dieser Decoder-Engine werden die Daten dann an drei unabhängige Scheduler weitergegeben: zwei Integer- und ein Shared-Floating-Point-Core. Jeder Integer-Core besitzt zwei AGU- und ALU-Engines. Während vielen ALU ein Begriff ist, sorgt AGU noch immer für Fragezeichen: AGU steht für "Adress Generation Unit". Dabei handelt es sich um eine Art Integer-Recheneinheit, welche sich um die Generierung von Speicheradressen sowie um das Lesen und Speichern kümmert. Dem Integer-Core stehen 16 kB L1-Cache zur Verfügung.
Neben den bereits bestehenden SIMD-Befehlssätzen und AES kennt Bulldozer nun auch die AVX-Instruktionen sowie XOP und FMA4. Allerdings ist die Unterstützung von FMA4 von Intel ungewiss, weshalb hier unklar ist, ob die Funktionen in der Masse eingesetzt werden.
Der Cache ist nach Threads aufgeteilt, sodass der Shared-Floating-Point-Core entscheiden kann, auf welchen Teil des Caches er zurückgreifen muss. Innerhalb des Shared-Floating-Point-Core befinden sich dann jeweils zwei 128 Bit FMAC- und 128 Bit Packed-Integer-Pipelines, die dafür sorgen, dass der Shared-Floating-Point-Core auf zwei Threads gleichzeitig arbeiten kann. Wie Intels kommende Sandy-Bridge-Prozessoren unterstützt AMDs Bulldozer-Modul SSE-Instructions-Sets bis zur Version 4.2 und ebenfalls Intels AVX-Instruktionen. 256-Bit-AVX-Operationen werden durch zwei 128-Bit-FMAC-Units ausgeführt. Jedes Bulldozer-Modul verfügt über seinen eigenen L2-Cache, den sich der Integer- und die zwei Shared-Floating-Point-Cores teilen.
Das komplette Die mit vier Bulldozer-Modulen besitzt eine Gesamtgröße von 315 mm² und insgesamt 2 Milliarden Transistoren:
Beim Kern sind zum einen die großen L2-Caches zu sehen (oberhalb
eines Bulldozer-Moduls), zum anderen auch die gemeinsamen L3-Caches,
die sich in der Mitte befinden.
Alle Bulldozer-Module können unabhängig voneinander getaktet und mit der nötigen Spannung versorgt werden. So kann ein Bulldozer-Modul nun auch komplett abgeschaltet werden und verbraucht im Idle-Modus nicht einmal mehr Strom. Die dann eingesparte Leistung kann in anderen Modulen zusätzlich verbraucht werden. Intel macht dies in seiner Turbo-Boost-Technologie nicht viel anders. Da Takt und möglicher maximaler Verbrauch aber auf Ebene des Modules bestimmt werden und nicht auf Core-Ebene, sind doch entscheidende Unterschiede zu Intel vorhanden – AMDs Lösung könnte deutlich effizienter arbeiten als die Core-Turbo-Technologie von Intel. Im Unterschied dazu kommunizieren die Module nun nicht nur mehr über ein Taktsignal, sondern auch bezüglich der anliegenden Spannung miteinander. Weitere Details dazu sind auf der nächsten Seite zu finden.
AMD setzt für Bulldozer den 32-nm-Prozess von Globalfoundries mit Silicon-on-Insulator-Technik ein.
Turbo-Core im Detail
Intel hat mit Turbo Boost bereits vor einiger Zeit eine ähnliche Technologie für seine Prozessoren eingeführt. Grundsätzlich geht es darum, den gegebenen (Takt)-Spielraum eines Prozessors zu nutzen, wenn er nicht an seiner thermischen Leistungsgrenze arbeitet, aber dennoch durch technische Beschränkungen limitiert wird. Die thermische Leistungsgrenze wird durch den maximalen Verbrauch bestimmt - die Thermal Design Power (TDP). Bei AMD wird ein Testverfahren angewendet, welches jeden Transistor des Prozessors belastet, und somit kann die TDP bestimmt werden. Daraus errechnet AMD dann auch den maximalen Takt, den der Prozessor unter diesen Bedingungen fahren kann. In der Praxis allerdings wird dieser Zustand selten bis gar nicht erreicht. Kaum eine Anwendung schafft es einen Prozessor derart auszulasten. Dennoch muss AMD den konservativen Weg gehen, sozusagen ein Worst-Case-Szenario einhalten.
Um aber auch realistischere Wert zu den Prozessoren nennen zu können, führte AMD die Average CPU Power (ACP) ein. Die TDP spiegelt also den maximalen Stromverbrauch des Prozessors wider, die ACP in der Praxis aufzufindenden Belastungen. Die ACP errechnet sich dabei aus einer Belastung von 100 Prozent im Server-Bereich. Dies unterscheidet sich auf den ersten Blick nicht (könnte man annehmen) vom Szenario für die TDP, wo jeder Transistor belastet wird. Nimmt man sich allerdings ein Beispiel zur Hand, sind die Unterschiede zwischen TDP und ACP enorm. Für den Opteron 2376 gibt AMD eine TDP von 115 Watt an. Die ACP liegt allerdings bei nur 75 Watt. Immerhin 40 Watt bzw. 35 Prozent liegen also zwischen diesen Szenarien. Der 12-Kern-Prozessor Opteron 6174 wird von AMD mit einer TDP von ebenfalls 115 Watt bemessen, die ACP liegt bei 80 Watt. Zwischen den beiden Werten liegen nur noch 30 Prozent Unterschied. Der Grund hierfür ist CoolSpeed, eine Technologie, die AMD mit den neuen Opteron-Prozessoren einführte, um ACP und TDP näher zusammenzuführen. Man nutzt die Lücke zwischen ACP und TDP, um dem Prozessor etwas mehr Takt zu geben. Sollte er zu dicht an die TDP herankommen, wird der Takt wieder reduziert. Mit den mageren 5 Prozent zwischen der klassischen Methode und CoolSpeed wollte sich AMD allerdings nicht zufriedengeben und so führt man mit den Bulldozer Prozessoren die Turbo Core Technologie ein.
Turbo Core geht also noch einige Schritte weiter wie CoolSpeed und taktet den Prozessor so hoch, wie die TDP es maximal zulässt. Sollte der Prozessor zu dicht an die TDP herankommen, wird wieder eine Stufe heruntergetaktet, sodass die Spezifikationen eingehalten werden. In einem Diagramm ist das Prinzip sehr schön dargestellt.
Die Scorpius-Platform
Zwar spricht AMD hin und wieder von einer AM3-Kompatibilität im Zusammenhang mit Bulldozer. Dies darf jedoch nicht falsch verstanden werden: Für Bulldozer wird der AM3+-Sockel benötigt. Bisherige AM3-Prozessoren werden auf diesen Sockel passen, umgekehrt allerdings wird es nicht möglich sein einen AM3+-Prozessor auf ein aktuelles AM3-Mainboard zu setzen. Die Unterschiede in der Chipsatz-Generation fallen aber minimal aus.
Die Feature-Liste von AMDs 990FX, 990X und 970 sowie der dazugehörigen Southbridges unterscheidet sich nur in einigen Details von der älteren Chipsatz-Serie. Die High-End-Version 990FX stellt maximal bis zu vier PCI-Express-x16-Slots zur Verfügung. In dieser Ausbaustufe ist jeder Slot mit 8 PCI-Express-Lanes angebunden. Werden nur zwei Slots bestückt, liegen an diesen natürlich die vollen 16 Lanes an. Zusätzlich stehen noch ein x4- und bis zu sechs x1-Slots zur Verfügung.
Die beiden kleineren Varianten 990X und 970 bieten wie die aktuelle Generation auch nur noch einen PCI-Express-x16-Steckplatz, der aber beim 990X in zwei x8-Slots aufgeteilt werden kann. Zusätzlich sollen dann noch sechs x1-Slots bereitgestellt werden. Die beiden Modelle der Southbridge SB950 und SB920 stellen die restlichen Features zur Verfügung. Dazu gehören auch weitere PCI-Express-Lanes sowie PCI-Steckplätze, aber natürlich auch bis zu 14 USB-2.0-Ports und 6x SATA 6 Gbit/s.
Leistung: Theoretische Tests
Leistung: Games
AMD Bulldozer FX-8000/6000/4000 Series
"Zambezi" 32nm Info & Sammelthread
Mit der Nehalem-Architektur hat Intel einen Schritt hin zu einem modularen Aufbau seines Designs gemacht. Somit ist es für Intel auch relativ einfach die Architektur an die verschiedenen Anforderungen der unterschiedlichen Märkte anzupassen. AMD versucht mit Bulldozer nun einen ähnlichen Weg. Die Basis stellt dabei das Bulldozer-Modul dar. AMD spricht hier von einem Dual-Core-Modul, da zwei unabhängige Integer-Cores und ein Single-Shared-Floating-Point-Core vorhanden sind, welche Instruktionen von zwei unabhängigen Threads entgegennehmen können. Dieses Dual-Thread-Design ist größer als ein Single-Core, aber deutlich kleiner als ein typischer Dual-Core mit redundanten Komponenten. In der Theorie geht AMD davon aus, dass dieses Design schneller als ein Single-SMT-Core (Hyper Threaded) arbeiten kann, aber langsamer als ein "echter" Dual-Core ist. Gegenüber einem normalen Dual-Core lassen sich aber 12 Prozent Die-Fläche einsparen.
Ein Prozessor muss aber nicht nur aus einem dieser Module bestehen, sondern es können bis zu vier Bulldozer-Module zusammengesetzt werden. Im Resultat ergeben sich Prozessoren mit zwei bis acht der neuen Kerne. Jeder dieser Kerne wird dem OS als logischer Prozessor angezeigt, ähnlich wie es auch bei Intels HyperThreading-Technologie der Fall ist. Eine CPU, die aus vier Bulldozer-Modulen besteht, wird also als ein 8-Kern-Prozessor im Windows Task Manager auftauchen. AMD will mit dieser Idee einen guten Kompromiss zwischen einem Single-Core mit SMT (HyperThreading), der eben eigentlich ein Single-Core ist, und einem Dual-Core, der oftmals unnötig viele Ressourcen brachliegen lässt, gefunden haben. Mit der Einführung des AMD Phenom hatten viele bereits mit starken Änderungen in der Architektur gerechnet, doch AMD blieb dem K8-Design treu, und so konnte Intel in der Performance pro Takt immer weiter davon ziehen. Mit Bulldozer soll nun das Design erscheinen, auf das AMD-Nutzer schon etwas länger gewartet haben.
Taucht man etwas tiefer in die Mikro-Architektur eines Bulldozer-Moduls ein, werden Gemeinsamkeiten mit Intels Westmere sichtbar. So ist das Modul wie beim Phenom zwar bei einem 64 kB L1-Cache des Instruction-Fetcher geblieben, dieser gibt Anweisungen aus zwei Threads aber an vier Decoder weiter und nicht mehr an nur drei. Aus dieser Decoder-Engine werden die Daten dann an drei unabhängige Scheduler weitergegeben: zwei Integer- und ein Shared-Floating-Point-Core. Jeder Integer-Core besitzt zwei AGU- und ALU-Engines. Während vielen ALU ein Begriff ist, sorgt AGU noch immer für Fragezeichen: AGU steht für "Adress Generation Unit". Dabei handelt es sich um eine Art Integer-Recheneinheit, welche sich um die Generierung von Speicheradressen sowie um das Lesen und Speichern kümmert. Dem Integer-Core stehen 16 kB L1-Cache zur Verfügung.
Neben den bereits bestehenden SIMD-Befehlssätzen und AES kennt Bulldozer nun auch die AVX-Instruktionen sowie XOP und FMA4. Allerdings ist die Unterstützung von FMA4 von Intel ungewiss, weshalb hier unklar ist, ob die Funktionen in der Masse eingesetzt werden.
Der Cache ist nach Threads aufgeteilt, sodass der Shared-Floating-Point-Core entscheiden kann, auf welchen Teil des Caches er zurückgreifen muss. Innerhalb des Shared-Floating-Point-Core befinden sich dann jeweils zwei 128 Bit FMAC- und 128 Bit Packed-Integer-Pipelines, die dafür sorgen, dass der Shared-Floating-Point-Core auf zwei Threads gleichzeitig arbeiten kann. Wie Intels kommende Sandy-Bridge-Prozessoren unterstützt AMDs Bulldozer-Modul SSE-Instructions-Sets bis zur Version 4.2 und ebenfalls Intels AVX-Instruktionen. 256-Bit-AVX-Operationen werden durch zwei 128-Bit-FMAC-Units ausgeführt. Jedes Bulldozer-Modul verfügt über seinen eigenen L2-Cache, den sich der Integer- und die zwei Shared-Floating-Point-Cores teilen.
Das komplette Die mit vier Bulldozer-Modulen besitzt eine Gesamtgröße von 315 mm² und insgesamt 2 Milliarden Transistoren:
Beim Kern sind zum einen die großen L2-Caches zu sehen (oberhalb
eines Bulldozer-Moduls), zum anderen auch die gemeinsamen L3-Caches,
die sich in der Mitte befinden.
Alle Bulldozer-Module können unabhängig voneinander getaktet und mit der nötigen Spannung versorgt werden. So kann ein Bulldozer-Modul nun auch komplett abgeschaltet werden und verbraucht im Idle-Modus nicht einmal mehr Strom. Die dann eingesparte Leistung kann in anderen Modulen zusätzlich verbraucht werden. Intel macht dies in seiner Turbo-Boost-Technologie nicht viel anders. Da Takt und möglicher maximaler Verbrauch aber auf Ebene des Modules bestimmt werden und nicht auf Core-Ebene, sind doch entscheidende Unterschiede zu Intel vorhanden – AMDs Lösung könnte deutlich effizienter arbeiten als die Core-Turbo-Technologie von Intel. Im Unterschied dazu kommunizieren die Module nun nicht nur mehr über ein Taktsignal, sondern auch bezüglich der anliegenden Spannung miteinander. Weitere Details dazu sind auf der nächsten Seite zu finden.
AMD setzt für Bulldozer den 32-nm-Prozess von Globalfoundries mit Silicon-on-Insulator-Technik ein.
Turbo-Core im Detail
Intel hat mit Turbo Boost bereits vor einiger Zeit eine ähnliche Technologie für seine Prozessoren eingeführt. Grundsätzlich geht es darum, den gegebenen (Takt)-Spielraum eines Prozessors zu nutzen, wenn er nicht an seiner thermischen Leistungsgrenze arbeitet, aber dennoch durch technische Beschränkungen limitiert wird. Die thermische Leistungsgrenze wird durch den maximalen Verbrauch bestimmt - die Thermal Design Power (TDP). Bei AMD wird ein Testverfahren angewendet, welches jeden Transistor des Prozessors belastet, und somit kann die TDP bestimmt werden. Daraus errechnet AMD dann auch den maximalen Takt, den der Prozessor unter diesen Bedingungen fahren kann. In der Praxis allerdings wird dieser Zustand selten bis gar nicht erreicht. Kaum eine Anwendung schafft es einen Prozessor derart auszulasten. Dennoch muss AMD den konservativen Weg gehen, sozusagen ein Worst-Case-Szenario einhalten.
Um aber auch realistischere Wert zu den Prozessoren nennen zu können, führte AMD die Average CPU Power (ACP) ein. Die TDP spiegelt also den maximalen Stromverbrauch des Prozessors wider, die ACP in der Praxis aufzufindenden Belastungen. Die ACP errechnet sich dabei aus einer Belastung von 100 Prozent im Server-Bereich. Dies unterscheidet sich auf den ersten Blick nicht (könnte man annehmen) vom Szenario für die TDP, wo jeder Transistor belastet wird. Nimmt man sich allerdings ein Beispiel zur Hand, sind die Unterschiede zwischen TDP und ACP enorm. Für den Opteron 2376 gibt AMD eine TDP von 115 Watt an. Die ACP liegt allerdings bei nur 75 Watt. Immerhin 40 Watt bzw. 35 Prozent liegen also zwischen diesen Szenarien. Der 12-Kern-Prozessor Opteron 6174 wird von AMD mit einer TDP von ebenfalls 115 Watt bemessen, die ACP liegt bei 80 Watt. Zwischen den beiden Werten liegen nur noch 30 Prozent Unterschied. Der Grund hierfür ist CoolSpeed, eine Technologie, die AMD mit den neuen Opteron-Prozessoren einführte, um ACP und TDP näher zusammenzuführen. Man nutzt die Lücke zwischen ACP und TDP, um dem Prozessor etwas mehr Takt zu geben. Sollte er zu dicht an die TDP herankommen, wird der Takt wieder reduziert. Mit den mageren 5 Prozent zwischen der klassischen Methode und CoolSpeed wollte sich AMD allerdings nicht zufriedengeben und so führt man mit den Bulldozer Prozessoren die Turbo Core Technologie ein.
Turbo Core geht also noch einige Schritte weiter wie CoolSpeed und taktet den Prozessor so hoch, wie die TDP es maximal zulässt. Sollte der Prozessor zu dicht an die TDP herankommen, wird wieder eine Stufe heruntergetaktet, sodass die Spezifikationen eingehalten werden. In einem Diagramm ist das Prinzip sehr schön dargestellt.
Die Scorpius-Platform
Zwar spricht AMD hin und wieder von einer AM3-Kompatibilität im Zusammenhang mit Bulldozer. Dies darf jedoch nicht falsch verstanden werden: Für Bulldozer wird der AM3+-Sockel benötigt. Bisherige AM3-Prozessoren werden auf diesen Sockel passen, umgekehrt allerdings wird es nicht möglich sein einen AM3+-Prozessor auf ein aktuelles AM3-Mainboard zu setzen. Die Unterschiede in der Chipsatz-Generation fallen aber minimal aus.
Die Feature-Liste von AMDs 990FX, 990X und 970 sowie der dazugehörigen Southbridges unterscheidet sich nur in einigen Details von der älteren Chipsatz-Serie. Die High-End-Version 990FX stellt maximal bis zu vier PCI-Express-x16-Slots zur Verfügung. In dieser Ausbaustufe ist jeder Slot mit 8 PCI-Express-Lanes angebunden. Werden nur zwei Slots bestückt, liegen an diesen natürlich die vollen 16 Lanes an. Zusätzlich stehen noch ein x4- und bis zu sechs x1-Slots zur Verfügung.
Die beiden kleineren Varianten 990X und 970 bieten wie die aktuelle Generation auch nur noch einen PCI-Express-x16-Steckplatz, der aber beim 990X in zwei x8-Slots aufgeteilt werden kann. Zusätzlich sollen dann noch sechs x1-Slots bereitgestellt werden. Die beiden Modelle der Southbridge SB950 und SB920 stellen die restlichen Features zur Verfügung. Dazu gehören auch weitere PCI-Express-Lanes sowie PCI-Steckplätze, aber natürlich auch bis zu 14 USB-2.0-Ports und 6x SATA 6 Gbit/s.
Leistung: Theoretische Tests
Leistung: Games
Die CPU Modelle
• AMD FX-Series FX-4100, 4x 3.60GHz (B2 Stepping)
TDP: 95W • Fertigung: 32nm • L2-Cache: 4x 1MB • L3-Cache: 8MB shared
AMD Processors•AMD FX-Series FX-6100, 6x 3.30GHz (B2 Stepping)
TDP: 95W • Fertigung: 32nm • L2-Cache: 6x 1MB • L3-Cache: 8MB shared
AMD Processors•AMD FX-Series FX-8120, 8x 3.10GHz (B2 Stepping)
TDP: 125W • Fertigung: 32nm • L2-Cache: 8x 1MB • L3-Cache: 8MB shared
AMD Processors•AMD FX-Series FX-8150, 8x 3.60GHz (B2 Stepping)
TDP: 125W • Fertigung: 32nm • L2-Cache: 8x 1MB • L3-Cache: 8MB shared
AMD Processors
"Ghz Rekord" Bulldozer auf 8,43 GHz übertaktet
Maximum Speed | AMD FX Sets a Guinness World Record | Game Blog
Offizielle FX CPU Tests
Hardwareluxx - Test: Bulldozer - AMD FX-8150
FX Test Computerbase
Test: Bulldozer FX-8150 - Gelungenes Comeback für AMD? Update mit Umfragen - cpu, amd, bulldozer
AMD Bulldozer FX im ausfhrlichen Test - Die Pferdchen lahmen - HT4U.net
AMD FX-8150 im Test: Der Bulldozer rückt an : AMD bereitet uns auf die Bulldozer-Performance vor
AMD FX 8150 Bulldozer im Test bei GameStar.de
Test: AMD Bulldozer FX-8150 - TweakPC
AMD FX - Top oder Flop? (Teil 1) - Prozessoren - Planet 3DNow! Forum
Zuletzt bearbeitet: