[Sammelthread] AMD Bulldozer - Next Generation new CPU Architecture - Sammelthread

Athlon-64 · 26.05.2010

schoko schrieb:
lol das ist dem endverbraucher sowas von egal wie "groß" die die-size ist... soll intel doch größer bauen..

was musst du ihn zitieren, ein typischer Beitrag halt, er versucht mit irgendwelcher herumrechnerei AMD irgenwie schlechtzureden - wie du ja schon geschrieben hast die DIE große rein gar nix mit der Leistung zu tun - bei den Grakas käme ja auch keiner auf die Idee zu sagen die GTX480 ist so schlecht weil sie pro Quadratmillimeter weniger Leistung als eine 5870 hat - ka warum das ein(ige) user bei cpus ständig machen

das einzige worauf die DIE Größe einfluss hat sind die Kosten bei der Fertigung da weniger Chips auf den Wafer passen - aber auch das hat keinerlei Einfluss auf die Leistung

mfg

Limit64 · 26.05.2010

mr.dude schrieb:
Bulldozer

10-20%+ IPC
80%+ CMT
höhere Taktraten als K10.5

Sandy Bridge

5-10% IPC
5% SMT
Taktraten vergleichbar mit Westmere

Undertaker 1 schrieb:
Hey cool, dann schieß ich auch mal los :

Bulldozer

5-10% IPC
60% CMT
gleiche Taktraten wie Thuban

Sandy Bridge

15-20%+ IPC
15%+ SMT
Taktraten deutlich über Westmere

Ich denke es sollte klar sein, dass sich die Wahrheit irgendwo dazwischen abspielt. Und klar sein sollte auch: Momentan fehlen dem schnellsten K10.5 gut und gerne 60% auf den schnellsten Westmere in gut parallelisierten Szenarien. Es wird mehr als einen Generationssprung kosten, einen solchen Rückstand wett zu machen. Schon eine deutliche Annäherung wäre ein sehr, sehr großer Erfolg, sowohl für das Image als auch wirtschaftlich.

Bei euren beiden Einschätzungen würde ich dann doch stark zu mr.dudes Variante tendieren. Zu möglichen IPC-Verbesserungen möchte ich nicht viel sagen, da dass sehr auf Feinheiten ankommt und deswegen schwer einzuschätzen ist, allerdings sollte allein das verbesserte Frontend beim AMD mehr als 5-10% bringen, da das bei bisher allen Athlons und Phenoms ein Flaschenhals darstellte und bei BD deutlich erweitert werden soll.

Zu CMT hab ich ja bereits gesagt, dass im Falle von Integer Ops ein Modul die gleiche Leistung wie bisheriger Dual Core haben sollte und da bei "normalen" Programmen 90-95% der Befehle Int-Ops sind 80% Leistungs-Plus wahrscheinlicher als 60%.

Am eindeutigsten ist aber die Betrachtung der Taktrate, denn Sandy Bridge und Westmere benutzen die gleiche Fertigungstechnologie, so dass es sehr unwahrscheinlich ist, dass Intel noch sehr viel mehr rausquetschen wird. Bei BD hingegen wird es nicht nur eine Shrink um ein ganzes Node geben, sondern zusätzlich noch HKMG. Das zusammen könnte theoretisch reichen um die Taktfrequenz deutlich anzuheben und trotzdem die Spannung und den Stromverbrauch zu senken. Außerdem sei anzumerken, dass nach bisherigen Erkenntnissen ein BD-Modul mit 2 Kernen etwa die Größe eines Nehalem-Kerns haben wird. Wenn man also 4 BD-Module gegen 4 Nehalem-Kerne antreten lässt, sähe es für BD gut aus, selbst wenn IPC nicht besser als beim K10 wäre.

Zambezi · 26.05.2010

Sandy Bridge mit 8 Threads wird max. 30% schneller als ein Nehalem mit 8 Threads.

scheiss auf FMA AVX, Sandy wird nicht viel besser als ein Nehalem

Bei den Fertigungskosten hat AMD vorteile, ein BD Modul kostet nur 10% mehr als ein Single Core K10 45nm.

Athlon-64 · 26.05.2010

Zambezi schrieb:
Sandy Bridge mit 8 Threads wird max. 30% schneller als ein Nehalem mit 8 Threads.

Sandy Bridge wird aber auch im Desktopbereich mit 8Kernen, also 16 Threads kommen - und gegen den wird der BD antreten müssen - auch wenn der 8 Kern SB die 1000€ XE CPU ist

mfg

odes · 26.05.2010

Athlon-64 schrieb:
Sandy Bridge wird aber auch im Desktopbereich mit 8Kernen, also 16 Threads kommen - und gegen den wird der BD antreten müssen - auch wenn der 8 Kern SB die 1000€ XE CPU ist

mfg

findeste?

Athlon-64 · 26.05.2010

es ist zwar ziemlich ot aber ich poste es trotzdem

mfg

odes · 26.05.2010

Athlon-64 schrieb:
es ist zwar ziemlich ot aber ich poste es trotzdem

mfg

und nu?

meine meinung ist das man nur die echten kerne vergleichen kann, wobei für mich ein bd modul ein kern ist, also quad bd mit quad intel vergleichen
ich sehe es genau so ungern den 6kern amd mit nem intel quad zu vergleichen

zu den extrem editions sage ich jetzt mal nichts

Athlon-64 · 26.05.2010

odes schrieb:
und nu?

meine meinung ist das man nur die echten kerne vergleichen kann, wobei für mich ein bd modul ein kern ist, also quad bd mit quad intel vergleichen
ich sehe es genau so ungern den 6kern amd mit nem intel quad zu vergleichen

zu den extrem editions sage ich jetzt mal nichts

wiso?, entscheident ist nicht nur die Kernzahl - sodern auch der Preis - im bereich um die 300€ zB bietet AMD den 1090T, intel hat hier keinen 6-Kerner sondern nur den i7-860 mit 4+4SMT Kernen - also wiso sollte man die nicht vergleichen? - man möchte ja die Leistung wissen die man für 300€ bekommt - ob die leistung nun von 6 echten Kernen kommt oder von 4+4SMT ist für den Endanwender im Prinzip ja egal, was anderes ist es wenn man nur Technikintern vergleichen möchte - also 6 Kerne vs 6 Kerne - dann geht nur 1090T vs 980X - wobei man meiner Meinung nach auch bei so einem vergleich den Preis nie komplett ausblenden sollte - zumindest im FAzit

mfg

thom_cat · 26.05.2010

Athlon-64 schrieb:
wiso?, entscheident ist nicht nur die Kernzahl - sodern auch der Preis - im bereich um die 300€ zB bietet AMD den 1090T, intel hat hier keinen 6-Kerner sondern nur den i7-860 mit 4+4SMT Kernen - also wiso sollte man die nicht vergleichen? - man möchte ja die Leistung wissen die man für 300€ bekommt - ob die leistung nun von 6 echten Kernen kommt oder von 4+4SMT ist für den Endanwender im Prinzip ja egal, was anderes ist es wenn man nur Technikintern vergleichen möchte - also 6 Kerne vs 6 Kerne - dann geht nur 1090T vs 980X - wobei man meiner Meinung nach auch bei so einem vergleich den Preis nie komplett ausblenden sollte - zumindest im FAzit

mfg

dem stimme ich völlig zu.

aber ist doch sehr offtopic gerade.

Zambezi · 26.05.2010

Für Llano kommt einer neuer Socket von AMD, dieser hat mehr Pins, wenn AMD eine CPU ohne GPU baut, sind 6 Module vielleicht auch 8 Module auf einem DIE kein Problem und schon hätte man 12/16 Threads.

odes · 26.05.2010

Athlon-64 schrieb:
wiso?, entscheident ist nicht nur die Kernzahl - sodern auch der Preis - im bereich um die 300€ zB bietet AMD den 1090T, intel hat hier keinen 6-Kerner sondern nur den i7-860 mit 4+4SMT Kernen - also wiso sollte man die nicht vergleichen? - man möchte ja die Leistung wissen die man für 300€ bekommt - ob die leistung nun von 6 echten Kernen kommt oder von 4+4SMT ist für den Endanwender im Prinzip ja egal, was anderes ist es wenn man nur Technikintern vergleichen möchte - also 6 Kerne vs 6 Kerne - dann geht nur 1090T vs 980X - wobei man meiner Meinung nach auch bei so einem vergleich den Preis nie komplett ausblenden sollte - zumindest im FAzit

mfg

aber du schreibst auch das der bd sich mit dem 1k€ sb von intel messen müsste, das wiederspricht irrgendwie da ich bezweifle das das top modell des bd 1k kosten wird

Athlon-64 · 26.05.2010

odes schrieb:
aber du schreibst auch das der bd sich mit dem 1k€ sb von intel messen müsste, das wiederspricht irrgendwie da ich bezweifle das das top modell des bd 1k kosten wird

beim Technikvergleich sicher - ist ja jetzt auch nicht anders - wenn du einen 6 Kerner Vergleich machen möchtest musst du eine 300€ CPU mit einer 900€ CPU vergleichen - bei PL vergleich muss man erst sehn wie die einzelnen Next Gen CPUs preislich aufgestellt sind

mfg

Zambezi · 26.05.2010

Der AMD Athlon 64 FX hat damals zu P4 Zeiten auch ca. 800-1000 € gekostet, damals war AMD noch in den USA Marktführer

PitGST · 26.05.2010

@odes
Bilderqoutes wie bei #220 sind nicht erlaubt.

[HOT] · 26.05.2010

Wenn man SMT mit CMT vergleicht gibt es einen ganz entscheidenden Unterschied zwischen den beiden Techniken: SMT kann auch Nachteilig bei Workloads sein, die viele Synchronisationen erfordern, CMT nicht. CMT bringt immer Mehrleistung - im allerschlechtesten Falle steht da ne 0, während das SMT nicht zwingend so ist, das kann auch bremsen. Ich glaube das ist der springende Punkt, weshalb man diese Techniken eigentlich nicht vergleichen kann.

Undertaker 1 · 26.05.2010

Das ist inkorrekt. Mit passendem Scheduler - Windows 7 - und fehlerfreier Programmierung (d.h. z.B. keine Probleme mit so hohen Threadzahlen) kostet SMT nirgends Leistung. Schau dir z.B. den Clarkdale an, da hast du mit SMT überall Gewinne. In den Fällen, wo die Programmierung einen Strich durch die Rechnung macht, z.B. WoW mit fester Bindung einzelner Threads an bestimmte Kerne, würde auch CMT zu Leistungsverlusten führen, wenn Threads anstatt auf verschiedenen Modulen zu laufen an ein und dasselbe gebunden werden.

Limit64 · 26.05.2010

Undertaker 1 schrieb:
Das ist inkorrekt. Mit passendem Scheduler - Windows 7 - und fehlerfreier Programmierung (d.h. z.B. keine Probleme mit so hohen Threadzahlen) kostet SMT nirgends Leistung. Schau dir z.B. den Clarkdale an, da hast du mit SMT überall Gewinne. In den Fällen, wo die Programmierung einen Strich durch die Rechnung macht, z.B. WoW mit fester Bindung einzelner Threads an bestimmte Kerne, würde auch CMT zu Leistungsverlusten führen, wenn Threads anstatt auf verschiedenen Modulen zu laufen an ein und dasselbe gebunden werden.

Bei deinem WoW Beispiel wird CMT ganz sicher keine Leistungseinbußen verursachen. Wie alle Spiele besteht WoW zum aller größten Teil aus Int-Ops und die können sich bei SMT gegenseitig behindern, bei CMT dagegen nicht. Um bei CMT eine solches gegenseitiges Blockieren zu erreichen müsstest du 2 reine FP-Threads auf ein Modul schedulen. Mal von einigen rein wissenschaftlichen Programmen wirst du nur schwerlich etwas finden und selbst bei denen gibt es immer noch einen geringen Anteil an Int-Anweisungen.

Dieses grundsätzliche Problem von SMT kannst du nur "intelligente" Scheduler beheben, die nicht nur nach der Auslastung schauen, sondern auch die Art der Threads berücksichtigen. Aus eigener Erfahrung kann ich aber sagen, dass das gar nicht so einfach umzusetzen ist.

Undertaker 1 · 26.05.2010

Nicht so ganz.

Es halbiert sich z.B. auch die Menge bzw. die Zugriffsgeschwindigkeit des L2-Caches wenn dieser parallel von zwei Threads genutzt werden muss, was üblicherweise einige Prozent Leistung kostet - auch bei CMT braucht es somit Scheduler, die entsprechend schlau zunächst freie Module belasten, bevor CMT genutzt wird.
Wie erwähnt ist Problematik von Leistungsverlusten mit verschiedenen Multithreadtechniken unter Windows 7 praktisch gegessen. Was-wäre-wenn Theorien bzgl. schlechterer Scheduler sind damit eigentlich überflüssig.

mr.dude · 26.05.2010

schoko schrieb:
lol das ist dem endverbraucher sowas von egal wie "groß" die die-size ist... soll intel doch größer bauen..

Nicht nur das. Wobei zumindest der Hersteller trotzdem auf die Grösse achten muss aufgrund der Herstellungskosten. Die von dir zitierte Aussage hat aber auch sonst wenig mit der Realität zu tun. Hier die grössten Designs beider Hersteller im 45 nm Fertigungsverfahren:

AMD Magny-Cours = 2x 346 (692) mm²
Intel Beckton = 684 mm²

Wie man sieht, ist die Fläche nahezu identisch. Dabei ist Magny-Cours pro Sockel etwas schneller und braucht deutlich weniger Strom. Bezogen auf 45 nm hängt AMD rein technisch also keineswegs hinterher, wie der eine oder andere es immer wieder fälschlicherweise kolportieren will. Und wie gesagt, mit 32 nm sehe ich noch mehr Potenzial für AMD und was sie gegenüber ihren aktuellen Designs verbessern können.

Grummel schrieb:
Ich bin der Diskussion erst wieder beigetreten, als du Undertaker perönlich angegriffen hast, was mir negativ aufgefallen war.

Erstens ist dem nicht so. Es war eine rein pragmatische Feststellung, dass er hier nicht korrekte Aussagen kolportiert hat, zum wiederholten Male. Und darauf hinzuweisen bzw diese richtig zu stellen, darf ja wohl noch erlaubt sein. Das hat mit persönlichem Angriff rein gar nichts zu tun. Und zweitens, selbst wenn du das so auffassen solltest, war dein Verhalten unangebracht und falsch. Denn du hast tatsächlich persönlich attackiert, ohne jeglichen Bezug zum Thema. Wenn du der Meinung bist, Aussagen sind nicht den Forenregeln entsprechend, dann wende dich an die Mods oder nutze die Meldefunktion. Dafür sind sie schliesslich da.

odes schrieb:
meine meinung ist das man nur die echten kerne vergleichen kann, wobei für mich ein bd modul ein kern ist, also quad bd mit quad intel vergleichen

Ich denke, man sollte sich von strikter kernbezogener Denkweise lösen. Kerne sind sowieso schon lange nicht mehr ohne weiteres vergleichbar. Es gibt aussagekräftigere Metriken, wie:

- Anzahl der logischen Prozessoren / Threads
- Grösse der Transistorlogik
- Performance pro Watt

Die Vergleichssituation wird in 32 nm dann wieder überschaubarer als momentan. Wie du schon sagst, 4 Bulldozer Module gegen 4 Sandy Bridge Kerne wäre ein offensichtlicher Vergleich. Ähnliche Menge an Transistorlogik, 8 Threads. Die Frage wird sein, ob AMD auch 6 oder 8 Module für den Client Markt bringt, um etwas gegen die 6- bzw 8-Kern Westmere / Sandy Bridge CPUs zu stellen.

[HOT] schrieb:
Wenn man SMT mit CMT vergleicht gibt es einen ganz entscheidenden Unterschied zwischen den beiden Techniken: SMT kann auch Nachteilig bei Workloads sein, die viele Synchronisationen erfordern, CMT nicht.

Korrekt, Stichwort Cache Trashing oder Resource Competition. Selbst mit "intelligenten" Schedulern und spezieller SMT Optimierung lassen sich die teils negativen Performancegewinne von SMT nicht vollständig beheben. Genau hier setzt ja auch CMT an, mit separaten L1I Caches und EUs.

Limit64 · 27.05.2010

Undertaker 1 schrieb:
Nicht so ganz. Es halbiert sich z.B. auch die Menge bzw. die Zugriffsgeschwindigkeit des L2-Caches wenn dieser parallel von zwei Threads genutzt werden muss, was üblicherweise einige Prozent Leistung kostet - auch bei CMT braucht es somit Scheduler, die entsprechend schlau zunächst freie Module belasten, bevor CMT genutzt wird.
Wie erwähnt ist Problematik von Leistungsverlusten mit verschiedenen Multithreadtechniken unter Windows 7 praktisch gegessen. Was-wäre-wenn Theorien bzgl. schlechterer Scheduler sind damit eigentlich überflüssig.

Hmm, die Grundannahme war doch, dass wir Software benutzen, die hinreichend viele Threads unterstützt. In dem Fall steht jedem Thread in etwa gleich viel Cache zur Verfügung, egal wie diese verteilt wurden. Gleiches gilt für die Zugriffsgeschwindigkeit.

Wie würde deiner Meinung nach ein Szenario aussehen (von mir aus auch gern auf Win2k/XP), bei dem CMT Geschwindigkeitsnachteile ergeben würde?

Der Windows 7 Scheduler ist noch sehr weit davon entfernt SMT wirklich gut zu unterstützen, denn dazu fehlen ihm schlicht die notwendigen Informationen, nämlich die Infos um was für Threads es sich handelt. Ich hab mal einen experimentellen Patch für den Linux Scheduler geschrieben, der sowas berücksichtigt, aber ich kann mit großer Sicherheit sagen, dass der Windows Scheduler das nicht macht.

Undertaker 1 · 27.05.2010

Limit64 schrieb:
Hmm, die Grundannahme war doch, dass wir Software benutzen, die hinreichend viele Threads unterstützt. In dem Fall steht jedem Thread in etwa gleich viel Cache zur Verfügung, egal wie diese verteilt wurden. Gleiches gilt für die Zugriffsgeschwindigkeit.

OK, dann haben wir etwas aneinander vorbei geredet.

Nochmal zusammengefasst:

SMT oder CMT werden unter Windows 7 nie Leistung kosten, wenn zwei Bedingungen erfüllt sind:

Erstens, das Programm hat ersteinmal grundsätzlich kein Problem mit der hohen Anzahl logischer CPUs, die z.B. ein SMT-Quad besitzt - das ist z.B. in Armed Assault 2 der Fall, hat aber mit der Multithreadtechnik für sich rein gar nichts zu tun. Ein Clarkdale mit 2 Kernen + SMT legt hier durch SMT sogar an Leistung zu, während die 8 Threads eines Nehalem schlicht zuviel sind und etwas Leistung verloren geht - gleiches würde auch bei CMT passieren oder aber einer CPU mit physischen 8 Kernen.

Zweitens, dass Programm darf Threads nicht von vornherein fest an bestimmte logische Prozessoren binden. Das wird genau dann zum Problem, wenn ein Programm weniger Threads als physische Kerne auf der CPU vorhanden sind mitbringt, diese Threads zunächst aber unter Verwendung von SMT/CMT nur an wenige (physische) Kerne verteilt - über SMT brauchen wir nicht reden, klar, aber auch bei CMT würde hier ein gewisser Leistungsverlust auftreten: Beispielsweise würde jetzt der L2 Cache von
zwei Threads genutzt werden, die Zugriffslatenz würde sich für jeden Thread verdoppeln, die durchschnittlich zur Verfügung stehende Bandbreite sowie die Größe ggfls. halbieren. Das kostet zwangsläufig je nach spezifischer Anwendung mal mehr, mal weniger Leistung. Allerdings: Bis auf World of Warcraft in einer älteren Version kenne ich kein Programm, dass solchen Unfug macht.

Abseits dieser kaum (noch) relevanten Einschränkungen kosten SMT/CMT nirgends mehr Leistung. Bestes Beispiel: Der Clarkdale. Versuch auch mal nur eine einzige Anwendung zu finden, die hier durch SMT Leistung verlieren würde - mit ist keine bekannt.

mr.dude schrieb:
Selbst mit "intelligenten" Schedulern und spezieller SMT Optimierung lassen sich die teils negativen Performancegewinne von SMT nicht vollständig beheben.

Auch an dich die Aufforderung: Zeig doch auch mal nur einen einzigen Fall, in dem SMT auf einer Dualcore-CPU, also Clarkdale oder Arrandale, Leistung kostet. Das Nehalem/Lynnfield teilweise durch Programme, welche nicht sauber mit 8 Threads umgehen können, behindert werden, ist bekannt - aber hat nichts mit SMT zu tun, ich erwähnte es.

Ich gehe davon aus, dass du einen solchen Fall nicht finden wirst. Aber überzeuge uns vom Gegenteil.

[HOT] · 27.05.2010

Solange der Scheduler die Module vor den Kernen priorisiert kann CMT nicht einschränken, da CMT eigene Ressourcen pro Thread mitbringt. Will heißen, je mehr Threads laufen, desto mehr Ressourcen können belegt und genutzt werden. Das ist bei SMT nicht zwingend der Fall. Der Win7 Scheduler umgeht das Problem, solange weniger Threads als Kerne vorhanden sind. Wird die Grenze überschritten gelten bei Win7 genau die gleichen Einschränkungen wie für Vista und XP. Bei Software mit vielen Threads, die jeweils voneinander abhängig sind, wird der Performancegewinn u.U. negativ bei SMT.

Undertaker 1 · 27.05.2010

[HOT] schrieb:
Solange der Scheduler die Module vor den Kernen priorisiert kann CMT nicht einschränken, da CMT eigene Ressourcen pro Thread mitbringt.

Nicht vollständig, ich erwähnte den L2 Cache.

[HOT] schrieb:
Das ist bei SMT nicht zwingend der Fall. Der Win7 Scheduler umgeht das Problem, solange weniger Threads als Kerne vorhanden sind. Wird die Grenze überschritten gelten bei Win7 genau die gleichen Einschränkungen wie für Vista und XP. Bei Software mit vielen Threads, die jeweils voneinander abhängig sind, wird der Performancegewinn u.U. negativ bei SMT.

Genau das bezweifle ich aber. Beispiel Clarkdale, der in jedem ausreichend parallelisierten Programm Gewinne durch SMT verzeichnet. Ohne entsprechende Nutzung von >2 Threads steht, Windows 7 sei Dank, zumindest immer eine schwarze Null. Gegenbeispiele erwünscht, wer solche findet.

mr.dude · 27.05.2010

[HOT] schrieb:
Solange der Scheduler die Module vor den Kernen priorisiert kann CMT nicht einschränken, da CMT eigene Ressourcen pro Thread mitbringt. Will heißen, je mehr Threads laufen, desto mehr Ressourcen können belegt und genutzt werden.

Jup. Wobei ich davon ausgehe, bei einer entsprechenden Anzahl von Threads, selbst das von dir erwähnte "im allerschlechtesten Falle steht da ne 0" wird praktisch nie eintreten. Hier kommt dann Trace Cache bzw RRC ins Spiel, was deutlich den Druck von L1 und L2 nehmen wird. Also selbst ein shared L1D (?) oder shared L2 wird da nicht zum Flaschenhals.

[HOT] schrieb:
Das ist bei SMT nicht zwingend der Fall. Der Win7 Scheduler umgeht das Problem, solange weniger Threads als Kerne vorhanden sind. Wird die Grenze überschritten gelten bei Win7 genau die gleichen Einschränkungen wie für Vista und XP.

Vollkommen richtig. Und gerade der letztere Fall ist ja das eigentlich interessante. Wenn du eh nur wenige Threads auszulasten hast, brauchst du auch nicht unbedingt eine CPU mit 8, 12 oder noch mehr logischen Prozessoren.

Duplex · 27.05.2010

zuviel offtopic gepostet, wir brauchen noch ein Intel Sammelthread für 2011

mr.dude · 28.05.2010

Zambezi schrieb:
zum thema Sandy bridge, es ist ein nehalem/westmere mit nativer IGP + avx einheiten, ziemlich entäuschend bzw. nur ein Designupdate, es ist keine neue Architektur, im enddefekt 20-25% mehrleistung im Gesamtrating.

Nun ja, enttäuschend würde ich nicht sagen. Es war ja schon länger bekannt, dass Sandy Bridge nur ein Update wird. Und 20-25% wären dafür gar nicht mal so schlecht, zumindest bezogen auf die gleiche Anzahl von Kernen. Wobei ich eher meine Zweifel an 20-25% habe.
Aber stimmt schon, besonders prickelnd schaut es nicht aus. AMD hat schon einen leichten Technologievorsprung in 45 nm bis 4P (Magny-Cours vs Beckton). Und den könnte man mit Bulldozer noch deutlich ausbauen.

Duplex · 08.06.2010

schon bekannt aber bischen OT von GF
Globalfoundries update | AMD Message Board Posts

Duplex · 12.06.2010

einige neue Details

reza yazdani - Scheduling x86 dispatch windows

Hi,
We are in the process of adding a feature to GCC to take advantage of a new hardware feature in the latest AMD micro processor. This feature requires a certain mix, ordering and alignments in instruction sequences to obtain the expected hardware performance.

I am asking the community to review this high level implementation design and give me direction or advice.

The new hardware issues two windows of the size N bytes of instructions in every cycle. It goes into accelerate mode if the windows have the right combination of instructions or alignments. Our goal is to maximize the IPC by proper instruction scheduling and alignments.

Here is a summary of the most important requirements:

a) Maximum of N instructions per window.

b) An instruction may cross the first window.

c) Each window can have maximum of x memory loads and y memory stores .

d) The total number of immediate constants in the instructions of a window should not exceed k.

e) The first window must be aligned on 16 byte boundary.

f) A Window set terminates when a branch exists in a window.

g) The number of allowed prefixes varies for instructions.

h) A window set needs to be padded by prefixes in instructions or terminated by nops to ensure adherence to the rules.

Nimrais · 12.06.2010

Ähm ja sry... ich kann zwar ein bisschen English aber kann sich bitte jemand die Mühe machen um die Infos von Duplex auch für die Allgemeinheit verständlich zu machen?

CypressFX · 13.06.2010

Wieso sollte AMD AVX implementieren dürfen?

MFG

[Sammelthread] AMD Bulldozer - Next Generation new CPU Architecture - Sammelthread

Semiprofi

Enthusiast

Neuling

Semiprofi

Neuling

Semiprofi

Anhänge

Neuling

Semiprofi

Super Moderator

Neuling

Neuling

Semiprofi

Neuling

Legende

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Urgestein

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Urgestein

Urgestein

Urgestein

Urgestein

Urgestein

Enthusiast

Neuling

Ähnliche Themen