Jo, da passiert viel, was das Ganze behindert, I$/D$ Miss, Branches, zu lange Befehle (Intel hat nur einen 16byte Fetch, da passen oft nicht mehr als 3 Ops rein, v.a. bei x64, mit AVX wirds wieder besser, aber das hat erstmal ja keine Auswirkung), etc. pp.@Opteron: 4 Dekoder bei 20% Auslastung heißt pro Takt nicht mal einen Befehl. ???
Auf die Schnelle muss der P6 herhalten:
Im Mittel 0,87 Instr/Takt (Seite 2, Mitte links)
http://web.njit.edu/~jhu/ece690/Lectures/Lec06_I_Dyn_Examples_h6.pdf
Kann jetzt gerne höher sein, aber recht viel mehr als um 1-1,5 ist man auch heute nicht. Die 3-4 Dekoder braucht man nur, wenns mal richtig flutscht.
Auf Dein Argument des Energiesparens durch Nutzen des µOp Caches bei Sandy und Abschalten des Decoders, kann man das auch anders herum sehen: Bulldozer brächte das nicht, da die Decoder ja mit 2 Threads gut beschäftigt sind. Aber trotzdem ist sowas ist auch aus anderen Gründen ganz brauchbar.
Zuletzt bearbeitet: