aja..danke fürs Gespräch...ich geh mich wieder lieber mit Downsampling ärgern....das sind ja keine Böhmischen Dörfer sondern ganze Landstriche...meine Herren
Gipsel säy
ich mach mal copy + paste
Nein, die Zahl habe ich schon genannt, als ich noch nicht wußte, wie die 4er VLIWs von Cayman aufgebaut sind. Das ist einfach abgeschätzt aus der Überlegung die gleiche ILP im Mittel auf einer 4fach skalaren im Vergleich zu einer 5fach skalaren Architektur auszuführen.
Die (inzwischen bekannten) Details der Organisation verkomplizieren das etwas, aber an meiner Einschätzung hat sich nichts geändert.
PS:
Bei VLIW4 können ein Teil der bisher nur von der t-Einheit ausgeführten Instruktionen auf allen 4 ausgeführt werden (bestimmte Konversionen/Rundungen). Die typischen transzendenten Operationen werden von x, y und z zusammen erledigt (ähnlich wie DP, es werden aber 3 ALUs kombiniert), w bleibt unbeteiligt und ist noch für andere Operationen verfügbar. Es ist also im Prinzip 3+1, allerdings 3*1/3 t (x,y,z) und noch w und nicht (x,y,z,t). 32Bit-Integer-Multiplikation belegt alle 4 Slots, dafür hat VLIW4 kompletten Support für 24Bit Integer (nur teilweise in Evergreens) in allen Slots. Bei DP ändert sich nicht viel bis auf die fehlende t-Einheit. Es sind immer noch 2 ADDs oder 1 FMA oder 1 MUL pro VLIW-Einheit. Also 1:4 bei MUL und FMA, 1:2 bei ADDs mit der weggefallenen Möglichkeit parallel zu DP noch in der t-Einheit SP zu rechnen (außer bei einem einzelnen DP-MADD).
Sagenhaft ..... ich hoffe nur das versteht wenigstens einer