mr.dude
Urgestein
- Mitglied seit
- 12.04.2006
- Beiträge
- 6.420
Ich sehe das anders. Scheinbar ist VLIW deshalb problematisch, da du nahezu alles auf Software-/Compiler-Level optimieren musst. Gut möglich, dass das in Zukunft, auch im Hinblick auf Fusion, einfach zu statisch und zu komplex wird. So wie ich die neue Architektur verstehe, will man mehr Dynamik reinbringen. Also die Architektur selbst soll schon teilweise für eine optimierte Datenverarbeitung sorgen. Man kann es ein bisschen mit In-Order und OoO Prozessoren vergleichen. Gut möglich, dass man dadurch etwas an theoretischer Performance pro mm² bei gleicher Fertigungsstruktur verliert. Aber da ist man der Konkurrenz momentan eh haushoch im Vorteil und mit 28 nm lässt sich da sicherlich auch genug gegenüber den aktuellen Modellen kompensieren.Komischer Schritt muss ich sagen... In den 4D/5D Einheiten steckt extrem viel potential. Die Leistung pro Fläche einer Einheit ist im Vergleich zu NV deutlich höher...
Und Auslastungstechnisch sollte es (laut Aussage von AMD aus HD5000er Zeit) auch nicht so extrem das Problem sein...
Ich frage mich, warum dieser Schritt?
Bei NVs Karten sieht man steigende Ineffizienz in Sachen ALU Anzahl zu absolute Leistung mit jeder neuen Generation. Das war bei den AMDs bis dato nicht wirklich der Fall.
Mit diesem Schritt verliert AMD aber auf jedenfall die Teils enormen Vorsprünge in gewissen GPGPU Bereichen ein...
Bisher ist es so, dass man mittels VLIW, also mehrere Operationen in einem Befehlspaket, einen Vektor von 4 ALUs bedient. Bei der neuen Architektur wird man 16-wide Vektor-ALUs nutzen, also 4 mal so viele Daten in einem Rutsch, dafür aber einzelne Operationen. Dh, die Abarbeitung der Operationen wird weniger komplex, dafür steigt die Parallelität. Das sieht sehr nach einem "Vektormonster" aus. Also nicht wirklich vergleichbar mit nVidia und deren skalaren CUDA Kernen. Ich denke auch nicht, dass man mit der neuen Architektur solche Probleme wie nVidia bekommt mit grossen und stromhungrigen Chips. Mich erinnert das mehr an Larrabee, der ja ebenfalls auf 16-wide Vektor-ALUs setzte. Nur bei AMD ist es glücklicherweise kein x86, was für solche Architekturen einfach nicht geeignet ist.
Noch ein Detail am Rande, der theoretische Durchsatz pro Compute Unit ist der gleiche wie bei den bisherigen SIMD Engines pro Takt. Es muss also nicht bedeuten, dass man bestimmte Vorzüge bei GPGPU verliert. Die spannende Frage ist, wie viele dieser Compute Units kann man auf einem Chip unterbringen und mit welchen Taktraten laufen diese. Cayman hat 24 SIMD Engines bei knapp 900 MHz.
Zuletzt bearbeitet: