Das ist natürlich ein überzeugendes Argument.
Du solltest vielleicht selbst mal genauer hinschauen. Opteron vs. Penryn taktbereinigt 6 zu 3.
Ich habe fast das Gefühl, Intel hat den Artikel in Auftrag gegeben, um aufgrund von specfp mit dem Vorurteil aufzuräumen, der Opteron hätte eine deutlich bessere FP Leistung. Der Schuss ist total nach hinten losgegangen. Darüber kann auch Anandtechs geschöntes Fazit nicht hinwegtäuschen.
Jo, dabei ist bei Spec sogar ein ziemlich exotischer Benchmark(povray) dabei gewesen, der zum Teil mit x87 arbeitet(Ich weis nict genau, ob hier sse2(davon gehe ich aus) oder x87 verwendet wurde).
Dort überagt de Xeon so sehr, dass er das Ergebnis sogar noch ein wenig zu seinen Gunsten verzerrt.
xeon 2,66 Ghz: 63,3 & 60.1
barca 2,5 GHz: 86,3 & 80,6
leider nutzt povray weder vektoren, noch matrizen für sse2.
Der einzige binäre Vorgang der durchgeführt wird, ist eine Formatierung zwischen x87 und sse2.
Für Povray ist der einzige Vorteil von SSE2, dass auf zufällige xmm register zugegriffen werden kann, daher behandelt povray sse2 auch nur als etw. schnellere x87-FPU.
So wird lediglich der Divisor von single(32 Bit) zu double(64Bit) konvertiert, eine doubleprecision Division per DIVSD(skalare Funktion zum Dividieren) durchgeführt und das Ergebnis wieder von double zu single konvertiert.
Dadurch ereicht der k10/k8 eine Verschlechterung ggnüber x87.
Was vermieden wird, sind die Stärken des k10 und die Schwächen de C2D -> vektorielle Nutzung mit hohem Divisor.
Der Core2 bricht ab einem Divisor von 5 und höher enorm ein, was eine der wenigen Schwächen der SSE-Engine des Core2 ist.
Zum Vergleich:
Der Core2 braucht für die SSE2-Funktion DIVSD nur 18 und für x87-Funktion FDIV 38 Zyklen.
Die Konvertierung benötigt lediglich 4 Zyklen.
Also insg. 26(4+18+4) vs. 38 Zyklen.
In der Praxis spart der Core2 dadurch ca.
30% an Zyklen.
Beim K8 ist FDIV sogar schneller als beim Core2(~20 Zyklen) und damit ca. genauso schnell, wie DIVSD beim k8 (~20 Zyklen).
-> 36(8+20+8) vs. 20 Zyklen.
In der Praxis verliert der k8/k10 dadurch ca.
80% an Zyklen.
Ich halte Povray daher für einen sehr seltsamen SSE-Bench.
Die eig. Stärken(Verktorielle Nutzung etc...) werden verworfen und es dient allerhöchstens zur Kaschierung einiger Schwächer der x87-FPu bei ein paar Architekturen.