Offizieller AMD Barcelona (K10) *Sammel- & Infothread*

Jo, Intel hat es mit einem 3GHz Harpertown geschafft, mit einem 2GHz K10 System und optimalen Verhältnissen bei beiden CPUs bei der FP Leistung gleichzuziehen. Exakt so siehts aus. Außer dem c't Test hab ich bisher keine aussagekräftige K10 Benches gesehen, weil die alle nur mit Intel Compiler mit CPUID durchgeführt wurden. Folglich sind 90% der Benches einfach fürn Arsch. Und warum Cinebench nichts aussagt, habe ich schon begründet. Es ist eine Sache der Optimierung. Kaum kam der Core2, wurde Cinebench 10 Released und zack war er richtig gut darin. Warum wohl? Cinebench hat eine Aussagekraft wie Sandra Synthetic, nämlich 0.
:lol:

ich kann nicht mehr...

Jetzt wo Intel die Nase vorn hat sind die Benches alle Intel optimiert, oder der Testrechner
hatte mehr Speicher, oder bei AMD war nen "bug"..

Sorry, langsam aber sicher ziehen die ganzen Ausreden nicht mehr ;)

Ausserdem hat nen 3Ghz Harpertown nen 2.5Ghz Barcelona lang gemacht :wink: (achja ich
vergaß, die Benchmarks waren bestimmt wieder Intel optimiert)
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Für sinnvolle Beiträge reichts wohl nicht?:stupid:

Was soll ich hierzu noch sagen? Von allen Richtungen kommt beschuss.
Sag bitte nicht das dich das wundert bei dem Müll den du hier teilweise ablässt?

Nochmal zu Cinebench. Cinebench geht defintiv stark auf die FP Leistung sowie dem Cache. Dazu zitiere ich mal Tecchannel:

Beim Render-Teset wird eine photorealistische 3D-Szene mit Hilfe des Cinema-4D-Raytracers berechnet. Die Szene enthält unter anderem Lichtquellen, Schatteneffekte sowie Multi-Level-Reflektionen. Bei dem FPU-lastigen Test spielt die Leistungsfähigkeit der Grafikkarte keine Rolle. Auch höhere Speicher- und FSB-Bandbreiten nutzen beim Rendering von CINEBENCH 10 wenig - der Test läuft überwiegend in den Cache-Stufen ab.
Wenn man das liest und bedenkt, dass der Barcelona einen großen L2 Cache hat, dazu noch einen Level 3 Cache geht man davon aus, dass der Barcelona da richtig was rausholen kann an Leistung. Bedenkt man dann noch, dass Cinebench die Floating Point Unit belastet, gerade dann müsste der K10 doch da richtig gut abschneiden?
Barcelona und großer Cache? Sind 512KB pro Kern groß? :stupid:


Ich habe mir den ganzen Tecchannel Test angeschaut und dort liegt fast überall Intel vorne.
Da liegt ein 3GHz Intel vor einem 2GHz K10, siehst du eigentlich noch klare Bilder?
 
Das ist hier ja schlimmer als im Fußballstadion. Es geht um den Barcelona. Dass man natürlich Vergleiche zur Konkurrenz anstellt ist auch in Ordnung. Jedoch übertreibt ihr es wieder mal. Also bitte zurück zum Thema und die Streitigkeiten beenden! ;)
 
Okay Mondrial, ich werde jetzt erst einmal nichts mehr dazu schreiben.

Wenn ich deine Beiträge lese, entsteht der Eindruck, dass du denkst ich versuche hier absichtlich Müll zu schreiben oder euch zu provozieren. Noch mehr entsteht der Eindruck, dass du denkst ich versuch AMD nur schlecht zu machen.

Das ist defintiv nicht so. Schau dir dazu auch mal Chrisch seinen Beitrag an.

Früher wurden übrigens auch K8 Prozzeoren mit 2,4 GHz mit einem Intel Prescott mit 3,4 GHz verglichen und der K8 war schneller. Taktrate ist mir bei Benchmarks egal :) Du weisst doch, es kommt auf die Architektur an.

Der Barcelona hat doch genug Cache? 4 x 512 KB L2 und 2 MB L3.. also 4 MB :)
 
Okay Mondrial, ich werde jetzt erst einmal nichts mehr dazu schreiben.

Wenn ich deine Beiträge lese, entsteht der Eindruck, dass du denkst ich versuche hier absichtlich Müll zu schreiben oder euch zu provozieren. Noch mehr entsteht der Eindruck, dass du denkst ich versuch AMD nur schlecht zu machen.

Das ist defintiv nicht so. Schau dir dazu auch mal Chrisch seinen Beitrag an.
Jeder hier kann erkennen das genau das Gegenteil der Fall ist ;)

Früher wurden übrigens auch K8 Prozzeoren mit 2,4 GHz mit einem Intel Prescott mit 3,4 GHz verglichen und der K8 war schneller. Taktrate ist mir bei Benchmarks egal :) Du weisst doch, es kommt auf die Architektur an.
Jo immer so wie du es brauchst ;)

Der Barcelona hat doch genug Cache? 4 x 512 KB L2 und 2 MB L3.. also 4 MB :)
Gegen 8 bzw. 12MB...du merkst echt gar nichts mehr oder?
 
Gegen 8 bzw. 12MB...du merkst echt gar nichts mehr oder?

Das ist ja mal eine Aussage.
Wenn ich dich richtig verstehe, hat der K10 Barcelona aus deiner Sicht zu Wenig Cache um mit den Intel Quadcores mithalten zu können?

Dann Frage ich mich, warum AMD dem K10 nicht mehr Cache gegönnt hat :)

Es kommt übrigens auch nicht nur auf die Menge des Caches an, sondern wie der Cache arbeitet.
 
Du zeigst immer wieder das du von deinem Gelaber selbst nichts verstehst :lol:

Ich empfehle dir echt mal c´t zu lesen, dann kannst du deinen vorgetäuschten Sachverstand vielleicht endlich mal mit Fakten untermauern.

Intel muss einen größeren Cache haben um die ineffizientere Speicheranbindung auszugleichen. Wenn ein Benchmark jetzt
fast nur im Cache abläuft hat natürlich der größere Cache einen Vorteil, mit Realworldanwendungen hat das aber nicht viel
zu tun(ich hoffe ich überfordere dich damit jetzt nicht).
 
Ja, die neue C't ist sehr empfehlenswert. Da kann man nämlich mal sehen was es ausmacht nen Intel-optimierten oder einen anderen Compiler zu verwenden. Mal davon abgesehen dass die 64bit-Schwäche der Core2D-Achitektur sehr detailliert beschrieben wird. :)
 
C't ist ja auch AMD_optimiert. :haha:

@ Stevens: Gebs lieber auf. Bringt nix. Lass die mal hier in ihren Glauben und bewahre den Frieden - ist besser so. Weißt doch: Der Klügere gibt nach. ;)

Ich frage mich eh was das alles soll. Das sind nur irgendwelche Prozis die bald eh wieder Geschichte sind und ihr macht hier einen Tanz als würde es um wer weiß was gehen. :wall:
 
@StevensDE
Anstatt mit CPUs würde ich dir empfehlen, dich mal mit der x86 Architektur selbst zu beschäftigen. Wie ich schon erwähnte, du scheinst nicht wirklich viel Ahnung von der Materie zu haben. FP ist nicht gleich FP.
Da wäre zum einen x87. Eine 80 Bit Pipeline für skalare Berechnungen. Maximal können also Double Extended Gleitkommazahlen verarbeitet werden. Diese Einheit gibt es schon ewig in der x86 Architektur und wird demzufolge weit gefächert verwendet. In SuperPi zum Beispiel.
Zum anderen ist da die SSE Pipeline, welche unabhängig von x87 arbeitet. Diese ist neuer und wurde für SIMD integriert. Es lassen sich damit aber logischerweise auch skalare Berechnungen durchführen. SSE kann x87 praktisch vollkommen ersetzen, zumindest fast. SSE kann maximal Double Gleitkommazahlen verarbeiten, 80 Bit fallen also weg. Spielt in der Praxis aber kaum eine Rolle. Single (32 Bit) und Double (64 Bit) Precision Gleitkommazahlen werden einfach am meisten verwendet. Grafik APIs wie OpenGL oder Direct3D, welche hauptsächlich bei Spielen verwendet werden, basieren z.B. auf 32 Bit Gleitkommazahlen.
Nun scheint es wohl so zu sein, dass Anwendungen wie Pov-Ray oder Cinebench auf x87 setzen. Ob die sich für SSE schlecht optimieren lassen, man dies aufgrund von Kompatibilität bisher hat sein lassen oder gar CPU abhängig optimiert, ist mir nicht bekannt. Insofern wäre ich mit einem Urteil diesbezüglich sehr vorsichtig. Spec ist da deutlich transparenter und spricht eine klare Sprache. Der K10 ist hier deutlich überlegen, sowohl dem Core 2 als auch dem Penryn. Zumindest was SSE FP betrifft. Ich kann dir als Intel Fanboy nicht vorschreiben, was du nun glauben willst oder nicht, du wirst dich früher oder später aber damit abfinden müssen.

Btw, nichts gegen den Test von tecchannel, aber wer von "Fließkommaberechnungen" und "Architekturfeinschliff wie Fast Radix-16 und Super Shuffle lassen der CPU Zahlenspiele noch einfacher von der Hand gehen" spricht, den kann ich nicht wirklich ernst nehmen. Das klingt einfach nach gewollt, aber nicht gekonnt. Haben die überhaupt auch nur ansatzweise eine Ahnung von dem was die da schreiben?
 
Also die sachlichte Tiefe und Agrumente der Core2-Avatar-Fraktion ist schon echt bemerkenswert :d.
 
@Mondrial
So langsam reicht es aber auch bei dir

Du zeigst immer wieder das du von deinem Gelaber selbst nichts verstehst

So etwas möchte ich nicht mehr lesen. Sachliche Kritik ist sicher von jedem erwünscht, so lange sie beim Thema bleibt. Also richte dich bitte danach.
 
Mei, nicht selten ist der Kritisierte selbst Schuld, dass es nicht nur "konstruktive" Kritik gibt. Aber eigentlich finde ich die Diskussion auch ganz interessant und informativ :d Zum Beispiel wird dass Compiler-Thema angesprochen, so erfahren das auch Leute die noch nix davon wussten. :bigok:
 
Zuletzt bearbeitet:
Dito.
Das mit der Compiler-Problematik war mir bisher auch gänzlich unbekannt. Gibt es denn von AMD auch eigene Compiler?
 
Bisher nicht. AMD hat nicht die Ressourcen dafür. Die werden beratende Spezialisten für andere Compilterhersteller bereitstellen, mehr nicht. Man wendet sich hier also an Fremdhersteller wie Portland, das GCC Projekt sowie Microsoft, wobei Microsoft nicht alle Erweiterungen unterstützt sondern Standardkost bietet.
Die meisten neuen (beta) 3.Hersteller-Compiler beherrschen übrigens schon SSE4a sowie SSE4.1.
 
Zuletzt bearbeitet:
Ich habe diesen Test schon 5 mal gepostet und ich weis nicht, wie oft ich diesen Test noch posten muss, bis Stevens erkennt, dass der k10 im FP-Bereich klar führt.

http://www.pcgameshardware.de/?article_id=614735

Da macht einen 2 Ghz k10 15% fpleistung als ein penryn mit 3 GHz.

Aber wahrscheinlich dauert es keine 2 Stunden, bis er wieder damit anfängt von einer Überlegenhei des penryn im PF zu labern.

Und dann muss ich ihm wieder erklären, warum seine Benches nicht aussagekräftig sind.

Sei es cinebench oder boinc oder irgendwas anderes Befehlssatz unabhäniges.

Und das mit dem compiler scheint viele auch nicht zu interessiern.

ich programmiere selbst c++ und nutze den gcc.
Und ich kann sagen, dass man einen deutlichen Unterschied zum visual c++ compilerschrott merkt.
 
Was ich bemerktenswert finde, ist die Taktskalierung in diesem Test:

Int-Base: ca. 100,9 %
Int-Peak: ca. 101,9 %

FP-Base: ca. 100,4 %
FP-Peak: ca. 100,6 %
 
Soweit ich gehört hab,soll der gcc, den man ja unter Linux auch standardmässig benutzt relativ "unparteiisch" sein,wenn man das so ausdrücken kann :d kann mir das einer der Leute mit Ahnung vom Thema bestätigen? :)
 
Soweit ich gehört hab,soll der gcc, den man ja unter Linux auch standardmässig benutzt relativ "unparteiisch" sein,wenn man das so ausdrücken kann :d kann mir das einer der Leute mit Ahnung vom Thema bestätigen? :)

Ja, der gcc hat auch keine besonderen Gründe einen Hesteller zu benachteiligen.

Mich würde der portland mal richtig interessieren.
kennt jmd. eine IDe mit api unterstützung für den portland.
 
Das sind nicht wirklich IDEs.

@F-kopp
Was meinst du mit API Unterstützung? Wenn es dir nur darum geht, mit welcher IDE du den Portland nutzen kannst, so sollte das mit Visual Studio und Code::Blocks kein Problem sein. Im Gegensatz zum Portland sind die sogar kostenlos. Bei Visual Studio zumindest die Express Editionen.

OK, bei dem ganzen FP Gelaber habe ich doch glatt Lust bekommen, mal ein bisschen mit dem K8 und Core 2 zu spielen. Hat zwar nix mit dem Barca zu tun, vielleicht findet der eine oder andere es trotzdem interessant. Und eventuell kann man für den K10 auch noch einiges ableiten.

Zum Testen stehen mir zwei Systeme zur Verfügung:

AMD Athlon 64 3500+ @2,4 GHz
2 GB DDR2 667
Win XP Pro SP2 32 Bit

Intel Core 2 Duo T5500 @1,66 GHz
1 GB DDR2 667
Win Vista Home Premium 32 Bit

Dazu habe ich eine kleine Anwendung geschrieben, die einen Vergleich zwischen x87 (skalar), SSE2 (skalar) und SSE2 (packed) macht. Packed heisst hier einfach vektorisiert. Es werden 1 Mrd. Durchläufe mit jeweils 16 Vektoradditionen und 4 Double Elementen pro Vektor durchgeführt. Wenn ich Lust habe, mache ich vllt. noch die anderen Grundrechenarten sowie Single Precision. Gemessen wird logischerweise die Zeit. Bandbreite oder Cache, jeweils die Vorteile von AMD und Intel, sollten hier praktisch keine Relevanz haben. Auch der RAM ist kaum von Bedeutung. Gemessen wird also der reine Durchsatz der Recheneinheiten. Lediglich diese und der Takt haben also Auswirkungen. Zum Einsatz kommt lediglich ein Kern. Als Compiler wird folgender verwendet:
g++.exe (GCC) 4.2.1-sjlj (mingw32-2)

So, hier die nackten Zahlen (weniger = besser):

Athlon 64 3500+ @2,4 GHz
Code:
x87 = 35934 msec
SSE (scalar) = 26529 msec
SSE (packed) = 26544 msec
Intel Core 2 Duo @1,66 Ghz
Code:
x87 = 38820 msec
SSE (scalar) = 38791 msec
SSE (packed) = 28996 msec
Der Test ist natürlich vollkommen theoretischer Natur und hat mit Real World Code nichts zu tun. Die Ergebnisse finde ich trotzdem sehr interessant.
Um sie besser vergleichen zu können, rechnen wir die Werte vom K8 mal taktbereinigt um. Ich wollte ihn zwar mittels Muliplikator und HT Takt runtertakten, das BIOS hat auch mitgespielt, unter Windows hat sich trotzdem wieder der originale Multiplikator eingestellt. Mal schauen, ob ich reale Ergebnisse noch nachliefern kann.

Wie auch immer, hier jedenfalls die (theoretischen) Werte vom Athlon 64 3500+ @1,66 GHz:
Code:
x87 = 51952 msec
SSE (scalar) = 38355 msec
SSE (packed) = 38376 msec
Vergleicht man diese Werte mit dem Core 2, ergeben sich für den K8 folgende Differenzen:
Code:
x87 = -33,8%
SSE (scalar) = +1,1%
SSE (packed) - -32,3%
Ohne dem ganzen aufgrund der erwähnten Punkte Allgemeingültigkeit zu attestieren, hier sieht man eigentlich auch das Problem für AMD und warum der Core 2 heller scheint als er wirklich ist, zumindest im FP Bereich. Entweder basieren Anwendungen auf skalaren FP Berechnungen, dann wird aufgrund der Abwärtskompatibilität x87 verwendet. Oder sie werden für SIMD optimiert (SSE packed). Genau hier liegen scheinbar die Stärken des Core 2 mit über 30% Vorsprung pro Takt. Würde man nun sämtliche x87 Altlast über Bord werfen, und für FP ausschliesslich SSE verwenden, egal ob skalar oder vektorisiert, sieht die Sache schon ganz anders aus. Hier liegt selbst der K8 auf Augenhöhe mit dem Core 2 und muss lediglich in SIMD optimierten Bereichen zurückstecken.

Schauen wir nun mal zum K10. Bei dem hat sich die SSE Pipeline ja verdoppelt, also theoretisch doppelte Leistung. Rechnen wir also den SIMD Leistungsfaktor vom K8 gegenüber dem Core 2, ca. 0.75, mal 2, ergibt das ca. 1.5. Genau die 50% Mehrleistung, die man auch beim specfp beobachten konnte. Ich denke daher, dass diese Ergebnisse durchaus richtig sind, und nicht rein auf die überlegene Bandbreite zurückzuführen ist, so wie von Intel Anhängern oftmals propagiert. Für AMD kann man also nur hoffen, dass x87 so schnell wie möglich aus der Softwareentwicklung verschwindet. Für x86-64 Systeme ist Abwärtskompatibilität sowieso kein Argument, SSE(1) und SSE2 ist da praktisch inklusive. Bei skalarer SSE FP Leistung sollte sogar noch mehr als 50% Vorsprung möglich sein, rein theoretisch.

Btw, wen es interessiert, dem kann ich gerne den Quellcode (C++) oder die Binary schicken.
 
Dito.
Das mit der Compiler-Problematik war mir bisher auch gänzlich unbekannt. Gibt es denn von AMD auch eigene Compiler?
Dazu hat, wie schon geschrieben wurde, AMD nicht die Ressourcen. Sie unterstützen allerdings die GCC Entwickler um zumindest einen Compiler zu haben der das Potential der CPUs voll ausnutzen können soll.
 
@mr.dude
Ich hab null Ahnung vom Programmieren, aber wann und wodurch sollte das x87 Dingens wegfallen bzw. warum (welche Abwärtskompatibilität stellt x87 sicher?). Hat das was mit 32-bit und 64-bit CPUs/OSen zu tun?
 
In x64 Code gibt es normalerweise keinen x87 Code mehr. Auch Windows x64 arbeitet ausschließlich auf SSE2 Basis.
 
@mr.dude
Ich hab null Ahnung vom Programmieren, aber wann und wodurch sollte das x87 Dingens wegfallen bzw. warum (welche Abwärtskompatibilität stellt x87 sicher?). Hat das was mit 32-bit und 64-bit CPUs/OSen zu tun?
Jein. Mit der CPU hat das was zu tun, mit dem OS nur indirekt.

Irgendwann in grauer Vorzeit hat Intel den 8086 Prozessor auf den Markt geworfen, dessen Architektur sich als x86 etabliert hat. Der konnte aber kein FP. Das hat man über einen externen Chip geregelt, den 8087. Daher auch x87. Später wurde der dann in die CPU integriert. Also alle CPUs seit dieser Zeit können FP Berechnungen über die x87 Einheit durchführen. Allerdings nur skalar, also schön eine Berechnung nach der anderen. Erst viel später kamen Vektoreinheiten hinzu (MMX, 3DNow, SSE). Diese können mehrere Berechnungen gleichzeitig durchführen. Du musst dir das ähnlich dem Multicore Konzept bei CPUs vorstellen, wo man mehrere Threads auf mehrere Kerne verteilen kann, um diese dann parallel abzuarbeiten. Durchgesetzt hat sich mittlerweile SSE. Aber nicht jede CPU beherrscht die Befehlssatzerweiterungen. Ein Athlon XP kann z.B. kein SSE2. Daher verzichten Softwareentwickler oftmals auf SSE, um Abwärtskompatibilität zu gewährleisten. Die Anwendung soll also auf möglichst vielen Rechnern laufen. Was bleibt für FP also übrig? 3DNow ist AMD spezifisch, damit können Intel CPUs nix anfangen. Fällt also weg. MMX ist rein Integer basiert. Bleibt daher nur noch x87.
Irgendwann hat AMD dann die 64 Bit Erweiterung für die x86 Architektur entwickelt. Auch bekannt als x86-64, oftmals nicht ganz korrekt als x64 bezeichnet. Intel hat diese dann ja notgedrungen übernommen. Diese 64 Bit Architektur hat bereits SSE und SSE2 integriert. Also _jede_ 64 Bit x86 CPU verfügt über den SSE und SSE2 Befehlssatz. Und damit lässt sich x87 praktisch vollkommen ersetzen, zumindest für Single und Double Precision Gleitkomma Berechnungen. D.h., wer sowieso ein 64 Bit Betriebssystem hat, hat logischerweise auch eine 64 Bit CPU. Und selbst die 32 Bit Betriebssysteme werden mittlerweile wohl überwiegend von 64 Bit CPUs befeuert. Für Entwickler gibt es also kaum noch einen Grund, auf SSE und SSE2 zu verzichten und x87 nicht zu Grabe zu tragen. SSE arbeitet einfach effektiver, ist schneller und kann universeller eingesetzt werden.
 
Zuletzt bearbeitet:
@mr.dude
Danke für die gute Erklärung! :bigok:
Also SSE & SSE2 Dingens sind für schnellen, nicht skalaren FP? Aber warum gibt es dann "scalar" und "packed" SSE, was ist da der Unterschied? In dem einen owned AMD Intel im anderen Intel AMD.
 
Interessant für meine Kaufentscheidung wäre mal, ob die Softwarehersteller angesichts dessen, dass nun in 60-89%(Je nach Land) der Desktopsystem ein AMD-Prozessor vrebaut ist, ihre software nun nicht mehr mit dem diskriminierenden Intelcompiler schreiben, sondern mit gcc oder portland.

Was brignt es mir, den Leistungstärkeren Prozessor zu kaufen, wenn es nie eine Anwendung geben wird(Ja ich ich weis, dass 5% der mehr mit gcc und portland compiled werden) , in der er seine Leistung ausspielen und immer langsamer arbeiten muss, als ein vergeichbar leistungschwächerer Penryn?!?!?

Und noch eine Frage:
Bei Chip wird ja häufig noch eine 64Bitversion angeboten.
Ist diese befehlssatzoptimiert?
SSE, SSE2(, SSE3 vllt. sogar) ..... etc??
 
Zuletzt bearbeitet:
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh