[FAQ] AMD Phenom oder Intel Core i7

Status
Für weitere Antworten geschlossen.
Moin Moin. Auch wenn das mit dem Threadtitel nicht viel zutun hat (ich will mich in die Diskusion nicht wirklich einmischen ;)) - mal kurz was zum Thema Threads und SMT.

Wir haben doch grundsätzlich zwei Möglichkeiten:

a) es können mehr als 4 logische CPUs ausgelastet werden - dann ist HT von Vorteil
b) es können (incl. Treiber und OS-Last) höchstens 4 Threads ausgelastet werden - dann KANN SMT von Nachteil sein

Der Nachteil im Fall b) ergibt sich daraus, dass sich der Workload ungleichmäßig auf die Kerne verteilt und sich auf einem Kern Threads Ressourcen teilen, während ein anderer garnicht ausgelastet ist.

Die Lösung ist aber ganz einfach, indem man die spiel.exe auf je eine logische CPU der Kerne bindet. Das richtet man ein mal ein und fertig. Dann bringt HT wieder Vorteile, da der Taskscheduler andere Lasten verteilen kann, ohne der spiel.exe Ressourcen zu klauen.
Ja stimmt, das mit den Pinnen der Threads ist ne feine Sache, gibt auch ein fertiges Tool dazu (Link & Namen hab ich leider vergessen).
Laut Gerüchten soll Win7 auch selbst so schlau sein, und ersteinmal die Threads gleichmäßig auf die "echten" Kerne verteilen, bevor es einen Kern per HTh doppelt belegt.
Mal schauen, was das am Ende bringt.
Mit dem Cache hat das alles nur bedingt zutun. Der L8 des i7 ist so schnell, dass der kleine L2 gegenüber anderen Architekturen nicht nachteilig ist.
Was meinst Du mit L8 ? :xmas:
L2 oder L3 ?
Gibt ein paar Marketingfolien von Intel, dass der L2 so suuper schnell sei und das dehalb nichts ausmachen würde, aber das ist nicht mehr als das was es ist .. Marketing.
Irgendwie muss man ja versuchen den Leuten den Witz L2 zu verkaufen, der plötzlich nur noch 1/12 der alten Größe (pro Kern) hat.

Der kleine L2 ist einfach eine Effekt der Designentscheidung weiterhin inklusiv Caches zu verbauen. Da ist dann nicht mehr drin, da sonst der Verschnitt des L3 zu groß werden würde.
Die inklusive Cache Entscheidung kam aufgrund der eindeutigen Serverausrichtung zustande. Intel spart sich da ne Menge coherent Traffic. Da die Daten im L3 vorliegen, muss nicht der L2 abgefragt werden. In ner Multiprozessorumgebung ein Vorteil.

Aber auch bei AMD gibts eine Lösung für das Dilemma: Snoopfilter. Die hat AMD seit 2005 auf der Roadmap, und nun kommen die endlich im Istanbul 6 Kern ... Zeit wirds.

Das ein kleinere L2 Cache dann schneller angebunden werden kann, ist nur ein "Abfallprodukt". Viel ist es ausserdem eh nicht, so 9-10 Takte, der alte 6MB L2 war bei 13-14 Takten.

Frohe Ostern

Alex
 
Zuletzt bearbeitet:
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Hehe, meine den L3... Die 8 kam dann wohl von den 8 MB ;)

Wenn man einen L3 hat, dessen Latenz unter 5 ns liegt und der fast 30 GB/s liefern kann, dann macht es einfach keinen Sinn einen größeren L2 zu verbauen. Man würde die L2 Hitrate vielleicht um 10% steigern, dafür aber alle L2 Zugriffe deutlich ausbremsen. Das macht vielleicht Sinn, wenn die nächste Stufe gleich der elend langsame RAM ist aber nicht wenn man noch eine weitere sehr schnelle Cache Stufe hat.

Es ist ja nicht so, dass die eine Cache-Größe und deren Latenz zufällig auswählen. Es gibt Simulationstools mit deren Hilfe die optimale Konfiguration aus Größe und Latenz im Kontext des gesamten Memory-Systems ermittelt wird und die Performance gibt Intel ja recht.
 
Zuletzt bearbeitet:
Hehe, meine den L3... Die 8 kam dann wohl von den 8 MB ;)

Wenn man einen L3 hat, dessen Latenz unter 5 ns liegt und der fast 30 GB/s liefern kann, dann macht es einfach keinen Sinn einen größeren L2 zu verbauen. Man würde die L2 Hitrate vielleicht um 10% steigern, dafür aber alle L2 Zugriffe deutlich ausbremsen. Das macht vielleicht Sinn, wenn die nächste Stufe gleich der elend langsame RAM ist aber nicht wenn man noch eine weitere sehr schnelle Cache Stufe hat.

Es ist ja nicht so, dass die eine Cache-Größe und deren Latenz zufällig auswählen. Es gibt Simulationstools mit deren Hilfe die optimale Konfiguration aus Größe und Latenz im Kontext des gesamten Memory-Systems ermittelt wird und die Performance gibt Intel ja recht.
Aso, der L3.
Naja, also toll finde ich den auch nicht. Der hat irgendwo ne Zugriffszeit von 30-40 Takten, Weltbewegend ist das nicht. Je nach dem ist das 2-4x langsamer als der alte L2 Cache, dazu streiten sich auch noch 8 Threads um das Teil.

Für einen Desktopchip wäre viel & schneller L2 nachwievor besser, dabei wird auch die RAM Latenz geringer. Aber L3 hat im Serverbereich seinen Sinn.

AMD bringt z.B. nicht ohne Grund Propus und Regor ohne L3 :)

ciao

Alex
 
AMDs L3 ist auch um Welten langsamer ;) Der große und schnelle L3 des i7 wiegt den kleineren L2 vollständig auf, bei gleichem Takt ist der i7 auch in Spielen oder anderen Anwendungen, die gut auf Cache ansprechen, nicht langsamer - meist sogar leicht bis deutlich schneller :)

Btw, die angeblich geringen FPS im GPU Limit zeigen nur einzelne Tests, die Große Masse sieht hier - auch mit einer Nvidia-GPU - keine Unterschiede:

http://www.computerbase.de/artikel/..._ii_x4_805_810/22/#abschnitt_race_driver_grid

Und sobald die GPU nicht mehr limitiert:

http://www.computerbase.de/artikel/...ii_x4_805_810/25/#abschnitt_company_of_heroes
 
Zuletzt bearbeitet:
@madjim Fakt ist dass es dem Phenom II als X3 und X4 gibt. Der X3 tritt gegen Intels Dual Cores an. Leute die generel sich einen Quad kaufen, wollen etwas für die "Zukunft", auch heute profitieren schon einige Games von mehr als 2 Kernen. Werden 3 bzw. 4 Kerne benutzt (und das ist die Zukunft), sieht ein Dual Core kein Land mehr. Hier ein Link:
http://www.pcgameshardware.com/aid,...reviewed-Phenom-with-DDR3-RAM/Reviews/?page=3

Man bedenke dass der E8600 238 € kostet, der X3 720 BE 120€, also 100% teurer ist. Lassen wird das Thema OC hier einfach weg, denn beide CPU´s haben Luft nach oben, das wissen wir.
In diesen Benchmarktest sieht man genau, gegen wem der Phenom II platziert ist. Nämlich Phenom II X3 Vs Dual Core E8400 - E8600, und Phenom II 940 BE gegen Q9950.
Intels Dual Core kommt gegen X4 nicht an, nicht wenn Multicore unterstützt wird. Brauchst deine Meinung von vorher auch nicht schön zu reden...nur wenn man einen Dual Core schon hat, braucht man keinen Phenom II. Denn nach deiner Meinung nach, braucht man wohl auch keinen Q9950 :wall:
Sorry, für mich bist du beides: unwissend + Fanboy :wink:
 
Zuletzt bearbeitet:
AMDs L3 ist auch um Welten langsamer ;) Der große und schnelle L3 des i7 wiegt den kleineren L2 vollständig auf, bei gleichem Takt ist der i7 auch in Spielen oder anderen Anwendungen, die gut auf Cache ansprechen, nicht langsamer - meist sogar leicht bis deutlich schneller :)

Btw, die angeblich geringen FPS im GPU Limit zeigen nur einzelne Tests, die Große Masse sieht hier - auch mit einer Nvidia-GPU - keine Unterschiede:

http://www.computerbase.de/artikel/..._ii_x4_805_810/22/#abschnitt_race_driver_grid

Und sobald die GPU nicht mehr limitiert:

http://www.computerbase.de/artikel/...ii_x4_805_810/25/#abschnitt_company_of_heroes

CoH?
Sehr aussagekräftiges Spiel. :stupid: :hmm:
Es ist bekannt, welcher Hersteller da den Entwicklern "großzügig" bei der Optimierung geholfen hat.
 
Aso, der L3.
Naja, also toll finde ich den auch nicht. Der hat irgendwo ne Zugriffszeit von 30-40 Takten, Weltbewegend ist das nicht. Je nach dem ist das 2-4x langsamer als der alte L2 Cache, dazu streiten sich auch noch 8 Threads um das Teil.

Für einen Desktopchip wäre viel & schneller L2 nachwievor besser, dabei wird auch die RAM Latenz geringer. Aber L3 hat im Serverbereich seinen Sinn.

AMD bringt z.B. nicht ohne Grund Propus und Regor ohne L3 :)

ciao

Alex

Mit AMD ist die Situation nicht vergleichbar. AMD nutzt eine andere Cache-Strategie.

Die Latenz-Takte sind nicht allein entscheidend. Da spielt auch Prefetching eine Rolle u.s.w.. Gemessen ist die Latenz des i7 L3 kaum schlechter als die des L2 anderer CPUs. In Sachen Bandbreite sogar ebenbürtig.

Das Cache-Konzept ist alles in allem sehr leistungsfähig und bisher hat sich nicht eine Anwendung finden lassen, die eine Schwäche aufdeckt. Wenn der Cache der CPU ausgeht, bringt das üblicherweise einen Performanceeinbruch, der sich gewaschen hat.

Schade, dass es keine (einfachen) Tools gibt, mit denen man die Counter für L2/L3 Hitrate beim i7 auslesen kann.
 
@Amando
Ich bin ganz deiner Meinung :wink:. Nur ich hatte keine Lust mehr mich mit unwissende zu streiten über deren pauschale falschen Aussagen.
 
Mit AMD ist die Situation nicht vergleichbar. AMD nutzt eine andere Cache-Strategie.
Ist in dem Fall doch egal, die Strategie ändert nichts an der Latenz. Bisschen was an der Größe, aber weltbewegend ist das auch nicht.
Die Latenz-Takte sind nicht allein entscheidend. Da spielt auch Prefetching eine Rolle u.s.w.. Gemessen ist die Latenz des i7 L3 kaum schlechter als die des L2 anderer CPUs. In Sachen Bandbreite sogar ebenbürtig.
Ja Prefetching ... das verfälscht Dir so gut wie jede Messung :)
Du widerlegst Dich also quasi selbst :xmas:
Die Leute bei xbitlabs haben da ewig rumgemessen, bis sie eine Möglichkeit gefunden hatte die Latzen des K10 zu messen. Ich warte noch auf einen entsprechenden Artikel für den i7.

Bandbreite ist eine Sache ... wieviel bit hat der Intel L3 denn ?
Die andre Sache ist, wann ein Kern / Thread da zugreifen darf. Da gibts Restriktionen, bei AMD gehts das nach 08/15 RoundRobin, kA wie Intel das handhabt, aber alle 8 Threads werden da kaum gleichzeitig im L3 Rumfuhrwerken dürfen -> Verschlechterung der Zugriffszeit im worst case :)

Das Cache-Konzept ist alles in allem sehr leistungsfähig und bisher hat sich nicht eine Anwendung finden lassen, die eine Schwäche aufdeckt. Wenn der Cache der CPU ausgeht, bringt das üblicherweise einen Performanceeinbruch, der sich gewaschen hat.
Jupp, schlecht ist es nicht, aber für Desktops CPUs bräuchte es keinen L3, egal welche Cache Strategie :)
Zum Performanceeinbruch .. hmm naja so krass ist es nicht. Wenn man z.B. die 65 und 45nm K10 vergleicht, dann macht sich der größere L3 schon bemerkbar. Andersherum wär es aber übertrieben da von einen starken Performanceeinbruch der alten 65nm Modelle zu sprechen.

Ähnlich bei Intels 2,3, 6MB L2 Modellen. Da besteht logischerweise schon ein Unterschied. Stark einbrechen tun aber erst die Celeron Modelle mit weniger als 1MB L2. Deswegen ist mir der i7 L2 so unsympatisch ... schau Dir mal die Celeron Ergebnisse an, grausig.

Vorteil hat der i7 durch die (viel) größere Assoziativität, selbige ist bei den kleinen S775 Celerons auch lächerlich, das kostet (viel) Leistung. Aber der kleinste hat immerhin noch 512kB, nicht 256kB, außerdem wird der L2 nur von einem einzigen Thread beansprucht.
Also da steht ein Thread meiner Meinung nach schon öfters still, als bei den alten Core2, da er auf Daten aus langsameren Quellen (L3/RAM) warten muss. Lustigerweise bedeutet das im i7 Fall aber nur, dass dadurch der zweite Thread mehr Platz hat, Hyperthreading quasi (noch) mehr bringt :fresse:
Alles in allem legitime Designentscheidungen, der Nehalem ist nunmal als mehrthreadiger Serverprozessor entworfen worden ;-)
Aber der Traumdesktopprozessor ist er nicht :)

Schade, dass es keine (einfachen) Tools gibt, mit denen man die Counter für L2/L3 Hitrate beim i7 auslesen kann.
Jo und unter AMD/Intel kann man dann auch nicht vergleichen, da die entsprechenden Programme was andres zählen :fresse:

Naja mal schauen, wie das Performanceplus der 32nm Modelle ausfällt, angeblich bekommen die ja 512kB L2 und 12MB L3. Wahrscheinlich gibts aber auch wieder andre Finetuningmaßnahmen, sodas man dann doch wieder nicht schlauer wird, was die Cache Auslastung anbelangt :asthanos:

ciao

Alex
 
Zuletzt bearbeitet:
Haha ich lach mich tot w0mbat :haha:

Woher hast sowas denn bitte ?

Kleines Beispiel: Company of Heroes was ich sehr viel spiele. P2@4GHz gegen i7@ 4GHz mit der gleichen Grafikkarte min. fps 30 vs 65 fps. von den max. fps wollen wir gar nicht reden.


Der i7 hat brachial viel Rohleistung.


In Games hat der I7 meistens das nachsehen. Klar es gibt ausnahmen aber in vielen Games schlägt der X3 den X4 und den I7.
Woher ich es weis. Es gibt viele Tests im Netz und ich habe beide Systeme und kann es daher sagen.
Klar GTA IV oder CoH ist der I7 vorne, aber sonst. Selbst bei Far Cry 2 das auch eine Konsolen Portierung ist, ist der Phenom vorne.
 
Ist in dem Fall doch egal, die Strategie ändert nichts an der Latenz. Bisschen was an der Größe, aber weltbewegend ist das auch nicht.

Mit Strategie meine ich die gesamte Anordnung von L1 bis RAM und da unterscheiden sich Phenom II und i7 grundlegend. Latenzen sind da nur ein kleiner Baustein.

Da stellen sich Fragen wie:

- Verteilung der Hitrates (Größe, Assoziativität, Algorithmen)
- inclusive oder exclusive
- shared oder nicht
- prefetching

etc.

Ja Prefetching ... das verfälscht Dir so gut wie jede Messung :)
Du widerlegst Dich also quasi selbst :xmas:
Die Leute bei xbitlabs haben da ewig rumgemessen, bis sie eine Möglichkeit gefunden hatte die Latzen des K10 zu messen. Ich warte noch auf einen entsprechenden Artikel für den i7.

Warum etwas belangloses messen?

Die Cache-Algorithmen sind Bestandteil der Cache-Strategie. Werden diese künstlich ausgehebelt, erhalte ich eine für die Praxis irrelevante Messung mit bestenfalls technischem Unterhaltungswert.

Entscheidend ist, was hinten raus kommt. Und das sind nicht mal 5ns beim L3 des i7.

Bandbreite ist eine Sache ... wieviel bit hat der Intel L3 denn ?
Die andre Sache ist, wann ein Kern / Thread da zugreifen darf. Da gibts Restriktionen, bei AMD gehts das nach 08/15 RoundRobin, kA wie Intel das handhabt, aber alle 8 Threads werden da kaum gleichzeitig im L3 Rumfuhrwerken dürfen -> Verschlechterung der Zugriffszeit im worst case :)

Etwas über 30 GB bei 1600er Speicher. Wenn mann langsameren RAM einsetzt (die Uncore-Taktrate ist dann niedriger) entsprechend etwas niedriger.

Jupp, schlecht ist es nicht, aber für Desktops CPUs bräuchte es keinen L3, egal welche Cache Strategie :)
Zum Performanceeinbruch .. hmm naja so krass ist es nicht. Wenn man z.B. die 65 und 45nm K10 vergleicht, dann macht sich der größere L3 schon bemerkbar. Andersherum wär es aber übertrieben da von einen starken Performanceeinbruch der alten 65nm Modelle zu sprechen.

Ähnlich bei Intels 2,3, 6MB L2 Modellen. Da besteht logischerweise schon ein Unterschied. Stark einbrechen tun aber erst die Celeron Modelle mit weniger als 1MB L2. Deswegen ist mir der i7 L2 so unsympatisch ... schau Dir mal die Celeron Ergebnisse an, grausig.

Genau das ist doch der Punkt. Beim Celeron ist der Cache zu klein, das meinte ich mit Performanceeinbruch.

Du kannst nicht einfach sagen es braucht keinen L3. Ohne L3 wäre der i7 nicht funktionsfähig bzw. extrem langsam. Das Design setzt den L3 voraus und benötigt deshalb keinen größeren L2.

Vorteil hat der i7 durch die (viel) größere Assoziativität, selbige ist bei den kleinen S775 Celerons auch lächerlich, das kostet (viel) Leistung. Aber der kleinste hat immerhin noch 512kB, nicht 256kB, außerdem wird der L2 nur von einem einzigen Thread beansprucht.
Also da steht ein Thread meiner Meinung nach schon öfters still, als bei den alten Core2, da er auf Daten aus langsameren Quellen (L3/RAM) warten muss. Lustigerweise bedeutet das im i7 Fall aber nur, dass dadurch der zweite Thread mehr Platz hat, Hyperthreading quasi (noch) mehr bringt :fresse:
Alles in allem legitime Designentscheidungen, der Nehalem ist nunmal als mehrthreadiger Serverprozessor entworfen worden ;-)
Aber der Traumdesktopprozessor ist er nicht :)

SMT hat den Sinn Latenzen zu verstecken. Da sind wir uns ja einig :)

Warum sollen - wenn nur ein Thread läuft - die Ausführungseinheiten des i7 öfter still stehen als beim C2D? Das sie genau das nicht tun, zeigen ja die Benchmarks!

Mal zur Theorie (extremst vereinfacht, nur um den Zusammenhang zwischen Hitrate und Latenz zu verdeutlichen):

Gehen wir von 100 Zugriffen aus, die der L1 nicht bedienen kann.

CPU A: L2 Hitrate 92%, Latenz 14 Takte

92 Zugriffe x 14 Takte = 1288 Takte Stillstand
+ 8 Miss
8 Zugriffe x 200 Takte (RAM) = 1600 Takte Stillstand
= 2888 Takte Leerlauf der Ausführungseinheit

CPU B: L2 Hitrate 84%, Latenz 10 Takte; L3 Hitrate 94%, Latenz 50 Takte

84 Zugriffe x 10 Takte = 840 Takte Stillstand
+ 10 Miss
10 Zugriffe x 50 Takte (L3) = 500 Takte Stillstand
+ 6 Miss
6 Zugriffe x 200 Takte (RAM) = 1200 Takte Stillstand
= 2540 Takte Leerlauf der Ausführungseinheiten

Wie man sieht, ist die Architektur mit L3 im Vorteil. Und dabei habe ich jeweils die gleiche RAM-Latenz berücksichtigt und den L3 langsamer gemacht, als er in der Praxis ist.

Jo und unter AMD/Intel kann man dann auch nicht vergleichen, da die entsprechenden Programme was andres zählen :fresse:

Naja mal schauen, wie das Performanceplus der 32nm Modelle ausfällt, angeblich bekommen die ja 512kB L2 und 12MB L3. Wahrscheinlich gibts aber auch wieder andre Finetuningmaßnahmen, sodas man dann doch wieder nicht schlauer wird, was die Cache Auslastung anbelangt :asthanos:

ciao

Alex

Mir gehts auch weniger um den Vergleich als um das reine Interesse an den Hitrates :)
 
Zuletzt bearbeitet:
Mit Strategie meine ich die gesamte Anordnung von L1 bis RAM und da unterscheiden sich Phenom II und i7 grundlegend. Latenzen sind da nur ein kleiner Baustein.
(Aufzählliste...)
Ich glaub wir reden aneinander vorbei. Ich sehe Latenzen als Resultat. Du anscheinend als Input fürs Cachedesign.
Kann man machen, aber egal wieviel Punkte Du aufzählst gilt:
Je mehr Cachestufen, desto höher die Latenz.
Intel interessierte die aber für eine Server CPU herzlich wenig, da gibts wichtigere Punkte, z.B. Datenaustausch, Koherenzprotokolle etc.

Warum etwas belangloses messen?
Ja das frag ich mich auch, nur sehen wir das anders. Für mich sind die "5 ns" Benches belanglos. Prefetcher helfen nur bei regelmäßigen Zugriffen, hüpft Dir ein Thread kreuz und quer durch den Speicher, bremsen die nur.
Schau mal bei spec.org vorbei, und les das Kleingedruckte diverser Core2 Duo Tests, da steht oft dabei:
Hardware Prefetch = Disable, Adjacent Sector Prefetch = Disable
Die Compiler sind dann aber mit Prefetch konfiguriert ... die wissen halt was genau für Daten angefordert werden, sogut kann ein Hardware Prefetcher gar nicht sein :)
Die Cache-Algorithmen sind Bestandteil der Cache-Strategie. Werden diese künstlich ausgehebelt, erhalte ich eine für die Praxis irrelevante Messung mit bestenfalls technischem Unterhaltungswert.
Das ist der Punkt, an der unsre Meinung auseinandergeht, ich würde schreiben:
Werden sie ausgehebelt, dann bekommt man praxisrelevante Werte wie sie bei multithreaded Software unter Vollast häufig auftreten. Ansonsten erhalte ich nur synthetische Maximalwerte unter Idealbedingungen. Hat nen gewissen Unterhaltungswert, mehr aber nicht :)

Entscheidend ist, was hinten raus kommt. Und das sind nicht mal 5ns beim L3 des i7.
Jo, im rosaroten Bestcase :asthanos:

Etwas über 30 GB bei 1600er Speicher. Wenn mann langsameren RAM einsetzt (die Uncore-Taktrate ist dann niedriger) entsprechend etwas niedriger.
Ja ne, ich meine die Bitbreite, wieviel "Leitungen" verlegt sind, nicht das Ergebnis :)

Genau das ist doch der Punkt. Beim Celeron ist der Cache zu klein, das meinte ich mit Performanceeinbruch.
Alles klar, ich dachte Du meinst noch Schlimmeres ;-)

Du kannst nicht einfach sagen es braucht keinen L3. Ohne L3 wäre der i7 nicht funktionsfähig bzw. extrem langsam. Das Design setzt den L3 voraus und benötigt deshalb keinen größeren L2.
Wieso sollte ein i7 mit z.B. 4x2 MB L2 extrem langsam sein :hmm:
Ich behaupte mal frech, dass sowas mit der alten C2D Latenz von 13-14 Takten schneller als 8 MB L3 wäre :)
Nur 256kB L2 wären witzlos, das ist klar. Sag ich doch die ganze Zeit, dass das zuwenig ist ^^

Warum sollen - wenn nur ein Thread läuft - die Ausführungseinheiten des i7 öfter still stehen als beim C2D? Das sie genau das nicht tun, zeigen ja die Benchmarks!
Jo klar, die Benchmarks :)
CPU A: L2 Hitrate 92%, Latenz 14 Takte

92 Zugriffe x 14 Takte = 1288 Takte Stillstand
+ 8 Miss
8 Zugriffe x 200 Takte (RAM) = 1600 Takte Stillstand
= 2888 Takte Leerlauf der Ausführungseinheit

CPU B: L2 Hitrate 84%, Latenz 10 Takte; L3 Hitrate 94%, Latenz 50 Takte

84 Zugriffe x 10 Takte = 840 Takte Stillstand
+ 10 Miss
10 Zugriffe x 50 Takte (L3) = 500 Takte Stillstand
+ 6 Miss
6 Zugriffe x 200 Takte (RAM) = 1200 Takte Stillstand
= 2540 Takte Leerlauf der Ausführungseinheiten

Wie man sieht, ist die Architektur mit L3 im Vorteil. Und dabei habe ich jeweils die gleiche RAM-Latenz berücksichtigt und den L3 langsamer gemacht, als er in der Praxis ist.
Ich nehme an, das Beispiel gilt für einen single Thread, richtig ?
Zwei Sachen:
a) Die Hit Raten für den L2 zu niedrig, zumindest wenn man einen C2D mit 6MB L2 ansetzt, effektiv hat der i7 nur 7MB L3 (das andre geht fürs L2 spiegeln drauf. Deren Hit Rate ist nicht wirklich bahnbrechend unterschiedlich). Das liegt irgendwo bei 98 vs. 99%, oder noch schlimmer.

b) Stichwort Praxis ... wo hast Du Deine Daten her ? Ich behaupte jetzt mal, dass die Hitrate des 256kB Caches viiel schlechter ist, v.a. wenn man 2 Threads hätte (Stichwort: Cache Thrashing) :)

Wenn Du das irgendwie belegen kannst glaub ich Dir gerne, ansonsten hats nicht viel Aussagekraft.
Nicht das ich mehr Beweise hätte, aber solange Du nichts Belastbares bringst, gibts keinen Grund meine aktuelle Meinung zu ändern :)

ciao

Alex
 
Zuletzt bearbeitet:
Da sich der TE nicht mehr meldet, schließe ich (vorerst) diesen Thread, der Te hat genug Beispiele bekommen, außerdem ist google auch sehr nützlich.

 
Status
Für weitere Antworten geschlossen.
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh