Programm: Perfwatch

Mischaaa

Neuling
Thread Starter
Mitglied seit
23.01.2007
Beiträge
52
Hallo Forum,

habe hier kaum etwas zu diesem interessanten Proggi "Perfwatch" gefunden. In der war mal davon die Rede. Es zeigt den Netto-Durchsatz der CPUs, also nicht die Wartetzeiten, die auf Hauptspeicherzugriffe gehen usw.

http://www.withopf.com/tools/perfwatch/

Interessant ist dies bei Berechnungen wie Videobearbeitung, Pi berechnen etc.; hier zeigt sich, dass der Prozessor so gut wie gar nicht ausgelastet ist, im Windows XP Taskmanager sehr wohl. Da mein System C2D 3200 MHz mit DDR-2 800 Dual Channel schnell genug ist und der Speicher eigentlich für die CPUs reichen sollte, mehr als das, frage ich mich, ob das normal ist, Verbesserungsmöglichkeiten in Betracht kommen oder das Programm spinnt?

Verglichen mit anderen Ergebnissen aus dem Netz, wird auf meinem Rechner PI in einer recht guten Zeit berechnet, die CPUs laufen aber auf "Sparflamme", im Taskmanager steht aber unter Verwendung diverser Programme 100%. Die RAMs bringen aber auch ihre Geschwindigkeit :hmm:

Vielleicht vertue ich mich ganz und freue mich auf Anregungen.


Greetz
Mischa
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Ich denke, daß diese Software für einen C2D veraltet bzw nicht optimiert ist. Zeigt bei mit totalen Unsinn an: Dualprime 24.14 soll 36% von 100% CPU Last haben :haha: Wenn ich zusätzlich RC5 distributed.net Client laufen lasse steigt sie erst auf 50% :hmm:
 
Ja und? Sind doch realistische Werte.

Der C2D kann theoretisch 4 Instruktionen pro Tqakt verarbeiten. In der bitteren Wirklichkeit schafft er 1-2. Das Maximum was ich aus dem C2D mit einem hochoptimierten Programm rausholen konnte waren 3,5 IPC. Der Prescott schafft nur 2,5 IPC.

Windows zeigt 100% Auslastung an, sobald der Prozessor vollständig mit einer Aufgabe belastet wird. Wieviel tatsächlich intern verarbeitet werden kann steht auf einem anderen Blatt.
 
X909 - sehr interessant. 4 Instruktionen/Takt kann ich bestätigen. Was lernen wir aus den Ergebnissen des Programms? Sicher kann man nix optimieren... wahrs. ist das Werkzeug eher für Programmierer interessant, die alles aus ihren Programmen holen wollen.
 
Kannst Dir ja auch mal PerfMonitor von http://www.cpuid.com laden. Der zeigt genau an was die CPU macht. Leider kann beim C2D nicht alles ausgelesen werden. Ich finds immer sehr interessant wenn man mal weiß, welches Programm SSE/FPU/X86 nutzt, wie gut die Branch Prediction arbeitet etc.

P.S. Theoretisch könnte der C2D sogar etwas mehr als 4 IPC, wegen de´r MicroOp-Fusion oder wie die das nennen. Ändert aber nix daran, dass der reelle Wert aufgrund v. Abhängigkeiten und Speicherlatenzen viel geringer ist.
 
danke!

für mich heißt das nur, dass der Prozessor, von mir ja recht nett hochgetrieben, kaum ausgelastet ist, wenn's nach Perfwatch geht, und die ganzen Speichereinstellungen optimiert werden müssen...?! Oder wo sollte man verbessern? Wahrs. werden es auch die RAMS sein, da die momentan "nur" auf 800 MHz (intern) laufen und der FSB 1600 immerhin ist.
 
Das ist aber sehr ernüchternd, wie schlecht die meisten Progs auf C2D optimiert sind. Vor allem schockiert mich PRIME. Dualprime, eine Instanz pro Kern: lt Perfmon lastet den C2D nur zu 37% aus! Da ist der viel ältere distributed.net RC5 Integer-only client mit 57% viel effizienter... Wollte es erstmal nicht glauben, doch ein spezielles C2D Auslastungsprogramm zeigte über 80% aus und Temp stieg um über 6°C an gegenüber Dualprime!

wäre echt interessant mal zu den unterschied zu testen mit DDR1066 ram vs DDR400 ram zB bei 7x400 mit dualprime und perfwatch, meiner kann nur 800 (MDT)
 
Zuletzt bearbeitet:
Da könnt ihr mit dem Speicher machen was ihr wollt ;) Selbst ein L2 Cachezugriff führt zum Stillstehen der Ausführungseinheiten für über 10 Takte.

Wenn auf den RAM zugegriffen werden muss, wartet die CPU teilweise über 100 Takte. Ob aus den 120 Wartezyklen mit DDR800 nun 110 Wartezyklen mit DDR1066 werden.... ;)

Im Vergeich zu den internen Registern des Prozessors ist der RAM so extrem viel langsamer, da würden 10 GHz DRAM-Takt nicht reichen.

Dazu kommt noch, dass nicht alle Programme parallel abgearbeitet werden können.

Bsp:
Befehl 1: addiere wert1 mit wert2 = wert3
Befehl 2: multipliziere wert1 mit wert3 = wert4
Befehl 3: addiere wert4 mit wert2 = wert5

Theoretisch kann der C2D das alles gleichzeitig in einem Takt (der Prescott übrigens auch). Praktisch müssen aber alle Befehle der Reihe nach abgearbeitet werden, da man die vorherigen Ergebnisse benötigt. Der Prozessor kann also intern nicht voll ausgelastet werden.

Bei SuperPI ist es auch schlimm. Das lastet den Pentium 4 so schlecht aus, dass kaum noch Leistung übrig bleibt.
Hinzugefügter Post:
Mess doch bitte mal mit PerfMonitor die IPC-Rate bei TAT nach. Bei mir läufts ja leider nicht.
 
Zuletzt bearbeitet:
TAT lastet zu 99 % aus - die Core-Temp steigt auch um 4-7 Grad mehr an als bei Dual Prime

Dual Prime lastet nur zu 36-39% aus

Super Pi lastet nur 10-12% aus

@X909: Dem C2D bringen ja auch keine besseren Timings was, schnellerer RAM wird auch nicht viel bringen, also brauche ich (wir) da gar nichts groß zu optimieren? Ich denke mir, dass das bisschen mehr an RAM-Geschw. sich nicht lohnt und nur paar Prozentchen mehr Auslastung bringt, wenn überhaupt.

Die Berechnung PIs geht mit meinem C2D recht gut, die CPU hat aber "nur" 2MB Cache, das dürfte die Bremse sein (eine von vielen). Der Weg geht also wohl doch wieder, dem auch Intel wieder verfallen ist, in eine Anhebung der GHz'.

Greetz
Mischa
Hinzugefügter Post:
Edit: Ach ja, was bringt denn eigentlich dann Prime? Gut, mir reicht es, wenn die CPU den lieben langen Tag gut arbeiten, aber wenn Prime die CPU doch gar nicht auslastet? Kommt es hierbei auf die Rechengenauigkeit in Abhängigkeit der Zeit an?
 
Zuletzt bearbeitet:
Naja, Prime lastet schon gut aus. Mehr als 50% wirst Du auch mit keinem "echten" Programm erreichen (TAT mal aussen vor). Daher ist Prime schon o.k., wenn auch keine 100%ige Stabilitätsgarantie.

HyperThreading setzt ja genau da an. Bringt auch einiges, teilweise bis zu 30% wenn ein Thread den Prozessor intern nicht auslasten kann.
 

Ähnliche Themen

Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh