Also ich würde behaupten, das liegt nicht primär am Storage... Warum?
Der TE sagt, mit der alten Windows 7 Single CPU Kiste war es gefühlt schneller... Ich gehe stark davon aus, das sich in der alten Kiste entweder gar keine SSD befunden hatte oder eben diese SSD ebenso nur als Programmspeicher anstatt Arbeitstier genommen wurde.
Ergo ist die Grundvorraussetzung wohl ziemlich identisch. Was als Unterschied bleibt sind die SingleThread Performancewerte der CPUs jetzt gegen das alte System. Im Vergleich zu selbst nem alten Quadcore aus 2007 ist der Opteron SingleThread nicht schneller!
Kann das Opteron Board eigentlich SATA3? Könnte ggf. noch ein grottiger HDD Controller sein, der da werkelt... Also zumindest im Vergleich zu einem anständig performanden Intel Storage Controller aus dem Desktop Bereich.
Ansonsten denke ich liegt das schon an den CPU(s) zumindest ein Stück weit. Man merkt mangelnde ST Performance teilweise stark, vor allem, wenn womöglich zwar das reine Rechnen am Ende auf die Cores verteilt wird, aber wärend der Bearbeitungszeit idR nur ST gehändelt wird.
@Coburn, das lässt sich aber rellativ easy rausbekommen. Dreh im Taskmanager dein gerade aktiv laufendes Programm mal auf Core 1 und 3 fest. Wenn es gefühlt genau so läuft (subjektives Ansprechverhalten der Software), wird für das reine doing kein Multithreading verwendet. Läuft es gefühlt schlechter, wird MT verwendet. Ebenso lassen sich dann sogar anhand der Diagramme für Core 1 und 3 Rückschlüsse ziehen. Nämlich wenn immer bei bestimmten auszuführenden Aktionen die Last oben anschlägt ist das Ding klar SingleThread CPU Performance limitiert. Hast du keine Lastspitzen wärend der Arbeit, die oben anschlagen, dann liegts imho wohl auch nicht an der CPU
Das Studio hat mir folgendes geschrieben:
Nur so als Erklärung, grundsätzlich mag das schon stimmen... Aber!
Die Frage ist, was vergleichst du genau für Systeme. Der Knackpunkt bei AMD ist wie jdl schon schrieb die Aufteilung der Cores auf verschiedene NUMA Nodes. Das hat potentiell massive Nachteile. Weil Communikationswege über den im Vergleich lahmen "Bus" zwischen den CPUs gehen. (ja ich weis, es ist im Grunde kein Bus mehr, ändert aber an der Geschichte nix) So laufen auch Cachezugriffe über den Interconnect zwischen den CPUs, wenn ein Task mehrere Threads zum Rechnen nutzt, diese aber über mehrere NUMA Nodes verteilt abgearbeitet werden. Da lässt man schnell mal 10 und mehr Prozent Leistung liegen, als wenn man die Prozesse zwingt, dies nicht zu tun. -> Blöd nur genau dann, wenn alle Einheiten am selben Task rechnen, denn dann bleibt der Umstand im Grunde nicht aus.
Dann kommt im Vergleich die Frage auf, welche CPU mit welchem Takt war Basis für die Aussage des Studios?
Deine Opterons haben 2x3 Module zu 2,6GHz Takt.
Kleines Rechenbeispiel: Das sind genau 50% mehr Module als ein aktueller Desktop FX83xx hat. Aber im Gegenzug verlierst du 35% an Takt. Effektiv kommt da irgendwo im Bereich ~20-30% höhere Performance als bei nem Single FX8350 raus.
Das ganze verteilt auf zwei CPUs macht eine effektive Gesamtleistungssteigerung von ca. Faktor 2,5 gegenüber dem Single FX8350.
Abzüglich der NUMA Node Problematik, was sich so nicht 100% vorhersagen lässt, je nach Software mal mehr, mal weniger Leistungsverlust.
Selbst wenn man die NUMA Node Problematik völlig außen vor lässt, wäre ein aktuelles 10 Kern Xeon E5v2 Modell mit um die 3GHz auf einem ebenso hohen Leistungslevel (ca. Faktor 2,5) anzutreffen. Und das ohne NUMA Node Problematik.
Mit zweien davon kommst du spielend auf Faktor 4+. Also doppelte Multithreadingperformance zu den Opterons. Natürlich dann teurer (so ein 3GHz 10 Core Xeon E5 2690v2 kost mal schlappe 1700€)
Was aber gegangen wäre, wie jdl schon sagte, die Hexacores mit 2,6GHz für nen 500er im Doppelpack. Wären effektiv 300€ mehr zu den Opterons gewesen. + Board, je nach Modell ggf. teurer oder günstiger als das AMD Brett. RAM Menge bleibt, der Rest wäre ebenso gleich. Das Teil wäre zwar nicht welten schneller als das Opterongespann, hätte dir A) aber deutlich mehr ST Performance gebracht. Und B) hättest du nur zwei NUMA Nodes (weil zwei CPUs) gehabt. Was effektiver ist als die 4x Lösung bei AMD. Somit hätten auch pro NUMA Node 32GB RAM bereit gestanden anstatt jetzt 4x16GB. Denn sobald die RAM Auslastung größer der einer CPU ist, wird das System gezwungen Kommunikationen über die Interconnects zu schieben, was im Vergleich zu direktem RAM Access der CPU Module selbst langsam ist.
PS: die Opterons haben auch im Grunde "nur" 2x2x64Bit Speicheranbindung. Je ein Dualchannel Controller pro NUMA Node. Die Intel Lösung hätte 4x64Bit. Also einen Quadchannel Controller pro NUMA Node aka CPU. Was bei Speicherbandbreitenlastigen Anwendungen von Vorteil sein könnte...