Multi-Sockel-Hardwaretreff Part 2

Vor allem weil das SR-X statt Rot eher Pink ist :fresse: Ich glaube nicht daran das eins Auftaucht - suchen kann man ja mal.

Ein Dual 2011v0-Board in ATX-Größe wäre eventuell auch noch was cooles für den neuen HTPC..
 
Zuletzt bearbeitet:
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Das SR-X gibt es auch nicht erst seit gestern, sondern schon seit Jahren. Aber im Vergleich zum SR-2 war es halt nicht so populär, weil es nichts wirklich besonderes mehr ist.

Besonders wäre es, wenn es OC zulassen würde -> geht aber imho nicht mehr. ;)
Es sei denn, man hat ES CPUs mit offenen Multi, die dürfte es geben, aber A) selten und B) dann möglicherweise fehlerhaft. OC im Bios dürfte auch nicht gehen, selbst mit offenen Multi nicht, weil es glaube ich die Optionen gar nicht gibt beim SR-X.
Die Retail 1600er CPUs mit freinem Multi gehen wiederum nicht im Dual Betrieb und brauchen daher auch kein SR-X. Intel hats halt quasi strikt zugedreht... Ach wie wäre es schon, da nen 12 Core Ivy-E im Dualbetrieb auf 4,5GHz zu haben :fresse:

EDIT: vielleicht beglückt uns AMD ja nächstes Jahr mit einem Zen based Prozessor für Dual Sockel Systeme mit OC Möglichkeiten... Wäre mal wieder was neues. 2x8 Cores @ 4,xGHz dürften definitiv abgehen.
 
Zuletzt bearbeitet:
Cool waere es. Wetten das Intel dann plötzlich Xeons mit freiem Multi anbietet? :d
 
Wetten würd ich da jetzt nicht drauf, du darfst schließlich nicht vergessen, dass im Enterprise-Segment Stabilität Vorrang hat. Die paar Enthusiasten sind Intel ja mehr oder weniger egal, schließlich verdienen die damit eher weniger, weils einfach nicht die Masse gibt.

Ach wie wäre es schon, da nen 12 Core Ivy-E im Dualbetrieb auf 4,5GHz zu haben

Mir würde ja schon einer ohne OC reichen, aber leider sind die noch so schweine teuer -.-
 
Die Sandy-E Achtkerner findest du teils schon für nen Appel und ein Ei. Die Ivys sind ebenso teils sehr günstig zu haben, man muss aber länger suchen/beobachten. Möglich ist das schon... ;) Wenn man die Geduld mitbringt.

Für reine MT Arbeiten ist das auch OK, als Allrounder Workstation aber eben nicht so gut zu gebrauchen. Mittlerweile sollte es aus meiner Sicht dafür auch mindestens Haswell sein, oder man steckt in Größenordnungen alles, was man noch so braucht, als Extension Cards nach. -> klappt bei mir aber nur bedingt, weil eben von den 7x PCIe Slots schon 4x für die beiden GPUs drauf gehen :fresse: eigentlich sogar 5x, weil ein Slot dazwischen Luft sinnig/notwendig ist. Bleiben also 2x für Soundkarte und Raidcontroller und das Ding ist voll. Der Rest muss dann vom Brett kommen... Was bei alten Dual CPU Systemen blöd ist.



An einen offenen Multi glaube ich übrigens auch nicht. S1366 hatte ja auf dem SR-2 wenn mich nicht alles täuscht, auch keinen offenen Multi, aber die anderen Geschichten waren mehr oder weniger entkoppelt vom Baseclock bzw. an eigene Taktgeber oder durch verschiedenen Multis/Teiler abgesichert. Die letzten CPUs mit offenem Multi dürften die QX9775er Xeons für S771 gewesen sein. Und dort auch "nur" als C0 Stepping anstatt den neueren G0, von denen es ausschließlich Xeons oder S775er Modelle gab.
Effektiv kann man ja heute ebenso noch die Dinger OCen -> aber idR nach nichtmal 10% mehr Baseclock ist es schon instabil, weil irgendwas weit über Limit läuft... Ob Intel das jemals mal wieder bewusst entkoppelt? Glaube ich nicht dran... Warum sollten sie?
Selbst für die Single Workstations ist OC teils möglich, weil es für den Baseclock in gewissen Taktbereichen andere Teiler/Multis gibt. So müssten 125MHz Baseclock eben 25% mehr Takt bedeuten und stabil laufen. Diese gibts aber im Dual Bereich auch nicht... Bewusst/gewollt, wie mir scheint -> denn für Single S2011-3 wirbt Intel direkt mit diesen...


Dual CPU und OC dürften mehr oder weniger vorbei sein, maximal auf Zen darf man noch hoffen... Wenn das taugt, wirds vllt doch was mit mir und AMD :fresse:
 
@fdsonne Ich hoffe das es so eine Zen-Plattform mal geben wird.. Und ja, 2011er Xeons wie der E5-2650(v0) kosten bei eBay maximal 50€.

Ich hab einen User gefunden der wohl ein SR-X sowie ein SR-2 besitzt. Vielleicht habe ich ja glück.. Zum SR-X habe ich sogar einige alternative Angebote gefunden.
 
Wie gesagt, wenn du das SR-X nicht primär wegen der Optik oder EVGA kaufst, dann kannste es dir schenken... Es kann wohl (wenn mich nicht alles täuscht) nicht mehr wie andere S2011er Dual Boards... Von daher. ;)


Was AMD angeht, wir werden sehen. Es geistern im Moment bis zu 32 Cores pro CPU in der Gerüchteküche um. Mal schauen, was das am Ende genau bedeutet. Ein MCM mit 4x Oktacore DIEs unter einem Deckel wären wohl 4x NUMA Nodes pro CPU. Das ganze im Doppelpack auf 64 Cores in Summe wären schon 8x NUMA Nodes. -> nicht unbedingt gut für den geneigten Multithreading User.
Ich hoffe ja, dass der 32Core Zen nur aus 2x 16 Cores besteht. Dann könnte es ähnlich dem C32 damals ein Dual CPU System mit 2x 16 Cores geben -> und vllt sogar OC zulassen :wink:
Je nach Takt müsste das irgendwo Faktor 4x ggü. einem aktuellen Intel Haswell/Broadwell S2011-3 Prozessor rauskommen.
 
Exakt so ist es, das SR-X kann nix was andere Boards nicht auch könnten. Hätte EVGA sich eigentlich sparen können, nach dem SR-2 "Hype" war das mit dem SR-X halt nix :)

Bzgl. NUMA Nodes stehen uns imho relativ interessante Zeiten bevor, denn das wird mit der aktuellen Kernanzahl so langsam zum Problem. Problem in dem Sinne, dass man es bei großen Multicore CPUs immer schwerer vermeiden kann mehrere NUMA Nodes pro CPU zu haben, weil die physikalischen Wege zu lang werden. Je nach dem was man mit den CPUs machen will wirkt sich das dann mehr oder weniger aus. Lösungen dafür? Mhm, entweder andere Arten der Interconnects zwischen Cores oder stacked Dies :)
 
Zuletzt bearbeitet:
@DunklerRabe
Intel plant wohl mit Skylake-E(P) einen 32Core Single NUMA Node Prozessor. Gehen muss das also... Wie weit noch? Wir werden es wohl sehen.
Die internen Verbindungen sind ja wenn ich das richtig sehe seit spätestens Ivy-EX schon geteilt. Bei diesem waren es glaube ich zwei Ringe intern... Beim Haswell mit 22 Cores sind es glaube ich derer drei? Weis ich nicht genau.

Auf der anderen Seite, die Xeon Phi kommen auf noch weit mehr Cores ohne verschiedene NUMA Nodes, wenn ich das richtig sehe. Die Basis ist zwar leicht anders als bei den Xeon CPUs, aber im Endeffekt ist der Ansatz ja recht vergleichbar. Möglich ist da schon noch was. Bis wir bei >70 Cores im Xeonumfeld sind, dürften noch ganz paar Jahre ins Land gehen :fresse:
 
Und ja, 2011er Xeons wie der E5-2650(v0) kosten bei eBay maximal 50€.

Ja, die hab ich auch schon gesehen. Aber als Ersatz für den einen 1620er wohl zu langsam. Da müsste es schon minimum ein 2680er werden und die kosten pro CPU mehr als das dreifache. Die Software die auf der Kiste in den VMs rennt, skaliert besser mit Takt als mit mehr Kernen
 
Mehr als 1 NUMA Node pro CPU ist ne ganz schlechte Lösung - ich kann mir nicht vorstellen, dass Intel sowas jemals bringen wird. Die Nachteile von mehr als 2 NUMA Nodes pro Rechner sind aus meiner Sicht: Windows wird extrem teuer, da muss man Server Versionen nehmen - wenn Linux nicht geht. Und die Performance kann massiv leiden. Ich hab einen Rechner mit 4x Xeon E5-4650. Nur ganz wenige (Schach) Programme können damit richtig umgehen, die meisten haben eine unterirdisch schlechte Performance. Abhängig ist das von der NUMA-Unterstützung der Programme. Merkwürdigerweise hat die bei 2-Sockel Systemen einen sehr viel geringeren Einfluss. Die Ursache hab ich noch nicht rausgefunden.
 
@ Kullberg Was hast du eig. für eine Riesen Sammlung an Mehrfach-Sockel-Systemen? :fresse:

@ Steggi Deswegen hoffen wir mal das die Preise weiter fallen.
 
Merkwürdigerweise hat die bei 2-Sockel Systemen einen sehr viel geringeren Einfluss. Die Ursache hab ich noch nicht rausgefunden.

Das ist doch eigentlich ziemlich naheliegend, bei 4-Sockel Systemen gibt es potenziell längere Wege zum Speicher als bei zwei Sockeln. Es kommt aber auch noch drauf an ob man richtige EX CPUs nutzt, die bei vier CPUs einen weiteren QPI für die Kreuzverbindung haben, oder ob es EP4S CPUs sind. Bei letzteren hat man im Worst Case einen Hop mehr, weil die nur einen Ring bilden können und keine Verbindung über Kreuz in der Mitte mehr haben.
 
ich finde da ja schon die dual socket kisten vergleichsweise langsam. z.B. der gerade sehr populäre Ryzen-Blender Test:

1x 2660 : 50 secs glatt
2x 2670 : 27,89 secs so rein theoretisch mit 10% mehr Taktung + einer weiteren CPU sollte die Dualsocketkiste eigentlich so bei 22-23 secs landen.

Ähnliche Beobachtung bei dem MacPro den ich letztens in der Hand hatte und Geekbench mal drübergescheucht habe. 2 Sechskerner sind reingekommen. trotzdem ist die Multicore-Score nur so um den Faktor 7 höher als die Singlecore-Score.
 
Und das findest du ist ein gutes Beispiel um aufzuzeigen, dass die dual CPU Maschine vergleichsweise langsam ist? :confused:
Ich finde da ist ja eher das Gegenteil der Fall, es ist ein ganz gutes Beispiel um zu zeigen wie sich die Mehrleistung einer zweiten CPU bemerkbar macht.

Es kommt immer drauf an was man erwartet und was man erreichen will. Eine 1:1 Skalierung ist beinahe ausgeschlossen und existiert fast nur in der Theorie.
 
vergleichsweise langsam war vielleicht etwas unglücklich formuliert. Es fiel mir nur auf, wie stark die 'Dämpfer' ist.
 
Das ist doch eigentlich ziemlich naheliegend, bei 4-Sockel Systemen gibt es potenziell längere Wege zum Speicher als bei zwei Sockeln. Es kommt aber auch noch drauf an ob man richtige EX CPUs nutzt, die bei vier CPUs einen weiteren QPI für die Kreuzverbindung haben, oder ob es EP4S CPUs sind. Bei letzteren hat man im Worst Case einen Hop mehr, weil die nur einen Ring bilden können und keine Verbindung über Kreuz in der Mitte mehr haben.
Ja, eigentlich schon - aber auch die Xeon E7 4-Sockel Systeme sind genauso schlapp wenn die Software NUMA nicht richtig unterstützt.
 
Das ist doch eigentlich ziemlich naheliegend, bei 4-Sockel Systemen gibt es potenziell längere Wege zum Speicher als bei zwei Sockeln. Es kommt aber auch noch drauf an ob man richtige EX CPUs nutzt, die bei vier CPUs einen weiteren QPI für die Kreuzverbindung haben, oder ob es EP4S CPUs sind. Bei letzteren hat man im Worst Case einen Hop mehr, weil die nur einen Ring bilden können und keine Verbindung über Kreuz in der Mitte mehr haben.

Optimalerweise supportet die Software die NUMA Nodes mehr oder weniger native bzw. kennt die "Probleme" die daraus entstehen... Wenn die Threads eines NUMA Nodes nur auf den Speicherbereich des eigenen Prozessors zugreifen, dann geht das auch entsprechend schnell.
Das Probelm dürfte viel eher sein, Software zu haben/erstellen, die genau das macht? Denn es geht ein Stückweit entgegen des Sinnes, den Speicher als "globale" und sehr schnelle Ablage zu nutzen, wenn man für alle Nodes einzelne Speicherpools bilden muss.
Um es konkreter zu machen, wenn ein Thread Daten im Speicher abkippt, ein anderer Thread auf eben jene Daten verweist oder mit diesen was machen soll -> aber auf einem anderen NUMA Node rennt, wird es Interconnect Traffic geben, der perse schon langsamer ist...

Auch bei der Virtualisierung ist das ein ziemlich eklatantes Thema. Hat der Host 2x CPUs sagen wir 64GB RAM und du weist EINER VM 40GB zu, wird das mist -> weil ein Prozessor nur 32GB hat. Gehen tut das zwar, aber für Teile davon wird der Speicherzugriff lahm... Man sollte wenn möglichst in solchen Konstellationen so viel Speicher pro NUMA Node anbinden, wie es in der kleinsten zugewiesenen Einheit in Summe einnehmen kann und optimalerweise auch so viel einbauen, das es in Summe natürlich aufgeht.

Kullberg sein Schach "Workload" ist da wohl sogar noch recht einfach? Oder gerade eben deswegen recht kompliziert umzusetzen... Bei der Virtualisierung oder irgendwelchen Datenbanken geht ja recht viel unabhängig voneinander. Da spricht wenig bis nix gegen eine Trennung und damit eben die Bündlung der Threads auf die Nodes. Hat es ein riesiges Schachtool mit diversen Threads Last, diversen Speicherzugriffen usw. und das über mehrere Nodes hinweg, dann knickt die Skalierung obenraus ziemlich häftig ein, wenn die Softwareentwicklung das nicht bedacht hat.


Ich frag mich aber allerdings, ob es diese Schachsoftware mittlerweile eigentlich auch mit GPU Support gibt? Mindestens mal die Xeon Phi Dinger müssten da doch abgehen wie Hölle? Und der Aufwand, den Code auf die Teile zu bekommen, sollte auch überschaubar sein!?
 
Hmm interessant, ohne NUMA Awareness hätte ich erwartet, dass Software auf dual Sockel Maschinen ähnlich gut (oder schlecht, wie man es nimmt) läuft wie auf quad Sockel Maschinen mit EX CPUs.

@fdsonne: Ist mir alles durchaus klar, was aber da die Spezifika im Falle der Schachsoftware sind weiß ich natürlich auch nicht. Meine Berührungspunkte mit NUMA beschränken sich auf Virtualisierung oder gelegentlich auf willkürliche Software, womöglich vom Kunden obskur selbst gebastelt, wenn er sich wundert, dass das auf der Maschine die er von mir haben wollte nicht so performt wie er sich das gedacht hat :)
 
Zuletzt bearbeitet:
Hmm interessant, ohne NUMA Awareness hätte ich erwartet, dass Software auf dual Sockel Maschinen ähnlich gut (oder schlecht, wie man es nimmt) läuft wie auf quad Sockel Maschinen mit EX CPUs.

Wenn du die Threads der Software auf genau zwei NUMA Nodes festbrennst und der Rest brach liegt, dürfte das klar zutriffen... Wenn aber über alle vier Nodes hinweg kommuniziert wird? Dann logischerweise nicht... Querzugriffe auf shared Ressourcen kommen bei der Dual Kombo auf 50% im selbe Node -> schnell und 50% im anderen Node -> langsam. Querzugriffe auf shared Ressourcen bei 4x Numa Nodes = 25% im selben Node = schnell, 75% in anderen Nodes = langsam. Im Zweifel dann wohl sogar noch soweit, dass eben der Dritte Hop da zwischen klemmt, weil die eine CPU den einen Node nicht direkt erreichen kann...
 
Aber bei EX CPUs kann das ja nicht passieren, daher die Überraschung. Da erreicht jede CPU über einen Hop die CPU zu deren Speicher sie möchte, genau so wie bei dual CPU Maschinen. Da würde mir als Theorie nur noch einfallen, dass es bei vier CPUs natürlich häufiger passieren kann und wenn die CPUs sowieso ausgelastet oder nahezu ausgelastet sind, dann summiert sich da natürlich mehr Rückstau als bei nur zwei CPUs.
 
Mehr als 1 NUMA Node pro CPU ist ne ganz schlechte Lösung - ich kann mir nicht vorstellen, dass Intel sowas jemals bringen wird. Die Nachteile von mehr als 2 NUMA Nodes pro Rechner sind aus meiner Sicht: Windows wird extrem teuer, da muss man Server Versionen nehmen - wenn Linux nicht geht. Und die Performance kann massiv leiden. Ich hab einen Rechner mit 4x Xeon E5-4650. Nur ganz wenige (Schach) Programme können damit richtig umgehen, die meisten haben eine unterirdisch schlechte Performance. Abhängig ist das von der NUMA-Unterstützung der Programme. Merkwürdigerweise hat die bei 2-Sockel Systemen einen sehr viel geringeren Einfluss. Die Ursache hab ich noch nicht rausgefunden.
Die Xeon E5-4600 haben nur zwei QPI-Links, daher ist ist mit diesen CPUs nur Quadrat als Topologie möglich. Mit den Xeon E7-8800 ist dann nur ein Würfel möglich. Man sollte in solchen Fällen immer mit Threadpinning arbeiten. Das BIOS hat üblicherweise eine Voreinstellung, dass Speicher im Thread lokal angefordert wird. Meistens kann man noch Interleaving als Alternative wählen. Unter Linux gibt es die libnuma, mit der man Speicher auf den NUMA Knoten genau definiert anfordern kann. Ich musste aber auf AMD Opterons lernen, dass sie nicht sauber funktionierte. Man muss sich dann mit Tricks behelfen. Threadpinning aktivieren, Speicher anfordern und dann ganz wichtig einmal initialisieren. Erst nach dem ersten Schreiben wird der Speicher auch wirklich physisch alloziert.

Ein echtes Problem ist, dass in den letzten Jahren massenweise neue Programmiersprachen entstehen, es aber keine neue Sprache gibt mit der man sauber HPC Programmierung machen kann. Das wichtigste dabei ist, die Speicherverteilung steuern zu können. Cache Hits bzw. Misses sind die maßgeblich begrenzenden Faktoren bei der Rechnerleistung. Erst danach kommen Compileroptimierungen zum Tragen. Bei HPC spielt das Thema MPI auch noch eine wesentliche Rolle. D.h. man hat hier gleich mehrere Ebenen der Speichergeschwindigkeit L1, L2, L3 Cache, Speicher lokal, Speicher auf anderen NUMA-Knoten, Speicher auf lokalen Clusterknoten, Speicher auf Knoten im nahem Cluster (mehr als ein Switch involviert), Speicher der im Cluster weit entfernt ist. Beim L1 und L2 hilft mittlerweile der Compiler ganz gut. Dazu muss man den Speicher im Knoten so organisieren, dass die Daten die per MPI verteilt werden auch auf dem NUMA-Knoten liegen an dem die Inifiniband-/Omnipath-Karte angeschlossen ist.

Windows ist einfach sch****. Das fällt Ottonormalverbraucher nicht auf, aber bei jedem anspruchsvollerem Job merkt man sehr schnell, dass es die falsche Plattform für diese Jobs ist.

- - - Updated - - -

Ich frag mich aber allerdings, ob es diese Schachsoftware mittlerweile eigentlich auch mit GPU Support gibt? Mindestens mal die Xeon Phi Dinger müssten da doch abgehen wie Hölle? Und der Aufwand, den Code auf die Teile zu bekommen, sollte auch überschaubar sein!?
Schachsoftware wird nicht sonderlich FPU lastig sein, d.h. normale CPUs sollten das schneller abarbeiten können. Eine MPI Version erscheint mit da deutlich sinnvoller.
 
Schach nutzt keinerlei FPU Instruktionen - daher sind GPUs keine Option. Und ja, ohne Threadpinning laufen 4-Sockel Computer miserabel. Es gibt aber Schach Programme, die das können: z.B. Houdini 5 und asmFish (eine assembler Variante von Stockfish).
 
Schachsoftware wird nicht sonderlich FPU lastig sein, d.h. normale CPUs sollten das schneller abarbeiten können. Eine MPI Version erscheint mit da deutlich sinnvoller.

Die Int-Performance der Xeon Phi dürfte doch aber auch ziemlich hoch sein!?
Ich mein, man bekommt von den Teilen 7x zu 72 Cores auf ein Board -> im entsprechenden Gehäuse. Der Takt ist niedrig, keine Frage, aber dennoch sollte die Performance bei stino Code nicht all zu schlecht ausfallen!?

Mich hätte halt interessiert, ob das schonmal jemand getestet hat...
 
Moment - ihr baut riesen Systeme, verschwendet Strom wie klein-Las Vegas nur um Schach zu spielen? :fresse:
 
Wo genau siehst du da die Verschwendung? :confused: Ich bin jetzt nicht in der Szene, aber finde das eigentlich eher sehr interessant als eine Verschwendung.
 
Auf meinem System läuft z.B. nur WoW, Battlefield 4 und Minecraft :fresse: Aber ja, es gibt da eindeutig sinnvollere aufgaben, wobei die Sache mit dem Schach spielen noch einigermaßen verständlich ist.
 
Viel schlimmer finde ich riesen Rechencluster, die nur dafür da sind kleine Figuren zu animieren, damit man sich diese dann hinterher in nen Film anschauen kann. Dabei könnten die viel sinnvollere Aufgaben wie Krebsforschung übernehmen /sarcasm :fresse2:
 
Kernwaffensimulationen, wenn ihr mal ernsthaft ein Beispiel braucht wo enorme Rechenleistung reinfließt, die man anderswo sinnvoller verwenden könnte. Natürlich sind die besser als echte Kernwaffentests, aber noch besser wäre es eigentlich wenn man das komplett sein lässt.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh