Dynamic Local Mode beschleunigt Threadripper-Flaggschiffe komfortabel

HWL News Bot · 09.10.2018

AMD Ryzen Threadripper 2990WX und 2970WX können mit ihren 32 bzw. 24 Kernen eine beeindruckende Rohleistung bieten. Längst nicht jede Anwendung kann davon aber voll profitieren. Ein Grundproblem bleibt, dass je nach Anwendung mal der UMA- und mal der NUMA-Modus für mehr Performance sorgt. Ein neuer Dynamic Local Mode soll nun für mehr Komfort ein ein Leistungsplus sorgen.Bereits erwähnt haben wir den Dynamic Local Mode mit der...

... weiterlesen

NasaGTR · 09.10.2018

Mal eine Frage aus Unwissenheit: Warum gibt es hierfür eine extra Software, müsste sowas nicht tief im Windows Kerner eingebaut werden? CPU Zuweisung ist doch etwas sehr hardwarenahes oder?

DeckStein · 09.10.2018

"Umgesetzt wird der Dynamic Local Mode durch einen Windows 10-Hintergrunddienst. Dieser Dienst misst, wieviel CPU-Zeit jeder Thread benötigt."

wird es doch, oder nicht?

Redphil · 09.10.2018

@NasaGTR: Afaik ist das ein Windows-Problem, das sich wohl unter Linux so gar nicht erst stellt. Deswegen wohl auch der Performancevorsprung von TR II unter Linux:
https://www.phoronix.com/scan.php?page=article&item=2990wx-linux-windows&num=1

kozfogel · 09.10.2018

NasaGTR schrieb:
Mal eine Frage aus Unwissenheit: Warum gibt es hierfür eine extra Software, müsste sowas nicht tief im Windows Kerner eingebaut werden? CPU Zuweisung ist doch etwas sehr hardwarenahes oder?

Jain. Windows weiß wie viel Kerne es gibt, und dass diese RAM haben - wie der einzelne Kern angebunden ist, weiß es nicht einfach so. Man kann natürlich überprüfen ob der CPU ein TR mit 4 Dies ist, und dann den Scheduler erst die direkt angebundenen auslasten lassen. Der Nachteil ist dass man dafür keine allgemeine Regel bauen kann, sondern explizit immer auf diese CPU Modelle prüfen muss - da ist eine Software vom Hersteller gar nicht so verkehrt, da dieser noch besser für die CPU Optimierern kann (Intel Turboboost 3.0 macht das auch so. Da weiß die Software welche die "besten" Cores sind, und lasstet diese zuerst aus damit der Boost höher ausfällt)

REDFROG · 09.10.2018

Also ist das ähnlich wie CPU Affinity selber setzen oder wie?

Kullberg · 09.10.2018

REDFROG schrieb:
Also ist das ähnlich wie CPU Affinity selber setzen oder wie?

Es klingt zumindest so. Allerdings wird der Nutzen bei Programmen, die alle Cores nutzen, gegen Null gehen.

Arkos · 09.10.2018

REDFROG schrieb:
Also ist das ähnlich wie CPU Affinity selber setzen oder wie?

...

Kannst mit EasyToolZ per Anwendung konfigurieren. Funktioniert superb. Aber nein, ist nicht dasselbe.

EasyToolz - Das Systemtool

...

fdsonne · 09.10.2018

Kullberg schrieb:
Es klingt zumindest so. Allerdings wird der Nutzen bei Programmen, die alle Cores nutzen, gegen Null gehen.

Naja, wenn du Last erzeugst ohne groß Memory Zugriffe respektive primär Cache gepuffert, dann bringt das dort wahrscheinlich nix. Betreibst du aber Mischumgebungen, wo du vllt neben deinem Renderjob noch ein Spielchen laufen hast, könnte das schon funktionieren.

Die Manuelle Pinmethode funktioniert aber eh immer. Und die nutzt man wahrscheinlich auch wenn man so ne CPU nutzt.

NasaGTR schrieb:
Mal eine Frage aus Unwissenheit: Warum gibt es hierfür eine extra Software, müsste sowas nicht tief im Windows Kerner eingebaut werden? CPU Zuweisung ist doch etwas sehr hardwarenahes oder?

Der Prozessor "gaukelt" dem OS vor, es wäre ein 4x NUMA Design, bringt aber nur an 2x der 4x Nodes eigenen Speicher mit.
Das wohl größte Problem von Windows ist das Threadgeschubse.

Wenn MS da aber nix hardcoded, wird es schwierig bei diesen Bedingungen das via Scheduler zu lösen. Was genau das Ding hier bei AMD macht, ist ja nicht ganz klar, oder?
Möglicherweise pinnt es auch nur die Threads - oder der Spaß geht noch tiefer. Dieses Turbo 3.0 Ding von Intel da pinnt ja auch Threads - teils mit negativen Auswirkungen, weil eben dann auf 1-4 Threads fix gepinnt wird und damit der Takt zwar steigt für den Core, die Leistung absolut aber sinkt, weil bisschen MT doch mehr gebracht hat...

Was noch dazu kommt ist die Tatsache, dass die "Leute" meist versuchen das Design abseits der Grenzen und Limitierungen mit der Brechstange für andere Einsatzzwecke zu missbrauchen. Normalerweise kommen da nur die wenigsten auf die Idee - aber im Clientbereich haben die Leute davon schlicht keinen Plan (meist). Ein 4x NUMA Design hat halt 4x NUMA Nodes. Und wer da ein Single non NUMA aware Task mit 64 Threads drauf fahren will, weil das Ding nunmal 64 Threads in Summe kann - bricht mit den Grenzen des Designs -> und muss sich dann mMn auch nicht wundern, wenns scheiße läuft.

Leider sind aber die Zahlen die man da ließt pures Marketing. Denn nicht der non NUMA aware Software-Wert ist 100%, sondern normalerweise sollte eine NUMA aware Software/Bench bei Nutzung eines Multi-NUMA Designs die Basis sein. Und ausgehend von dieser Basis kommt die Umsetzung mit dem Dienst dann an so und so viel Prozent ran... AMD suggeriert aber hier x% Performancegewinn, obwohl nichts gewonnen wird - es wird ja deswegen nicht schneller. Die mit bisschen Abstand schnellste Lösung bleibt ne NUMA aware Software.

Redphil schrieb:
@NasaGTR: Afaik ist das ein Windows-Problem, das sich wohl unter Linux so gar nicht erst stellt. Deswegen wohl auch der Performancevorsprung von TR II unter Linux:
A Look At The Windows 10 vs. Linux Performance On AMD Threadripper 2990WX - Phoronix

Ganz so einfach ist das aber auch nicht...
Auch Linux unterliegt den Restriktionen des Hardware Designs. Schau dir mal im Vergleich dazu die Werte bspw. der 2700X Linux/Win10 Vergleiche an. Da sind auch paar Benches bei, die laufen absolut ohne jegliche NUMA Themen auf der Linux Umsetzung einfach weit schneller (sogar in ähnlichem Maßstab zu den TR Werten) -> Blender ist so ein Fall wo das seit Jahren bekannt ist. "Minion" aus dem Test ist auch so ein Fall.

Ist am Ende schwer das passgenau zu vergleichen, da funkt einfach ne Menge mit rein und kleinste Details können große Wirkung haben. Um so schwerer ist am Ende da ein Urteil zu fällen. Denn oft ist das dann eben nicht auf eine Pauschale eingrenzbar. OpenMP lässt sich bspw. als einer der Gründe benennen. Je nachdem, gerade bei bezahlmich oder Drittanbieter Software ist meist der Spaß für Windows precompiled fix und fertig, während du die Linux Version nicht selten völlig frei compilieren kannst - mit allen guten wie schlechten Optimierungen.

REDFROG · 09.10.2018

Arkos schrieb:
...

Kannst mit EasyToolZ per Anwendung konfigurieren. Funktioniert superb. Aber nein, ist nicht dasselbe.

Anhang anzeigen 446226

EasyToolz - Das Systemtool

...

Danke, ich nutze für meinen 1950X das "Process Lasso"
Aber ich schaue mir easytoolz auch mal an!

edit.. ok ist leider bei weitem nicht so gut und umfangreich wie Process Lasso..mit Abstand. ^^

---

Aber auch mit diesem Dynamic Local Mode werden mir die 4-aktive-Dies-Threadripper nicht gerade viel attraktiver.

Arkos · 09.10.2018

REDFROG schrieb:
Danke, ich nutze für meinen 1950X das "Process Lasso"
Aber ich schaue mir easytoolz auch mal an!

edit.. ok ist leider bei weitem nicht so gut und umfangreich wie Process Lasso..mit Abstand. ^^

Jo, auch grad gesehen, ... shame on me

...

Kullberg · 10.10.2018

Nochwas zur Begriffsbestimmung:
Tasks / Processes kann man von anderen Programmen aus pinnen (=Affinities setzen). Der Befehl in C++ dafür ist SetProcessAffinityMask. Den kann man leicht in eigene Tools einbauen, was ich in diversen privaten Tools auch gemacht habe. Threads kann nur das Programm, das sie gestartet hat, der Thread selbst und der Kernel bestimmten Cores zuweisen. Der Befehl in C++ dafür ist SetThreadAffinityMask - ein handle zu fremden Threads, der dafür nötig wäre, wird vom System bei Windows nicht 'rausgerückt. Deshalb muss das Programm selbst das können - was bei den besseren Schach Programmen auch der Fall ist.

fortunes · 10.10.2018

AMDs Optimierungen sind noch lange nicht am Ende. Natürlich hat das Design seine Ecken und Kanten, die gerade zur Zeit von TR1 noch einen erheblichen Rückstand bedeutet haben. Aber so langsam wird das. Und so wie AMD Kerne nachballert, spätestens in 7nm, wird auch die Industrie nicht drumrum kommen, ihre Software zu optimieren.

Kullberg · 10.10.2018

Ich wage zu bezweifeln, dass AMD wesentliche Verbesserungen für Threadripper in petto hat. Das Konzept beim TR2 2990WX (ich hab einen) ist und bleibt problematisch. Ein Konzept wie das von Intel (28 Cores auf einem Die) ist wesentlich unproblematischer. Ob der Aufpreis dafür OK ist, muss jeder für sich selbst entscheiden.

fortunes · 10.10.2018

Das Problem bei TR2 ist eher das QuadChannel-Interface. AMD hätte einen X499 bringen müssen, der den TR2 auf allen acht Speicherkanälen freischaltet - und zusätzlich läuft der TR2 auf den alten X399-Brettern mit angezogener Handbremse.

Also abwarten. AMD hat da noch sehr viel Spielraum, um einen Konter nach dem nächsten auf Intel zu werfen.

Kullberg · 11.10.2018

So einfach ist das nicht. Zwar wären 8 Speicherkanäle schon besser, aber es ist immernoch ne CPU mit 4 NUMA Nodes. Ich hab nen Rechner mit 4x Xeon E5-4650, also auch 4 NUMA Nodes, allerdings 16 Speicherkanäle. Software, die NUMA nicht unterstützt, läuft darauf grauenhaft lahm.

Suche

Dynamic Local Mode beschleunigt Threadripper-Flaggschiffe komfortabel

HWL News Bot

News

NasaGTR

Enthusiast

DeckStein

Experte

Redphil

Redakteur

kozfogel

Enthusiast

REDFROG

Enthusiast

Kullberg

Computer Schach Freak

Arkos

Mr. Freelancer

fdsonne

Legende

REDFROG

Enthusiast

Arkos

Mr. Freelancer

Kullberg

Computer Schach Freak

fortunes

Legende

Kullberg

Computer Schach Freak

fortunes

Legende

Kullberg

Computer Schach Freak

Ähnliche Themen