Ryzen Threadripper 2990WX Schach Performance

Kullberg

Computer Schach Freak
Thread Starter
Mitglied seit
18.02.2005
Beiträge
5.903
Gestern ist der Ryzen Threadripper 2990WX eingetroffen - er hat einen 1950X ersetzt.
Mobo: ASRock Fatal1ty X399 Professional Gaming
Speicher: 4 x 8 GB G.Skill Flare X DDR4-3200, CL14-14-14-34
Kühler: Noctua NH-U14S TR4-SP3
Netzteil: Seasonic Platinum Series 660W
SSD: Samsung 960 EVO
Der 1950X lief auf 3,8 GHz
Mit Houdini 6 (unterstützt NUMA und large pages) und 32 Threads: 44,8 MN/s (Millionen berechnete Stellungen pro Sekunde)
Verbrauch unter Last: 260W (an der Dose)

Der 2990WX läuft mit Houdini 6 auf 3,1 - 3,15 GHz, wenn das power limit beachtet wird und der Speicher auf 3200 eingestellt ist.
Houdini 6 bringt dann 71,9 MN/s
Verbrauch unter Last: 340W

Wenn der Speicher auf 2133 läuft (setup defaults), läuft er mit Houdini 6 mit power limit auf 3,4 GHz, erreicht 71,7 MN/s und verbraucht genau gleich viel.
Hwinfo gibt da jeweils ~248W CPU power an.
CPU Temperatur ist bei der Kühlung unter Last bei ~85°

Die MN/s Angaben schwanken jeweils um 1 - 3 %

Mein erstes Fazit: 60% mehr Schach Leistung für 30% mehr Verbrauch ist nicht schlecht. Allerdings kann man mit dem Verbrauch auch nen 2x Xeon E5-2696v3 Rechner betreiben, der etwas mehr Schach Leistung bringt.
Viel OC wird bei der Kühlung nicht drin sein.
Und die IPC sind, wie beim alten TR 1950X auch, stark von der Geschwindigkeit des Speichers abhängig.
Ich hätte übrigens mit größeren Verlusten durch die merkwürdige Speicher Anbindung gerechnet.
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Hast du mal Undervolting getestet ? Bzw. was liegt an, wenn er nur noch auf 3,1-3,15 GHz und 3,4 GHz läuft?
 
Das hört sich doch schon super an.
Hast Du zufälligerweise auch Werte Stockfish 9 oder Komodo 10.
Da wird der der 24-Kerner wohl schätzungsweise (knapp?) unter 60 MN/S bei Houdini liegen.
Könntest Du evtl. spasseshaber Mal Houdini auf 24 Threads laufen lassen?
+
Könntest Du evtl. spasseshaber Mal Houdini auf 16 Threads laufen lassen (gibt es da grosse Unterschiede zur "alten" CPU)?
Schwierig ob's nun der 2970 oder 2990 wird?

VG Bernd
 
Ich hab noch nicht viel testen können - und muss leider dieses Wochenende auch arbeiten :(
Komodo werde ich noch ausprobieren - ab Version 12 soll glaube ich auch NUMA unterstützt werden. Stockfish kann ich auch machen - ist aber relativ witzlos, da AsmFish genau so rechnet, aber large pages kann. Die Werte von Houdini oben sind übrigens auch mit large pages und 2 GB hash. Houdini zeigt übrigens 4 NUMA nodes an. Houdini mit weniger Threads dürfte interessant sein - allerdings hab ich keine Vergleichswerte für die alte CPU. Und die werd ich nicht nochmal einbauen ;)
 
Nee, so meinte ich das nicht.
Mich würde nur folgendes Interessieren, natürlich alles nur mit 2990WX

32 Kerne ca. 72MN/S => 24 Kerne ca. ??? MN/S, da ich mir überlege evtl. den 2970 zu besorgen.
Ob man Houdini mit 24 Kernen auf einen 2990 mit einem 2970 vergleichen kann weiss ich zwar nicht, aber die Größenordnug wäre schon interessant.

16 Kerne (1950x) ca. 45 MN/s => 16 (2990WX) ca. ??? MN/S. Einfach nur interessehalber :d
 
Wenn das Power Limit von 250W gehalten wird, was laut den 248W die HWInfo meldet ja der Fall zu sein scheint, dann ist klar wieso die Kerne bei der schnellen RAM Einstellung runtertakten müssen, denn schau Dir mal hier bei Anandtech an wie groß der Anteil der IF an der Leistungsaufnahme beim TR2 ist. Da der Takt der IF an den des RAM gekoppelt ist, steigt deren Leistungsaufnahme natürlich auch mit steigendem RAM Takt. Probiere doch mal die Takte zwischen den beiden Extremen aus, vielleicht bekommst Du da ja mehr MN/s raus bei vermutlich wieder gleicher Leistungsaufnahme.
 
@kullberg

Du schreibst zwar , "bei der Kühllösung...85°C", aber welche meinst du? Es muss sich überhaupt nicht um ein TDP Limit handeln, dass sowieso zwingend nicht existiert. Sondern rennt die CPU in ein Templimit und throttelt. Das Mainboard ermittelt mit und über die CPU, Sockel und VRM, Telemetridaten die auch vom Temperaturen abhängig sind und durch die TDC beeinflusst werden, wobei dann EDC maximale Spannungen ermittelt.

Kühler, "cold", bedeutet "immer" effizienter oder höherer Takt.

- - - Updated - - -

24 Kerne ca. ??? MN/S, da ich mir überlege evtl. den 2970 zu besorgen.
Das ist schwer zu beantworten, da AMD lediglich von Referenzdaten des Epyc 7351P ausging (bei 2,4GHz Takt). Vermutlich um die IF und DF als solches zu schützen. Man pokert also sehr tief. Leider wird dir derzeit keiner deine Frage ohne Vergleichsdaten beantworten können und die sie derzeit haben (Entwickler), dürfen es bestimmt nicht.

Ich persönlich verstehe das nicht, weil gerade diese Daten dazu beitragen, dass man potentiell interessierte Käufer überzeugt. Aber das ist Firmenpolitik, die muss man nicht immer verstehen.:)
 
Zuletzt bearbeitet:
TDP Limit? So etwas gibt es nicht, es gibt allenfalls ein Power Limit welche dann ggf. vom Board erzwungen wird und dies ggf. auf dem gleichen Wert wie die TDP.
 
@pclovely
Kühllösung steht im Start Post (lukü Noctua) Raumtemp ist 24°C (AC läuft 24/7 z.Zt.)
Ohne Begrenzung der CPU Power zieht er beim Schach 550W - und zwar längerfristig. Es ist also eindeutig kein Temperatur Limit.

Ich hab das power limit jetzt auf 300W angehoben, da läuft er bei 3200 RAM Takt auf 3,4 GHz und erreicht ~76 MN/s. Der Verbrauch liegt bei 410 W.

@Holt
Bei dem Anandtech Artikel ist ja offensichtich etwas schiefgelaufen - die erreichen ja nur knapp 180W CPU power - das riecht nach dem Limit des alten 1950X. Die uncore power liegt bei mir bei jetzt 300W CPU power bei 60 - 65 W, also wie in dem Artikel, aber die cores tun mehr.
 
Das ist schwer zu beantworten.

Ne, bei Schachsoftware ist das relativ einfach. Bei fast jedem Programm kann man einstellen, wieviel Threads benutzt werden sollen.
Daher kann man dies hier relativ einfach testen.
Ich habe z.B. derzeit ein 8 Kerner und lasse manchmal 4 Programme auf 2 Threads gleichzeitig analysieren.
Man muss dann natürlich entsprechend länger analysieren lassen, als wenn nur 1 Programm auf allen Threads aktiv ist. (Der Faktor Zeit spielt also auch eine Rolle).
Bei 32 Kernen hätte hier dann schon ( in diesem Beispiel) jedes Programm 8 zur Verfügung.
Bei Schach geht es auch darum, mehrere Programme parallel zu betreiben und auch sog. "Multivarianten" zu berechnen.
Bislang musste man hierfür fast immer Dual-Xeon Maschienen betreiben, um auf eine ähnliche Anzahl von Threads zu kommen.
 
410W für ~76 MN/s sind 5,4W pro MN/s und damit deutlich (14%) mehr als die 4,73W pro MN/s vorher.
 
Bei dem Anandtech Artikel ist ja offensichtich etwas schiefgelaufen - die erreichen ja nur knapp 180W CPU power - das riecht nach dem Limit des alten 1950X. Die uncore power liegt bei mir bei jetzt 300W CPU power bei 60 - 65 W, also wie in dem Artikel, aber die cores tun mehr.

Schau mal Seite 12 dort -> die messen offenbar die Core Power und den Rest extra. Die sind schon bei 250W real, aber die Cores selbst ohne den ganzen Klimbim brauchen hat "nur" um dei 180W je nach Load...
 
TDP Limit? So etwas gibt es nicht, es gibt allenfalls ein Power Limit welche dann ggf. vom Board erzwungen wird und dies ggf. auf dem gleichen Wert wie die TDP.
AMD gibt die TDP mit dem Wert der Verlustleistung in Abwärme an, die abgeführt werden muss (nicht wie Intel), dass heißt dann dass die CPU irgendwie in ein (Temp-) Limit läuft.

Bei dir gibt es nie etwas, von dem noch nicht gehört hast. Es gibt es auch keine Busaufteilung (PCIe vs DMI), darum verbauen die Hersteller unter jedem x16 Steckplatz Switches (z.B. x4 Asmedia ASM mit je 4Lanes), weil's das nicht gibt.

Das spiegelt natürlich die wirkliche Leistungsaufnahme nicht wieder. AMD gaben aber schon immer an, dass man mit guten Kühloptionen den Takt bei Zen hochhalten kann, kühler bedeutet in gewisser Weise auch effizient, wenn man es nicht übertreibt. Beim WX gehen ca. 60 Watt auf die IF, wenn alle Kerne ausgelastet werden, die ja deutlich mehr liefern muss als beim 1950/2950x. Das müsst ihr auch bedenken. andhandtech wollte sicher nur die reine Coreeffizienz im direkten Vergleich abbilden, oder was auch immer.

- - - Updated - - -

Es ist also eindeutig kein Temperatur Limit.

Das stimmt natürlich, dies allein würde nicht reichen. Die Leistungsaufnahme ist von mehreren Telemetriedaten abhängig die in Echtzeit verarbeitet werden:
Package Power Tracking (PPT) = max Stromverbrauch des Sockel (Höchstwert) - beim OC (user controlled)
Thermal Design Current (TDC) = max Spannungsregulierung (aufgewärmt)
Electrical Design Current (EDC) = max Spike/Peak
Frequenz - beim OC (user controlled)+(PBO off)
Powerlimit - beim OC (user controlled)+(PBO off)

Die Telemetriedaten fließen dann an die Infinity Fabric, wobei der Prozessor anhand der Daten, der Wärme und Leistung die gerade abgerufen wird, den Takt dynamisch anpassen kann. Wenn man ein gutes Exemplar erwischt, der thermisch stabil ist (bei eigenen Kühloptionen und den Werten die man setzt), kann er auch ordentlich Energie aufnehmen. Ist bei deinen Einstellungen noch ein Idle Downclock möglich?
 
Zuletzt bearbeitet:
@pclovely
Es ist ganz einfach: das Mobo begrenzt die Leistungsaufnahme der CPU im default Betrieb auf 250W. Und wenn nicht mehr vorhanden ist, taktet die CPU entsprechend nicht so hoch.

@Holt
Klar leidet die Effizienz - von daher werde ich im Betrieb das Limit von 250W einhalten. Aber erstmal sind noch ein paar kleine Tests angesagt, bevor das Teil Geld verdient ;) Wobei ich bezweifele, ob er die Kosten wieder reinbringt - dual Xeons sind generell deutlich beliebter. Und energieeffizienter.
 
AMD gibt die TDP mit dem Wert der Verlustleistung in Abwärme an, die abgeführt werden muss (nicht wie Intel)
So unterschiedlich sind die Definitionen also gar nicht.
Es gibt es auch keine Busaufteilung (PCIe vs DMI)
DMI ist technisch PCIe mit 4 Lanes und zwar DMI3 ist PCIe 3.0 x4, was dies jetzt mit Busaufteilung zu tun haben soll, sehe ich aber nicht.
darum verbauen die Hersteller unter jedem x16 Steckplatz Switches (z.B. x4 Asmedia ASM mit je 4Lanes), weil's das nicht gibt.
Wer hat denn behauptet unter jedem x16 Slot wären Umschalter verbaut? Ich nicht und akzeptiere es nicht wenn man mir unterstellt etwas behauptet zu haben, was ich nicht gesagt haben, damit ist man schnell auf meiner Igoreliste. Es gibt es eben sehr wohl Umschalter, wenn 8 der 16 Lanes eines Slots auch auf einen zweiten Slots gelegt werden können, denn anderes könnte man des auch gar nicht machen.

Was aber soll das mit "x4 Asmedia ASM mit je 4Lanes" zu tun haben?
 
Hast du mal Undervolting getestet ? Bzw. was liegt an, wenn er nur noch auf 3,1-3,15 GHz und 3,4 GHz läuft?
Undervolting hab ich eben ausprobiert - die Frequenz geht hoch, aber die Rechenleistung bricht deutlich ein (~65 MN/s)
Werte bei 3200 RAM setting und default voltage:
tr2-1.pngtr2-2.png
Und bei 2133 RAM:
tr2-3.png
 
Zuletzt bearbeitet:
AMD gibt die TDP mit dem Wert der Verlustleistung in Abwärme an, die abgeführt werden muss (nicht wie Intel), dass heißt dann dass die CPU irgendwie in ein (Temp-) Limit läuft.
Die TDP wird bei AMD erreicht, wenn die maximale Spannung anliegt (All-Core) die maximale Temperatur und die maximale Auslastung.
Es ist der "worst-case" !

@pclovely
Es ist ganz einfach: das Mobo begrenzt die Leistungsaufnahme der CPU im default Betrieb auf 250W. Und wenn nicht mehr vorhanden ist, taktet die CPU entsprechend nicht so hoch.
Der SoC Begrenzt intern was nicht aktiv ist. (Also nicht nur Cores)

Wie sieht es mit SMT aus?
 
Nee, so meinte ich das nicht.
Mich würde nur folgendes Interessieren, natürlich alles nur mit 2990WX

32 Kerne ca. 72MN/S => 24 Kerne ca. ??? MN/S, da ich mir überlege evtl. den 2970 zu besorgen.
Ob man Houdini mit 24 Kernen auf einen 2990 mit einem 2970 vergleichen kann weiss ich zwar nicht, aber die Größenordnug wäre schon interessant.

Houdini 6 auf 48 Threads / 24 Cores (mit affinities so gesetzt, dass die jeweils 4 letzten logischen Cores jedes NUMA nodes nicht verwendet wurden) bringt 60 MN/s - die CPU läuft dabei auf 3,4 bis 3,45 GHz und geht ins power limit.

Test mit Komodo 12.1 (kann NUMA aber keine large pages) mit 1 GB hash: 35,8 MN/s. Vergleichswert eines 2x Xeon E5-2683v3 (2 x 14 Cores @ 2.5 GHz): 32,2 MN/s
 
Zuletzt bearbeitet:
Undervolting hab ich eben ausprobiert - die Frequenz geht hoch, aber die Rechenleistung bricht deutlich ein (~65 MN/s)

Naja wenn man die Screenshots anschaut, ist das wirklich bloß eine leichte Tendenz zur höherer Frequenz. Interessant dass die Rechenleistung dadurch einbricht.

Ich glaube wir verstehen da die Regelmechanismen noch nicht wirklich. Wenn ich davon aus gehe, dass er mit dem UV eigentlich stabil läuft (also keine Fehlerkorrektur anspringen muss), dann sollte das beim TR wegen der Begrenzung durch Strom und Wärme, eigentlich einen doppelt positiven Effekt haben. Weniger Spannung -> Weniger Stromaufnahme -> Weniger Wärme, was hier natürlich (nur zur leichten) Tendenz zu höherem Takt führt. Aber das dadurch die Leistung fällt macht keinen Sinn..

Hat da ein CPU Technik "Profi" ala Holt, fdsonne, etc. eine objektive Erklärung?
 
Zuletzt bearbeitet:
Äh, sorry - das sind Screenshots von default Einstellungen. Hab ich geemacht, damit Du die Spannungen im Normalzustand siehst. Mit Undervolting geht er auf ~3,3 GHz.
 
Äh, sorry - das sind Screenshots von default Einstellungen. Hab ich geemacht, damit Du die Spannungen im Normalzustand siehst. Mit Undervolting geht er auf ~3,3 GHz.

Ups, hab ich überlessen. Das ist dann aber tatsächlich noch komischer .. ~200 MHz mehr und weniger Leistung oO
 
Eventuell läuft er mit weniger Spannung und höherem Takt nicht mehr 100% stabil? Das Verhalten der niedrigeren Scores trotz höherem Takt sieht man normalerweise z.B. bei instabilem Ram.
 
Houdini 6 auf 48 Threads / 24 Cores (mit affinities so gesetzt, dass die jeweils 4 letzten logischen Cores jedes NUMA nodes nicht verwendet wurden) bringt 60 MN/s - die CPU läuft dabei auf 3,4 bis 3,45 GHz und geht ins power limit.

Test mit Komodo 12.1 (kann NUMA aber keine large pages) mit 1 GB hash: 35,8 MN/s. Vergleichswert eines 2x Xeon E5-2683v3 (2 x 14 Cores @ 2.5 GHz): 32,2 MN/s

Danke super
Recht herzlichen Dank
Aber macht mir meine Entscheidung nicht unbedingt leichter :-[

VG Bernd
 
Interessanterweise geht er bei Komodo nicht ins power limit, sondern hat 220 - 230W CPU power und läuft auf 3,4 GHz. Und der Speicher Takt spielt keine Rolle - die Ergebnisse für 2133 und 3200 RAM Takt sind (fast) gleich. Und man sieht, dass die Schach IPC im Verhältnis zum Xeon E5 v3 nicht berauschend sind.
 
Eventuell läuft er mit weniger Spannung und höherem Takt nicht mehr 100% stabil? Das Verhalten der niedrigeren Scores trotz höherem Takt sieht man normalerweise z.B. bei instabilem Ram.

Du könntest durchaus Recht haben. Ich lass ihn jetzt mit 4 x 16 GB 2400er ECC RAM laufen - da steigt jetzt beim undervolten die Rechenleistung linear mit der Frequenz: z.Zt. 3,6 GHz bei eingestellter VCore von 1,05V (sind unter Last 1,0V). Mal sehen, ob es stabil ist :)
 
DDR4 RAM hat ja eine Fehlererkennung bei der Übertragung der Daten vom Riegel zum RAM Controller, aber eben keine Fehlerkorrektur und muss meines Wissens bei Fehlern die Übertragungen wiederholen. Mit ECC RAM können Fehler erkannt und auch in Grenzen korrigiert werden, schau mal ob es da Einträge im UEFI oder OS gibt, wobei ich nicht weiß ob die X399er Boards die überhaupt loggen.
 
Ich glaube inzwischen, dass ich schuld war :-[ - ich vermute, dass ich irgendwas falsch eingestellt hatte. Bei meinen neueren Versuchen hatte die Spannungseinstellung nämlich keinerlei Effekt auf die tatsächliche Spannung - das ging erst, als ich den CPU Takt manuell festgelegt habe. Ich werde mich nochmal wieder mit den P - states beschäftigen müssen.
 
Ich glaube inzwischen, dass ich schuld war :-[ - ich vermute, dass ich irgendwas falsch eingestellt hatte. Bei meinen neueren Versuchen hatte die Spannungseinstellung nämlich keinerlei Effekt auf die tatsächliche Spannung - das ging erst, als ich den CPU Takt manuell festgelegt habe. Ich werde mich nochmal wieder mit den P - states beschäftigen müssen.
Sapperlot! :)
Das passiert den besten auch mal.

Schau mal hier rein: Retesting AMD Ryzen Threadripper’s Game Mode: Halving Cores for More Performance
Game Mode does not disable SMT...
 
Das liegt aber in den "meisten" Fällen, eher daran das die BIOSe nicht wirklich sauber programmiert sind und mal Einstellungen annehmen und mal nicht.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh