Threadripper 3970X wird 95°C heiß

cipoint

Neuling
Thread Starter
Mitglied seit
13.09.2021
Beiträge
25
Mein TR 3970X erwärmt sich oft auf 95°C. Z.B. mit prime95 oder mit dem Linux-Tool "stress". Ich habe als Kühler Alphacool Eisbaer 420 und be-quiet Black Rock PRO TR4 getestet. Kühler liegen richtig auf dem IHS auf. WLP ist korrekt verteilt. BIOS-Einstellungen sind default, PBO ist aus. Ich weiß nicht was ich sonst noch tun kann. Außerdem ist der dritte CCD immer 10°C heißer als die anderen. D.h. CCD1, CCD2 und CCD4 liegen dann bei ca. 85°C, während CCD3 bei 95°C ist. Bei 95°C wird die CPU automatisch gedrosselt. Ansonsten würde sie wohl noch heißer werden.

Nach vielem Herumprobieren komme ich zum Schluss, dass es an der CPU selbst liegt. Ich habe im Netz sonst keine Berichte gefunden, wo eine 3970X konstant 95°C erreicht. Viele berichten selbst mit prime95 von 80°C bei stock-BIOS. Manche schaffen sogar einen OC auf deutlich über 4GHz all-core. Daran ist mit meinem Exemplar gar nicht zu denken.

Da die CPU erst 4 Monate alt ist, habe ich noch Anspruch auf Gewährleistung gegenüber Händler und Garantie direkt gegenüber AMD. Beide haben mir schon angeboten die CPU einzusenden. Das würde ich auch gerne machen. Nur habe ich etwas die Befürchtung, dass ich sie nach vielen Wochen dann doch wieder zurück bekomme mit der Begründung, dass sie zwar heiß wird, aber dennoch funktioniert. Das Problem ist nur, dass ich nicht möchte, dass sie ständig am thermischen Limit läuft (wegen reduzierter Langlebigkeit) und außerdem drosselt die da ja auch noch, so dass ich nicht die volle Leistung bekomme.

Wie würdet ihr in so einem Fall vorgehen? Sind ähnliche Fälle bekannt?

Wenn ihr sie einsenden würdet, dann zum Händler oder direkt zu AMD?
 
Zuletzt bearbeitet:
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Bei welcher Package Power? Die kann man z.B. mit HWInfo64 unter Sensors auslesen. Ich denke nicht, dass die CPU einen Defekt hat, sondern dass die Kühlung ein Problem hat oder eben im BIOS übertaktet wurden (PBO) und die Kühlung nicht reicht, denn so einen 3970X kann man dann auch leicht auf 400W und mehr treiben. Bei hothardware war für den 3970X die Leistungsaufnahme für das Gesamtsystem 400W @Stock, 537W mit PBO und 594W bei AutoOC, bei 17125, 17843 bzw. 18056 Punkten in CB20 und 95W im Idle @Stock.

Wenn die Package Power ständig deutlich über 250W liegt, dann schau mal genau auf Deinen BIOS Einstellungen, die bewirken dann nämlich, dass die CPU massiv übertaktet läuft und damit die Kühlung überfordert. Denke immer daran, die maximalen Leistungsaufnahme einer CPU bestimmt nicht die CPU selbst, sondern die hängt von den Vorgaben durch das BIOS ab! Das ist bei Intel wie bei AMD gleich und der Unterschied ist nur, dass bei den AMD Boards eigentlich immer in der Default Einstellung keine Übertaktung aktiv ist, während die meisten Intel Boards die CPUs schon in der Defaulteinstellung meist deutlich übertaktet betreiben und da die CPU Reviewer die CPUs meist in der Defaulteinstellung des Boards betreiben, falen die Leistungsaufnahmen dann auch entsprechend hoch aus.
 
Bei welcher Package Power? Die kann man z.B. mit HWInfo64 unter Sensors auslesen. Ich denke nicht, dass die CPU einen Defekt hat, sondern dass die Kühlung ein Problem hat oder eben im BIOS übertaktet wurden (PBO) und die Kühlung nicht reicht...
Wie ich geschrieben habe, alles default, kein OC, PBO aus. Package power max ist 280W. Diese werden dann auch ausgeschöpft. Ich kann PBO aktivieren und dort die max. zulässige Temp auf 85°C reduzieren. Dann zieht die CPU deutlich weniger als die 280W, taktet aber auch niedriger bei Vollast.
Da sich das bei zwei Kühlern gleich verhält (unter anderem mit dem Alphacool Eisbaer 420, von AMD selbst empfohlen für die 3970X: https://www.amd.com/de/thermal-solutions-threadripper), kann ich schlechte Kühlung im Grunde ausschließen.
 
Dann prüfe man Deine WaKü, von der Montage über die Pumpe bis zu den Lüftern am Radiator, denn da muss das Problem liegen und ein Tausch der CPU würde das Problem allenfalls zufällig beheben, etwas wenn es an der WLP liegt, die man bei einer neuen CPU natürlich sowieso auch neu auftragen muss oder an der Montage, die dann natürlich auch neu gemacht werden muss. Wie viele Punkte hast Du denn bei Cinebench 20, die müssten ja etwa bei 17000 bis 17500 liegen, wenn die CPU 280W verbraucht und dies zeigt Dir dann auch klar, dass die CPU wie erwartet arbeitet. Es gibt auch keine Fehler bei CPUs in der Art, dass sie zwar funktionieren, aber viel zu viel Strom verbrauchen. Dies wäre nur der Fall, wenn das BIOS eine viel zu hohe Spannung einstellt, aber die Spannungen regeln die Zen2 ja sogar weitgehend selbst.
 
Wir hatten die Tage einen User mit nem kleineren TR, der die Lüfteranordnung und den Airflow im Gehäuse komplett versägt hatte.
Hast du das mal kontrolliert bzw. nen Test mit abgenommener Seitenwand gemacht?

Ich seh haste selbst schon gesehen. Dennoch - sicher dass du nicht den gleichen Fehler gemacht hast? :d
 
Dann prüfe man Deine WaKü, von der Montage über die Pumpe bis zu den Lüftern am Radiator, denn da muss das Problem liegen und ein Tausch der CPU würde das Problem allenfalls zufällig beheben, etwas wenn es an der WLP liegt, die man bei einer neuen CPU natürlich sowieso auch neu auftragen muss oder an der Montage, die dann natürlich auch neu gemacht werden muss. Wie viele Punkte hast Du denn bei Cinebench 20, die müssten ja etwa bei 17000 bis 17500 liegen, wenn die CPU 280W verbraucht und dies zeigt Dir dann auch klar, dass die CPU wie erwartet arbeitet. Es gibt auch keine Fehler bei CPUs in der Art, dass sie zwar funktionieren, aber viel zu viel Strom verbrauchen. Dies wäre nur der Fall, wenn das BIOS eine viel zu hohe Spannung einstellt, aber die Spannungen regeln die Zen2 ja sogar weitgehend selbst.
Hi! Ich habe sowohl den WaKü als auch den LüKü mehrmals neu montiert, mit verschiedenen WLP. Die WLP habe ich auch mal unterschiedlich aufgetragen etc. Alles mit gleichem Ergebnis. Bei Cinebench R20 bekomme ich @stock 16400 Punkte bei 280W und wenn ich PBO aktiviere, bekomme ich 17000 Punkte bei ~340W, wobei dann CCD3 bei 95°C läuft, die anderen CCDs aber bei 85°C.
Wenn ich mir die einzelnen el.Leistungen aller Kerne anschaue, dann ziehen die 8 Kerne vom CCD3 immer mehr Strom und sind heißer.

Wir hatten die Tage einen User mit nem kleineren TR, der die Lüfteranordnung und den Airflow im Gehäuse komplett versägt hatte.
Hast du das mal kontrolliert bzw. nen Test mit abgenommener Seitenwand gemacht?

Ich seh haste selbst schon gesehen. Dennoch - sicher dass du nicht den gleichen Fehler gemacht hast? :d
Case offen, direkt hinterm dem CPU-Kühler drehen zwei 140mm Lüfter auf Vollgas. Das sollte reichen, oder? Bei der WaKü waren alle drei 140mm Lüfter auf Vollgas mit offenem Case.

Also da ist eindeutig etwas nicht ganz sauber mit der CPU. Entweder ist die Indiumlot-Verbindung zwischen CCD3 und IHS nicht optimal geraten oder CCD3 an sich ist ein richtiger Hitzkopf.
Nehmen wir an, ich hätte Recht und es liegt wirklich NICHT an der Kühlung. Wäre das aus eurer Sicht dann ein berechtigter RMA-Fall?
 
Nehmen wir an, ich hätte Recht und es liegt wirklich NICHT an der Kühlung. Wäre das aus eurer Sicht dann ein berechtigter RMA-Fall?
Unsere Sicht ist dafür total irrelevant, denn es kommt nur auf die Sicht desjenigen an der die CPU tauschen soll. Also entweder der Händler, wenn Du den Weg über die gesetzliche Gewährleistung gehen willst, oder die von AMD falls Du den Weg über die Garantie wählst.
 
Unsere Sicht ist dafür total irrelevant, denn es kommt nur auf die Sicht desjenigen an der die CPU tauschen soll. Also entweder der Händler, wenn Du den Weg über die gesetzliche Gewährleistung gehen willst, oder die von AMD falls Du den Weg über die Garantie wählst.
Das ist mir absolut klar. :giggle:
Ich wollte hier nur nach eurer Meinung fragen, da ich mir selbst nicht sicher bin ob das als Defekt/Mangelleistung betrachtet werden kann. Es scheint ein nicht besonders klarer Fall zu sein. Letztendlich verliere ich im schlimmsten Fall etwas Zeit wenn ich die CPU einsende und wieder zurück bekomme.

Hier bekommt einer 17000 Punkte in R20 @stock. Schaut mal die Temps an! Alles CCDs unter 65°, Tdie unter 70°C! Das schaffe ich nicht einmal mit der WaKü mit einem 420er Radiator. Mit PBO schaffe ich dann auch die 17000, die er @stock schafft, dann allerdings bei 95°C.

Ein anderer 3970X Besitzer mit PBO kommt auf 18000 Punkte: https://imgur.com/a/kSiUKXK

Was wäre denn eine plausible Argumentation für die RMA? Soll ich z.B. Cinebench R20 Punkte und die Temperaturen aufführen und darauf hinweisen, dass die Leistung unter dem erwarteten Wert liegt?
 
Zuletzt bearbeitet:
Meiner Meinung nach, hat man keinen Anspruch auf 4 gleichwertige CCD Dies in der CPU. Bei 5900X und 5950X gab es meine ich auch eine klare Aussage, dass es eben einen besseren, also in dem Fall vor allem taktfreudigeren Die gibt und eben ein Kern dieses Dies den versprochene Singlethreadtakt erreichen muss, oder war das noch bei Zen2, also 3900X und 3950X? Da die CPU ja fehlerfrei funktioniert, nur eben nicht so optimal, fürchte ich das es schwer wird da auf einen Defekt / eine Mangelleistung zu argumentieren, aber dies ist nur meine Meinung und im Sinne der Kundenzufriedenheit gibt es manchmal auch Kulanz in Fälle, wo die Rechtsgrundlage zumindest als sehr schwach zu beschreiben ist.
Beitrag automatisch zusammengeführt:

Ein anderer 3970X Besitzer mit PBO
Mit PBO zählt nicht, da die Leistung dann sehr vom Mainboard abhängt, also vor allem den Einstellungen die es dann vornimmt. PBO ist eben übertakten und man kann nie zwei übertaktete CPUs vergleichen und kein Hersteller gibt irgendwelche Garantien bzgl. Übertaktung, ja streng genommen hat nicht mal mehr die CPU Garantie, wenn sie übertaktet betrieben wurde.
 
Zuletzt bearbeitet:
Blöd nur wenn PBO standardmäßig im BIOS aktiviert ist.
Sicher, dass wäre bei einem AMD Board extrem ungewöhnlich. Übrigens zeigt der reddit Thread ja, dass Du offenbar nicht der einzige bist, dessen 3970X eben nicht zu den hellsten Kernen auf dem Kuchen zählt, aber darauf hat man eben auch keinen Anspruch, sondern nur darauf, dass die CPU die Spezifikationen des Herstellers einhält und da sind keine CB Punkte angegeben und auch nicht, welche Temperaturen welcher CCD mit welchem Kühler maximale erreichen dürfte oder auch nur, welche maximale Abweichung es zwischen den Temperaturen der CCDs geben soll, auch weil dies eben vom Kühler beeinflusst wird.
 
... aber darauf hat man eben auch keinen Anspruch, sondern nur darauf, dass die CPU die Spezifikationen des Herstellers einhält und da sind keine CB Punkte angegeben und auch nicht, welche Temperaturen welcher CCD mit welchem Kühler maximale erreichen dürfte ...
Basis-Takt ist 3,7GHz. Dieser wird in manchen Fällen unterschritten, weil die CPU bei 95°C drosselt. Der Basis-Takt sollte doch unter allen Umständen anliegen, oder? Vorausgesetzt natürlich, die 280W können gut abgeführt werden durch ordentliche Kühlung.
 
Dieser wird in manchen Fällen unterschritten, weil die CPU bei 95°C drosselt.
Was aber auch am Kühler, z.B. am Auftrag der WLP liegen könnte. Wie Du ja selbst reibst, ist eine ordentliche Kühlung die Voraussetzung und dazu gehört neben einem passenden Kühler auch dessen korrekt Montage.
Der Basis-Takt sollte doch unter allen Umständen anliegen, oder?
Keine Ahnung wie das beim TR ist, bei Intel gibt es gerade bei den CPUs mit AVX-512 Unterstützung auch Fälle wo der von Intel angegebene Takt bei intensiver Nutzung von AVX-512 Befehlen unter dem Basistakt liegt.

Aber wie schon gesagt, prüfe die Kühlung genau und wenn das nichts bringt, dann versuche halt Dein Glück beim Umtausch, entweder über den Händler oder den Hersteller und hoffe auf Kulanz, denn einen echten Mangel zu belegen, sofern denn wirklich einer vorliegt, dürfte echt schwer werden. Die CPU läuft ja und ist eben nur keine Perle, aber beim Hersteller kauft man eben Austern, ob eine Perle drin ist, weiß man erst hinterher. Daraus ergibt sich ja das Geschäftsmodell von Firmen wie Silicon Lottery oder in Deutschland Caseking, die öffnen die Austern, suchen die Perlen raus und verkaufen sie dann mit einem Aufpreis.
 
Wird wie bei allen AMD CPUs sein, ne Menge BIOS Versionen die den Boost sonst wohin schieben. Spannung erhöhen usw. und zack läuft das Ding Anschlag 95°C.

Bios Update, Settings prüfen (Boost, Leistung usw.) - gerade wenn die CPU innerhalb von 1s von 60°C auf 90°C springt braucht man sich nicht einbilden das ein Kühler groß Abhilfe schafft. Die Wärme kommt so schnell gar nicht aus dem Die raus...
 
Die Kühler sind allerdings beide nicht optimal. Die AIO ist ein universal Modell, da wird nur ein Teil des relativ riesigen Heatspreaders überdeckt. Und der Luftkühler ist auch nicht soo gut.
 
Die Kühler sind allerdings beide nicht optimal. Die AIO ist ein universal Modell, da wird nur ein Teil des relativ riesigen Heatspreaders überdeckt. Und der Luftkühler ist auch nicht soo gut.
Tatsächlich überdeckt der Kupferblock der AIO zumindest alle CCDs des 3970X. Beim 3990X könnte es knapp werden, weil die vier zusätzlichen CCDs noch weiter außen liegen. Aber beim 3970X passt es ganz gut. AMD selbst gibt diesen Kühler als Empfehlung für den 3970X an.
Zum Black Rock TR4 PRO: Dieser wurde speziell für den TR4-Sockel entworfen. In Tests hat er so manche Wasserkühlung geschlagen und sein Kupferblock deckt sogar den kompletten IHS ab.
Das alles erklärt nicht, warum einer der vier CCDs ständig bei 95°C drosselt. Wie dem auch sei, der Händler hat bereits zugesichert, dass sie den Fall intern bearbeiten werden und ich daher eine zügige Bearbeitung erwarten kann.
 
Als Luftkühler ist der größte Noctua besser. Ansonsten sind Temperatur Unterschiede nicht so ungewöhnlich - mein 3970X mit Noctua Kühler sieht so aus:
3970X.png

Spannenderweise ist CCD3 am kühlsten.
Meine 3990X hab ich inzwischen auf Wakü umgestellt - die sind übrigens wesentlich leichter zu kühlen, da sie weniger pro Die verbraten.
 
Na endlich meldet sich mal ein 3970X-Besitzer. :-)
Der Black Rock und der Noctua nehmen sich nicht viel. Je nach Test ist mal der einer vor mal der andere.
Interessanter weiße ist bei dir ein CCD 10°C unterhalb den restlichen. Bei mir ist es ja genau umgekerht. Ein CCD ist 10°C über den restlichen. Dadurch bestimmt dieser die max. anliegende vcore und bremst sozusagen den Rest aus. Hast du zufällig noch R20-Score @stock im Kopf?
 
Ich hab da sogar diverse RAMs (je 4 x 16 GB) probiert:
2133 MHz 18029 Punkte
2400 MHz ECC 17660 Punkte
2666 MHz 17943 Punkte
3600 MHz 17086 Punkte

Der 3600er ist der Einzige, der auf XMP läuft, die Anderen laufen auf 1,2V.
 
Je weniger Takt desto schneller? Vermutlich wegen schärferen Timings?
Ich schaffe gerade einmal 16400 Punkte in R20 mit 3200MHz CL16 (8x32GB).
 
Zuletzt bearbeitet:
Wenn ich mir anschaue dass die Maximum Voltage bei 1,488 V steht - egal wie sehr du kühlst, der fährt dann einfach die Spannung hoch solang die Temperatur auf dem Niveau bleibt. Ich sehe aber auch nicht das Problem - 280W PPT und der läuft hier leicht drüber. Das gibt halt ne warme Rübe :-D
 
Wenn ich mir anschaue dass die Maximum Voltage bei 1,488 V steht - egal wie sehr du kühlst, der fährt dann einfach die Spannung hoch solang die Temperatur auf dem Niveau bleibt. Ich sehe aber auch nicht das Problem - 280W PPT und der läuft hier leicht drüber. Das gibt halt ne warme Rübe :-D
Ähm, die 1,488 vcore beziehen sich auf den Maximalwert. Niemals wird diese Spannung auf allen 32 cores anliegen unter Vollast.
Btw: Das sind nicht meiner Werte sondern von einem anderen 3970X-Besitzer ...
 
Je weniger Takt desto schneller? Vermutlich wegen schärferen Timings?
Ich schaffe gerade einmal 16400 mit 3200MHz CL16 (8x32GB).
Eben nicht wegen schärferer Timings. Die schärfsten Timings hat der 3600er mit CL 16 - 18 - 18.
Der 2400 hat CL 17, der 2666 CL 19. Der 2133 hat CL 15, was absolut gesehen wesentlich langsamer ist.
Übrigens am besten läuft Schach bei mir auf den 3990X mit 3200er RAM CL 22. Den Satz Micron 3600er hab ich nur beim 3970X verbaut, da er über war.
Das waren übrigens unterschiedliche RAMs.
 
Eben nicht wegen schärferer Timings. Die schärfsten Timings hat der 3600er mit CL 16 - 18 - 18.
Der 2400 hat CL 17, der 2666 CL 19. Der 2133 hat CL 15, was absolut gesehen wesentlich langsamer ist.
Übrigens am besten läuft Schach bei mir auf den 3990X mit 3200er RAM CL 22. Den Satz Micron 3600er hab ich nur beim 3970X verbaut, da er über war.
Das waren übrigens unterschiedliche RAMs.
Dann verstehe ich nicht warum du mit langsamerem RAM mehr R20-Punkte bekommst. Hast du eine Erklärung dafür?
 
Eine Theorie wäre: bei weniger RAM Takt frisst der IO Die weniger und es bleibt mehr für die Rechenkerne über.
Das Phänomen gibt es aber nur bei Cinebench, bei anderen Anwendungen ist höherer RAM Takt positiv.
 
Ich kann dir übers Wochenende auch ein paar Erfahrungswerte liefern ! :d
Wäre super! Am Sonntagabend werde ich entscheiden müssen ob ich die CPU einsenden möchte.
Beitrag automatisch zusammengeführt:

Eine Theorie wäre: bei weniger RAM Takt frisst der IO Die weniger und es bleibt mehr für die Rechenkerne über.
Das Phänomen gibt es aber nur bei Cinebench, bei anderen Anwendungen ist höherer RAM Takt positiv.
Das könnte man auf zwei Arten überprüfen:
  • Vcore und CPU-Takt im BIOS fix einstellen. Dann mit unterschiedlichen RAM-Riegeln testen. Der R20-Score sollte mit schnellerem RAM gleich oder höher sein als mit langsamerem.
  • CPU-Frequenz während einem R20-Lauf auswerten. Wenn diese bei langsamerem RAM höher liegt, würde das für die Vermutung sprechen.
 
Zuletzt bearbeitet:
Update: Der 3970X wurde durch einen neuen ersetzt. Auch bei diesem ist CCD5 am wärmsten, aber die anderen liegen nur noch 2 bis 5 °C darunter. Außerdem kann die CPU nun selbst mit dem Luftkühler kurzzeitig 400W und dauerhaft ~330W ziehen, wobei dann CCD5 bei 95°C ist. Mit dem alten Exemplar war das nicht möglich, da CCD5 bereits bei weniger als 280W 95°C erreicht hat und dadurch alle anderen CCDs mitgedrosselt wurden. D.h. damals wurden selbst die 280W@stock nicht erreicht, auch nicht mit Wasserkühlung.

Mit einer guten Wasserkühlung wird die Ersatz-CPU wahrscheinlich auch dauerhaft 400W problemlos bewältigen. Ein anderer Vorteil ist, dass die CPU ohne PBO nun nicht mehr 95°C erreicht. Auch wenn es also immer noch deutliche Unterschiede in den CCD-Temps. gibt, läuft die CPU insgesamt deutlich kühler oder taktet dauerhaft höher, je nachdem was man halt mag (PBO aus vs an).
 
CPU-Frequenz während einem R20-Lauf auswerten. Wenn diese bei langsamerem RAM höher liegt, würde das für die Vermutung sprechen.
Davon kann man ausgehen. Insbesondere wenn der TR im Powerlimit läuft, dann ist er mit schnellerem Ram tatsächlich langsamer. Die höhere Last des IMC klaut den Cpu Kernen etwas vom Powerlimit... Das fällt insbesondere im Cinebench auf, weil dieser Benchmark sehr gut mit dem Cpu Takt und eher schlecht mit dem Ram skaliert. Sprich höhere Last des IMC klaut den Cpu Kernen Takt und der Ram kann das durch die Natur des Benchmarks nicht auffangen. Sollte man auch im HWInfo o.Ä. sehen, weil die Leistungsaufnahme des I/O Die steigt.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh