Vega 56 - Crash / Temperatur Problem nach Umbau auf Morpheus II

M4deman

Enthusiast
Thread Starter
Mitglied seit
28.11.2012
Beiträge
439
Hi,

ich habe heute den Stockkühler meiner Vega ersetzt. Das war der erste Umbau einer GPU für mich.
Immerhin hat mal alles soweit geklappt, dass die Karte noch läuft :d

Die Probleme sind nun folgende:
- GPU Temp Hotspot liegt im Idle bei ~29°C und sobald Last anliegt bei 105°-109°C. Das ganze ohne Steigerungskurve oder so, sondern instant sobald 3D Last anliegt. Ich weiß ehrlich gesagt gar nicht, wo diese Temperatur gemessen wird.
- GPU Core Temp im Idle bei ~29°C unter Last bei ~40°C, das kommt mir unrealistisch wenig vor
- GPU taktet nur noch mit ~1000 MHz (ich vermute mal wegen der Hotspot Temperatur)
- Es kommt zu Abstürzen, z.B. bei Witcher 3 oder auch im Timespy Benchmark. Dann gibt die Karte kein Bildsignal mehr aus, Sound läuft aber weiter.

Die Daten habe ich ausgelesen mit GPU-Z 2.4.0

Bild 1: Die Backplate habe ich entfernt (und bleibt auch weg, da sie nicht passt mit dem Halterahmen des Morpheus)
Bild 2: Karte ohne Kühler
Bild 3: Die Bestückung der VRMS. Ich habe mich dabei am Original Kühlkörper orientiert. Allerdings habe ich hier noch etwas ändern müssen und hab kein Bild davon gemacht (möchte den Kühlkörper jetzt nicht unbedingt wieder weg machen).
Bild 3.1: Der Heatsink im roten Rahmen habe ich ersetzt durch einen halbhohen, wie auf der rechten Seite. Im blauen Rahmen musste ich die Heatsinks tauschen. Jeweils 2 Heatsinks entfernt und dafür nur einen Schmalen hinzugefügt (wie ganz rechts horizontal) und im grünen Rahmen: Hier habe ich noch einen kleinen Heatsink hinzugefügt
Bild 4 und 5: Nichts spezielles





 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Der Höhenunterschied wird von der WLP ausgeglichen. Hast du welche drauf?? Kann es sein dass die Schwarzen Kühler zu hoch sind??
 
Kühler nochmal ab und schauen ob der Kühler WLP abbekommen hat. Und überprüfe diese Hexa-Spacerschrauben. Bei uns war eine viel zu lang und berührte das PCB.

dada.jpg

...
Bild 1: Die Backplate habe ich entfernt (und bleibt auch weg, da sie nicht passt mit dem Halterahmen des Morpheus)
...
Die passt schon, muss hat die andere Innereplate (wie im Album von why_me zu sehen) bearbeiten:
VegaCooler.jpg
 
Zuletzt bearbeitet:
Evt, hast du eine GPU erwischt wo der HBM Speicher einen Höhenunterschied hat, und daher sitzt der Kühler schief auf.
AMD verwendet unterschiede GPU-Packages für Radeon RX Vega (Update) - Hardwareluxx

Dann würde aber nur der HBM-Speicher keinen richtigen Kontakt haben.
So wie sich das anhört hat die GPU keinen richtigen Kontakt zum Kühler. Da hilft nur Abmontieren und schauen, ob sich die Wärmeleitpaste am Kühlerboden verteilt hat oder noch fast unberührt auf der GPU sitzt.
 
Hi,

danke für die Tipps. Ich hab den Kühlkörper nochmal runter genommen und es schien mir doch etwas wenig WLP. Also habe ich nochmal etwas drauf getan und den Kühler wieder montiert.
Voila: GPU Hotspot bei ~75° unter Load und die Karte taktet im Timespy mit 1550-1600 MHz.

:)
 
Gut dass die aktuellen Karten so gut abgesichert sind... früher wäre die in dem Zustand nur ein einziges mal gestartet ;)
 
So ging mir das mit einem Arctic Accelero IV auch mal (kann ich bei großem Gehäuse nur empfehlen). Nach nochmaligem Zusammenbau hat es dann endlich funktioniert. Angstschweiß weg gewischt und viel Spaß damit :hail:
 
Jau, aber passt jetzt alles.
Keinerlei Auffälligkeiten, außer die geringe Lautstärke :d
 
Wie sind die Temperaturen bei den VRMs?
 
Wie kann ich die Temps der VRMs auslesen?
Oder benötige ich da ein Temperaturmessgerät?

@oposum:
 
Moin,

Vega und Morpheus passen nicht Plug&Play zusammen, beide haben soweit ich gesehen hab konvexe Oberflächen. Das ist so wie wenn man zwei Eier gegeneinander hält, da gibts auch keine nennenswerte Kontaktfläche. Dein Kontakt liegt im Bereich des GPU-Sensors, dort ist auch dann die Temp am niedrigsten. Im Sammelfred hab ich ein paar Mods vorgestellt u. a. Die und Ref-Kühler geschliffen (auf eigene Gefahr) und ganz passable Temperaturen und deren Verteilung erreicht
 
Hallo in die Runde...

Die Spannungswandler werden zu warm, was vermutlich als Hotspottemperatur ausgelesen wird. Diese sollte nicht über 105°C liegen da sonst das Board crasht.

Bei 3d-Last vertragen die X6S MLCC-Kondensatoren wohl 90-100°C. Wenn die Ripple Werte ansteigen sinkt die Höchsttemperatur der Kondensatoren um so mehr. Dann verliert die Wandlung bis zu 20% effektiver Leistung...
 
Zuletzt bearbeitet:
Hallo in die Runde...

Die Spannungswandler werden zu warm, was vermutlich als Hotspottemperatur ausgelesen wird. Diese sollte nicht über 105°C liegen da sonst das Board crasht.

Bei 3d-Last vertragen die X6S MLCC-Kondensatoren wohl 90-100°C. Wenn die Ripple Werte ansteigen sinkt die Höchsttemperatur der Kondensatoren um so mehr. Dann verliert die Wandlung bis zu 20% effektiver Leistung...

Nein der HotSpot sitzt an oder in der GPU. Die Spannungswandler haben extra Sensoren, die schwer aus zu lesen sind.

Musste mir beim Morpheus was einfallen lassen um die Spawas gut zu kühlen: [Guide] RX VEAG64 Umbau auf Morpheus 2 Core Edition von RAIJINTEK - Seite 3

Alternativ kann man auch den Originalkühlblock verwenden: [Guide] RX VEAG64 Umbau auf Morpheus 2 Core Edition von RAIJINTEK - Seite 2
 
Zuletzt bearbeitet:
Glaub ich nicht: RX Vega temperature sensor location | Community

Beide Programmierer (GPUZ und HW Info) wissen nicht was der Hotspot ist und AMD dokumentiert es öffentlich nicht.

Ich vermute es ist ein Thermalsensor auf dem PCB in der Nähe des Interposers weil dieser nicht so hohe Temperaturen verträgt. 105-109°C erreicht keine andere Baugruppe auf dem PCB. Die GPU definitiv nicht, egal was sich im Package befindet. Der HBM2 ist nicht für so hohe Temps spezifiziert. Vor allem würde die GPU dann throtteln, da die Temperatur des HBM und des Die mit IF in Hardware überwacht wird.

THG vermutete die Spawas, weil diese bis 105°C spezifiziert sind...

Was deine Konstruktion angeht, schafft du mehrere Wärmebrücken (Leitpads usw.)...mit aufgeklebten Kühlkörpern das dürfte was die Wärmeleitfähigkeit angeht zwar positiv wirken, kann aber bei fehlender Leitfähigkeit (Koeffizient/Faktor) ineffizient sein und zum Wärmestau führen. Heißt die Energie kann nicht schnell genug abgeleitet werden...
 
Zuletzt bearbeitet:
Zumindest was die vorher/nachher werte angeht sind die VRM Temps stark gesunken. Und Wärmeleitpads sollten schon wärme an die Kühlkörper weiter leiten oder nicht?

Deswegen schrieb ich auch "an oder in der GPU", das es an - in der nähe sein kann würde ich nicht abstreiten aber die VRM Temperatur ist der HotSpot nicht.
 
Deswegen schrieb ich auch "an oder in der GPU", das es an - in der nähe sein kann würde ich nicht abstreiten aber die VRM Temperatur ist der HotSpot nicht.
Die Wandler werden wärmer, aber der Rest nicht. Hier mal die Werte von der 64 von @gupsterg:

(89°C)- SoftwareShutdownTemp
(105°C) - TemperatureLimitHotSpot
(95°C) - TemperatureLimitHBM
(100°C) - TemperatureLimitPlx

Limit bedeutet sicher max und wenn du beim Hotspot bei 109°C bist, ist das Limit überschritten, wie ich schon schrieb hängt die Leistung der VRM dann auch stark von den Rippleströmen ab, blöde ist AMD gibt Asic TBP an (keine TDP max) und nicht die wirkliche Leistungsaufnahme.

Bei Fiji hatte ich anfänglich ähnliche Probleme und musste dann auf Wasser gehen, die Karte schaltete bei Spielen einfach ab.

Die Powertablewerte der 64 sehen so aus:
(220W) - SocketPowerLimit
(220W) - BatteryPowerLimit
(220W) - SmallPowerLimit
(300A) - TdcLimit

Leider gibt keine wirklichen Vergleichswerte zur 56. Aber über 105 am HP dürfte zu viel sein.
 
Ja. Soweit es mich angeht gibt es keine Temperatur Probleme mehr. Habe das mit knapp 300 Watt Chippower getestet wobei ich 24/7 nur bis 260 gehe was ca 340 Watt für die ganze Karte entsprechen müsste, da kommen die vrm nicht mehr über 80 und hot spot über 84°C. Würde auch auf die vrm Sensoren noch ein paar Grad rauf rechnen.

Weiß jetzt nicht worauf du hinaus möchtest, das der TE vielleicht noch Probleme mit der vrm Kühlung haben könnte?
 
Ja. Soweit es mich angeht gibt es keine Temperatur Probleme mehr. Habe das mit knapp 300 Watt Chippower getestet wobei ich 24/7 nur bis 260 gehe was ca 340 Watt für die ganze Karte entsprechen müsste, da kommen die vrm nicht mehr über 80 und hot spot über 84°C. Würde auch auf die vrm Sensoren noch ein paar Grad rauf rechnen.

Weiß jetzt nicht worauf du hinaus möchtest, das der TE vielleicht noch Probleme mit der vrm Kühlung haben könnte?
Ich wollte nur behilflich sein, und zum Nachdenken anregen das die Entwickler zwar die Thermalsensorik der Hardware mit ihren Tools auslesen, aber (was wie wo) immer noch vage ist, wenn es um den Hotspot geht und es im Zusammenhang mit zu hohen Wandlertemperaturen stehen könnte.

Die höheren Temperaturen kosten dann zugleich etwas Leistungsvermögen der VRM (was unter Auslastungsszenarien dann zu Instabilitäten führen kann). Wenn alle mit dem Erreichten zufrieden sind, gibt es nichts zu beraten, dass stimmt.:)

FÜR GCN gilt ja grundsätzlich, desto kühler desto besser und dass kann man gut mit undervolten erreichen (oder aufwendigen Kühloptionen).
 
Zuletzt bearbeitet:
Danke dafür, vielleicht lesen das noch andere, das VRM Problem ist schwierig da man die Temperaturen normalerweise nicht Auslesen kann, binn da zufällig drüber gestolpert.

Die Position des HotSpot wird schon bei der GPU sein, anders könnte ich mir nicht erklären das er bei zu wenig Anpressdruck des Kühlers sehr schnell über 100°C steigt. Hatte den Fall selbst mal bei meinen Versuchen (habe vieles probiert). Und das Plan schleifen des Kühlers + Flüssigmetall einsatz hat die HotSpot Temperatur jeweils deutlich gesengt, um je ca. 8 °C.

Tatsächlich konnte ich bei verbesserter Wandlerkühlung eine Leicht geringere HotSpot Temperatur erreichen (ca 2°), was aber damit zu tun hat das sich die Platine um den Chip herum nicht mehr so extrem aufheizt denke ich.

Konnte beobachten das die Spannungswandler ab 100°C anfangen zu drosseln bzw nicht mehr hergeben können (du hast das besser ausgedrückt), was einen Abfall der GPU Chip Power auf 240 Watt bewirkte, bei einen test mit ca. 260Watt. Time Spy Stresstest hat da gar abgebrochen (jetzt lüft der bei mir mit 300Watt Chippower durch).

Edit:
Was deine Konstruktion angeht, schafft du mehrere Wärmebrücken (Leitpads usw.)...mit aufgeklebten Kühlkörpern das dürfte was die Wärmeleitfähigkeit angeht zwar positiv wirken, kann aber bei fehlender Leitfähigkeit (Koeffizient/Faktor) ineffizient sein und zum Wärmestau führen. Heißt die Energie kann nicht schnell genug abgeleitet werden...

Und da hast du natürlich recht aber für die recht geringe Verlustleistung der Spawas scheint es noch zu reichen :).
 
Zuletzt bearbeitet:
Danke dafür, vielleicht lesen das noch andere, das VRM Problem ist schwierig da man die Temperaturen normalerweise nicht Auslesen kann, binn da zufällig drüber gestolpert.

Die Position des HotSpot wird schon bei der GPU sein, anders könnte ich mir nicht erklären das er bei zu wenig Anpressdruck des Kühlers sehr schnell über 100°C steigt. Hatte den Fall selbst mal bei meinen Versuchen (habe vieles probiert). Und das Plan schleifen des Kühlers + Flüssigmetall einsatz hat die HotSpot Temperatur jeweils deutlich gesengt, um je ca. 8 °C.

Tatsächlich konnte ich bei verbesserter Wandlerkühlung eine Leicht geringere HotSpot Temperatur erreichen (ca 2°), was aber damit zu tun hat das sich die Platine um den Chip herum nicht mehr so extrem aufheizt denke ich.

Konnte beobachten das die Spannungswandler ab 100°C anfangen zu drosseln bzw nicht mehr hergeben können (du hast das besser ausgedrückt), was einen Abfall der GPU Chip Power auf 240 Watt bewirkte, bei einen test mit ca. 260Watt. Time Spy Stresstest hat da gar abgebrochen (jetzt lüft der bei mir mit 300Watt Chippower durch).

Edit:

Und da hast du natürlich recht aber für die recht geringe Verlustleistung der Spawas scheint es noch zu reichen :).
Ein sehr gutes Video um die Vega Referenz Platine zu verstehen und was man kühlen sollte, ist dieses von Nexus: Radeon Vega: FE Vcore Behemoth - VRM PCB Analysis - YouTube :d
 
Zuletzt bearbeitet:
X6S ist von -55° bis 105° freigegeben mit +/-22% Temp. Koeffizient
Natürlich, nur bei 295-300w "TBP" und die Vega verwurstet Peaks bis über 400w und dann nimmt der Wirkungsgrad unter thermaler Belastung ab. Die Verlustleistung der VRM steigt bei höherer Temp deutlich an. Es geht ja nicht um ein dauerhaftes Auslastungszenario bis "zu", sondern ein optimales, wobei die Hardware auch lange hält (5 Jahre usw.).

Wenn ich die Kiste immer an der Kante fahre, ist nach 2 Jahren Schluß...(wenn das überhaupt so lange dauert).

Es ging ja auch darum Instabilitäten auszuschließen, siehe Ausgangspost des TS. Ansonsten ja...

Siehs am Bsp. der Liquid, hat die gleichen Wandler usw. nur bleibt die mit irgendwas bei ca. 60°C deutlich kühler und dann leistet die VRM auch mehr (Powertarget=375w).
 
Zuletzt bearbeitet:
Ja, das stimmt natürlich, aber der MLCC wird Dir da eher nicht abschmieren ohne Crack, den ich jetzt mal ausschließe, weil die Karte ja fest und dauerhaft im Steckplatz sitzt. Aber klar, "aging" nimmt bei Dauerlast und Temperatur zu.
 
Ja, das stimmt natürlich, aber der MLCC wird Dir da eher nicht abschmieren ohne Crack, den ich jetzt mal ausschließe, weil die Karte ja fest und dauerhaft im Steckplatz sitzt. Aber klar, "aging" nimmt bei Dauerlast und Temperatur zu.

Die Frage ist bis zu welchem Grad ist unter einer alltagstauglichen Belastung (TBP), freie Konvektion möglich und ab wann muss Konvektion erzwungen werden. Welche Konnektivität muss das verwendete Material besitzen (auch im Sinne von Kostenfaktoren, wie Größe, Preis, Usability usw.). In der Halbleiterindustrie ist die Erwärmung elektronischer Bauteile ein komplexes Thema, wenn man an deren Haltbarkeit denkt. Leistungsbauelemente verlieren bis zu 50% ihres Wirkungsgrades unter thermischer Belastung und altern doppelt so schnell (55% schneller). Dabei haben sich in diesen Anwendungsbereichen bonded-fin Kühlmethoden größtenteils durchgesetzt, bei denen größere Elemente per Touch diese Bauteile effektiv kühlen, um zu einem ihren Wirkungsgrad zu erhalten und eine lange Lebensdauer zu versprechen (oder versprechen zu können).

Die Wärmeleitfähigkeit von Kühlelementen hängt dann auch von der Zusammensetzung des verwendeten Materials ab (Kupfer, Reinalu, Mischlegierungen usw.), was nichts anderes heißt das Luftstromkühlelemente und deren Wirkungsgrad von ihrer Geometrie, den Konturen, Rippenhöhe/-dicke und der Werkstoffzusammensetzung abhängig gemacht werden können. Wärmeverteilung und Abfuhr (aus der Heizzone), damit spielen niedrigere Temperaturen die wesentliche Rolle. Bauteilgröße und Wärmemenge (Leistungsaufnahme) wiederum sind dabei eine nicht verachtbare Größe, daher auch das Video was sicher anregt sich Gedanken zu machen, was man alles kühlen kann (nicht zwingend muss), denn von der Größe eines Bauteil kann man nicht ableiten - was dieses zu leisten hat und wie warm es wird.

Am Bsp. des hier präsentierten Umbaus eines solchen Designs ist auch zu erkennen, dass anfänglich Bauteile die im Luftstrom ausreichend gekühlt wurden (Referenzdesign der Vega), was nach Umbau ggf. nicht mehr der Fall ist (Radiallüfter- und Axiallüfterprinzipien) und das wenn Bauteile eben faktisch nicht ausreichend gekühlt werden, sie weniger leisten, schneller altern (Elektromigration) und es zusätzlich zu Instabilitäten kommt (kommen kann, nicht zwingend muss). Die Verwendung nicht spezifizierter Bauteile ist dann nochmals eine andere Baustelle, auch wenn wie im Bsp. zu sehen es sich um eine weitgehend erzwungene Kühlung handelt, sagt das nicht aus, dass diese auch ausreicht und zuverlässig in allen Anwendungsszenarien ihren Dienst leistet. Die thermische Stabilität der Bauteile (Auswahl, Typus usw.), sind dabei natürlich an den Referenzvorgaben festgemacht, die man faktisch für einen leisere Kühlung unspezifiziert abändert.

Ich würde daher bei Umbau immer auf die effektivere Kühlmethode setzen, die hier gegenüber Luft klar Wasser wäre, denn Vega ist zu einem schon gut "ausgelastet", was auch auf die Referenzkühllösung zutrifft. Andersherum weiß man, dass AMD seine GPUs immer gut ausfährt und Spannungen dann oft zu hoch wählt um der Serienstreuung Herr zu werden (Powertune, Powertune 2). Da kann man halt bei Umbau noch auf Undervolting setzen, dabei unter Luft dann auf einem Kompromiss aus leiser Kühlung und annehmbarer Leistung.
 
Zuletzt bearbeitet:
Gut, das ist bei uns als Hersteller von Passiven auch nicht anders, aber es ist klar definiert, zumindest die Abhängigkeit zur Temperatur. Da gehts dann aber eher um die Veränderung der Kapazität innerhalb der Temperaturspanne, die für das Dielektrikum genormt ist. DC Bias lass ich mal außen vor.
Was Vega angeht hast Du natürlich Recht. Durch die sehr konservativ gewählte Basis steckt noch einiges an Optimierungspotenzial für den Nutzer drin.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh