GTX 1080 Ti Reparatur | Problem erst im Idle

wirsinddie1

Enthusiast
Thread Starter
Mitglied seit
18.04.2013
Beiträge
591
Ort
Hamburg
Hallo an alle,

leider macht meine Grafikkarte seit einigen Tagen Probleme, weswegen ich mich hier an die wesentlich spezialisiertere und kompetentere Community wenden möchte.

Kurz zum System:
- ASUS ROG Strix GeForce GTX 1080 Ti OC
- Intel Core i7 8700K
- MSI Z370 KRAIT GAMING
- 16GB Corsair Vengeance LPX @3000 Mhz
- 600 Watt be quiet! Straight Power 10 CM

Der (vermutliche) Problemverursacher ist ein ASUS ROG Strix GeForce GTX 1080 Ti OC, welche seit ca. 6 Jahren in dem Rechner betrieben wird. Ich selbst habe den gebrauchten Rechner vor ca. 4 Wochen erworben und konnte ihn für 3 1/2 Wochen ohne Probleme betreiben.

An einem Nachmittag ist der Rechner im Windows Idle abgestürzt, als dass der Bildschirm schwarz wurde und der Grafikkarten Lüfter auf 100% hochdrehte. Nach einem Neustart blieb das Problem bestehen, dass der Rechner nach wenigen Minuten in Windows (oder nach beenden eines Spiels) mit einem schwarzen Bildschirm und maximal drehenden GPU-Lüftern ausgeht und in diesem Zustand verbleibt, bis dieser über Power ausgeschaltet wird.

Bisher unternommene Versuche zur Problemlösung:

1. Neuinstallation von Windows 10/11
—> Problem bleibt gleichbleibend bestehen, Rechner stürzt bereits nach Grafiktreiber Installation ab.

2. Grafikkarte in den zweiten PCIe x8 Slot gesteckt
—> Problem unverändert vorhanden.

3. Austausch von Netzteil mit Seasonic Focus GX 550W
—> Problem bleibt weiterhin bestehen.

4. Erneuerung der Wärmeleitpaste der GPU
—> Wie auf den angehängten Fotos des GPU DIE zu erkennen, war die Wärmeleitpaste nach Jahren der Nutzung bereits so gut wie verschwunden. Die GPU hält gefühlt etwas länger in Windows durch, beziehungsweise stürzt sie Ingame oder in Benchmarks nicht ab. Erst sobald der Bench oder das Spiel geschlossen wird gibt es einen Blackscreen und die GPU-Lüfter drehen auf 100% hoch.
Dieses Vorgehen lässt sich beständig durch CS:GO triggern, welches eigentlich keine hohe Last auf die Grafikkarte ausüben sollte (siehe hierzu GPU-Z log 2).

5. MISC: Neue Wärmeleitpaste für CPU, Memtest zur Überprüfung RAM, XMP deaktiviert
—> Keine Veränderung


Wie der Windows-Eventanzeige zu entnehmen, scheint es mit der Spannungsversorgung der GPU zusammenzuhängen, dass diese nicht mehr genügend Spannung bekommt und danach abstürzt. Dies geht nicht unbedingt aus den GPU-Z logs hervor, in welchen die Spannung bis zum Absturz stabil zu bleiben scheint (Log 1: Absturz Windows Idle / Log 2: Absturz nach beenden von CS:GO). Es ist jedoch jeweils ein Rückgang der Taktrate zu erkennen.

Daraus schließe ich, dass ein Fehler mit der Spannungsversorgung der Grafikkarte vorliegt. Hat jemand bereits das gleiche Fehlerbild, oder einen Tipp wie weiter vorzugehen wäre? Welche Komponenten der Grafikkarte wären bei dem Fehlerbild zu überprüfen, und wäre hier eine Reparatur möglich, insbesondere da die Grafikkarte unter Last gut funktioniert.

Ich freue mich über Rückmeldung!
 

Anhänge

  • GPU-Z Sensor Log.txt
    24 KB · Aufrufe: 74
  • GPU-Z Sensor Log2.txt
    298,1 KB · Aufrufe: 71
  • Screenshot 2023-04-26 132436.png
    Screenshot 2023-04-26 132436.png
    17,3 KB · Aufrufe: 136
  • Screenshot 2023-04-26 133243.png
    Screenshot 2023-04-26 133243.png
    18 KB · Aufrufe: 135
  • IMG_2232.jpeg
    IMG_2232.jpeg
    1,6 MB · Aufrufe: 147
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Du kinntest mal versuchen, über den msi afterburner, die GPU um 100mhz zu untertakten.

Ich befürchte aber, daß es von der gpu selber kommt, die ist an der rechten kante sehr heiß geworden, da wo die Memory Controller in der GPU sitzen, das sieht man ganz gut an dem Kleber der das Silizium mit dem Package verbindet, gerade da die rechten Ecken oben/unten sind schon sehr braun im Vergleich zu den linken Ecken...
Eine komplett neue gpu da zu verlötet ist preislich unwirtschaftlich, wenn du eine PCB defekte 1080ti hast, könnte man von der die gpu als spender nehmen, aber das wird dann dennoch um die 150-200€ rum kosten wenn man das machen lässt schätze ich
 
Hi AssassinWarlord,

vielen Dank für die Antwort!
Ich habe es mal mit -200Mhz auf dem Core Clock und auf dem Memory Clock probiert, jedoch immer noch das gleiche Fehlerbild.

Die braune Verfärbung hatte ich ebenfalls in jeder Ecke gesehen, hatte sie jedoch für "normal" vom Werk erachtet, da sie halt fast überall war. Würde ein defekt des Chips (Memory Controller) aber nicht eher dafür sprechen, wenn die Karte unter Last abstürzt? Es wundert mich das es immer der entgegengesetzte Fall ist, sprich wenn die Last wieder abgeht.

Die Reparatur in diesem Preisbereich würde ich ggf. dennoch in Betracht ziehen, sofern es möglich ist, da ich für 200€ natürlich keine GPU in dem Leistungsspektrum finden werde. Da müsste ich natürlich nur in Erfahrung bringen ob es am PCB oder am Chip selbst liegt...
 
Sehr skurriles Problem. Ist da vielleicht kürzlich ASPM aktiviert worden und die Karte kommt damit nicht klar?

An den Logs fällt mir nur auf, daß der 8-Pin #1 erheblich weniger Strom liefert als #2. Da scheint irgendwo ein Übergangswiderstand sein Unwesen zu treiben. Das kann von Kontaktschwierigkeiten über schlechte Lötstellen bis zu einem Haarriß in der Platine alles mögliche sein, vorausgesetzt die Strommessung stimmt überhaupt und es hat keiner den Shunt modifiziert.
 
Du könntest noch folgende Schritte unternehmen und dabei mit hwinfo o.ä. die Werte des Systems protokollieren:
6. GPU ausbauen und die iGPU des 8700k nutzen -> System unter Last setzen (bspw. Cinebench R23). Es ist zwar sehr sehr wahrscheinlich die GPU, aber so bist du dir ganz sicher.
7. Die GPU mal vollständig auslasten (bspw. mit MSI Kombustor) und Temperatur und Takt im Auge behalten. Läuft das stabil (30+ Min.)? Du kannst damit auch mal den Speicher grob testen (einfach den Test FurMark-Donut-5200MB zwei mal starten).

Wenn ich mir die beiden Logs ansehe, scheint die Karte immer dann Probleme zu bekommen, wenn sie von einem höheren in den niedrigsten Powerstate (Idle, 0,65V) wechselt. Das Problem kannst du dann auch nicht mit untertakten lösen. Das die Abstürze nur im Idle passieren ist schon ein bisschen seltsam.

Die Reparatur in diesem Preisbereich würde ich ggf. dennoch in Betracht ziehen, sofern es möglich ist, da ich für 200€ natürlich keine GPU in dem Leistungsspektrum finden werde. Da müsste ich natürlich nur in Erfahrung bringen ob es am PCB oder am Chip selbst liegt...
Für um die 200€ bekommst du momentan eine funktionierende 1080 Ti oder vergleichbar. Ich denke nicht, dass sich da eine Reparatur noch lohnt.
 
Hi,

vielen Dank für eure Anregungen!

Sehr skurriles Problem. Ist da vielleicht kürzlich ASPM aktiviert worden und die Karte kommt damit nicht klar?

An den Logs fällt mir nur auf, daß der 8-Pin #1 erheblich weniger Strom liefert als #2. Da scheint irgendwo ein Übergangswiderstand sein Unwesen zu treiben. Das kann von Kontaktschwierigkeiten über schlechte Lötstellen bis zu einem Haarriß in der Platine alles mögliche sein, vorausgesetzt die Strommessung stimmt überhaupt und es hat keiner den Shunt modifiziert.
Ich hatte bereits auch mehrmals das Bios auf Stock settings zurückgesetzt. Das Bios wurde in der neusten Version seit mehreren Wochen genutzt. Zurzeit ist alles auf stock und nur XMP aktiviert. Daher gehe ich nicht davon aus, dass hier Änderungen durch bspw. Windows Updates vorgenommen wurden (insbesondere da auch clean Installation von Win10/11)

7. Die GPU mal vollständig auslasten (bspw. mit MSI Kombustor) und Temperatur und Takt im Auge behalten. Läuft das stabil (30+ Min.)? Du kannst damit auch mal den Speicher grob testen (einfach den Test FurMark-Donut-5200MB zwei mal starten).

Wenn ich mir die beiden Logs ansehe, scheint die Karte immer dann Probleme zu bekommen, wenn sie von einem höheren in den niedrigsten Powerstate (Idle, 0,65V) wechselt. Das Problem kannst du dann auch nicht mit untertakten lösen. Das die Abstürze nur im Idle passieren ist schon ein bisschen seltsam.
Danke für die Tipps!

Ich habe jetzt jeweils beide Benchs mal laufen lassen, bei welchem es mal wieder merkwürdige Ergebnisse gab. Die beiden HWinfo logs wurden ca. 1 Minute nach Benchmark-Start aufgezeichnet.
Der normale Kombustor Stress Test lief über 30 Minuten ohne Probleme durch. Erst als dieser beendet würde ist wieder der Bildschirm schwarz geworden und 100% GPU Fanspeed.

Der Memory Benchmark ist ebenfalls gut durchgelaufen. Jedoch ist beim beenden des Bench der Rechner nicht abgestürtzt! Der Bench wurde ca. bei Minute 32 beendet. Ab Minute 35 habe ich CS:GO gestartet und für ca. 7 Minuten laufen lassen. Nachdem ich diese beendet ist der Rechner ebenfalls nicht abgestürzt (konnte zuvor verlässlich dadurch getriggert werden). Dies wiederholte ich nocheinmal mit einer ca. 12 Minuten Session, wobei es ebenfalls beim beenden keinen Absturz gab.

Nach beenden des HWinfo logs habe ich mir die Logs im Logviewer angesehen woraufhin der Rechner nach 15 Sekunden mit dem bekannten Fehlerbild abstürzte. Mag sein, dass ich CS:GO nicht lange genug beendet gehabt habe, aber es erschließt sich mir kein kohärentes Bild zu dem vorherigen durchlaufen nach schließen des Spiels.

(Leider kann ich keine .csv Dateien hier hochladen, weswegen ich sie in .txt unbenannt habe)

Du könntest noch folgende Schritte unternehmen und dabei mit hwinfo o.ä. die Werte des Systems protokollieren:
6. GPU ausbauen und die iGPU des 8700k nutzen -> System unter Last setzen (bspw. Cinebench R23). Es ist zwar sehr sehr wahrscheinlich die GPU, aber so bist du dir ganz sicher.
Ich werde dies morgen nochmal probieren, wobei ich nicht von Problemen ausgehe. Aber dennoch ein Versuch wert um komplette Gewissheit der GPU als Übeltäter zu haben!

Edit: unter Cinebench und unter MSI Kombustor gab es 30+ Minuten keine Probleme.
 

Anhänge

  • Screenshot 2023-04-28 231436.png
    Screenshot 2023-04-28 231436.png
    516,6 KB · Aufrufe: 79
  • Screenshot 2023-04-28 234808.png
    Screenshot 2023-04-28 234808.png
    3,1 MB · Aufrufe: 75
  • memory_bench.txt
    2,5 MB · Aufrufe: 58
  • stress_bench.txt
    1,6 MB · Aufrufe: 61
Zuletzt bearbeitet:
Hi... ich hatte mal ein ähnliches Problem.
Versuch mal mittels MSI-Afterburner Curve-Editor eine neue Kurve anzulegen. Ähnlich wie beim untervolten änderst Du die Kurve jedoch so ab, daß die Karte im Leerlauf ohne Last etwas mehr Voltage bei gleichem Idletakt bekommt.
Für mich sieht das so aus, als ob beim Wechsel von Last auf Leerlauf die Spannung für den Prozessor zu weit abfällt und die Karte damit "aussteigt".
Zudem solltest Du nochmal im Win den Energiesparplan überprüfen bzw. modifizieren (hohe/ultimative Leistung), sowie im Nvidiatreiber ebenfalls die Energieeinstellung versuchsweise ändern.
 
Hi Judgi,
danke für den Tipp!

Ich habe das mal mit dem Curve Editor vom MSI Afterburner ausprobiert, wobei mir jedoch nur ein Undervolt bis 750 mV angeboten wird. Ich habe beobachtet, dass die Karte bis 560 mV runtertaktet und danach abstürzt. Das Anheben der Spannung bis 750 hat leider keine Veränderung gebracht.

Als neues Phänomen stürzt die Karte mittlerweile nun auch Ingame ab, was sie vorher nicht gemacht hat. Ich werde mal schauen ob ich doch jemanden finde der sich mit Reparaturen auf Boardlevel auskennt, und die Karte in Augenschein nimmt.
Ich nehme hier mal raus @AssassinWarlord zu fragen, ob sich mit dem entwickelten Fehlerbild im Thread immer noch die Einschätzung des defekten Memory Controllers hält, oder doch ggf. ein "reparierbarer" Fehler möglich ist?

Vielen Dank für die Einschätzungen!
 
Schwer zu sagen, im besten Falle ist es nur eine Asus typisch gebrochene lötkugel unter der GPU, Asus hatte bei der pascal Generation scheinbar Probleme mit der LötQualität
KrisFix repariert offiziell karten, aber wird nicht günstig werden...
 
Hast du denn im Afterburner wieder alles auf die Grundeinstellungen zurückgesetzt, bevor die Abstürze unter Last angefangen haben?

Du kannst ja im Curve Editor auch bestimmte Punkte fixieren indem du den gewünschten Punkt anklickst und danach die Taste L drückst. Es sollte dann eine gelbe vertikale Linie erscheinen und Takt und Spannung sollten auf den Wert des Punktes fixiert sein. Afterburner sollte das nach Übernahme der neuen Einstellung auch sofort anzeigen, du kannst den Curve Editor dabei offen lassen.

Was passiert denn, wenn du mal den Punkt bei 0,7V fixierst, die Karte kurz unter Last setzt und danach wieder in den Idle schickst?

Wobei sich das für mich alles nach einem langsam sterbenden Chip anhört. Ich würde hier auch keine Reparatur mehr versuchen lassen. Dafür bekommst du viel zu günstig direkten Ersatz.
 
Schwer zu sagen, im besten Falle ist es nur eine Asus typisch gebrochene lötkugel unter der GPU, Asus hatte bei der pascal Generation scheinbar Probleme mit der LötQualität
KrisFix repariert offiziell karten, aber wird nicht günstig werden...
An den hatte ich mich auch schon gewandt, jedoch reperaiert dieser seit Anfang des Jahres keine Karten der 10xxx Generation mehr. Grund (wie auch von dir gennant): unwirtschaftlich.
Dann werde ich mich in nächster Zeit nach einem Ersatz Ausschau halten

Hast du denn im Afterburner wieder alles auf die Grundeinstellungen zurückgesetzt, bevor die Abstürze unter Last angefangen haben?

Du kannst ja im Curve Editor auch bestimmte Punkte fixieren indem du den gewünschten Punkt anklickst und danach die Taste L drückst. Es sollte dann eine gelbe vertikale Linie erscheinen und Takt und Spannung sollten auf den Wert des Punktes fixiert sein. Afterburner sollte das nach Übernahme der neuen Einstellung auch sofort anzeigen, du kannst den Curve Editor dabei offen lassen.

Was passiert denn, wenn du mal den Punkt bei 0,7V fixierst, die Karte kurz unter Last setzt und danach wieder in den Idle schickst?

Wobei sich das für mich alles nach einem langsam sterbenden Chip anhört. Ich würde hier auch keine Reparatur mehr versuchen lassen. Dafür bekommst du viel zu günstig direkten Ersatz.
Danke für den Tipp! Augenscheinlich habe ich bei dem Absturz unter Last wohl eine falsche Spannung gesetzt.

Also wenn ich 0,7 Volt fixiere funktioniert unter Windows und unter Last alles gut. Diese kann ich bis 0,65 Volt absenken, bis darunter die ersten Artefakte auftauchen (grauer Bildschirm für ca. 2s), bis zum Absturz.
Wenn ich die fixierte Spannung wieder aufhebe stürtzt der Rechner innerhalb weniger Sekunden ab. Also müsste ich irgendwie eine minimal Spannung von 0,65 Volt setzen, bis die die GPU runtergehen darf.

So wie ich den Curve Editor in Afterburner verstehe lässt sich jedoch nur ein Memory Clock an eine bestimmte Spannung binden, und nicht ein Spannungsbereich festlegen in der die GPU takten darf. Sprich eigentlich bräuchte ich einen Bereich von Spannungen und Taktraten in welcher die GPU sich bewegen darf. Doch ich kann die GPU nicht daran hindern ihre Spannung im Idle noch weiter zu senken, bzw. in der Last zu erhöhen, oder?

Hierbei ist anzumerken, dass der Rechner mittlerweile auch bei einer Spannung von über 0,85 Volt unter Last abstürtzt! Das würde die Theorie des sterbenden Chips bekräftigen...
Ich habe mir jetzt zwei Profile mit 0,65V und 0,85V eingerichtet zwischen denen ich im Idle oder unter Last manuell wechsle. Ich werde das mal so für ein paar Tage probieren und mich in der Zwischenzeit nach einer neuen GPU umschauen....
 
Sterbende 1080ti Gpu's sieht man vorallem bei der Zotac amp extreme, die irgendwann ihren hohen boost-takt nicht mehr stabil schafft und crashed. Da hilft es aber, wenn man das Amp Core bzw das normale Amp bios ohne extreme drauf flasht, damit boostet sie nicht ganz so hoch und läuft damit wieder.
 
Diese kann ich bis 0,65 Volt absenken, bis darunter die ersten Artefakte auftauchen (grauer Bildschirm für ca. 2s), bis zum Absturz.
Du kannst weniger als 0,65V einstellen und die Karte nimmt das an?

Hat die Strix eigentlich Dual-Bios? Wenn ja, hast du mal versucht umzuschalten?
 
Sterbende 1080ti Gpu's sieht man vorallem bei der Zotac amp extreme, die irgendwann ihren hohen boost-takt nicht mehr stabil schafft und crashed. Da hilft es aber, wenn man das Amp Core bzw das normale Amp bios ohne extreme drauf flasht, damit boostet sie nicht ganz so hoch und läuft damit wieder.
Mhh, dass wäre ja jetzt ähnlich mit meiner "manuellen" Methode der fixen Taktraten gelöst. Mal sehen wie lange die GPU solange noch macht :-)


Du kannst weniger als 0,65V einstellen und die Karte nimmt das an?

Hat die Strix eigentlich Dual-Bios? Wenn ja, hast du mal versucht umzuschalten?
Leider hat die Strix OC keinen Dual-Bios. Ansonsten hätte ich das schon mal probiert. Also mit den 0,65V im Idle und 0,85V unter Last scheint es bisher ganz gut zu funktionieren. Man könnte die Raten wohl noch etwas verfeinern.

Den Curve-Editor kannst du per cfg Anpassung von Afterburner beliebig in der Frequenz und Spannung erweitern. Wird von der Karte auch berücksichtigt (siehe Foto).
 

Anhänge

  • Unbenannt.PNG
    Unbenannt.PNG
    74,4 KB · Aufrufe: 69
Den Curve-Editor kannst du per cfg Anpassung von Afterburner beliebig in der Frequenz und Spannung erweitern. Wird von der Karte auch berücksichtigt (siehe Foto).
Ich hatte bisher 2 1080 Ti (allerdings jeweils Ref.) und die gingen beide nicht unter 0,65V. Gerade mit der EVGA Ref. nochmal versucht. Sobald ich im Curve Editor eine Spannung unter 0,65V per Taste L fixiere, erhöht sich stattdessen die Spannung auf 0,662V und die Taktraten auch entsprechend.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh