Die GeForce RTX 2080 Ti leidet offenbar an erhöhter Ausfallrate (6. Update)

Meine erste hatte nen Custom PCB war das selbe wie jetzt auch (mit den Problemen).

Hattest du dich mal in dem Nvidia Chat dazu gemeldet und wenn ja, was wird dort gesagt?
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Naja doch - denn die Hitze von unten, sofern die Theorie stimmt ist ja nur ein Teil. Der (wahrscheinlich) größere Teil kommt hingegen durch die Verlustleistung der Speicher selbst.
Sieh dir mal die Wärmebildaufnahmen an - auch die Speicherchips oberhalb der GPU haben gemessen an den anderen neben der GPU weit weit weit über Raumtemperatur.

Stimmt, die Speicherbausteine selbst scheinen recht gut zu heizen. Hab ich so nicht erwartet/bedacht. Dann könnte das runtertakten evtl. ja doch helfen - wenn es wirklich daran liegen sollte. Vielleicht kann man das auch manuell testen, indem die Leute mit Problemen den Speicher einfach mal untertakten.

Ich sehe aktuell eher das Problem, dass all die Infos nur bedingt zu vergleichen gehen, weil die Leute, die das Equipment haben, haben keine Karten die Auffälligkeiten produzieren. Messen also an Hardware, die funktioniert. Und die, die Fehler haben, haben nicht das notwendige Equipment um solche Temperaturmessungen mal genauer durchzuführen. Bis sich da nicht ein paar problem TIs in den Redaktionen einfinden lässt sich leider nur bedingt irgendwas draus schlussfolgern - außer, dass irgendwo der Bock drin sein muss.

Ja, das wäre schon hilfreich, auch weil aktuell von einem Serienfehler ausgegangen wird. So könnte man bei Auffälligkeiten zumindest diesen bestätigen oder ausschließen.
 
Habe das so Caseking kommuniziert, aber was die damit machen weiß ich ja nicht.
 
Ja, ich gerade "leicht" angepisst...... Jetzt dauert das etliche Wochen bis ich Ersatz habe :(

Soviel zu meinem Plan auf ne Strix umzusteigen, weil bisher keine Strix betroffen waren aufgrund von Custom PCB.

Damit wird ein genereller Fehler bei den Speicherchips wieder wahrscheinlicher. In dem Fall ein recht dickes Desaster.
 
Stimmt, die Speicherbausteine selbst scheinen recht gut zu heizen. Hab ich so nicht erwartet/bedacht. Dann könnte das runtertakten evtl. ja doch helfen - wenn es wirklich daran liegen sollte. Vielleicht kann man das auch manuell testen, indem die Leute mit Problemen den Speicher einfach mal untertakten.

Zumindest sayer weiter oben hat ja durch Stock Settings + Lufter@100% bei seiner Karte ermittelt, dass durch bessere Belüftung die Karte stabil wird.
Deswegen denke ich schon dass es was mit der Temperatur zu tun hat.
Nur wie gesagt, die bisherigen Messungen sind zwar so +- recht nah an der Grenze, stammen aber halt von Karten die noch funktionieren. Das interessante wäre ja ne Karte, die abschmiert - und ob da die Temps nicht vielleicht dann über 95°C sind.
 
Was komisch ist, das die Graka eigentlich ohne Probleme lief. Bis vor ein paar Tagen, da fingen die CTD an und dann seit 2-3 Tagen auch Black Screens auf dem Desktop.
Vorrher aber 2-3 Std ohne Probleme F1 2018 gezockt. Dann das Spiel beendet und 5 Minuten später Black Screen. Kann mir nur vorstellen, das wenn die Speicherchip heiss werden sich irgendwie was ausdehnt und wenn die dann "abkühlen" passiert dieser CTD.
Und ich hatte die Strix nur leicht übertaktet (+100 GPU +500 Speicher). Aber zuletzt ist sie sogar auf Stock abgestürzt. Dabei waren die Temps immer im Rahmen, so bis maximal 75 Grad.
 
vor allem der grosse chip. der heizt sich doch viel unregelmässiger auf und da das silizium starr ist, hat es hebelwirkung. das könnte erklären warum gerade die grossen chips so betroffen sind.
 
2080ti Kühler Gainward.jpg
Was der Luftkühler alles abdeckt mit Pads!, hatte bei dem EKWB anfangs Sorgen, da nur Spawas, Rams und Chip mit Pads ausgestattet wurden.
Da die Umgebung durch den EKWB stark mitgekühlt wird, denke ich, das geht doch in Ordnung bei einer WK.

Tempfühler.jpg
Tempanzeige Idle.jpg
Temp Idle Backplate
Temp Last Backplate.jpg
Temp Last Backplate
 
Hey @All,

hat jemand die genaue Bezeichnung des Speicherchips oder sogar schon ein Datenblatt? Ich hab zwar keine 2080ti (und kaufe mir bei dem Preis auch keine), mich interessiert das aber beruflich (wir bauen auch High-End Elektronik, vielleicht nicht ganz soo krass).
Sind die 95°C max von denen hier alle reden Tjmax oder Tcase und mit welcher Verluastleistung und Rthjc muss man bei dem Speicher rechnen? Sowas sollte in einem ordentlichen Datenblatt stehen, dann könnte man fundierter sagen, ob es dem RAM intern zu warm wird oder nicht.

So rein subjektiv finde ich jetzt die ~90°C zwischen den RAM-Chips bedenklich, je nach Verlustleistung kommen da schnell 10-30K zwischen DIE und Messpunkt dazu... Für die Lötstellen und auch für die (Micro-)Vias im PCB sind die thermischen (und die damit einhergehenden mechanischen) Belastungen sicher nicht gut. Die beschriebenen Fehlerbilder können gut und gerne durch Speicherfehler zustande kommen, wobei das nicht zwangsläufig heißen muss, dass der Speicher selbst kaputt ist.

Mfg Bimbo385
 
ich bekomme immer nur CTDs in unterschiedlichen intervallen. Dabei ist auch egal ob ich Lüfter manuell mit 100%, oder das ding auf auto läuft.
 
So hat das bei mir auch angefangen DDbom. Erst immer freezes oder CTD mit der Meldung das keine DirectX Grafikkarte gefunden wurde. Dann kamen diese "Black Screen´s" dazu
nach dem booten bzw. einfach mitten im Idle auf dem Desktop und nun tut die Graka garnichts mehr.
 
bei mir ist es jetzt die 2. 2080TI mit dem Problem... echt nervig
 
Unterschiedliche Hersteller aber beide unter Luft ohne geänderte bios oder so.

Gesendet von meinem VKY-L09 mit Tapatalk
 
Zumindest sayer weiter oben hat ja durch Stock Settings + Lufter@100% bei seiner Karte ermittelt, dass durch bessere Belüftung die Karte stabil wird.
Deswegen denke ich schon dass es was mit der Temperatur zu tun hat.
Nur wie gesagt, die bisherigen Messungen sind zwar so +- recht nah an der Grenze, stammen aber halt von Karten die noch funktionieren. Das interessante wäre ja ne Karte, die abschmiert - und ob da die Temps nicht vielleicht dann über 95°C sind.

Ich war jetzt mal so frei und habe die Karte zerlegt (Fotos im Spoiler) und habe einen Temperatursensor zwischen M6 und M7 installiert. Zunächst ist mir direkt aufgefallen, dass die Kühlung mehr als suboptimal ist da die Chips nur durch die Baseplate gekühlt wird welche jedoch keinen Kontakt zum eigentlichen Kühler hat. Die Backplate ist auch nur Plastik und die Pads liegen auf Kupferaufklebern auf. Was ich bisher so geshen habe, sieht die EVGA zwar besser aus als zB eine Inno aber dennoch eher Mau für den Preis.

Ich kann nicht sagen wie genau der installierte Tempsensor ist (habe auch kein Modelltyp davon) aber ich habe mit selbigen in der Lücke zwischen M6 und M7 stolze 90°C (@Stock, Lüfter Auto(76%)) gehabt in dem Moment wo mir das Spiel abgestürzt ist (CTD). Ich gehe davon aus die Chiptemperatur war in diesem Moment noch ein "wenig" höher


dsc008989ceuh.jpg

dsc00897lfd84.jpg
 
Zuletzt bearbeitet:
Also hier gibt es ein stückchen Datenblatt: https://www.micron.com/~/media/documents/products/data-sheet/dram/gddr/gddr6/gddr6_sgram_8gb_brief.pdf

Da steht Tc bei den 95°C, also geht es dabei um die Gehäusetemperatur des Chips. Ist also theoretisch noch in Ordnung, aber ich würde das als E-Technik-Ingenieur für eine Serienfertigung ablehnen, bzw. nicht verantworten.
Da braucht man definitiv mehr Sicherheitsmarge und wer sag denn, ob das alles in einem Gehäuse unter schlechteren Betriebsbedingungen nicht noch 10 K wärmer wird...

Ich würde den Fehler als erstes bei den Lötstellen der RAM-Chips suchen und als zweites bei dem RAM selbst. Dann kommen Lötstellen an der GPU, PCB und die GPU selbst. Alles natürlich vorausgesetzt, die Betriebsspannungen sind im gesamten Lastbereich stabil, aber dass kann man ja ordentlich messen.

Jetzt hilft nur defekte Karte nehmen und systematisch die Teile tauschen, reballen und herausfinden was es ist. Das kann jetzt nur noch Nvidia mit den Boardpartnern tun.

Thermisch ist das Design auf jeden Fall auf Kante genäht, was für Grafikkarten zwar nicht ungewöhnlich ist, aber hier hat es Nvidia wohl übertrieben. Ich würde daher vorerst vom Kauf abraten, bis man genauer weiß wo der Fehler liegt und ggf. Abhilfe geschaffen hat.
Vom Erhöhen des Power-Limits und Übertakten würde ich unter diesen Voraussetzungen auf jeden Fall die Finger lassen.

@HW-Luxx: Wie viele Betriebsstunden haben eure Karten denn in einem normalen Gehäuse mit entsprechender Belüftung? Könnt ihr vielleicht einen Dauertest mit großzügiger Temperatursensorik arrangieren?

Mfg Bimbo385
 
Zuletzt bearbeitet:
vor allem der grosse chip. der heizt sich doch viel unregelmässiger auf und da das silizium starr ist, hat es hebelwirkung. das könnte erklären warum gerade die grossen chips so betroffen sind.

Die 754 mm² des TU102 sind aber noch längst nicht das Maximum, was NVIDIA bisher umgesetzt hat und seit GV100 sollte man dahingehend ausreichend Erfahrung gesammelt haben.

@HW-Luxx: Wie viele Betriebsstunden haben eure Karten denn in einem normalen Gehäuse mit entsprechender Belüftung? Könnt ihr vielleicht einen Dauertest mit großzügiger Temperatursensorik arrangieren?


Unsere Karten haben nach den reinen Benchmarks so 6-8 Stunden auf dem Buckel, mehr nicht. Solch ein Aufbau wäre für uns extrem aufwändig.
 
Zuletzt bearbeitet:
Zunächst ist mir direkt aufgefallen, dass die Kühlung mehr als suboptimal ist da die Chips nur durch die Baseplate gekühlt wird welche jedoch keinen Kontakt zum eigentlichen Kühler hat. Die Backplate ist auch nur Plastik und die Pads liegen auf Kupferaufklebern auf. Was ich bisher so geshen habe, sieht die EVGA zwar besser aus als zB eine Inno aber dennoch eher Mau für den Preis.

Ich kann nicht sagen wie genau der installierte Tempsensor ist (habe auch kein Modelltyp davon) aber ich habe mit selbigen in der Lücke zwischen M6 und M7 stolze 90°C (@Stock, Lüfter Auto(76%)) gehabt in dem Moment wo mir das Spiel abgestürzt ist (CTD). Ich gehe davon aus die Chiptemperatur war in diesem Moment noch ein "wenig" höher

Normalerweise sollte es so sein, dass ein großteil der Hitze an das PCB abgegeben wird - was natürlich schwer ist, wenn das PCB entsprechend aufgeheizt ist.
Andererseits, wenn ich mir das Video zur Kühlerdemontage bei Gamernexus ansehe - die FE Backplate zwischen PCB und Kühler ist über dem VRAM mit so Wärmeleitkleber/Paste "verbunden" - hat also Kontakt. Auch direkt über den möglichen problem-Speicherchips.
Bei deinen Bildern fehlt das komplett? -> sieht nach gar keinem Kontakt außer bei der GPU aus??


PS: Um wie viel verringert sich denn die gemessene Temperatur, wenn du @100% Lüfter drehst?
 
War die Karte denn immer voll ausgelastet in den 2h?

Edit:
Taktet der V-Ram wenn er zu heiß nicht automatisch runter bei Turing?

Ein User im PCGH vermutet genau dort das Problem, Ram wird zu heiß taktet aber nicht runter, man beschreibt, dass keine Tempsenoren an der Stelle verbaut wären, die nötig wären um ein Heruntertakten zu kontrollieren.

Kann da was dran sein??

Das hab ich schon vor Wochen geschrieben und den Leuten im Sammler auch davon abgeraten, luftgekühlte Karten direkt zu flashen. Der Speicher fängt ab 95° an langsam zu krepieren und das erreicht er laut einiger Wärmebilder auch bei recht vielen Karten. Und das unter Laborbedingungen mit humanen Raumtemperaturen. Speziell der Part direkt neben dem breiteren VRM Teil. Da kommt Abwärme vom PCB, VRM und Speicher zusammen und bildet nen schönen Hotspot. Ganz toll sind dann noch diese Baseplates, die alles miteinander verbinden aber keinen Kontakt zum Kühler haben und generell keine Angriffsfläche für Luftkühlung.

Und nein, der Speicher hat keinen Sensor und abgesehen von der ICX2 hat wohl auch kaum eine der Karten nen dedizierten Sensor für das Gebiet. Der Speicher hat also keinen "oh shit" Modus wo er der Karte melden könnte, dass sie langsamer machen soll. Solange die Chiptemperatur unter den gesetzten 85-95° bleibt und die VRMs unter 125° kann die Karte feuern wie sie lustig ist und es das Powerlimit zulässt.

Dazu kommt wohl auch noch der Umstand, dass die Fertigung bei Micron wohl nicht so pralle ist und auch massig fehlerhaften Speicher abwirft. Viele Karten haben ab Werk ja schon einen weg. Da frage ich mich ernsthaft wie man bei Nvidia nen zeitlich begrenzte Exklusivdeal mit denen abschließt ohne vorher von der QS absichern zu lassen, dass der Speicher auch ohne Probleme läuft. Zumindest bei einem so teuren Premiumprodukt kann das einfach nicht angehen.
 
Zuletzt bearbeitet:
Bei deinen Bildern fehlt das komplett? -> sieht nach gar keinem Kontakt außer bei der GPU aus??
PS: Um wie viel verringert sich denn die gemessene Temperatur, wenn du @100% Lüfter drehst?

Das fehlt auf den Bildern weil nicht existent. Die Baseplate wird so wie ich das gesehen habe ausschließlich durch die Lüfter gekühlt ohne Kontakt zum Kühler oder den Pipes. Mit Lüfter auf 100% ist der Durchschnitt so 80-85°C am Sensor und nach wie vor ohne CTDs
 
Ich verstehe Leute nicht, die sich immer Referenzdesign-GraKas kaufen nur damit sie die ersten sind. Partnerkarten werden fast immer besser gekühlt und sind teilweise besser oc'bar.
 
Unsere Karten haben nach den reinen Benchmarks so 6-8 Stunden auf dem Buckel, mehr nicht. Solch ein Aufbau wäre für uns extrem aufwändig.

Danke Don für die schnelle Info. 6-8h sind natürlich nicht viel und sicherlich zu wenig um thermische Ausfälle festzustellen. So ein Siliziumchip oder Lötstelle geht ja nicht von jetzt auf gleich kaputt, zumindest wenn der nur ein bisschen zu warm wird und auch dann nicht unbedingt jeder.

Wie gesagt wäre ein Dauertest unter realistischen Einsatzbedingungen interessant. 0815 Gaming-Gehäuse mit vernünftiger Belüftung, einen Datenlogger mit 5 6 Temperatursensoren und dann schön 24/7 Grafikkartenbenchmark bei 100%. Sollte sich vom Aufwand in Grenzen halten, wenn man das Equipment hat und der Strom nicht zu teuer ist...

Ich setze 5€, dass von fünf Karten mindestens eine in der ersten Woche stirbt.

Mfg Bimbo385
 
Ich verstehe Leute nicht, die sich immer Referenzdesign-GraKas kaufen nur damit sie die ersten sind. Partnerkarten werden fast immer besser gekühlt und sind teilweise besser oc'bar.

ist in diesem fall aber völlig irrelevant da auch eine Referenz bzw FE einwandfrei funktionieren muss
 
Vorallendingen gehen manche Custom PCB Grakas trotzdem ein und zeigen die selben Fehlerbilder wie die FE´s.
 
Vorallendingen gehen manche Custom PCB Grakas trotzdem ein und zeigen die selben Fehlerbilder wie die FE´s.

Genau und daher vermute ich ein Problem mit den Speicherchips, die 95 Grad sind einfach nicht ausreichend dimensioniert.
 
Wasserkühler mit einem guten Wasserkreislauf stellt fast schon eine unendliche thermische Senke dar.
Somit können keine Hotspots entstehen.
Auf guten Durchzug im Gehäuse sollte aber immer geachtet werden!

Die Speicherchips sehen keine 60 Grad bei einem sehr gutem Kontakt zum WaKüler
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh