VRAM vermutlich beschädigt - selbst verschuldet?

Moin moin,

der Thread ist eine Fortführung von https://www.hardwareluxx.de/communi...hine-fiep-rassel-thread.1324904/post-30111201, den ich nicht weiter derailen lassen wollte. :)

Situation: Ich beschäftige meine Grafikkarte oft stundenlang mit RIFE (entweder vs-rife oder AviSynthPlus-RIFE).
Wird wohl eher niemandem was sagen - ist aber auch egal. Über KI Modelle kann man damit Zwischenbilder für Filme berechnen.
Wie das unter Last aussieht, sieht man hier bei meiner 4090. Links Idle, mittig RIFE, rechts Furmark.

1696706553655.png


Verglichen mit Killer-App Furmark belastet RIFE die Karte also eher moderat…

Nun ja…
meine antike GTX 1070 hat den Spass nun schon etliche Monate mitgemacht.

Vor einer Woche wurde sie durch eine RTX 4090 ersetzt. Lief auch alles ganz wunderprächtig, vorgestern aktualisierte ich vs-rife noch auf eine aktuelle Version und gestern Nacht kam es dann plötzlich zu Artefakten als ich wild zwischen Rife Modellen hin- und herwechselte, d.h. VRAM wird gefüllt, geleert, gefüllt, geleert,.. wuopps, Crashes & Artefakte.
Seit dem kann man eigentlich unter Windows kaum noch was machen - egal ob YouTube, VLC, Spiele,… dauernd Artefakte, Blackscreens, usw.
Furmark läuft noch, 3DMark TimeSpy schmiert entweder beim Start oder nach 5 Sekunden ab.

DDU brachte gar nichts.

VRAM Tester https://github.com/GpuZelenograd/memtest_vulkan (thx @BlaDerp) zeigte mal nach wenigen Sekunden Fehler und zog bei einem weiteren Versuch mit einem Blackscreen den Rechner in den Abgrund.

Mit Nvidias MATS habe ich anschließend auch noch den VRAM unter Linux durchgecheckt…
1696707164093.jpeg

…demnach sollen ALLE Speicherchips Fehler melden.
@Datanette bemerkte im Thread schon, dass es sich um ein Stromproblem handeln könnte - und entsprechend zum Fall, dass ALLE Speicherkanäle Fehler melden, fand ich auch folgende Anmerkung im Repair Wiki:

IMG_3650.jpeg



Nun bin ich etwas beunruhigt.
Dass der VRAM vorgestern noch genug Saft bekommen haben soll, heute aber nicht mehr, klingt als Grund zu komisch.
Btw. betrieb ich die Karte fast immer mit Power Limit 75%.

Bleibt noch der zweite Fall, dass mein Setup (Intel 12900K, BeQuiet Dark Power Pro 12 1500W, Asus Prime 690-P, 4090 angeschlossen mit BeQuiets 12VHPWR Kabel) oder RIFE hat den VRAM gekillt hat. Andererseits betrieb der Rechner meine olle 1070 nun zwei Jahre lang, ohne Beschädigung.

Meine Angst ist nun, dass ich nach der RMA auch die nächste Karte wieder zernichte…

Oder war’s doch einfach ein Fertigungs-/Materialproblem? Eine Woche in Betrieb ist ja NIX!

Steckt jemand tief genug drin für eine Einschätzung?
 
Zuletzt bearbeitet:
Das alle Speicherchips ausfallen, kann schon ein Hinweis auf fehlerhafte interne oder externe Stromversorgung sein. Aber eigentlich zeigt ne Grafikkarte Probleme mit der ext. Stromversorgung auch mit blinkenden oder roten LEDs am GrafikkartenStromanschluß an.

Welche Spannung liegt denn im Ide und Volllast am Stromanschluss deiner Grafikkarte an? Foto von GPU-z Log, weiter runter scrollen.

Mit welcher Spannung, werden deine VRam betrieben?
 
@s.nase Danke für Deine Zeit und dass Du Dich durch meine Wall of Text durchgearbeitet hast! :)

Jetzt bringt auch FurMark den Rechner zum Absturz... den Screenshot rechts hab ich dann beim zweiten Versuch nach ca. 5 Sekunden Laufzeit gemacht.
Momentan läuft die Karte mit Factory-Settings, also ohne heruntergesetztes Power-Limit.

1696712502414.png


Im Anhang auch noch das aktuelle Sensor Log.
 

Anhänge

  • GPU-Z Sensor Log.txt
    3,2 MB · Aufrufe: 64
Zuletzt bearbeitet:
In dem GPU-Z Log sind schon ein paar auffällige Stellen zu sehen. ABer leider hat der GPU-Z Log nur ne Auflösung von 1000ms(1sec). Keine Ahnung ob man das bei GPU-Z einstellen kann.

Ein HWinfo Log kann man mit ner 20ms(0.02sec) Auflösung einstellen. Da lässt sich vielleicht im Log mehr erkennen. Mach dir mal ein SensorTab in HWinfo, nur mit den gleichen SensorWerten die auch GPU-z aufzeichnet. Und stell dann den ABFRAGEZEITRAUM GLOBAL auf 20ms, in den HWinfo Einstellungen(SensorTab unten). Der hoch aufgelöste HWinfo Log braucht auch nicht so lang zu sein. Ein zwei Mal, eine Minute lang Volllast(inkl. GPU Artefakten), mit einem Stück Anfang und Ende im Idle reicht aus.

Welche Grafikkarte ist es denn genau?

Gibt es unter Linux auch ein Programm, mit dem du vielleicht während des VRam SpeicherTest einen hoch aufgelösten Log von den Grafikkarten Sensorwerten machen kannst?
 
Zuletzt bearbeitet:
Hallo mal wieder, @s.nase .

Die Karte ist eine PNY 4090 Verto Triple Fan.
Unter Linux bin ich absolut nicht fit. Ich führte den Test mit einer Ubuntu Live-CD durch.
Der VRAM Test dort dauert auch nur 10 Sekunden oder so.
Wie das aussieht, sieht man hier bei 7:28.


Die Karte stirbt hier langsam weg, drum wird es immer schwerer noch Tests zu machen.

Hab mal das Log-Intervall bei GPU-Z auf das Minimum (0.1s) runtergesetzt und mich in HWInfo reingefuchst, alles, was nichts mit GPUs zu tun hat rausgenommen und da mit 20ms geloggt.

Allerdings hält FurMark im Stress Test nur noch wenige Sekunden durch.

Das war das beste, was ich im 4. Versuch erreichen konnte:

11:51:36 Logging gestartet
11:52:00 Furmark gestartet - crashte nach ca 10 (?) Sekunden.
11:52:30 (?) Furmark nochmal gestartet - crashte wieder, nach ca. 3 (?) Sekunden
11:53:00 Furmark wieder gestartet - nach wenigen Sekunden Blackscreen und Absturz
 

Anhänge

  • GPU-Z Sensor Log4.txt
    602,8 KB · Aufrufe: 52
  • HWinfoLog4.zip
    80,5 KB · Aufrufe: 51
Zuletzt bearbeitet:
Warum fackelst du so lange noch rum und reklamierst die Karte nicht?
 
wenn die nächste stirbt einfach nächste rma machen ich sehe das problem nicht.
 
Also 100 Watt Board Power draw ist doch nichts . Also so wie in furmark kannst auch im Gaming haben . Das muss die Karte ab.
Ne 4090 ist unter anderem auch für Profi Anwendungen geeignet wie CAD oder Videobereich. Kannst ja sogar bei der Karte ECC im Treiber aktivieren .

Die Karte hatte halt einen Weg scheinbar .
Kannst auch mal 3dmark laufen lassen .
RMA machen und gut ist .
 
Es ging einfach drum rauszufinden, ob an meinem Setup was komisch ist, weil MATS ALLE Speicherbänke als fehlerhaft anzeigt, was üblicherweise angeblich bedeutet, dass entweder zu wenig Saft oder zu viel Saft und alle Speicherbänke gegrillt. (siehe mein erstes Posting)

Die neue Grafikkarte WIEDER zu grillen wäre halt doof.

Allerdings hat, wie gesagt, meine 1070 in diesem Rechner jahrelang kein Problem gehabt (wenngleich sie an anderen Kabelsträngen hing - hatte das 12VHPWR Kabel zusätzlich eingestöpselt, so dass ich wieder schnell zurückwechseln kann. Die Netzteilanschlüsse sind bei mir schwer erreichbar.).

Ob RIFE die Karte gegrillt hat, wird von hier aus nicht zu klären sein, wollte es nur erwähnen.

@s.nase
Habe die Karte inzwischen ausgebaut, damit sie morgen in die Retour kann.
Wie erwartet läuft nun mit der alten 1070 alles wieder stabil.
 
Zuletzt bearbeitet:
Es ging einfach drum rauszufinden, ob an meinem Setup was komisch ist, weil MATS ALLE Speicherbänke als fehlerhaft anzeigt, was üblicherweise angeblich bedeutet, dass entweder zu wenig Saft oder zu viel Saft und alle Speicherbänke gegrillt. (siehe mein erstes Posting)
Meine unqualifizierte Meinung:
Ich schaue diverse YouTube Kanäle die Elektronik reparieren u.a. GPUs. Bei Fällen wo mehrere oder alle RAM Chips von Diagnose Werkzeugen als defekt erkannt wurden hat oft ein Reballing des GPU-Chips geholfen.
Also GPU Chip entfernen und neu auflöten.
Lag wohl an fehlerhaften Lötstellen die den VRAM ansprechen.
 
Meine unqualifizierte Meinung:
Ich schaue diverse YouTube Kanäle die Elektronik reparieren u.a. GPUs. Bei Fällen wo mehrere oder alle RAM Chips von Diagnose Werkzeugen als defekt erkannt wurden hat oft ein Reballing des GPU-Chips geholfen.
Also GPU Chip entfernen und neu auflöten.
Lag wohl an fehlerhaften Lötstellen die den VRAM ansprechen.
Hierfür wäre krisfix.de die numero Uno Anlaufstelle 8-)
 
Hierfür wäre krisfix.de die numero Uno Anlaufstelle 8-)
In diesem Fall eher der gesetzliche Widerruf. Solange es noch geht.

Ich frage mich wie sowas durch die Qualitätskontrolle kommt.
Genauso wie Spulenfiepen. Da wird bei der QA doch ein Stresstest gemacht. Sind die alle taub wenn sie die Karten einstecken und wieder rausnehmen zum verpacken?

Andere regen sich darüber auf wenn man den Widerruf nutzt. Was bleibt denn bitte übrig als 0815 Kunde?
 
Zuletzt bearbeitet:
@Daniel3 Auf die Qualitätskontrolle kann man hier kaum sauer sein.
Die Karte lief ja ‘ne Woche komplett problemfrei und ich hab sie mit RIFE durchaus strapaziert in der Zeit.

Sie ist inzwischen auch in der Post und warte jetzt auf die Austauschkarte.
Hab den Weg gewählt statt Widerruf, weil es zum Kaufzeitpunkt einen 50€ Gutschein + 10% Cashback gab, die ich nicht aufgeben mag. :)
 
Hallo mal wieder, @s.nase .

Die Karte ist eine PNY 4090 Verto Triple Fan.
Unter Linux bin ich absolut nicht fit. Ich führte den Test mit einer Ubuntu Live-CD durch.
Der VRAM Test dort dauert auch nur 10 Sekunden oder so.
Wie das aussieht, sieht man hier bei 7:28.


Die Karte stirbt hier langsam weg, drum wird es immer schwerer noch Tests zu machen.

Hab mal das Log-Intervall bei GPU-Z auf das Minimum (0.1s) runtergesetzt und mich in HWInfo reingefuchst, alles, was nichts mit GPUs zu tun hat rausgenommen und da mit 20ms geloggt.

Allerdings hält FurMark im Stress Test nur noch wenige Sekunden durch.

Das war das beste, was ich im 4. Versuch erreichen konnte:

11:51:36 Logging gestartet
11:52:00 Furmark gestartet - crashte nach ca 10 (?) Sekunden.
11:52:30 (?) Furmark nochmal gestartet - crashte wieder, nach ca. 3 (?) Sekunden
11:53:00 Furmark wieder gestartet - nach wenigen Sekunden Blackscreen und Absturz



Mit deinen Timecode Angaben komme ich zwar nicht richtig klar, aber ab der Markierung ist das Verhalten schon auffällig. Ich könnte jetzt anfangen, nach dem Grund dafür zu raten, aber das hat sich ja mit dem RMA nun eh erledigt.

auffällig.png
 
Ich frage mich wie sowas durch die Qualitätskontrolle kommt.
...

Scheinbar kennt man den Ablauf von einer Elektronik Fertigung nicht. (Ich kenne aus der Berufswelt 2x Elektronik-Fertigung und 2x Spritzguss Fabrik und 1x STanztechnik Fabrik)
In der Bananenrepublik war ich Leihpersonal vor 20 Jahren in der Elektronik Fertigung
Scheinbar kennt man auch die Hierarchie in so einer Elektronik Fertigung nicht.
Kritisches Personal, das Rückmeldung gibt, in meinem Einzelfall wird sehr oft retour geschickt zur Leihfirma.
Es gibt eine Arbeitsanweisung und damit hat es sich. Versteckte Akkord Arbeit, die aber nicht als Akkord bezahlt wurde.

--

Einzelfall von nicht getesteter Hardware.
NBB.com hat mir im Sommer 2021, als persönlicher Einzelfall, eine Grafikkarte ASROCK Challenger D 6600XT 8GB verkauft. Damals habe ich mich bei Compuerbase.de neu angemeldet. Da gab es allerlei Spekulationen und unqualifizierte Antworten. Die Lüfter hatten keine Drehzahlsteuerung und liefen auf maximaler sehr deutlich vernehmbare Lautstärke. Die Karte wurde problemlos getauscht von nbb.com. Als Elektroniker - Diagnose ohne es zerlegt zu haben - muss alles richtig angesteckt gewesen sein vom Fertigungspersonal. Das Fertigungspersonal war sehr oft in der Vergangenheit fleisig und genau. Die Ersatzkarte hatte eine Lüftersteuerung und beim POST Screen des Rechners war RUHE - kein Flughafen Bananrepublik von der Geräuschkulisse.

--

Man hört es nicht gerne, meine persönliche Meinung, der Kunde ist die Qualitätskontrolle. Wenn die Menge die retour geschickt und reklamiert wird günstier ist als alles zu Tode zu testen, wird dieser Kostenersparnis Weg eingeschlagen.

Nach einer gewissen Zeit geht der versteckte Mangel als nicht reklamierbar dem Kunden über und das Thema ist für den Hersteller erledigt.

Das ist auch der Grund warum ich vor einigen Tagen ein AUDIO Kabel frisch aus der Verpackung selbst durchgemessen habe.
 
Mit deinen Timecode Angaben komme ich zwar nicht richtig klar, aber ab der Markierung ist das Verhalten schon auffällig. Ich könnte jetzt anfangen, nach dem Grund dafür zu raten, aber das hat sich ja mit dem RMA nun eh erledigt.

Anhang anzeigen 928319

Im GPU-Z Log wird die Uhrzeit mitgespeichert. Dafür sollten meine Timecodes ein bißchen Orientierung geben. Für HW Info kann man dann natürlich höchstens mit den Zeitabständen noch was anfangen.

Da ich kein Gefühl dafür habe, sagen mir die Kurven gar nichts - auffällig?
 
Zuletzt bearbeitet:
Oh je... kann mich wohl auf eine längere Austauschzeit einrichten:

1696845464749.png


Die ist bestimmt auch weg, ehe das Ding bei Galaxus eingetrudelt und bearbeitet ist.
 
Oft halten die für RMA Zwecke paar Karten zurück, werden ja selten repariert. Drücke die Daumen!
 
Scheinbar kennt man den Ablauf von einer Elektronik Fertigung nicht.
Danke für deine Erklärung.

Aber ich schätze das ist in diesem Fall anders.
Die GPU PCBs werden vollautomatisch gefertigt.
Ich weiß dass bei Kleinteilen die auf das PCB kommen eine Eingangskontrolle gemacht wird bevor sie in die Maschinen kommen.
In diesem Fall ist wohl fehlerhaftes Lot das Problem. Inwiefern da eine Kontrolle erfolgt kann Ich nicht sagen.

Wo ich dir auf jeden Fall zustimmen muss: Die Qualitätskontrolle ist heutzutage deutlich schlechter geworden. Bananenprodukte die beim Kunden reifen oder noch schlimmer: nie reifen.
Aber wenn sich die Kunden auf der Nase herumtrampeln lassen...
Leider führt das ja auch zu einem schleichenden Sinken der Erwartungshaltung was akzeptabel ist.
Beitrag automatisch zusammengeführt:

Die ist bestimmt auch weg, ehe das Ding bei Galaxus eingetrudelt und bearbeitet ist.
Galaxus bekam gerade erst einen negativen Beitrag bei igorslab wegen Dropshipping.
Ich wünsche dir Glück 😉
 
Galaxus bekam gerade erst einen negativen Beitrag bei igorslab wegen Dropshipping.
Ich wünsche dir Glück 😉

Ja, den hatte ich gelesen, direkt nachdem ich die Karte bestellte + noch eine Backup-Karte von Inno.
Igor hatte mich mit dem Beitrag komplett verrückt gemacht.

Die PNY kam dann aber prompt zwei Tage später und damit zum frühest genannten Termin im Zeitfenster an, versendet von der Wortmann AG.
Die Inno sollte eigtl. erst 14 Tage nach der Bestellung geliefert werden und ging (mir viel zu früh) am übernächsten Tag schon raus, so dass ich die Bestellung nicht mehr stornieren konnte als ich mit der PNY schon happy war.
Auch ein Speicherkit, das ich vor zwei Wochen bei Galaxus bestellte, kam nach zwei Tagen und damit zwei Wochen früher an als zunächst angegeben. (Versender war eJoker)

Fazit:
Igor hatte mit seinem iPhone wohl Pech.
Ich mehr Glück als mir lieb war.

Inzwischen auch schon 3x mit dem Support gechattet - immer supernett und hilfsbereit.
Kann aufgrund meiner Erfahrung nix schlechtes über Galaxus sagen.
 
Zuletzt bearbeitet:
@s.nase Danke für Deine Zeit und dass Du Dich durch meine Wall of Text durchgearbeitet hast! :)

Jetzt bringt auch FurMark den Rechner zum Absturz... den Screenshot rechts hab ich dann beim zweiten Versuch nach ca. 5 Sekunden Laufzeit gemacht.
Momentan läuft die Karte mit Factory-Settings, also ohne heruntergesetztes Power-Limit.

Anhang anzeigen 927985

Im Anhang auch noch das aktuelle Sensor Log.
Nvidia Karten gehen äußerst selten kaputt. auch nicht wenn man sie stark übertaktet und auch nicht wenn man sie stark beansprucht, in der Regel, aufgrund des Powerlimits das das Bios vorgibt und weil die PCB´s einen sehr hohen Qualitätsstandart haben. Also ich kann nur aus Erfahrung sprechen (Meine Erfahrungen reichen nur bis Turing), ich hatte bestimmt mehr als 100 Nvidia Karten und davon ging eine kaputt und das war ein selbstverschuldeter Wasserschaden und ich übertakte die bis zum Abwinken. Kaufe seit langer Zeit ausschließlich gebrauchte Hardware, womit ich jedoch viel Erfahrung hab. Wenn das jedoch passiert, dass sie kaputt gehen, dann passiert das gleich zu Anfang, dann hat die Karte ab Werk einen weg, nen schadhaften Phasen Spannungswandler, oder ein Bauteil davor, oder dahinter da reicht ja was am kleinsten Teilchen um derartiges zu produzieren. Würde ich vermuten, denn für Artefakte ist (meist) ein Spannungsabfall in der Stromversorgung des V-Rams verantwortlich. Schick die Karte in die RMA, vielleicht braucht sie nur ein Biosflash, wahrscheinlich hast du aber Anspruch auf eine neue und den würde ich dann auch geltend machen. Dass das mit der Austausch-Karte erneut passiert, halte ich für nahezu ausgeschlossen. Glaube ich zumindest, dass das alles so ist, kann sein, dass ich mich vertu, oder irre, dann tuts mir leid, glaub aber eher nicht.
 
Zuletzt bearbeitet:
@8iosat, ich zähle jetzt mal nicht meine defekten nVidia Karten seit der TNT 2. ...Ganz schlimm war die G70/71 und G80 Serie.

b2T:
@Katzenjoghurt, du hast von 75% Power Limit geschrieben, hattest du mit 100% auch den Fehler?
 
@Katzenjoghurt es wird zu 99,99% nicht an deiner Anwendung liegen. Schließlich ist der Hauptumsatzmarkt für NVidia der KI-Bereich. Da würde es den halben Aktienkurs killen, wenn eins der Top-Produkte nach einer Woche Belastung schon kaputt geht. Sollte jetzt nochmal eine Karte direkt einen defekt haben, würde ich aber mal das Netzteil zur Sicherheit wechseln.
 
@8iosat Ich hoffe sogar, dass ich keine neue kriege, sondern die alte repariert wird - sie war einfach komplett frei von Spulenfiepen in sonst bekannten Fiep-Szenarien - abseits von FurMark, und selbst da war es nicht schlimm.

Drum wählte ich auch den RMA-Weg statt Rückgabe.
Leider ist sie nun schon seit 3 Wochen in der RMA bei Galaxus/Wortmann/“Servicecenter unseres Lieferanten“ :(

@Cr@zed^ Ja, auch bei 100% Power Limit Artefakte und Abstürze. Und das Nvidia Test-Tool unter Linux meldete auch VRAM-Probleme. Denke also nicht, dass es an Einstellungen oder dem OS lag.
Hätte höchstens versuchen können, ob die Karte mit mehr Saft wieder stabil läuft - aber selbst wenn ja, hätte ich sie so nicht mehr behalten wollen.

@Katzenjoghurt es wird zu 99,99% nicht an deiner Anwendung liegen. Schließlich ist der Hauptumsatzmarkt für NVidia der KI-Bereich. Da würde es den halben Aktienkurs killen, wenn eins der Top-Produkte nach einer Woche Belastung schon kaputt geht. Sollte jetzt nochmal eine Karte direkt einen defekt haben, würde ich aber mal das Netzteil zur Sicherheit wechseln.

@bender301 Mal den Teufel nicht an die Wand… das Netzteil kostete auch ein kleines Vermögen.

Anwendung als Killer: Mhja… ich denk halt z.B. an StarCraft 2, das damals manche Grafikkarten in vom Hersteller ungeahnte Limits trieb und zum Rösten brachte. So völlig ausschließen wollte ich es nicht.
Aber immerhin quäle ich nun seit Wochen wieder meine alte 1070 mit derselben Anwendung - problemlos.
Hängt allerdings auch an ´nem anderen Kabel. 🤔
So viele Eventualitäten…
 
Zuletzt bearbeitet:
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh