Also hier gibt es ein stückchen Datenblatt:
https://www.micron.com/~/media/documents/products/data-sheet/dram/gddr/gddr6/gddr6_sgram_8gb_brief.pdf
Da steht Tc bei den 95°C, also geht es dabei um die Gehäusetemperatur des Chips. Ist also theoretisch noch in Ordnung, aber ich würde das als E-Technik-Ingenieur für eine Serienfertigung ablehnen, bzw. nicht verantworten.
Da braucht man definitiv mehr Sicherheitsmarge und wer sag denn, ob das alles in einem Gehäuse unter schlechteren Betriebsbedingungen nicht noch 10 K wärmer wird...
Ich würde den Fehler als erstes bei den Lötstellen der RAM-Chips suchen und als zweites bei dem RAM selbst. Dann kommen Lötstellen an der GPU, PCB und die GPU selbst. Alles natürlich vorausgesetzt, die Betriebsspannungen sind im gesamten Lastbereich stabil, aber dass kann man ja ordentlich messen.
Jetzt hilft nur defekte Karte nehmen und systematisch die Teile tauschen, reballen und herausfinden was es ist. Das kann jetzt nur noch Nvidia mit den Boardpartnern tun.
Thermisch ist das Design auf jeden Fall auf Kante genäht, was für Grafikkarten zwar nicht ungewöhnlich ist, aber hier hat es Nvidia wohl übertrieben. Ich würde daher vorerst vom Kauf abraten, bis man genauer weiß wo der Fehler liegt und ggf. Abhilfe geschaffen hat.
Vom Erhöhen des Power-Limits und Übertakten würde ich unter diesen Voraussetzungen auf jeden Fall die Finger lassen.
@HW-Luxx: Wie viele Betriebsstunden haben eure Karten denn in einem normalen Gehäuse mit entsprechender Belüftung? Könnt ihr vielleicht einen Dauertest mit großzügiger Temperatursensorik arrangieren?
Mfg Bimbo385