NVIDIAs Titan V soll sich häufiger verrechnen

Thread Starter
Mitglied seit
06.03.2017
Beiträge
114.153
nvidia-titanv.jpg
Entwickler sind an TheRegister.co.uk herangetreten und sprechen von Rechenfehlern, die bei wissenschaftlichen Anwendungen auftreten, wenn diese von der NVIDIA Titan V ausgeführt werden. Sogenannte Glitches sind keine Seltenheit, werden durch eine Fehlererkennung meist aber abgefangen, da gerade im wissenschaftlichen Bereich das Vertrauen auf die Korrektheit der Daten entscheidend ist.Bei der besagten Berechnung soll es sich um die Simulation der Interaktion zwischen Proteinen und...

... weiterlesen
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Verschiedene Karten ausprobiert?
Ist ja nicht gerade so als gäbe es die Karte seit gestern (Stückzahl 2?) und würde auch erst seit gestern wichtige Berechnungen machen. o_O o_O O_O

Ich hatte in einer Software auch den Verdacht, die Karte (1080ti) macht (berechnet) was sie will...mal so mal so...Kann ja nicht sein, das die Ergebnisse einer PointCloud ständig unterschiedlich ausfallen (mit der CPU nicht). Aber wahrscheinlich liegt es in diesem Fall an CUDA im Zusammenspiel mit der Anwendung.
 
Die Verwendung solcher "Consumerkarten" statt der Modelle für professionelle Anwendungen in genau solchen Szenarien, ist NVidia ja eh ein Dorn im Auge.
Von deren Seite wird da also wohl nicht viel Unterstützung bzw. Bereitschaft für evtl. Treiberfixes zu erwarten sein.
 
Ja also kann man solche Karten auch eigentlich nur als extremst mögliche enthusiastenhardware für 'Hobbyaner' bezeichnen.
Was die meisten Anwender mit solchen Karten vorhaben, geht ohne ECC nunmal nicht.
Wenn man da mal hobbymäßig was berechnen lässt, pech gehabt, nochmal neu... aber wissenschaftlich oder in sonstigen Entwicklungen, in denen eine solche Karte über Stunden und Tagen an einer Aufgabe rödelt und diese dann schlussendlich fehlschlägt... was soll das dann.. :-)
Falls jetzt überhaupt was dran ist, oder diese Leute nicht einfach eine schlechte Karte bekommen haben.

Erster Ansatz für solche Fälle wäre erst mal den Speichertakt zu senken. Den Speichertakt senken ist so ziemlich immer das erste was man mit einer Grafikkarte macht, wenn die danebenschlägt... (angebliche "Spiele crashes" etc)
 
Passiert halt wenn man Consumerhardware verwendet. ;)

Um ein Feature wird es sich dabei wahrscheinlich nicht handeln, aber es fehlt noch das Statement von Nvidia ...
 
Wenn es am HBM liegt, müsste das doch auch die Vega Karten betreffen? Schlecht wäre es alle mal, wenn HBM so wenig zuverlässig ist ohne ECC (normaler Ram hat diese Probleme ja nicht, weswegen ja mittlerweile auch gerne Consumerkarten für wissenschaftliches genommen werden (weil Kosteneffizienter)).
 
Ist ja alles bisher noch spekulation.
Auf jedenfall.... habe eine Vega FE, die verrechnet sich nicht (trotz HBM2 ohne ECC). Kann also nicht das Problem per-se sein.
ECC ist auch nicht zwingend notwendig für wissenschaftliche Berechnungen. Man kann es z.B. einfach 2x durchrechnen, um sicher zu sein, dass das Resultat stimmt.
Es wird auch nicht erwartet, dass bei non-ECC RAM 10% Fehler passieren. So etwas wäre unakzeptabel.

nVidia hatte in letzter Zeit auch viele Bugs in CUDA 9/9.1, könnte also auch nur ein Problem dort sein (in Software). Zum Beispiel, dass der Compiler nicht genug NOPs einfügt, um die Timings zu treffen.
 
Zuletzt bearbeitet:
Danke. Wobei wenn der HBM bei der Volta so viele Fehler verursachen würde, würden Spiele ja auch der reihe nach abstürzen und Grafikfehler enstehen (wie bei zu stark übertaktetem Ram).
 
Passiert halt wenn man Consumerhardware verwendet. ;)

Um ein Feature wird es sich dabei wahrscheinlich nicht handeln, aber es fehlt noch das Statement von Nvidia ...

Aber die Karte ist doch genau dazu da, dem Heimanwender die Möglichkeit zu geben aufwändigere Berechnungen etc. durchzuführen?
Ein 10% Fehler macht die Karte aber unbrauchbar in den entsprechenden Gebieten :d
 
Die Verwendung solcher "Consumerkarten" statt der Modelle für professionelle Anwendungen in genau solchen Szenarien, ist NVidia ja eh ein Dorn im Auge.
Von deren Seite wird da also wohl nicht viel Unterstützung bzw. Bereitschaft für evtl. Treiberfixes zu erwarten sein.

Aber dass sie im Gegensatz zu den GTXen keine Drossel beim Computing hatten, war doch mal ein Feature der Titanen, oder erinnere ich mich da falsch?
Welcher Bekloppte soll denn so einen Haufen Geld für Null-Vorteil ausgeben? OK, als Grafikkarte für Apple-Computer könnte sie wohl Sinn machen, weil's da ja nur darum geht möglichst viel Kohle zu verbrennen um seinen Status zu untermauern, aber sonst?
 
Auf jedenfall.... habe eine Vega FE, die verrechnet sich nicht (trotz HBM2 ohne ECC). Kann also nicht das Problem per-se sein.
ECC ist auch nicht zwingend notwendig für wissenschaftliche Berechnungen. Man kann es z.B. einfach 2x durchrechnen, um sicher zu sein, dass das Resultat stimmt.
Es wird auch nicht erwartet, dass bei non-ECC RAM 10% Fehler passieren. So etwas wäre unakzeptabel.

Das sehe ich auch so - ECC wird primär genutzt zur Fehlererkennung und Fehlerbehebung. Eine Hardware die permanent Fehler wirft ist aber defekt - da hilft auch ECC nichts mehr. Eine Fehlerrate von 10% ist auch alles andere als normal. Im Serverumfeld tauscht man Memory Riegel oft schon, wenn die anfangen die ersten Fehler zu korrigieren, weil es meist ein Indiz dafür ist, dass der Riegel alsbald die Hufe reißt.

Passiert halt wenn man Consumerhardware verwendet.

Nein, sowas passiert, wenn die Hardware einen Fehler hat oder die Software buggy ist.
Leider fehlen viele Details - das könnte ggf. auch was ganz anderes sein. Bei abnehmender Genauigkeit könnten auch Rundungsfehler zu solchem Verhalten führen. Wobei die Aussage ist, dass die Ergebnisse hätten immer gleich lauten müssen.
Mehr Infos wären hier klar von Vorteil. Ne 10% Fehlerrate würde dem Ding in Games übel Bildfehler entlocken... Das hätte schon ganz andere Wellen geschlagen.
 
kann doch genauso gut absicht sein. man baut hürden in den treiber, ist nicht verpdlichtet support zu bieten und jeder der mit der idee liebäugelt sich so geld zu sparen word davon abgehalten.

und es nachzuweisen ist praktisch unmöglich.
rein unternehmerisch wäre das ein guter weg
 
Zitat von den Entwicklern der SW:
Titan-V reliability concerns. We have received conflicting reports about Titan-V cards failing the validation tests. Early reports suggested problems, but many subsequent tests have failed to reproduce this. You should probably treat Titan-V cards with care, making sure that repeated runs give identical results; but this is also good advice for all GPU cards: we know of examples where brand new cards failed, and also of cases where failures began to show up after years of use.

Wen das Programm interessiert:
The Amber Molecular Dynamics Package

Hobbymässig betreibt niemand solche Berechnungen, wir arbeiten mit ähnlichen Programmen in der Firma, aber sicher nicht ohne ECC
Selbst bei unseren MS-Workstations sind wir inzwischen auf Karten mit ECC umgestiegen obwohl dort weitaus kürzere Berechnungszeiten anfallen.
 
Das wäre bitter wenn die GPU schuld ist. Sowas zu tracken muss ein Albtraum sein...
 
Vielleicht wurde die Preiskalkulation der Titan V auch mit eben dieser durchgeführt? :fresse:
Aber jetzt mal ernsthaft: Das sollte man schon genauer unter die Lupe nehmen in welchen Szenarien und warum es da zu Fehlern kommt.
 
Vielleicht wurde die Preiskalkulation der Titan V auch mit eben dieser durchgeführt? :fresse:

Naja 10% mehr oder weniger hätte den Braten auch nicht fett gemacht. :fresse:

Mit dem zweiten Teil hast du natürlich recht, aber hier fehlt noch das offizielle Statement von NVidia, leider wie so oft ...
 
Mit dem zweiten Teil hast du natürlich recht, aber hier fehlt noch das offizielle Statement von NVidia, leider wie so oft ...
Du kannst doch englisch lesen, oder?
Ein paar Posts weiter oben hab ich die Aussage der Entwickler der Software zitiert, die konnten den Fehler nicht reproduzieren.

NV selbst hat auch bereits ein Statement abgegeben, nur weil du nicht bereit bist in der Quelle nachzulesen oder dir keiner hier ein Update schreibt heißt es nicht dass es kein Statement gab, aber ich poste es Dir mal direkt aus der Quelle der Meldung
A spokesperson for Nvidia has been in touch to say people should drop the chip designer a note if they have any problems. The biz acknowledged it is aware of at least one scientific application – a molecular dynamics package called Amber – that reportedly is affected by the Titan V weirdness.
"All of our GPUs add correctly," the rep told us. "Our Tesla line, which has ECC [error-correcting code memory], is designed for these types of large scale, high performance simulations. Anyone who does experience issues should contact support@nvidia.com."

Was erwartet Ihr Euch von NV? Sollen sie bei jedem von Euch separat anklopfen und informieren?
Warum sich der Anwender mit seinem Problem nicht gleich direkt bei NV oder dem Entwickler der SW gemeldet hat, sondern sich zuerst direkt an Presse gewendet hat macht mich eigentlich am meisten stutzig.
Ist ähnlich wie bei den Sicherheitslücken bei AMD wo auch dem Hersteller nicht einmal zuerst die Gelegenheit gegeben wurde das Thema intern zu checken, nein, immer sofort gleich an die große Glocke hängen.
 
@fidel

Ok das Statement hatte ich nicht gelesen/gesehen, NV weiß also bisher nichts über Probleme.

Dennoch, bei einer GPU für 3000 Euro kann ich erwarten, dass diese auch korrekt rechnet. Wenn es von 4 Stück nur 2 tun, dann sind nicht die Wissenschaftler schuld, sondern Nvidia, welche die Karte dann falsch konzipiert haben. Wenn nur manche ohne ECC korrekte Ergebnisse liefern, dann sind die anderen schlicht defekt.
 
NV ist der Fehler vom Entwickler der SW gemeldet worden, der den Fehler selbst nicht reproduzieren und schreibt selbst dass das Problem auch mit anderen Karten auftreten kann.

Du hast keine Ahnung von welchen Berechnungen wir hier reden, geschweige denn davon wie lange hier gerechnet wird.

Nur 1 kleiner Fehler führt zu falschen Ergebnissen, warum bloß gibt es im professionellen Bereich Rechnersysteme mit ECC? Sind alles Idioten die auf teurere Hardware setzen, geht doch alles auch mit Consumer-HW auch.

Wer für solche Berechnungen HW ohne ECC einsetzt handelt fahrlässig, übrigens einer der Gründe warum ich Fold@Home überhaupt nichts halte.

Ich, bzw meine Gruppe, arbeitet im Bereich ProteinEngineering und in-silico prediction und ich verstehe von diesen Berechnungen auf jeden Fall mehr wie vermutlich jeder andere Poster in diesem Thread.
 
Das Problem liegt auf der anderen Seite, aber niemand begreift es:

Die Titan V ist genauer als korrekt. Sie zeigt, dass gleiche Rechnungen unterschiedliche Ergebnisse haben können. Quanteneffekt. Ab einer bestimmten Genauigkeit, verändert sich das Resultat. Nur bislang waren weder Menschen noch Maschinen dazu im Stande eine solche Genauigkeit zu erreichen. In Wahrheit rechnen wir alle falsch. Bis jetzt. Klare Sache. Die Karte ist ihrer Zeit weit voraus. Der Wahnsinn. Schade, dass nun über die Titan V hergezogen wird. Aber so ist das nun mal mit Genies. ;)

Aber im Ernst, interessant wäre, ob dies auch bei den Quadros auftritt, die m.W. Forscher bislang immer für physikalische Berechnungen etc. benutzen ...
 
Da scheint sich NVIDIA mal wieder verrechnet zu haben. :haha:
Naja, die Titan V ist ja auch keine Profikarte. Sie ist mehr so eine Art Gaming-Karte die man zu Profipreisen verkauft. Also eben eine GTX Titan.
 
Zuletzt bearbeitet:
In Wahrheit rechnen wir alle falsch. Bis jetzt. Klare Sache. Die Karte ist ihrer Zeit weit voraus. Der Wahnsinn. Schade, dass nun über die Titan V hergezogen wird. Aber so ist das nun mal mit Genies. ;)

Aber im Ernst, interessant wäre, ob dies auch bei den Quadros auftritt, die m.W. Forscher bislang immer für physikalische Berechnungen etc. benutzen ...
:bigok:
Genies = Geforce

Die Quadros haben ECC GDDR bzw. HBM(²)
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh