Tun sie das wirklich? Wie oft werden Speicherfehler als irgend welche Softwarefehler interpretiert?
Aber genau das ist doch das Problem... Man interpretiert viel zu viel.
Wie auch Romsky oben schon bestätigte. Es gibt scheinbar Systeme die mit unter auch 24/7 laufen, wo scheinbar keinerlei Probleme dem Nutzer/Anwender bekannt sind. Sprich keine Abstürze, keine "defekten" Files, keine sonstigen Probleme usw. -> was, so behaupte ich, in der Mehrzahl der normalo Desktop PCs so sein dürfte.
Wenn ich mal auf die letzten 20 Jahre zurück blicke, muss ich ehrlich sagen, das ich erst genau ein einziges Problem mit dem RAM hatte. Und das war wirklich ein defekter Riegel.
In der kompletten Laufbahn, seit ich mit PC Technik hantiere habe ich faktisch absolut keinen Datenverlust gehabt, den man auf RAM Fehler zurückführen könnte (weil es keinen Datenverlust gab)
Es gab keinerlei Abstürze der Hardware, die direkt auf den RAM als Quelle hinweisen würden usw. usf. Sondern wenn "Probleme" dann Gründe wie defekte Hardware (Board, GPU, Prozessor) oder allgemein Instabilitäten durch OC oder Software (Treiber) bzw. irgendwelche Betageschichten.
Was sagt mir das am Ende!? Von der Warte her geht es scheinbar nach Abwägung des Risikos auch ohne ECC
Bei ECC Module bekomme ich das wenigsten mit, was bei nonECC erstmal nicht der Fall ist. Da wundert man sich erstmal lange über Instabilitäten, sucht nach vermeintlichen miesen Updates etc. Wer denkt denn bei einem sporadisch auftretendem Absturz an ein kaputtes RAM Modul?
Wieso wundern? Als geeigneter Administrator von Server Hard- und Software dürfte man durchaus in der Lage sein, derartige Instabilitäten zu Troubleshooten. Und das Problem soweit einzugrenzen, um die vermeindlich Defekte Hardware (sofern sie die Ursache ist) zu finden. Da "wundert" sich niemand über irgendwelche "Updates"...
PS: und gerade bei sporadisch auftretenden Problemen ist oftmals der RAM mit im Spiel
Bzw. wird speziell auch im privaten Umfeld aus meiner Sicht der RAM gern mal für diverse Probleme als erste Anlaufstelle rangezogen.
Geht es beispielsweise um ein Windows OS, lässt sich auch sehr sehr viel direkt aus den BSOD Codes und Memory Dumps rauslesen (wenn man des Debugers mächtig ist)
Laut meiner Erfahrung ist es nämlich nicht immer primär ein Hardware Problem, sondern oftmals verursacht die Software Probleme...
Wir haben am laufenden Band Speicherfehler die korrigierbar sind, unter anderem motzen auch die CPUs und die Northbridges herum. Man braucht einfach nur hinreichend viele Server damit man das Problem häufiger sieht. Speichermodule müssen wir auch regelmäßig tauschen, wenn auch selten.
Und hier sehe ich ein Problem mit den Aussagen. Es geht hier um EINE! einzige Kiste. Die wenn ich das nicht überlesen habe, nichtmal 24/7 läuft, sondern bestenfalls wärend der Arbeitszeit, also irgendwo im Bereich 8-10h pro Tag, 5 Tage die Woche mal läuft.
Es geht schlicht nicht um hunderte Maschinen...
Wenn du natürlich derart viel Technik betreust, fällt dir sowas auch in Sachen absoluter Anzahl schneller auf. Aber die absolute Anzahl der auftretenden Probleme ist völlig irrelevant, was wichtig ist, ist die Rellation.
Mal als simples Beispiel.
Angebommen du siehst bei ~360 Systemen pro Tag einem sichtbaren Fehler auf ein Jahr, dann ist der Schnitt 1 Fehler pro Maschine pro Jahr.
Der TE betreibt eine Maschine. Auf ein Jahr hat er einen Fehler. -> Verhältnis ist identisch. Nur wird dir definitiv der täglich auftauchende Fehler deutlich eher zu denken geben, als dem TE bei einer einzigen Maschine!
Eine Referenz in der auch die Forschungsarbeit verlinkt ist:
Hauptspeicherfehler sehr viel häufiger als angenommen.
Ich gehe davon aus, das du den Artikel auch gelesen hast
Mir fällt folgendes im konkreten Zusammenhang auf: "Pro Jahr trat bei rund einem Drittel aller Server beziehungsweise bei 8 Prozent aller DIMMs mindestens ein korrigierbarer Fehler auf."
-> Das heist also, bei 8h pro Tag wäre mindestens ein korrigierbarer Fehler in 3 Jahren Nutzungszeit bei 8% der verbauten DIMMs anzutreffen. Bricht man es auf die Anzahl der Server runter -> sinds 2/6. Die anderen vier laufen scheinbar problemlos!
"Wenig überraschend stieg die Fehlerwahrscheinlichkeit auch mit dem Auslastungsgrad des Hauptspeichers, allerdings bei manchen Systemen auch mit der Speichermenge."
-> Heist also, wenn ich mehr Luft in Sachen freiem Space habe, habe ich weniger Fehler... In welchem Faktor das geschieht, ist aber wohl nicht bekannt.
"Der Einsatz von ECC gilt bei Systemen mit vergleichsweise kleinem Hauptspeicherausbau, die diesen zudem nur selten voll ausnutzen und nur wenige Stunden am Tag arbeiten, als verzichtbar – jedenfalls ist unklar, ob Speicherfehler im Vergleich zu anderen Fehlerquellen besonders häufig zu Abstürzen führen."
-> Es ist also auch anhand der Studie noch absolut ungewiss, ob die Speicherfehler überhaupt im Vergleich zu anderen Geschichten von Abstürzen/Problemen usw. merklichen Einfluss haben!
Unterm Strich?
-> um so weniger die Büchse pro Tag läuft, desto weniger effektiven Mehrnutzen habe ich von ECC, da die Warscheinlichkeit der Fehler immer weiter abnimmt.
-> Die Fehlerhäufigkeit verteilte sich sehr ungleichmäßig über die Systeme -> heist also, man kann Glück haben, oder auch Pech.
-> mit freiem Space im RAM habe ich scheinbar auch weniger häufig überhaupt potentiell Fehler.
-> es ist ungewiss, ob die Fehler im RAM überhaupt merklich aus anderen Problemquellen rausstechen.
Darauf aufbauend kann man aus meiner Sicht durchaus eine Risikoabschätzung abwägen. -> und für sich zum Ergebnis kommen, das man ECC definitiv nicht missen will, oder es eben für unnötig erachtet.