1.
Unrecoverable read errors kommen bei non-raid edition Festplatten so gut wie nie vor. [kein TLER]
So wie alle alle anderen Punkte ist auch das totaler Blödsinn. TLER bedeutet nur, dass man einstellen kann wie lange eine HDD versucht einen Sektor doch noch erfolgreich zu lesen und das in aller Regel dieser Timeout an Wert kürzer eingestellt ist als bei HDDs ohne TLER/ERC. Bei der WD Red (mit TLER) sind es 7s, bei der Green 14s. Bei 5400 rpm sind das also pro Sekunde rund 90 Versuche weil der Sektor 90mal unter dem Kopf durchkommt und damit für die Red etwa 630 Versuche einen Sektor doch noch erfolgreich zu lesen (sofern man die Zeit nicht verändert hat, was nur bei HDDs mit TLER / ERC geht). Wie gut mag die Chance bei weiteren 630 Versuchen wohl sein, wenn es bei den ersten 630 nicht geklappt hat? Ich weiß es nicht, aber offenbar nicht so gut, als dass die Hersteller denen eine bessere UBER in die Datenblätter schreiben würden und die Platten mit TLER/ERC haben eine bessere UBER von 1:10^15.
Die kommen erst wenn die Festplatte kurz vor dem endgültigen Versagen steht.
Du hast offenbar noch nie bei einer HDD die einzeln läuft schwebende Sektoren gesehen oder jede sofort ausgetauscht nur weil es mal einen gab und Du Angst vor einem baldigen Totalausfall hattest. Dabei verläuft die Rate der unkorrigierbaren Bitfehler bei HDDs relativ konstant während der vom Hersteller geplanten Nutzungsdauer (von üblicherweise 5 Jahren), solange man die HDDs innerhalb der Spezifikationen betreibt und eben nicht misshandelt. So sieht das aus, hier im Vergleich zu SSDs:
Was bei funktionierenden Festplatten gelegentlich vorkommt das ein Recoverable Lesefehler auftritt.
Das ist alltäglich, dafür gibt es die ECC hinter jedem Sektor und diese Fehler berichten HDDs nicht einmal in den S.M.A.R.T. Werten.
Die Platte wird den Sektor durch mehrfaches lesen retten und nimmt aber in der Zeit aber keine Befehle entgegen.
Und das ist das Problem #1 mit RAID Controllern weil er dann in selbstzestörerischer weise die Platte aus dem RAID wirft wenn sie zu lange für eine Antwort braucht.
Das können aber alle HDDs und machen es auch, außer man sagt ihnen etwas anderes, dafür gibt es extra gesonderte Befehle. Diese verwenden aber nur SAS/FC RAID Controller und auch nur, wenn sie dafür die Platten mit 520/528 Byte pro Sektor formatiert haben, was bei SATA Platten schon gar nicht geht. In in diese 8 oder 16 extra Bytes schreibt der Controller selbst eine Prüfsumme und kann so Lesefehler sofort erkennen und dann anhand der Daten der anderen Platten, also auch der Parity dann die fehlenden Daten rekonstruieren und den defekten Sektor wieder überschreiben. Dies geht schneller als eben auf die Wiederholungen zu warten und blockiert das Storage nicht. Bei SATA Platten muss man eben die Krüppellösung mit dem TLER/ERC machen.
2.
RAID und RAID Controller sind für größere Datenlager TOT.
Wieso? Und was nimmt man an deren Stelle? HW RAID Controller zwar in der Tat auf einem absteigenden Ast, da SW RAIDs heute viel mehr können als früher und bei Enterprise Storage sind SSD und gerade auch NVMe SSDs auf dem Vormarsch für die nur SW RAID in Frage kommen, aber RAIDs sind nach wie vor Pflicht für große Datenlager. Egal wie man diese realisiert und nennt.
die Fehlerrate von 10^14 bedeutet einen undetektierten Lesefehler alle 12Tb gelesene Daten.
Jein, es kann, muss aber nicht zwangsläufig pro 12TB gelesener Daten zu einem Lesefehler kommen.
Das sind fehlerhaft gelesene Sektoren ohne das die Festplatte einen Fehler meldet.
Nein, die HDDs geben dann eine Lesefehler aus, der Controller bekommt also keine falschen Daten, ausgenommen bei besonderen Befehlen wie den ATA Streaming Befehlen für Echtzeitvideoaufzeichnung wo man dies bewusst akzeptiert!
Man bekommt Datenmüll von der Platte, aber merkt es nicht!
Genau das ist ein Märchen welches nicht auszurotten ist. Wenn das passiert, dann hat die SW die den Lesebefehl gegeben hat diesen ignoriert und trotzdem so getan als wäre die Datei korrekt und vollständig geladen worden oder der Treiber hat den Lesefehler verschluckt. Viel wahrscheinlicher ist aber bei Heimanwendern ein RAM-Fehler, denn alle Daten gehen über das RAM und kaum ein Heimanwender hat ECC RAM und ein System welches dies auch unterstützt. Eine andere Möglichkeit wären ein Fehler auf den internen Datenpfade der Platte, hier vor allem im Cache RAM, denn dagegen haben meist nur die besseren Enterpriseplatten einen Schutz und nicht einmal alle HDDs haben eine Erkennung solcher Fehler, die als Ende-zu-Ende Fehler in den S.M.A.R.T. Werten zu finden sind. Gibt es das Attribut nicht, meist ist es 0xB8 = 184, so hat die Platte auch keinen Schutz. Die Übertragung über SATA ist mit einer CRC32 pro FIS (maximal 8128 Byte Nutzdaten) geschützt, diese macht unerkannte Bitfehler bei der Übertragung praktisch unmöglich. Google mal selbst, aber einer CRC32 entkommt über 8192 Byte nur einmal so alle ich meine 10^46 mal ein Fehler, was mal 8k dann einem Datenvolumen entspricht welches weit jenseits dessen ist, was jemals an HDDs gefertigt wurde. Die ECC hinter einem physikalischem Sektor von 4k ist so um die 50 bis 100Byte lange, der entkommt auch praktisch kein Fehler unerkannt, an den beiden Stellen passieren also wirklich keine Fehler. Dann schon eher im Puffer des Host Controllers oder bei dessen FW bzw. der FW der Platte (gab es bei der HD204 im Zusammenhang mit dem Identify Device Befehl und NCQ). Dann könnte es noch bei der Übertragung zwischen dem Host Controller und der CPU/dem RAM Controller passieren, aber PCIe ist auch mehr oder wenig abgesichert, bei Enterprise-HW mehr, bei Consumer HW weniger.
Das HDDs selbst falsche Daten liefern ist bei Enterprise HDDs so gut wie ausgeschlossen, außer ein FW Bug ist im Spiel und auch bei Consumer HDDs dürfte es sehr selten sein. Ich sehen die S.M.A.R.T. Werte vieler HDDs, nicht wenige Consumer HDDs von Seagate haben das Ende-zu-Ende Fehlerattribut aber nur bei ganz, ganz wenigen tratt da wirklich mal so ein Fehler auf.
Meine 4TB festplatten liefern etwa alle 12TB einen Checksum fehler, wie ein Uhrwerk. [alle 3-4 scrubs]
Was dem widerspricht was Du unter 1 behauptet hast, wonach es nur am Lebensende passieren dürfte. Schwebende Sektoren wird sie aber trotzdem nicht bekommen, da ja ein RAID die Daten sofort überschreibt und dann prüft der Controller der Platte ob die neuen Daten nun korrekt gelesen werden können, damit verschwindet der schwebende Sektor sofort wieder und es wird ggf. ein Reservesektor aktiviert, wenn die Date nun nicht mehr korrekt gelesen werden können, was aber längst nicht immer der Fall ist.
Ja enterprise Platten sind da besser aber wir reden hier ja über billigst Home Storage.
Was außer RAIDs sollte man dort dann nehme, wenn Du RAIDs für TOT erklärt hast?
3.
Der einzige Weg zuverlässige Datenspeicher mit den aktuellen hochkapazitäts Festplatten zu bauen ist ZFS/BTRFS/SnapRAID mit checksums und ausreichend Redundanz.
So ein Blödsinn. Es gibt auch Consumer HDDs mit hoher Kapazität und einer UBER von 1:10^15 wie z.B. die Seagate NAS/Ironwolf Reihe die ab der 6TB so eine UBER von 1:10^15 hat. Die Checksums sind schön und gut, aber ohne ECC RAM und passendes System würde ich die Finger davon lassen, zumindest wenn man auch noch die automatische Fehlerkorrektur aktiviert hat. Außerdem lässt sich zumindest bei ZFS keine weitere Platte ins RAID integrieren, die werden nur wie bei JBOD/BIG angehängt und genießen dann aber nicht den gleichen Schutz wie die Platten im RAID.
Wichtiger als die SW mit der man das RAID baut ist an das Backup zu denken!
Alle systeme mit nur einfacher Redundanz (Raid 1&5) sind nicht mehr zeitgemäß.
Wieso? Bei einer UBER von 1:10^15 sollte es nur maximal alle gelesenen 120TB zu einem Lesefehler kommen und damit hat man bei einem RAID 5 mit 5 10TB HDDs dann immer noch eine theoretische Chance von über 70% auf ein erfolgreiches Rebuild und selbst bei einem RAID 8 mit 8 davon ist die Chance noch bei über 54%.
4.
Deine Daten wandern immer durch den RAM, mit oder ohne ZFS.
Daher sollte ECC RAM immer Pflicht sein, wenn man ein größeres Storage baut und mehr Wert auf Sicherheit vor Datenkorruption legt als die billige Desktop-HW bietet und die bietet nur so viel, dass es meistens bei den meisten Leuten keine größeren Probleme gibt. Also nur das Mindestmaß damit die Leute das Zeug noch kaufen und es trotzdem so billig wie möglich hergestellt werden kann. "I would simply say: if you love your data, use ECC RAM."