Falls wir hier mal wieder Hirnies haben die Häufigkeit von Silent Data Corruption anzweifeln habe ich hier mal was Schönes:
Over 41 months, 400K+ instances of silent data corruption on 1.53 million disk drives
Geht wahrscheinlich weit ins OT, wenn man die dortigen Quellen mal durchgeht...ich schneids mal an, ggf. können wir ja auslagern.
[3]
The ADvanced Systems Laboratory (ADSL): Abstract
Datensatz von 2004 (Januar + 41 Monate), also uralt. Weiterhin schade, dass die Plattenfamilien, -hersteller, -größen anonymisiert sind, aber das ist wohl Teil des Deals, an solche Daten zu kommen. Drittens ist da SATA grade erst so losgeschwommen, während die ersten Fibrechannelsachen wohl seit 1997 zu haben sind, also zur Zeit der Datennahme keine allzu garstigen Kinderkrankheiten mehr hatten. Das macht zwar auf Platterebene keinen Unterschied, wohl aber bei der Interface-Elektronik und den Kabeln. Siehe nächste Studie.
Interessante Häppchen:
Observation 5 There is no clear indication that workload affects the probability of developing checksum mismatches.
Anzahl der Datenblöcke mit unpassender Checksumme hintendran ist also unabhängig von der (Schreib-)Last des Laufwerks. Die Platter stört intensive Nutzung also nicht, wenn ein Laufwerk durch sowas kaputtgeht, dann eher durch Mechanikdefekte und Abrieb, der zu mechanischen Platterschäden führt.
Observation 2 The probability of developing checksum mismatches varies significantly across different disk models within the same disk class.
Observation 3 Age affects different disk models differently with respect to the probability of developing checksum mismatches.
Observation 6 The number of checksum mismatches per corrupt disk varies greatly across disks. Most corrupt disks develop only a few mismatches each. However, a few disks develop a large number of mismatches.
Auf Deutsch: Der eine Hersteller kann das gut, versagt aber in der anderen Disziplin, beim nächsten Hersteller ists genau andersrum, und beim Generationswechsel wird neu gewürfelt. Ah, und jedes Werk produziert natürlich Kram mit eigenen Stärken und Schwächen, also kann man einfach blind einkaufen.
Observation 7 On average, corrupt enterprise class disks develop many more checksum mismatches than corrupt nearline disks.
Enterpriselaufwerke machen seltener Probleme, aber wenn, dann gleich richtig.
Observation 16 Data scrubbing discovers a large percentage of the checksum mismatches for many of the disk models.
GrafikTreibers eigentliche Moneyquote...
Observation 17 RAID reconstruction encounters a non-negligible number of checksum mismatches.
• A significant number (8% on average) of corruptions are detected during RAID reconstruction, creating the possibility of data loss. In this case, protection against double disk failures [1, 4, 5, 9, 10, 12] is necessary to prevent data loss.
Das hieße ja, dass es mit den Minikapazitäten von 2004 und den wohl eine Größenordnung schlechteren Bitfehlerraten schon jedes zwölfte RAID5 beim Rebuild (also durch Doppelfehler) zersägt hätte? Na ich weiß ja nicht.
• Some block numbers are much more likely to be affected by corruption than others, potentially due to hardware or firmware bugs that affect specific sets of block numbers. RAID system designers might be well advised to use staggered stripes such that the blocks that form the stripe are not stored at the same or nearby block number.
Echter Spiegel mit 1:1 abgelegten Datenblöcken: Saudumme Idee, weil in den besonders gefährdeten Arealen auch noch genau die gleichen Daten liegen?
[11]:
CiteSeerX — Are Disks the Dominant Contributor for Storage Failures? A Comprehensive Study of Storage Subsystem Failure Characteristics
Basiert auf nem sehr ähnlichen Datensatz, große Überschneidungen zum obigen Paper.
Table 1, Ausfallzahlen
Near-Line: 520776 Disks, 10105x Disk Fail, 4888x Interconnect, 1819x Protokoll, 1080x Performance
Low-End: 264983 Disks, 3230x Disk Fail, 4388x Interconnect, 1021x Protokoll, 1235x Performance
Mid-Range: 578980 Disks, 8989x Disk Fail, 7949x Interconnect (teils Dual-Path), 2298x Protokoll, 2060x Performance
High-End: 454684 Disks, 8240x Disk Fail, 7395x Interconnect (teils Dual-Path), 1576x Protokoll, 153x Performance
Runtergerechnet auf 100k Disks sind das:
Near-Line: 1940 / 939 / 349 / 207, Summe 3435
Low-End: 1219 / 1637 / 385 / 466, Summe 3707
Mid-Range: 1553 / 1373 / 397 / 356, Summe 3679
High-End: 1840 / 1626 / 347 / 34, Summe 3847
Irre! Da wüsst ich auch gern mal die Preis- und Performancesteigerung zwischen diesen vier Gruppen...
Finding (2): For disks, near-line storage systems show higher (1.9%) AFR than low-end storage systems (0.9%). But for the whole storage subsystem, near-line storage systems show lower (3.4%) AFR than low-end storage systems (4.6%).
Implications: Disk failure rate is not indicative of the storage subsystem failure rate.
Oder: Was Enterpriselaufwerke durch höhere Zuverlässigkeit gewinnen, verlieren sie durch höhere Komplexität an fetten Controllern, Backplanes, diesem ganzen FC-Gedöns inklusive redundanter Verkabelung, ... - unterm Strich fallen alle Systeme gleich häufig aus, die Preisleistung ist nur jeweils ne andere.
Finding (7): Storage subsystems configured with network redundancy mechanisms experience much lower (30-40% lower) AFR than other systems. AFR for physical interconnects is reduced by 50-60%.
Implications: Network redundancy mechanisms such as multipathing can greatly improve the reliability of storage subsystems.
[...]
However, the observation also tells us that there is still further potential in network redundancy mechanism designs. For example, given that the probability for one network to fail is about 2%, the idealized probability for two networks to both fail should be a few magnitudes lower (about 0.04%). But the AFR we observe is far from the ideal number.
Kann ich nicht aus der obigen Tabelle rauslesen, denn selbst wenn die gemischt ist, müssten die besser angebundenen Laufwerke ja was rausreißen. Und überhaupt, mal auf die heutige Situation mit Dualport-SAS bezogen: Ist ja toll, wenn man eine Festplatte doppelt anbinden kann, aber um damit wirklich was zu gewinnen, muss man das hard- und softwaretechnisch richtig machen. Wird als Finding (9) verkauft...