Bezüglich der Fehlerrate:
Enterprise < NAS < home user
Das kann man so pauschal nicht sagen, denn zumindest bei der UBER gibt es für 3.5" HDDs üblicherwiese nur 1:10^14 und 1:10^15 und bei Seagate haben inzwischen selbst alle NAS, also Consumer NAS und nicht Enterprise NAS, die 1:10^15, während bei WD die Red und selbst die Red Pro nur 1:10^14 haben, auch wenn im Datenblatt der Red Pro 10:10^15 steht, was aber nur eine andere Art ist 1:10^14 zu schreiben die nach mehr aussehen soll als es ist, man könnte auch Bauernfängerei sagen.
Die Fehlerrate ist also einerseits abhängig von der Festplattenklasse (Enterprise/NAS/home user) und der Anzahl Festplatten im RAID-Verbund.
Umgekehrt, die Anzahl von HDDs in man in einem bestimmten RAID Verbund (vor allem einem RAID 5) verbauen sollte, hängt von den Platten ab und da spielt z.B. die UBER eine Rolle dafür wie hoch die Chance auf ein Rebuild sind. Daneben gibt es aber noch andere Dinge die die einzelnen HDDs unterscheiden, wie das Workload Rating und der Schutz vor Vibrationen wie sie andere HDDs im gleichen Gehäuse verursachen. Die einfachen Desktopplatten haben nur 55TB/Jahr Workload Rating, Enterprise Nearline HDDs 550TB/Jahr, die 2.5" Enterprise HDDs mit 15krpm haben wirklich noch eine unbegrenztes Datenübertragungsvolumen und auch eine UBER von 1:10^16, aber für Heimanwender sind solche SAS HDDs irrelvant, also lass ich die mal außen vor.
Dann haben die einfach Desktopplatten i.d.R. nichts was sie vor Vibrationen schützt, einfach Consumer NAS Platten wie die Seagate NAS oder WD Red sind für bis zu 8 HDDs in einem Gehäuse freigegeben (frühe Modelle nur für bis zu 5), bessere NAS wie die Red Pro oder Seagate Enterprise NAS auch für mehr, z.B. bis zu 16 Platten. Enterprise Nearline HDDs (also z.B. HGST Ultrastar, WD Re/Gold,
Seagate Enterprise Capacity,
Toshiba MG Reihe) sind meist für eine unbeschränkte Anzahl von HDDs im Gehäuse zugelassen weil sie über die aufwendigsten Technologien zum Umgang mit Vibrationen verfügen. Wenn man sowas nicht beachtet, können natürlich neben einer verringerten Lebensdqauer auch höhere Fehlerraten auftreten, denn die Spezifikationen gelten ja immer nur bei Einhaltung der Herstellervorgaben und nur während der Lebenserwarung (Service Life) die i.d.R. 5 Jahre beträgt.
Darüber hinaus haben Enterprise und NAS Festplatten mehrere Befehle die speziell im Raid-Betrieb genutzt werden können.
Für RAID braucht man nicht wirklich mehr Befehle, es muss nur der Timeout einstellbar sein wie lange eine HDD selbst versucht Fehler zu beheben, vor allem problematische Sektoren doch noch zu lesen. Ist er das, so spricht man je nach Hersteller von einer HDD mit Time-Limited Error Recovery (TLER), Error Recovery Control (ERC) bzw. Command Completion Time Limit (CCTL), wobei die Grundfunktion das die Controller durch wiederholtes Lesen versuchen die Daten doch noch korrekt zu lesen, bei allen SATA Platten identisch ist (bei SAS auch, aber da gibt es Besonderheiten auf die ich jetzt hier nicht eingehen möchte). Vor allem die HW-RAID Controller warten nämlich gewöhnlich nur 8s auf eine Antwort der Platte, danach werfen sie diese als defekt aus dem RAID Verbund, Desktopplatten haben aber i.d.R. einen längeren Timeout, so versucht die WD Green z.B. ab Werk 14s lang Fehler selbst zu beheben. Bei der Red ist der Wertk einstellbar und ab Werk müsste er auf nur 7s eingestellt sein, weshalb sie auch ohne Änderungen der Einstellungen schon problemlos an einem HW-RAID Controller arbeiten sollte. Die Desktopplatten fliegen dagegen dann gerne immer wieder mal aus dem RAID, vor allem wenn sie älter werden oder eben viele HDDs im gleichen Gehäuse arbeiten.
Enterprise/NAS Festplatten haben noch ein paar anderst gesetzte Parameter die die Dauerlauffähigkeit erhöhen sollen (Zeit bis zum parken des Kopfes etc.)
Ja und diese Parameter kann man eben bei andere Platten nicht setzen, was z.B. bei Betrieb an einem HW-RAID Controller alleine schon reichen sollte um mehr Geld für entsprechende Platten auszugeben, auch wenn man nicht glaubt, dass diese sich eben doch auch in der Hardware unterscheiden, was aber schon der Fall ist, auch wenn man es ihnen eben von außen nicht ansieht.
Controller gibt es im Grunde 3 Arten:
Hardware Raid mit Controllerchip, Speicher, Batterie (?) - da preislich <100 € uninteressant
Nicht unter 100€, sondern schnell bei einigen bis vielen Hundert Euro, daher werden diese gerne gebraucht gekauft, dann ist aber kene BBU dabei oder deren Akkus sind platt und wenn man die FW nicht auf die generische falshen kann, muss man oft auch noch mit anderen Einschränkungen leben.
Fake-Raid Controller (z.B. Intel Onboard) - Software-Raid über Treiber realisiert (Abgrenzung etwas unscharf)
Sagen wir so, die HW macht nicht die ganze Arbeit, der Treiber und damit die CPU des Rechners müssen ihnen mehr oder weniger unter die Arme greifen.
SW-Raid - Software-Raid über Betriebssystem realisiert
Wobei es da zwischen den Lösungen der verschiedenen OS deutlich Performanceunterschied gibt, die Windows SW RAIDs sind nicht für gute Performance bekannt, während die Linux-md-SW-RAIDs auch guten HW-RAID Controllern durchaus Konkurenz machen können, denn deren Controller sind im Vergleich selbst zu nur halbwegs aktuellen CPUs der Einstiegsklasse saumäßig lahm.
Abhängig vom RAID-Verbund, wird den Prüfsummen der Festplatte, oder des Rams mehr vertraut.
Was für Prüfsummen des RAMs? Ein reines RAID macht nur eine Parity und nutzt diese auch nur um im Fall eines Lesefehlers, den melden die HDDs ja an den Controller statt ihm einfach inkorrekte Daten zu liefern, dann die Daten zu rekonstruieren und wenn die RAID Lösung etwas taugt, überschreibt sie danach den Sektorn der Platte der den Lesefehler verursacht hat. Pürfummen in dem Sinne gibt es bei normalen RAIDs nicht, die Parity würde ich jedenfalls nicht so bezeichnen. Was Du wohl meinst sind Filesysteme wie ZFS die schon eine eigene RAID Funktion mitbringen und mit Prüfsummen und Parity arbeiten, wobei die Grenzen zwischen beiden da fließend sind.
ECC Ram ist unbedingt angeraten bei ZFS.
Das auf jeden Fall und immer man sollte immer dann auf ECC-RAM (mit entsprechendem System welches dies auch unterstützt, also Board und CPU) setzen, wenn man mehr Schutz vor Slient Data Corruption wünscht als die normale Consumer-HW bietet, die ja nur bei den meisten Leuten meistens fehlerfrei arbeiten muss und wo daher nur die fehleranfälligsten Dinge vor Bitfehlern geschützt sind. So gab es früher bei den Übertragungen zu den HDDs keine Prüfungsummen, erst mit den schnelleren Ultra-DMA Modie wurden dann dort pro Übertragung (FIS) eine CRC32 eingeführt um Übertragungsfehler zu erkennen und eine Wiederholung der Übertragung auszuführen. Bei dem DDR4 RAM wurden nun ebenfalls eine CRC für die Übertragung eingeführt die es bei DDR3 noch nicht gab, was zur Vermutung berechtigt, dass die abermals gesteigerten Datenraten (DDR3 ist ja nur bis 1866 spezifiziert, der Rest ist OC) nun doch so eine große Gefahr von Übertragungsfehlern zwischen dem RAM Riegel und dem RAM Controller (der sitzt heutzutage ja in der CPU) geführt haben, dass man nicht um diese Prüfsumme herum gekommen ist damit die Systeme weiterhin bei den meisten Usern meist fehlerfrei laufen. Die schützt aber eben nicht vor Bitfehlern im RAM, also nicht vor Fehlern durch gekippte Bits oder defekte Speicherzellen und erst wenn solche Fehler zu häufig auftreten, wird man irgendwann ECC-RAM verbindlich machen, vorher sind die Extrakosten einfach zu hoch, denn Consumer-HW muss vor allem billig sein.
Fragerunde:
Können Fake-/SW-Raids die entsprechenden Befehle der Enterprise/NAS Festplatten nutzen?
Wie schon gesagt, geht es da nicht um spezielle Befehle, sondern die Einstellung von Parametern in der FW der Platte, die kann man unter Linux z.B. mit hdparm oder smartctl einstellen. So ändert man mit hdparm -J xx /dev/sdy den Timeout für das Parken der Köpfe bei WD HDDs wie es das Tool WDILDE3 auch macht und mit smartctl -l scterc,70,70 /dev/sdb stellt man den Timeout der TLER auf 7s ein.
Welche Vorteil bieten Fake-Raids gegenüber SW-Raids?
Unter Windows gibt es da wohl vor allem Performancevorteile, denn wie gesagt hat die Performance von Windows SW-RAID keinen guten Ruf.
gibt es Hierbei Unterschiede zwischen Mainboards der Intel Consumer/Enthusiasten Serie Q/H/Z 77/97 etc. und den Server-/Workstation-Varianten C216/C232/C236
Bei dem kleinen S. 115x gibt es da meines Wissens keine Unterschied, der C236 hat aber 8 SATA Ports, die Consumer Chipsätze wie der Z170 aber nur maximal 6 und dann eben die Unterstützung von ECC-RAM, die nur die C2xx Chipsätze bieten. Bei Skylake laufen die Xeon E3-12xx auch nur noch auf C23x Chipsätzen. Bzgl. der Chipsätz-RAIDs sind mir aber keine Unterschiede bekannt, nur bei den S.2011(-2) Xeon Chipsätzen (C6xx) haben die SATA Controller eine andere Kennung und es gibt von Intel mit dem Enterprise RST einen eigenen Treiber dafür.
Profitieren neben ZFS auch andere Raid-Verbunde von ECC Ram? konkret Raid 1/5?
Ja, alles am Rechner profitiert von ECC-RAM, denn RAM Fehler könen immer zuschlagen und werden nur bei ECC RAM als solche erkannt und meist auch korrigiert, bei Systemen ohne ECC-RAM erkent man sie dann allenfalls an den Folgen wie korrupte Dateien, aufgehängte Programme oder Systemabstürze. Es steht dann aber nie dabei das es wegen eines RAM Fehlers passiert ist, da eben nirgends auffällt, wenn A ins geschrieben wurde, dann aber B ausgelesen wird, außer eben wenn B danach zu einem Problem führt. Aber die meisten schieben das eben auf andere Ursachen, zumindest solange es eben nicht laufend passiert. Da gilt eben das Programm als buggy, das OS als unausgereift oder man unterstellt der Festplatte falsche Daten geliefert zu haben.
Gerade letzteres passiert aber in der Praxis so gut wie nie, denn es gibt nur 3 Situationen wo das passieren kann:
1.) Ein FW Bug in der FW der Platte oder des Host Controller, bzw. ein Bug im Treiber des Host Controllers.
2.) Ein HW Fehler der Platte oder des Host Controllers, wobei Enterprise Platten meist eine Internal-Data-Path Protection haben um solche Fehler zu vermeiden und auch einige Consumer HDDs haben zumindest eine Erkennung solche Fehler und damit ein Ende-zu-End Fehler Attribut in den S.M.A.R.T. Werten, vor allem welche von Seagate.
3.) Man erlaubt es der HDD, was bei SATA HDDs eigentlich nur über die ATA-Streaming für Echtzeitvideoaufzeichnungen geht, also die Befehle wie sie z.B. die WD Purple oder Seagate Surveillance HDDs, aber auch z.B. die Enterprise Nearline Modelle wie die WD Re unterstützen. Nur bei Verwendung dieser besonderen ATA Befehle sind diese Platten fehlertoleranter, da bei Videoaufzeichnungen Bitfehler weit weniger stören als fehlende Frames wie sie bei zu langen Verzögerungen auftreten, bei Nutzung der normalen ATA Befehle sind sie genauso wie normale HDDs, daher habe auch sie die gleiche UBER von 1:10^14 oder 1:10^15 wie andere 3.5" HDDs, es ist ein Märchen das diese HDDs für andere Anwendungen nicht geeignet weil zu fehlertolerant wären, wenn auch ein weit verbreitetes. Für SAS Platten gibt es noch weitere Fälle wo diese inkorrekte Daten liefern können und dürfen, weil der Controller diese so möchte und die Platte entsprechend parametrisiert bzw. entsprechende Befehle nutzt, was aber hier nicht relevant ist.
FW-Fehler können immer mal auftreten, auch wenn diese selten sind und ebenso sind Fehler der internen Datenpfade selten, meist liegen da RAM Fehler des Cache RAMs vor und nur dagegen schützt eigentlich ein Filesystem mit Pürfsummen. Und vielleicht noch gegen totel verpeilte SW-Entwickler die in ihren Treiber Mist bauen und z.B. falsche Befehle nutzen, aber das kann einem ja bei den Filesystemen ebenfalls passieren und dann sind die Daten auch weg. :evillol
War wohl zu grob beim Ausbau - mein Fehler
HDDs sind sehr empfindlich, ein entsprechend vorsichtiger Umgang mit ihnen ist Pflicht, auch wenn diese oft nicht mit der nötigen Sorgfalt behandelt werden und man diese Misshandlungen dauernd im Internet und z.B. auch auf YouTube bewundern kann. Von
HGST gibt es dieses Video über die Empfindlichkeit und korrekt Handhabung von HDDs, mit dem Empfehlung wie die Umgebung aussehen sollte auf denen mit HDDs gearbeitet wird und sie weisen darauf hin, dass die Schäden sich auch erst später bemerkbar machen können.
Ich liebäugele mit einer Eigenbau-NAS / Dell Poweredge T20 etc. mit selbst eingerichteten Raid 1/5. 2-3 Festplatten 3-6 TB je platte. Nun kämpfe ich mit mir, den Aufpreis für ECC, NAS-Festplatten auszugeben.
Nimm lieber weniger und größere HDD, wenn das Storage am Ende eine größere Kapazität bekommen soll. ECC RAM ist immer zu empfehlen, wenn man eben gesteigerten Wert auf den Schutz vor Datenkorruption legt und NAS Platten sind Pflicht, wenn die HDDs mehr als 2400 Power-On-Hours pro Jahr haben werden und mehr als eine (von mir aus auch zwei) HDDs in einem Gehäuse oder an einem HW-RAID Controller stecken und man länger Freude daran haben will. Backups sollte man aber trotzdem und auf jeden Fall von allen wichtigen Daten haben, die man nicht verlieren möchte!!!