Worst Case vermeiden

willijan9393

Enthusiast
Thread Starter
Mitglied seit
04.06.2008
Beiträge
69
Hallo Leute!
Frohe Ostern wünsche ich Euch allen ;)

Mal angenommen ich habe ein RAID5 im Einsatz.
Es darf also eine Platte ausfallen, ohne das Daten verloren gehen.
Fallen jedoch 2 oder mehr Platten aus, sind alle Daten verloren.

Ich frage mich nun, wie wahrscheinlich ist es, dass mehrere Festplatten in einem Homeserver gleichzeitig kaputt gehen?
Welche Ursachen könnte ein gleichzeitiger Defekt mehrerer Festplatten haben?
Und wie könnte man einen solchen Vorfall ggf. vorbeugen bzw. vermeiden??

Danke und LG

Jan
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
6x 2TB Samsung
2x 1,5TB WD

Aber eigentlich wollte ich eher allgemein wissen, worauf man achten sollte.
Z.b. beim Netzteil, bei der Kühlung, etc...
 
Zuletzt bearbeitet:
Wenn das Netzteil auf unschöne Art und Weise stirbt, kann es Hardware mit in den Tod reißen - also auch mehr als eine Festplatte.
Wenn ein Blitz einschlägt ebenfalls.
Bei großen Raids aus großen Festplatten dauert ein Rebuild häufig sehr lange. Durch die Belastung während des Rebuilds kann es durchaus vorkommen, dass dabei eine weitere Platte aufgibt. Falls es ein paar Tage dauert bis die ursprüngliche defekte Platte ersetzt wird und dann erst der Rebuild gestartet wird, steigt das Risiko natürlich zusätzlich.

Insgesamt kann ich nur sagen, dass kein Raid ein Backup ersetzt.
 
Als erstes die übliche Warnung ein RAID ersetzt keine Datensicherung er dient lediglich dazu um die Verfügbarkeit und Performance zu erhöhen.

Durch Übersberspannung können mehrere Komponenten im Computer gleichzeitig kaputt gehen. Vermeiden lässt sich das indem man einen Überspannungsschutz davor hängt.
Bei wirklich alten Festplatten können sich die Lager fest fahren, meist geht noch alles solange es läuft aber wenn der Rechner für ein paar Minuten aus war, springen dann manche Platten nicht mehr an, alldering habs ich das bis jetzt nur bei Platten die 10 jahre und älter sind gesehen.
Manche Hardware Raidcontroller speichern die Raidinformationen nicht auf den Platten sondern irgendwo im Controller in dem Fall kann ein wiederherstellen des Raids interessant werden. Generell können auch Raidcontroller ausfallen und dann brauch man einen kompatibelen Controller um den Raid wieder in Betrieb zu nehmen und dann sollte man immer noch vorsichtig sein damit man die alten Raidinformationen nicht überschreibt, sonst ist der Raid futsch.
Manche Desktop Platten werden bei Hardware Raidcontroller auch ab und an mal aus dem RAID geworfen wegen der fehlerkorrektur Zeit, das lässt sich aber vermeiden indem man entweder Platten auf der Kompatibelitätsliste kauft oder aber zumindest auf community Erfahrungen vertraut.

Dazu kommt noch das es manchmal Platten gibt die z.B. Aufgrund von Firmware Problemen zum Ausfall neigen, hier muss man vor dem Kauf einfach einmal nachforschen.

Dazu kommt noch dass übermäßige Hitze oder Kälte die Lebensdauer beieinflussen. Wenn du also schon weißt dass die Platten eher an den Grenzen des spezifizierten Bereichs betrieben werden ist es vieleicht eine gute Idee noch eine zusätzliche Platte auf Lager zu haben damit bei einem Ausfall zügig ersetzt werden kann.

Es gibt gibt auch RAID Modi die den Ausfall von mehr als einer Platte verkraften. Bei 8 Platten kann man z.B. schon über RAID 6 nachdenken.

Zu meinen persönlichen Erfahrungen in meinem derzeitigen der Server hatte ich noch keine Platten Ausfälle. Es sind 20 Platten im System dabei 1xRaid5 aus 8xSeagate Platten die schon in meinem alten Server waren läuft seit Anfang 2009. 1xRaid6 aus 8x Samsung läuft seit anfang letztes Jahr.
Auf Arbeit sind die meisten RAID Probleme die ich sehe entweder ausgestiegene Controller oder überalterte Platten. Wobei ein Kunde auch einen "Server" mit Desktopplatten hat bei dem ab und an mal eine Platte aus dem RAID aussteigt.

Generell hab ich bis jetzt weniger Probleme mit Linux Software RAIDs gesehen als mit richtigen Hardware Raids weil da halt kein Controller ist der rumzicken kann und besonders im Privaten und SB Bereich hat man da immer noch mehr als genug Performance. Auch anzumerken ist natürlich ein kompletter RAID ausfall ist weniger wahrscheinlich als der Ausfall einer einzelnen Platte (außer bei RAID0).
 
Auch wenn der Controller defekt ist, ist alles verloren. Und Platten die man zur gleichen Zeit kauft, geben eben auch mal gerne zur gleichen Zeit den Geist auf.

Der vorher erwähnte Satz "Raid ersetzt kein Backup" stimmt halt 100%ig.
 
Temperatur der Festplatten ~ 30-50°C nicht recht viel kälter und vor allem nicht wärmer! Die Hersteller schreiben oft max. 55°C oder 60°C vor.

Ursachen warum viele (alle) Platten gleichzeitig ausfallen können:
Überspannung über das Stromnetz, fehlerhaftes Netzteil, Serienfehler, Verschleiß, "Vibrationen" und härtere Stoße.
Flüssigkeiten und Brand mal außen vor gelassen.

Ausschließen kann man den (vorzeitigen) Tod eines Speichermediums (sei es einzelner Datenträger oder ein Raid-Array) niemals. Deswegen macht man in der Regel mehrere Backups der wichtigeren Daten.

SSDs zeigen einem recht anschaulich, das selbst die Hersteller ihre Aufgaben nicht richtig machen. Ein Datenverlust oder auch der komplette Ausfall nur weil die Spannung verloren ging. Als ob SATA nicht schon lange auch Hot-Swap könnte.
 
Vermeiden lässt sich das indem man einen Überspannungsschutz davor hängt.

Das ist zwar richtig, das sind aber Kosten im einstelligen Tausend Euro Bereich und mitunter darf/kann man sowas auch nicht installieren, weil es Mietsache ist, oder die örtlichen Gegebenheiten nicht vorhanden sind.

Unterm Strich kann man nur sagen, Wahrscheinlichkeit hin und her, schon morgen können 2 HDDs bei dir kaputtgehen, oder aber auch erst in 20 Jahren. Da kannst du das tollste NT oder die besten Lüfter haben, das bringt alles nichts. (Chinaböller sollte man trotzdem nicht kaufen)

Man sollte lieber zusehen, dass man ein Backup hat, dann ist alles roger.

Direkte Festplattendefekte sind nur ein kleiner Teil dessen, was deine HDDs, bzw Daten, an Gefahren erdulden müssen. Gegen alle gemeinsam kann die tollste HW nichts viel ausrichten. (manchmal reicht schon nen loses Kabel, dass Daten über den Jordan gehen)
 
Kommt auf den Controller an bei manchen kann man nix mehr machen bei manchen ist aufwand dahint und bei manchen steckt man nen neuen ins system und gut ist.
 
OK dann weiß ich Bescheid....



möglicherweise, vielleicht aber auch nicht,
denn auf folgendes hast du dich in deiner Ausgangsfrage erst gar nicht bezogen:

die häufigste Ursache für Datenverlust bei einem degradeten (= Ausfall einer ersten Platte) raid-5 aus consumer-platten, das sich im rebuilt befindet, ist nicht der Ausfall einer zweiten Platte, sondern ein nicht-korrigierbarer Lesefehler während des Rebuilt
solche Lesefehler treten bei Consumer-Platten 10-mal häufiger auf als bei Nearline-Platten und 100-mal häufiger als bei Enterprise-Platten

wenn das eintritt, kommt es darauf an, aus welchem Holz der verwendete Controller gemacht ist (meldet er sauber einen Fehler an's OS, so dass die betroffene Datei aus einem Backup restauriert werden kann, oder bricht er den ganzen rebuilt-vorgang ab, oder macht er einfach lustig weiter und leistet versteckter Daten-Korruption Vorschub?)
und natürlich kommt es darauf an, ob der admin dann sein System, insbesondere seinen Controller kennt, und im weiteren Verlauf alles richtig macht

gegen Fehler dieser Art helfen bessere und raid-geeignete Nearline- und Enterprise-Platten mit geringerer Lesefehler-Rate oder raid-6 oder Backup (das man ohnehin haben muss),
ist ne Kosten-Nutzen-Abwägung, was günstiger kommt
 
Sorry,
hier 'ne kurze Frage zwischendrinn:
Nearline-Platten: was ist das?
Ich kenne die Feld-Wald und Wiesenplatten = desktopbetrieb = Consumer = OK
Enterprise Platten = Dauerbetrieb, größererer MBF, ggf. weitere Betriebsumgebungsbedingungen, etc.. = OK

Was sind Nearline???
 
Zuletzt bearbeitet:
Was sind Nearline???

Das sind im groben Consumerplatten, die für den Dauerbetrieb unter geringer Last z.B für die Aufzeichnung von Überwachungssystemen freigegeben sind.
 
ah, okay.
Danke.
Also nur Desktopplatten bei denen man die Garantie nicht wegen zu hoher Betriebsstundenanzahl abgelehnt bekommt ;-)
Also nix für den wirklichen 24/7 Einsatz oder taugen die was? In Fileservern/NAS könnten die dann passen, oder?
 
nearline Festplatten haben eine Stellung zwischen Desktop Festplatten (traditionell ATA Interface, heute sata) und Enterprise Platten (traditionell SCSI/FC, heute sas),
die Unterschiede hängen aber nicht am Interface, sondern der Konstruktionsweise
nearline Platten bieten die hohe Kapazität von Desktop Platten und eine den Enterprise Platten nacheifernde (fast so hohe) Zuverlässigkeit

sie unterscheiden sich von Desktop Platten hinsichtlich
-höherer MTBF unter 24/7-Bedingungen (und nicht 8/5-Bedingungen wie Desktop Drives)
-höherer rotationaler Vibrationstoleranz
-drive buffer data protection, also Error Korrektur im Datenpfad
-error recovery timeouts wie enterprise platten (i.e. raid-controller geeignet)
-workload management um sicherzugehen, dass Daten unter kritischen Umgebungsbedingungen, zb. Temperatur, korrekt geschrieben wurden
-ausgefeiltes power management (ist auch bei desktop platten in Mode gekommen, stichwort sogenanntes green it)
-Möglichkeit zu Microcode Download
-kennen das "write same" kommando von raid-controllern
aufgrund solcher Eigenschaften eignen sich solche Festplatten (bsp. seagate constellation es) für den Einsatz unter Tier 2, z.t. auch Tier 1 Bedingungen
absolute Hot Spots beim Tier 0 Einsatz werden heute oft von enterprise ssd's wie der pulsar xt.2 abgedeckt (die dann aber auch mal 5000EUR das 400GB-Stück kosten)
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh