Hetzner: Defektes RAID sorgt für Datenverlust

HWL News Bot · 14.04.2022

Hardwareluxx-Leser wissen, ein RAID ersetzt kein Backup. Auch wenn bei einem RAID-System in der Regel mindestens eine Festplatte ausfallen darf, bedeutet dies nicht, dass es zu keinem Datenverlust kommen kann. Möglichkeiten gibt es hier sicherlich viele. Neben Naturgewalten wie Überschwemmungen oder ein Blitzeinschlag, kann auch Schadsoftware für die Zerstörung der eigenen Daten sorgen. Da nützt dann ein RAID auch nicht viel.
... weiterlesen

Spawn182 · 14.04.2022

Ich finde es etwas unpassend, dass für diesen Artikel nun gerade eine Seagate Festplatte als Aufmacher benutzt wird. Denke das sollte auch neutral funktionieren oder?

Ahrimaan · 14.04.2022

Willst du Cloud, gehst du zu einem "Echten" Cloudprovider wie AWS,Azure,Google. Hetzner kann und wird nicht das scaling und die feature vielfalt einer Cloud anbieten können. Deswegen nutzen Sie auch nur Standardmechanismen wie RAID etc.
Was ich damit sagen will und frei nach dem CTO von AWS "Everything fails everytime" man muss also eine eigene Strategie entwickeln sowas zu umgehen und der Hoster muss sich gedanken machen, wie soetwas zu realisieren ist.

Spawn182 · 14.04.2022

Es gibt aber nicht viele Cloud Betreiber, die DS-GVO komform arbeiten. Von den genannten tut das nur Azure bedingt. Das schränkt das Angebot je nach Kunde doch stark ein.

Nachtrag: Scheint so, als habe sich das durch Schrems II geändert, insofern stimmt meine Aussage so scheinbar nicht mehr, siehe Post #7 von @Ahrimaan.

Ahrimaan · 14.04.2022

Spawn182 schrieb:
Es gibt aber nicht viele Cloud Betreiber, die DS-GVO komform arbeiten. Von den genannten tut das nur Azure bedingt. Das schränkt das Angebot je nach Kunde doch stark ein.

Wäre mir neu, dass diese nicht DSGVO konform arbeiten. Woran machst du das fest ? Und sag mir bitte nicht, weil sie den Hauptsitz in den USA haben ?

Spawn182 · 14.04.2022

Wir haben das damals für einen Auftrag prüfen lassen und nur Azure konnte zu dem Zeitpunkt garantieren, dass die Daten nur in Deutschland gespeichert werden. Ok, nicht direkt DS-GVO, ungünstig formuliert, aber es ging eben darum, dass die Daten auf keinen Fall in den USA landen. Glaube bei der Telekom AWS Cloud ginge das auch.

Da wir auch auf GPUs angewiesen waren, durften wir nach Absprache ein Teil des Projekts in einem Azure Rechenzentrum in Frankreich laufen lassen. In D gab es die benötigten Ressourcen nicht.

Ahrimaan · 14.04.2022

Spawn182 schrieb:
Wir haben das damals für einen Auftrag prüfen lassen und nur Azure konnte zu dem Zeitpunkt garantieren, dass die Daten nur in Deutschland gespeichert werden. Ok, nicht direkt DS-GVO, ungünstig formuliert, aber es ging eben darum, dass die Daten auf keinen Fall in den USA landen. Glaube bei der Telekom AWS Cloud ginge das auch.

Das kann man ja je nach Dienst auch tatsächlich selber steuern, aber das geht zu tief hier für den Thread. Grundsätzliche arbeitet jeder Cloudanbieter (Ok Alibaba kann ich nicht beurteilen) DSGVO Konform auch durch die neuen Standardvertrasklauseln nach Schrems 2.

Spawn182 · 14.04.2022

Ich war in dem Projekt nicht so tief drin, kann nur sagen, dass das rechtlich geprüft wurde und am Ende eben bei dem Projekt und Auftraggeber Azure, die einzige Option war. Sehe aber auch gerade Schrems II gilt seit Juli 2020 (sofern ich das richtig sehe) und das Projekt begann davor. Also kann sich das tatsächlich geändert haben.

Glaube es ging darum, dass bis dahin die DS-GVO und entsprechend Safe Harbor und Privacy Shield, sich widersprochenen haben.

tgh1978 · 14.04.2022

Also generell finde ich es sehr gut das von Zeit zu Zeit darauf hingewiesen wird das halt ein Raid System kein Backup ersetzt! Da es wahrscheinlich immer noch genug Leute mit zu wenig Erfahrung gibt, die da zu viel falsches Vertrauen reinstecken... was nicht heißt dass Raid-System generell schlecht sind (nütze selber einige), sondern nur, dass man sich halt eine zusätzliche Backup-Strategie überlegen soll!

Aber ich glaube es wäre hilfreicher gewesen, wenn man den Artikel von dieser (technischen) Seite her detaillierter aufgebaut hätte (das könnte für einige dann einen echten Mehrwert haben) und dann zb. den kleinen Zwischenfall bei Hetzner als Beispiel angeführt hätte, was schief gehen kann, anstatt das hier auf "reißerisch" aufzubauen und dann noch die HDD eines einzelnen Hersteller als Aufmacher zu nehmen...

Das wäre doch mal wieder mal ein größeres Tutorial wert, ein paar Grundlagen auffrischen, ein paar Test dazu zb. bei welchen aktuellen Raid-Controller Karten und/oder Gehäusen funktioniert ein Tausch einer (simulierten) defekten HDD gut, bei welchen kommt es zu Problemen, und wie weit kann man zb. bei einem defekten Controller (Gehäuse und/oder Karte) diese durch eine gleiche und/oder ähnliche und/oder anderen Hersteller ersetzen und das Raid dabei trotzdem retten...

Ich habe zb. für meine wichtigsten beiden Haupt-Raids (1x intern Raid 6 gespiegelt auf extern Raid 5) nicht nur überall eine HDD in Reserve liegen, welche ich halt 1-2x/Jahr als Einzelplatte irgendwo (vom Raid unabhängig) anhänge und 1x vollschreiben lasse und wieder lösche (teilweise sollen ja HDDs die ewig ungenützt liegen auch zu Schaden kommen), ich habe sogar eine baugleiche Raid-Controller-Karte in Reserve liegen, bzw. im Falle meines externen Gehäuse zb. ein baugleiches bei meinem Vater eingesetzt, d.h. wenn bei einem von uns das Teil eingehen sollte, haben wir das jeweils andere noch als vorübergehende Hilfe/Reserve... aber natürlich kann trotz all dieser Maßnahmen immer noch was mit den Raid passieren, deshalb habe ich alles noch zusätzlich auf Einzel Platten, davon eine von meinen Vater bei mir in der Wohnung und eine von mir bei ihm in der Wohnung... und noch wichtigere Sachen wie zb. Fotos sind zusätzlich noch auf BluRays und Speicherkarten gesichert...

Und ja ich bin sicher über-paranoid

Aber obwohl es so viele Möglichkeiten gibt, gibt es heutzutage noch immer zu viele Leute die punkto Backups einfach nur fahrlässig sind...
BIS ETWAS SCHIEF GEHT...

passat3233 · 14.04.2022

Naja, bei Hetzner stimmt etwas organisatorisch nicht, wenn 2 Festplatten in einem RAID ausfallen können, ohne das da jemand aktiv wird.
In meiner Firma ist das so konfiguriert, das die Server bei Ausfall einer Platte im RAID oder anderen Hardwareproblemen eine Email an die IT absetzen.
Und die wird dann SOFORT aktiv und wechselt die defekte Platte.
Eine tägliche Datensicherung versteht sich von selbst.

shavenne · 14.04.2022

Im Optimalfall sollte da nicht mal einer sofort aktiv werden müssen... Stichwort: Hot-Spare.

passat3233 · 14.04.2022

Klar, die greift sich das RAID dann sofort.
Aber trotzdem wird sofort die defekte Platte getauscht, damit wieder eine Hot-Spare verfügbar ist.

Mr.Mito · 14.04.2022

Spawn182 schrieb:
Ich finde es etwas unpassend, dass für diesen Artikel nun gerade eine Seagate Festplatte als Aufmacher benutzt wird. Denke das sollte auch neutral funktionieren oder?

Ganz ehrlich, ich musste lachen, weil ich genau die Vermutung heute mittag einem Kollegen gegenüber geäußert habe. Kann mal einer bei Hetzner nachfragen obs Seagate waren?
Ich wette 5€ auf ja. Wer hält dagegen? :fresse:

@passat3233

Das liegt an der Skrobisch Formatierung. Bei so etwas am besten immer in die Quelle schauen:
"kam es zu dem äußerst seltenen Fall, dass nach dem nahezu gleichzeitigen Defekt zweier HDDs während des Rebuilds eine dritte Festplatte ausgefallen ist"

HLuxx · 14.04.2022

Und euch ist noch nie eine (oder mehrere) Platten beim Schreib- und Leseintensiven Rebuilds eines RAID verreckt? Euer Glück möchte ich haben :rolleyes:

passat3233 · 14.04.2022

So ein Fall ist dann tatsächlich außergewöhnlich.
Aber einen Datenverlust darf es da trotzdem nicht geben.
Bei einem Datacenter erwarte ich, das die Server auf andere Server gespiegelt werden.
Da müssten dann 2 Server ausfallen, damit kurzfristige Daten tatsächlich weg sind.
Alles, was älter als 1 Tag ist, hat auf einer Datensicherung auf einem Offlinemedium zu sein.
Bei Datacentern sind da LTO-Libraries üblich.

L0rd_Helmchen · 14.04.2022

Ja will doch meinen, das ist eigentlich extrem selten. Aber halt ein Spiel mit dem Feuer, wenn man sich nicht darauf vorbereitet. Und von einem Datacenter erwarte ich das natürlich...

Ycon · 14.04.2022

Ich denke nicht, dass man dem Dienstleister pauschal Vorwürfe machen kann, wenn in einem RAID gleich 2 Platten ausfallen und während des Rebuilds dann noch eine dritte. Der Fall ist abseits der Theorie/Statistik schon sehr unwahrscheinlich.
Möglicherweise war die Reaktionszeit aber nicht der Hit oder die Betriebsbedingungen waren nicht ganz optimal. Da könnte man eher ein Argument platzieren, das wäre aber auch Spekulation.

Shiga · 14.04.2022

Ein Snapshot ist etwa so ein Backup wie ein Raid...

HLuxx · 14.04.2022

passat3233 schrieb:
So ein Fall ist dann tatsächlich außergewöhnlich.

Dann gratuliere ich aufrichtig. Bin zwar nur kleiner Heimanwender, aber ich habe es leider schon selbst erlebt, dass bei einem "fertig NAS" im Rebuild Prozess eine weitere HDD die Abtrünnigkeit erklärte. Ist auch egal, Nebenschauplatz, soll jeder selbst seine Schlüsse aus dem Vorfall ziehen.

PCTOM · 14.04.2022

Gut das Hetzner selbst wegen verlorengegangener Snapshots schon den Kunden einen Ausgleich anbietet. Blöd wenn es nur die Snapshots gab und kein Backup oder vielleicht doch Daten verloren gingen. Man weiß ja nicht wie kritisch die Daten waren.

passat3233 · 14.04.2022

HLuxx schrieb:
Dann gratuliere ich aufrichtig. Bin zwar nur kleiner Heimanwender, aber ich habe es leider schon selbst erlebt, dass bei einem "fertig NAS" im Rebuild Prozess eine weitere HDD die Abtrünnigkeit erklärte. Ist auch egal, Nebenschauplatz, soll jeder selbst seine Schlüsse aus dem Vorfall ziehen.

Naja, das eine Platte beim Rebuild stirbt ist nicht so außergewöhnlich, aber das vorher 2 Platten gleichzeitig gestorben sind.
Es sind also insgesamt 3 Platten im RAID gestorben und das verkraftet kein RAID und ist sehr ungewöhnlich.

cunhell · 14.04.2022

passat3233 schrieb:
Naja, das eine Platte beim Rebuild stirbt ist nicht so außergewöhnlich, aber das vorher 2 Platten gleichzeitig gestorben sind.
Es sind also insgesamt 3 Platten im RAID gestorben und das verkraftet kein RAID und ist sehr ungewöhnlich.

Trippleparity ftw. Ab 8TB Platten verwenden wir nichts anderes mehr, da die Reconstruction Time viel zu lange wird. Und wir speichern stündlich alles asyncron auf ein zweites System. Zusätzlich machen wir noch ein Tapebackup was zugegeben immer schwieriger wird.
Kostet halt.

Cunhell

nebulus1 · 14.04.2022

2 defekte Platten führen zu Datenverlust??? Die Admins in dem Zirkuss müßen dringen auf eine Schulung....

Beitrag automatisch zusammengeführt: 14.04.2022

cunhell schrieb:
Trippleparity ftw. Ab 8TB Platten verwenden wir nichts anderes mehr, da die Reconstruction Time viel zu lange wird. Und wir speichern stündlich alles asyncron auf ein zweites System. Zusätzlich machen wir noch ein Tapebackup was zugegeben immer schwieriger wird.
Kostet halt.

Sorry, aber Profi Raids haben so c.a. 40 Fesplatten in einem Einschub. Darüber richtet man normalerweise ein verschachteltes RAID ein. Und nicht ein RAID über alle Platten. Die Software der Profi Geräte schlägt bei der Einrichtung sogar sehr gute verschachtelte RAIDS vor.
Wenn man natürlich Geld sparen will, dann richtet man ein Risiko-Raid ein.
Ich empfehle eine Profi Lösung:

Dell EMC SC5020 Storage-Array

Hybrid- oder All-Flash-Speicherlösungen bieten großartige Leistung zu erschwinglichen Preisen und automatisieren die Leistung gemischter Workloads. Sie sind zudem an veränderte Anforderungen anpassbar.

www.dell.com

cunhell · 15.04.2022

nebulus1 schrieb:
2 defekte Platten führen zu Datenverlust??? Die Admins in dem Zirkuss müßen dringen auf eine Schulung....

Beitrag automatisch zusammengeführt: 14.04.2022

Sorry, aber Profi Raids haben so c.a. 40 Fesplatten in einem Einschub. Darüber richtet man normalerweise ein verschachteltes RAID ein. Und nicht ein RAID über alle Platten. Die Software der Profi Geräte schlägt bei der Einrichtung sogar sehr gute verschachtelte RAIDS vor.
Wenn man natürlich Geld sparen will, dann richtet man ein Risiko-Raid ein.
Ich empfehle eine Profi Lösung:

Dell EMC SC5020 Storage-Array

Hybrid- oder All-Flash-Speicherlösungen bieten großartige Leistung zu erschwinglichen Preisen und automatisieren die Leistung gemischter Workloads. Sie sind zudem an veränderte Anforderungen anpassbar.

www.dell.com

Sorry, aber es gibt verschiedene Profi-Systeme und manche machen es anderes als andere. Und jedes hat seine Vor- und Nachteile. Und ich kann Dir versichern, dass wir eine Profi-Lösung verwenden. Vielleicht ein wenig über den Tellerrand und so.....
Aber schön das Du für Dell Werbung machst. Die freuen sich sicher.

Cunhell

nebulus1 · 15.04.2022

cunhell schrieb:
Sorry, aber es gibt verschiedene Profi-Systeme und manche machen es anderes als andere. Und jedes hat seine Vor- und Nachteile. Und ich kann Dir versichern, dass wir eine Profi-Lösung verwenden. Vielleicht ein wenig über den Tellerrand und so.....
Aber schön das Du für Dell Werbung machst. Die freuen sich sicher.

Cunhell

Sorry, aber ich richte selber RAIDs ein in unserer Firma. Ich kaufe nur Dell Server Hardware...
Meine RAID einrichtung sieht so aus:

EMC Storage Arry1 mit verschachteltem RAID5/6/10 wird Live gespiegelt auf ein zweites EMC Storage Array2.
Beide Storage Arrays sind an unterschiedlichen USVs.

Das System hat zwar soviel gekostet wie ein Haus, dafür sind die Daten sicher.

cunhell · 15.04.2022

nebulus1 schrieb:
Sorry, aber ich richte selber RAIDs ein in unserer Firma. Ich kaufe nur Dell Server Hardware...
Meine RAID einrichtung sieht so aus:

EMC Storage Arry1 mit verschachteltem RAID5/6/10 wird Live gespiegelt auf ein zweites EMC Storage Array2.
Beide Storage Arrays sind an unterschiedlichen USVs.

Das System hat zwar soviel gekostet wie ein Haus, dafür sind die Daten sicher.

Kannst ja gerne Dell kaufen. Die Dinger laufen. Aber es gibt auch andere Systeme. Und alles hat seine Vor- und Nachteile. Und das die Basics für Datensicherheit im professionellem Umfeld erfüllt sind, erwarte ich eigenlich von einem vernünftigen Storagekonzept. Das finde ich jetzt nicht so beeindruckend, sorry. Ich hoffe doch aber auch, dass Du noch ein Backup-Konzept hast. Wenn Du Syncron spiegelst, hast Du im Fehlerfall ( z.B. Verschlüsselungstroyaner) den Mist auf beiden Systemen gleichzeitig. Und das zweiter System sollte auch an einem anderen Ort stehen und nicht nur im selben Raum an unterschiedlichen Stromversorgungen.

So und nu bin ich raus und glotz TV.

Cunhell

Armadillo · 15.04.2022

nebulus1 schrieb:
2 defekte Platten führen zu Datenverlust??? Die Admins in dem Zirkuss müßen dringen auf eine Schulung....

Bei dir und auch Anderen wäre auch erstmal eine Leseschulung angebracht. Im Artikel steht, dass beim Rebuild nachdem die Zweite Platte ausgefallen ist, die dritte gefolgt ist.
Entweder war Nummer 3 also eine Hotspare oder es wurde jemand benachrichtigt und hat den Rebuild angestoßen.

Wie hier auch so neunmal kluge Leute rumlaufen die die Weisheit mit Löffeln gefressen haben. Echt klasse. :rofl:

Man stellt nicht für jeden Müll eine dritte, vierte oder gar fünfte Redundanz hin. Denn jede weitere Ebene potenziert die Kosten. Das ist eine ganz simple Risikoabwägung gegenüber den Kosten.

Und was den Multidisk-Failure angeht: Das passiert deutlich häufiger als hier einige Glauben. Da Storages in der Regel mit einem Schwung Platten bestückt werden, ist es völlig normal, dass da alle Platten aus derselben Produktionscharge einer Fabrik fallen.
Die Wahrscheinlichkeit, dass bei einem Doubledisk-Failure dann auch noch weitere Platten dazukommen, weil sie alle dieselbe Laufzeit und nahezu identische Beanspruchungen haben und dazu noch deutlich mehr beansprucht werden dirch den Rebuild, ist sehr sehr hoch!

maxtruxa · 15.04.2022

Die Grundaussage des Artikels ist ja durchaus korrekt, allerdings hat Hetzner kein RAID sondern ein Ceph Cluster im Einsatz.

nebulus1 · 15.04.2022

Armadillo schrieb:
Bei dir und auch Anderen wäre auch erstmal eine Leseschulung angebracht. Im Artikel steht, dass beim Rebuild nachdem die Zweite Platte ausgefallen ist, die dritte gefolgt ist.
Entweder war Nummer 3 also eine Hotspare oder es wurde jemand benachrichtigt und hat den Rebuild angestoßen.

Es ist unmöglich in einem RAID gleichzeitig zwei defekte Platten zu haben. Sobald die erste defekt wird, wird diese autmatisch vom System abgeschaltet und eine Hotspare Platte übernimmt. In einem modernem RAID aus SSDs dauert das keine 30 Minuten. In dieser Zeit soll also eine zweite und eine dritte Platte/SSD ausgefallen sein?

Sorry, ich sehe das eher so:
Das RAID hatte keine Hotspare Platten mehr, diese waren bereits eingesprungen. Niemand hat sich um neue Hotspare Platten oder den Ausbau der defekten gekümmert. Und dann sind eine dann zwei Platten kaputt gegangen und das RAID schrie wahrscheinlich laut um Hilfe im Severraum und als man dann ein Rebuild anlegen wollte, ging die dritte kaputt..

Alles in allem, sowas kann nicht passieren... Ist unmöglich bei einem vernüftigem Arbeitumfeld. Es gab wohl kein Monitoring !?

Armadillo schrieb:
Wie hier auch so neunmal kluge Leute rumlaufen die die Weisheit mit Löffeln gefressen haben. Echt klasse.

Man stellt nicht für jeden Müll eine dritte, vierte oder gar fünfte Redundanz hin. Denn jede weitere Ebene potenziert die Kosten. Das ist eine ganz simple Risikoabwägung gegenüber den Kosten.

Wenn die Daten der Kunden das Kapital der Firma sind, sollte man dann da nicht 150% daran arbeiten, dass diese gut aufgehoben sind?Auch von einem Raid muß man Backups machen!

Armadillo schrieb:
Und was den Multidisk-Failure angeht: Das passiert deutlich häufiger als hier einige Glauben. Da Storages in der Regel mit einem Schwung Platten bestückt werden, ist es völlig normal, dass da alle Platten aus derselben Produktionscharge einer Fabrik fallen.
Die Wahrscheinlichkeit, dass bei einem Doubledisk-Failure dann auch noch weitere Platten dazukommen, weil sie alle dieselbe Laufzeit und nahezu identische Beanspruchungen haben und dazu noch deutlich mehr beansprucht werden dirch den Rebuild, ist sehr sehr hoch!

Quatsch... In einer Mischkonfig aus zwei oder mehr RAIDs Volumes, werden die Platten auch unterschiedlich belastet.

Mr.Mito · 15.04.2022

Kann man neben dem Daumen hoch eigentlich mal einen Daumen runter einführen? :fresse:

Es ist unmöglich in einem RAID gleichzeitig zwei defekte Platten zu haben. Sobald die erste defekt wird, wird diese autmatisch vom System abgeschaltet und eine Hotspare Platte übernimmt. In einem modernem RAID aus SSDs dauert das keine 30 Minuten.

Und in einem HDD RAID dauert es wie lange?
Eine Platte fällt aus, die hotspare wird vom Controller genommen, der rebuild startet. Nach 5 Minuten steigt noch eine aus ... es tanzt flott ein Techniker an, stopft noch eine dazu und beim jetzigen rebuild fackelt Nr3 ab.

Schwups - da haste deine News.

Hetzner: Defektes RAID sorgt für Datenverlust

News

Enthusiast

Urgestein

Enthusiast

Urgestein

Enthusiast

Urgestein

Enthusiast

Enthusiast

Urgestein

Enthusiast

Urgestein

Admiral, Altweintrinker

Urgestein

Urgestein

Der Saft ist mit euch!

Experte

Enthusiast

Urgestein

Enthusiast

Urgestein

Enthusiast

nebulus1

Guest

Enthusiast

nebulus1

Guest

Enthusiast

Enthusiast

Neuling

nebulus1

Guest

Admiral, Altweintrinker

Ähnliche Themen