Im Statement steht, dass zwei Platten *gleichzeitig* ausgefallen sind.
Das an sich ist ungewöhnlich, aber kann passieren, wenn die Platten aus derselben Charge sind.
Wenn die jetzt wirklich innerhalb kürzester Zeit beide ausgefallen sind, ist auch nix mit "AbER dIE müSStEn dOcH eInEn HOtSParE hAbEn!!!!"
Denn den haben sie vermutlich. Und wenn dann beim Rebuild (vmtl. sogar automatisiert der Hotspares) die dritte Platte ausfällt, mutmaßlich selbe Charge und dann getriggert durch die erhöhte Leselast ist das einfach ganz blöd gelaufen.
Standard bei Ceph sind 3 Replikas (oder 3 OSDs / M=3 bei Erasure Code) - Das hat Hetzner gemacht.
Hetzner kommunziert soweit ich weiß im Vorfeld, dass sie keine Garantie auf Datensicherheit geben.
Von daher: Blöd gelaufen. Aber da kann man Hetzner wenig Vorwürfe machen.
Natürlich wäre es sauberer gewesen, für die Replikas verschiedene Hersteller und Chargen zu verwenden, aber der Aufwand das in der Praxis durchzuziehen ist immens.
Das an sich ist ungewöhnlich, aber kann passieren, wenn die Platten aus derselben Charge sind.
Wenn die jetzt wirklich innerhalb kürzester Zeit beide ausgefallen sind, ist auch nix mit "AbER dIE müSStEn dOcH eInEn HOtSParE hAbEn!!!!"
Denn den haben sie vermutlich. Und wenn dann beim Rebuild (vmtl. sogar automatisiert der Hotspares) die dritte Platte ausfällt, mutmaßlich selbe Charge und dann getriggert durch die erhöhte Leselast ist das einfach ganz blöd gelaufen.
Standard bei Ceph sind 3 Replikas (oder 3 OSDs / M=3 bei Erasure Code) - Das hat Hetzner gemacht.
Hetzner kommunziert soweit ich weiß im Vorfeld, dass sie keine Garantie auf Datensicherheit geben.
Von daher: Blöd gelaufen. Aber da kann man Hetzner wenig Vorwürfe machen.
Natürlich wäre es sauberer gewesen, für die Replikas verschiedene Hersteller und Chargen zu verwenden, aber der Aufwand das in der Praxis durchzuziehen ist immens.