Ich denke, das Problem war, dass zwei Platten ausgefallen sind. Die Ursache lag nicht an den Platten. Da die Redundanz damit weg ist, hat jeder weitere Fehler der "Ursache" einen Datenverlust zu Folge.
Die Frage ist also, was war die Ursache, dass zwei Platten zeitgleich ausfallen.
Da habe ich wohl grandios was nicht verstanden. Mein ZFS-Weltbild:
Folgende Konfiguration: 6 Platten als RAIDZ2 und eine weitere als Platte als spare. Failmode=continue, Autoreplace=on als Pool Parameter.
1. Eine Platte fällt aus -> ZFS nimmt die spare automatisch in den Pool.
- Danach fällt eine weitere Platte aus, Pool degraded aber voll funktionstüchtig
- Nun fällt noch eine Platte aus, Pool degraded aber voll funktionstüchtig
- Nun fällt noch eine Platte aus, Daten im Pool sind verloren
2. Eine Platte fällt aus -> ZFS nimmt die spare automatisch in den Pool.
- Während des Resilvering fällt eine weitere Platte aus, Pool degraded aber voll funktionstüchtig?? -> Stimmt das??
3. Eine Platte fällt aus -> ZFS nimmt die spare automatisch in den Pool.
- Während des Resilvering fallen zwei weitere Platten aus, Pool degraded aber voll funktionstüchtig?? -> Stimmt das??
4. Eine Platte fällt aus -> ZFS nimmt die spare automatisch in den Pool.
- Während des Resilvering fallen drei weitere Platten aus, Game over...
Wenn in /var/adm/messages folgende Warnungen auftauchen, gibt es dann auch einen Hinweis auf Probleme bei zpool status?
Jan 24 18:29:29 s911fs007 scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci8086,3410@9/pci1000,3150@0/sd@e,0 (sd20):
Jan 24 18:29:29 s911fs007 drive offline
Jan 24 18:29:29 s911fs007 scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci8086,3410@9/pci1000,3150@0/sd@f,0 (sd21):
Jan 24 18:29:29 s911fs007 drive offline
Wenn nicht, dann sollte in einem produktiven System wohl in jedem Fall /var/adm/messages ständig geprüft werden, oder.
Sorry für die vielen Fragen.