Hallo zusammen!
wir haben ein Riesen-Problem mit unserem Zpool, und zwar sind plöztlich die Metadaten korrupt vom Pool und er ist nicht mehr nutzbar.
Daten sind nicht mehr verfügbar.
Lösungsvorschlag des Systems ist, den Pool zu destroyen und neu zu erstellen.
Wie kann es überhaupt dazu kommen, sind die Metadaten nicht auch redundant auf den Festplatten des Pools?
Und hat jemand eine Idee wie der Pool gerettet werden kann?
Hier die zpool status Ausgabe:
pool: tank
state: FAULTED
status: The pool metadata is corrupted and the pool cannot be opened.
action: Destroy and re-create the pool from
a backup source.
see:
http://www.sun.com/msg/ZFS-8000-72
scan: none requested
config:
NAME STATE READ WRITE CKSUM
tank FAULTED 0 0 1 corrupted data
raidz2-0 ONLINE 0 0 6
spare-0 ONLINE 0 0 0
c7t1d0 ONLINE 0 0 0
c7t16d0 ONLINE 0 0 0
c7t2d0 ONLINE 0 0 0
c7t3d0 ONLINE 0 0 0
c7t4d0 ONLINE 0 0 0
c7t5d0 ONLINE 0 0 0
c7t15d0 ONLINE 0 0 0
Hilfe!
Nochmals Danke für Eure Tipps, Leute!
Aber der Pool konnte leider nicht mehr gerettet werden, und musste neu erstellt werden.
Ohne der "Spare"-Platten(c7t1d0,c7t16d0) ließ er sich gar nicht importieren, auch nicht mit -f(force) oder -m (-m bezieht sich wohl nur auf Cache devices), da weigerte sich Solaris zu importieren wegen nicht genügend replicas... Ausgaben waren also immer, entweder "pool metadaten corrupt" oder "nicht genug replicas". Alle Festplatten waren aber online und mit dd konnte man alle auslesen. fmadm faulty lieferte auch keine Informationen zu dem Problem.
Jedoch waren in /var/adm/messages einige Warnungen über 2 Festplatten
(die dann auch ausgetauscht wurden, weil diese die einzigen verdächtigen waren in diesem Zwischenfall):
Jan 24 18:29:29 s911fs007 scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci8086,3410@9/pci1000,3150@0/sd@e,0 (sd20):
Jan 24 18:29:29 s911fs007 drive offline
Jan 24 18:29:29 s911fs007 scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci8086,3410@9/pci1000,3150@0/sd@f,0 (sd21):
Jan 24 18:29:29 s911fs007 drive offline
Jan 24 19:29:44 s911fs007 scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci8086,3410@9/pci1000,3150@0/sd@e,0 (sd20):
Jan 24 19:29:44 s911fs007 drive offline
Jan 24 19:29:44 s911fs007 scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci8086,3410@9/pci1000,3150@0/sd@f,0 (sd21):
Jan 24 19:29:44 s911fs007 drive offline
Jan 24 20:29:58 s911fs007 scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci8086,3410@9/pci1000,3150@0/sd@e,0 (sd20):
Jan 24 20:29:58 s911fs007 drive offline
Jan 24 20:29:58 s911fs007 scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci8086,3410@9/pci1000,3150@0/sd@f,0 (sd21):
Jan 24 20:29:58 s911fs007 drive offline
Was gibt es denn für Möglichkeiten Festplatten zu monitoren und Festplatten-Fehler früh zu erkennen?
Weil Solaris merkt sowas wohl nicht schnell genug