ECC-Error
Hallo
Ich und mein 9650SE-8LPML sind seit ein paar Tagen im kritischen Zustand
Angefangen hat es, als vor ein paar Tagen mein RAID6 auf degraded fiel, weil es bei zwei Platten einen Timeout gab. Der Server hatte auch automatisch rebootet. (Keine Ahnung, warum). Die beiden Disks werden aber wieder als OK (physikalisch) angezeigt und scheinen von den SMART-Werten nicht kritisch zu sein. (Werde sie beobachten und später vermutlich ersetzen)
Problematischer ist, dass eine 3. Platte zwar noch da ist, aber mit DEVICE-ERROR (ECC) sterbenskrank ist. Die SMART-Werte sind auch kritisch und täglich gehen weitere Sektoren verloren. Diese Platte MUSS dringend ersetzt werden. Aber dazu muss das RAID-Set wieder hergestellt werden.
Wegen dem ECC-Error macht der Rebuild-Prozess jedoch nicht mehr weiter.
Da meine Devise lautet "Sichern, was noch zu retten ist, BEVOR man was dran schraubt.", habe ich am Montag begonnen, die kompletten Daten (ca. 8 TB, wobei nur ein Bruchteil persönliche Daten sind) zu sichern. Da ich nicht genügend externe Platten hatte, musste ich noch welche kaufen und so hat sich der Sicherungsprozess etwas verzögert.
Habe alles mit einem robocopy-batch gemacht. (Windows 2008 R2 Server)
Natürlich habe ich die Sicherung nach der Priorität der Daten durchgeführt. (Wichtiges zuerst)
Als die absolut kritischen Daten gesichert waren, nutzte ich den Server auch sonst wieder aktiver. Jedoch meist nur lesend und ohne wirkliche Last. Selbst mein Outlook, dessen 1.5 GB PST auf dem Server liegt, habe ich nur kurz gestartet.
Gestern Abend war ich dann auch mit der kompletten Sicherung der weniger wichtigen Daten fertig, d.h. ich hatte 100% des RAID-Sets extern gesichert. Ein paar wenige (unwichtige) Daten konnten nicht mehr gelesen werden.
Bevor ich mich heute an das Rebuilden wagen wollte (mit der eingeschalteten Option ignoreECC=on), wollte ich noch die kritischen Daten erneut sichern, damit ich die paar geänderten Daten (vorallem auch meine Outlook-Datei) seit Montag auch auf der Sicherung hatte. Also nochmals die externe Platte vom Montag angehängt und gleiche robocopy-Batch gestartet. 99% der Files waren natürlich "same", wurden also nicht gesichert. Nur die paar, die geändert wurden.
Und jetzt kommts: Ausgerechnet bei meiner so wichtigen PST-Datei gabs nun CRC-Lesefehler (ab ca. 63% der Datei). Am Montag wurde die noch sauber gesichert.
Log vom Montag:
New File 1.5 g Outlook_hw.pst
Log von heute (hatte noch 5 retrys drin):
Newer 1.5 g Outlook_hw.pst
2013/01/17 12:55:12 ERROR 23 (0x00000017) Copying File d:\Daten\Office\hw\Mails\Outlook_hw.pst
Data error (cyclic redundancy check).
Das "beste" an dieser Sache ist, dass robocopy nach diesen LESEfehler die ZIELdatei auf der externen Festplatte GELÖSCHT hat!! Sie ist nicht mehr da! Für mich unverständlich, das so ein professionel eingesetztes Tool sich so verhalten kann. Ist doch das A und O jedes Kopier- oder Sicherungsprogramm, dass niemals eine Zieldatei überschrieben werden darf, solange nicht die Source-Datei KOMPLETT gelesen werden konnte.
Nach diesem Schock suchte ich nach einer älteren Datensicherung (ja, ich bin etwas sicherungsfaul) und fand glücklicherweise sogar eine Komplettsicherung (inkl. dieser Outlook-Datei) vom Oktober 2012. Also Disk angehängt und Datei gesucht....sie fehlt auch hier! wtf?? Dann ein Blick in das alte Log:
Newer 1.4 g Outlook_hw.pst
2012/10/14 19:44:43 ERROR 33 (0x00000021) Copying File d:\Daten\Office\hw\Mails\Outlook_hw.pst
The process cannot access the file because another process has locked a portion of the file.
Irgendwie hatte ich das damals völlig übersehen, da ich das Log nur kurz gecheckt hatte. Offenbar lief noch Outlook oder sonst ein Prozess. Keine Ahnung. Auf jeden Fall ist nun die Datei auch auf dieser Sicherung nicht vorhanden. Von 7 TB Daten habe ich ca. 99.9% aller Daten zweimal gesichert - und trotzdem fehlt mir nun die Outlook-Datei.
Ich weiss, ich kann niemanden ausser mir selber einen Vorwurf machen. Wichtige Daten müssen REGELMÄSSIG gesichert werden. Seit 2 Wochen habe ich sogar ein Crashplan+ Online Abo. Ausser Tests habe ich es aber noch nicht konfiguriert. (Also leider noch keine persönlichen Daten drauf)
Zurzeit läuft nun der Rebuild. Irgendwie hoffe ich, dass nach dem Rebuild meine (defekte) Outlook-Datei zumindest wieder gelesen (sprich kopiert) werden kann, damit ich dann mal ein PST-Repair versuchen kann.
Code:
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-6 REBUILDING 23%(A) - 256K 9313.17 RiW ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 1.82 TB SATA 0 - WDC WD20EADS-32R6B0
p1 OK u0 1.82 TB SATA 1 - WDC WD20EARS-00S8B1
p2 OK u0 1.82 TB SATA 2 - WDC WD20EADS-32R6B0
p3 DEGRADED u0 1.82 TB SATA 3 - WDC WD20EADS-00S2B0
p4 DEGRADED u0 1.82 TB SATA 4 - WDC WD20EADS-00S2B0
p5 DEVICE-ERROR u0 1.82 TB SATA 5 - WDC WD20EADS-00R6B0
p6 OK u0 1.82 TB SATA 6 - WDC WD20EADS-32R6B0
Leider habe ich auch einige Forenbeiträge gelesen, wo nach einem Rebuild mit aktiviertem ignoreECC das ganze RAID-Set korrupt war.
Zurzeit kann ich noch auf die Daten zugreifen. Aber irgendwie möchte ich noch das kleine Zeitfenster nutzen, um evtl. die Outlook-Datei noch im jetzigen Zustand wegkopieren zu können.
xcopy /c hat leider nichts gebracht, obwohl mit dem Parameter eigentlich Fehler ignoriert werden sollen.
Hat jemand einen Tip, wie man eine korrupte Datei wegkopieren kann (soviel davon halt in guten Sektoren liegt)? Oder ist es chancenlos?
Und passt mit dem robocopy-Befehl auf, wenn ihr bestehende Daten aktualisieren wollt (Differential).