Defekte Festplatte im Intel ICH9 Software RAID5?

Broken One · 26.06.2015

Hallo zusammen,

kurz um das Problem zu umschreiben. Ich habe die 3 Platten die in dem RAID 5 laufen am 18.8.2012 gekauft und seitdem laufen sie im RAID 5 eigentlich ohne Probleme. Früher mit den alten Inter Matrix Storage Treibern gab es mal Hänger aber ansonsten war alles gut. Gestern ist der Rechner abgestürzt (während 3D Spiel) und ein paar Stunden später (ka ob Zusammenhang) meldet mir Intel Matrix Storage Treiber das Array als ausgefallen. Allerdings war nur eine Platte ausgefallen. Nach einem Neustart war das RAID dann als heruntergestuft. Macht auch Sinn mit 2 intakten Platten sollte das RAID 5 ja laufen. Tat es dann auch. Die Konfiguration sieht folgendermaßen aus ("defekte" Platte rot markiert):

Code:

Systembericht

Systeminformationen
Betriebssystemname:  Microsoft Windows 7 Professional 
Betriebssystemversion:  6.1.7601 Service Pack 1 7601
Systemname:  PC
Systemhersteller:  System manufacturer
Systemmodell:  Maximus Formula
Prozessor:  GenuineIntel Intel64 Family 6 Model 15 Stepping 7 2,394  GHz
BIOS:  American Megatrends Inc., 1403   

Intel® Rapid Storage-Technologie für Unternehmen Information
Installiertes Kit:  13.6.0.1002
Benutzeroberflächenversion:  13.6.0.1002
Sprache:  Deutsch (Deutschland)
Version des RAID-Erweiterungs-ROMs:  8.7.0.1007
Treiberversion:  13.6.0.1002
ISDI-Version:  13.6.0.1002

Speichersysteminformationen 
RAID-Konfiguration

Array-Name:  SATA_Array_0000
Größe:  5.723.186 MB
Verfügbarer Speicherplatz:  6 MB
Anzahl der Volumes:  1
Volume-Mitglied:  Storage
Anzahl der Array-Festplatten:  3
Array-Festplatte:  WD-WMC300048688
Array-Festplatte:  WD-WMC300049011
Array-Festplatte:  [COLOR="#FF0000"]WD-WMC300041212[/COLOR]
Festplatten-Daten-Cache:  Aktiviert

Volume-Name:  Storage
Status:  Normal
Typ:  RAID 5
Größe:  3.815.453 MB
System-Volume:  Nein
Datenstreifengröße:  64 KB
Write-Back-Cache:  Aus
Initialisiert:  Ja
Paritätsfehler:  0
Blöcke mit Medienfehlern:  11
Größe des physischen Sektors:  4096 Bytes
Größe des logischen Sektors:  512 Bytes

Hardwareinformationen

Controller-Name:  Intel(R) Desktop/Workstation/Server Express Chipset SATA RAID Controller
Typ:  SATA
Modus:  RAID
Anzahl der SATA-Anschlüsse:  6
Anzahl der Volumes:  1
Volume:  Storage
Anzahl der Ersatzlaufwerke:  0
Anzahl verfügbarer Festplatten:  1
Neuaufbau nach Hot-Plug:  Deaktiviert
Hersteller:  32902
Modellnummer:  10274
Produktüberarbeitung:  2
Direkt angeschlossene Festplatte:  WD-WMC300048688
Direkt angeschlossene Festplatte:  WD-WMC300049011
Direkt angeschlossene Festplatte:  WD-WMAP41703853
Direkt angeschlossene Festplatte:  [COLOR="#FF0000"]WD-WMC300041212[/COLOR]

Festplatte an Controller 0, Anschluss 0
Status:  Normal
Typ:  SATA Festplatte
Positionstyp:  Intern
Verwendung:  Array-Festplatte
Größe:  1.863 GB
Systemfestplatte:  Nein
Festplatten-Daten-Cache:  Aktiviert
Command Queuing:  NCQ
Übertragungsrate: 3 Gb/s
Modell:  WDC WD20EFRX-68AX9N0                    
Seriennummer:  WD-WMC300048688
SCSI Geräte-ID:  0
Firmware:  80.00A80
Größe des physischen Sektors:  4096 Bytes
Größe des logischen Sektors:  512 Bytes

Festplatte an Controller 0, Anschluss 1
Status:  Normal
Typ:  SATA Festplatte
Positionstyp:  Intern
Verwendung:  Array-Festplatte
Größe:  1.863 GB
Systemfestplatte:  Nein
Festplatten-Daten-Cache:  Aktiviert
Command Queuing:  NCQ
Übertragungsrate: 3 Gb/s
Modell:  WDC WD20EFRX-68AX9N0                    
Seriennummer:  WD-WMC300049011
SCSI Geräte-ID:  1
Firmware:  80.00A80
Größe des physischen Sektors:  4096 Bytes
Größe des logischen Sektors:  512 Bytes

Festplatte an Controller 0, Anschluss 3
Status:  Normal
Typ:  SATA Festplatte
Positionstyp:  Intern
Verwendung:  Verfügbar
Größe:  140 GB
Systemfestplatte:  Ja
Festplatten-Daten-Cache:  Aktiviert
Command Queuing:  NCQ
Übertragungsrate: 1,5 Gb/s
Modell:  WDC WD1500AHFD-00RAR5                   
Seriennummer:  WD-WMAP41703853
SCSI Geräte-ID:  3
Firmware:  21.07QR5
Größe des physischen Sektors:  512 Bytes
Größe des logischen Sektors:  512 Bytes

Festplatte an Controller 0, Anschluss 4
Status:  Normal
Typ:  SATA Festplatte
Positionstyp:  Intern
Verwendung:  Array-Festplatte
Größe:  1.863 GB
Systemfestplatte:  Nein
Festplatten-Daten-Cache:  Aktiviert
Command Queuing:  NCQ
Übertragungsrate: 3 Gb/s
Modell:  WDC WD20EFRX-68AX9N0                    
Seriennummer:  [COLOR="#FF0000"]WD-WMC300041212[/COLOR]
SCSI Geräte-ID:  4
Firmware:  80.00A80
Größe des physischen Sektors:  4096 Bytes
Größe des logischen Sektors:  512 Bytes

ATAPI-Gerät anController 0, Anschluss 2
Positionstyp:  Intern
Übertragungsrate: 1,5 Gb/s
Modell:  HL-DT-STDVD-ROM GDRH20N                 
Seriennummer:  Nicht verfügbar
Firmware:  0L02    

ATAPI-Gerät anController 0, Anschluss 5
Positionstyp:  Intern
Übertragungsrate: 1,5 Gb/s
Modell:  PIONEER DVD-RW  DVR-212                 
Seriennummer:  Nicht verfügbar
Firmware:  1.21

Ich wollte allerdings sicher gehen und habe mir, da Western Digital Platten, das entsprechende Tool zum checken auf einen bootbaren USB Stick gepackt. Allerdings konnte ich beim booten über den Stick anfangs nur die 2 Platten ohne Fehler aus dem RAID finden. Erst wenn ich im Windows die ausgefallene Platte auf "normal" zurückgesetzt habe (was Neuaufbau der Parität startet) und im BIOS von RAID auf IDE gewechselt habe wurde mir Data Lifeguard Tool von WD auch die angeblich defekte Platte angezeigt.

Einen Quicktest bestanden alle 3 Platten im Array.

Einen Extended Test bestanden nur die zwei Platten ohne Fehler in Windows bei der dritten Platte wurde der Test unterbrochen mit "Too many error please contact support".

Gut, Garantiestatus überprüft und tatsächlich sind noch knapp 2 Monate Garantie vorhanden. In Windows wurde der Neuaufbau fortgesetzt und ich habe damit gerechnet, dass dieser einfach irgendwann abbricht und die Platte wieder im jetzt aktualisierten Intel Rapid Storage Tool als "ausgefallen" makiert wird. Am heutigen Mittag die "Überraschung" angeblich wurde das Array bzw. die Parität neu aufgebaut und es sei funktionsfähig.

Erneut im BIOS gebootet und Quicktest laufen lassen. Die beiden ganzen Platten beenden den Test erfolgreich nach 2,5 min und in der "defekten" Platte läuft er gar nicht mehr durch und wurde zwei mal von mir nach 30 min abgebrochen.

In Windows tut das Intel Tool weiterhin als wäre alles in Ordnung aber die Performance vom Raid stimmt nicht und beim Download von Patches auf die Platten liefert zum Beispiel Steam "DISK WRITE ERROR".

Ich habe dann mit smartmontools die Festplatten untersucht. Die beiden anderen Platten sehen gut aus und die "defekte" Platte hat zwar als SMART overall Status "Passed" aber als einzige Platte Error und man sieht auch, dass sie einen Test nicht bestanden hat. Anbei der Output:

Code:

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Red
Device Model:     WDC WD20EFRX-68AX9N0
Serial Number:    WD-WMC300041212
LU WWN Device Id: 5 0014ee 0035e6d7b
Firmware Version: 80.00A80
User Capacity:    2.000.398.934.016 bytes [2,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Fri Jun 26 19:51:18 2015 MS
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      ( 121) The previous self-test completed having
                                        the read element of the test failed.
Total time to complete Offline
data collection:                (26580) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off supp
ort.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 268) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x70bd) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_
FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -
       1612
  3 Spin_Up_Time            0x0027   180   175   021    Pre-fail  Always       -
       3958
  4 Start_Stop_Count        0x0032   098   098   000    Old_age   Always       -
       2982
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -
       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -
       0
  9 Power_On_Hours          0x0032   078   078   000    Old_age   Always       -
       16235
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -
       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -
       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -
       156
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -
       28
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -
       2953
194 Temperature_Celsius     0x0022   110   099   000    Old_age   Always       -
       37
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -
       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -
       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -
       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -
       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -
       1

[COLOR="#FF0000"]SMART Error Log Version: 1[/COLOR]
ATA Error Count: 228 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 228 occurred at disk power-on lifetime: 16221 hours (675 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle
.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 01 57 2a cd e1  Error: UNC at LBA = 0x01cd2a57 = 30222935

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  40 da 01 57 2a cd e1 00      08:50:52.738  READ VERIFY SECTOR(S)
  40 da 01 56 2a cd e1 00      08:50:52.737  READ VERIFY SECTOR(S)
  40 da 01 55 2a cd e1 00      08:50:52.737  READ VERIFY SECTOR(S)
  40 da 01 54 2a cd e1 00      08:50:52.736  READ VERIFY SECTOR(S)
  40 da 01 53 2a cd e1 00      08:50:52.735  READ VERIFY SECTOR(S)

Error 227 occurred at disk power-on lifetime: 16221 hours (675 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle
.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 01 56 2a cd e1  Error: UNC at LBA = 0x01cd2a56 = 30222934

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  40 da 01 56 2a cd e1 00      08:50:52.737  READ VERIFY SECTOR(S)
  40 da 01 55 2a cd e1 00      08:50:52.737  READ VERIFY SECTOR(S)
  40 da 01 54 2a cd e1 00      08:50:52.736  READ VERIFY SECTOR(S)
  40 da 01 53 2a cd e1 00      08:50:52.735  READ VERIFY SECTOR(S)
  40 da 01 52 2a cd e1 00      08:50:52.734  READ VERIFY SECTOR(S)

Error 226 occurred at disk power-on lifetime: 16221 hours (675 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle
.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 01 55 2a cd e1  Error: UNC at LBA = 0x01cd2a55 = 30222933

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  40 da 01 55 2a cd e1 00      08:50:52.737  READ VERIFY SECTOR(S)
  40 da 01 54 2a cd e1 00      08:50:52.736  READ VERIFY SECTOR(S)
  40 da 01 53 2a cd e1 00      08:50:52.735  READ VERIFY SECTOR(S)
  40 da 01 52 2a cd e1 00      08:50:52.734  READ VERIFY SECTOR(S)
  40 da 01 51 2a cd e1 00      08:50:52.728  READ VERIFY SECTOR(S)

Error 225 occurred at disk power-on lifetime: 16221 hours (675 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle
.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 01 54 2a cd e1  Error: UNC at LBA = 0x01cd2a54 = 30222932

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  40 da 01 54 2a cd e1 00      08:50:52.736  READ VERIFY SECTOR(S)
  40 da 01 53 2a cd e1 00      08:50:52.735  READ VERIFY SECTOR(S)
  40 da 01 52 2a cd e1 00      08:50:52.734  READ VERIFY SECTOR(S)
  40 da 01 51 2a cd e1 00      08:50:52.728  READ VERIFY SECTOR(S)
  40 da 01 50 2a cd e1 00      08:50:52.725  READ VERIFY SECTOR(S)

Error 224 occurred at disk power-on lifetime: 16221 hours (675 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle
.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 01 53 2a cd e1  Error: UNC at LBA = 0x01cd2a53 = 30222931

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  40 da 01 53 2a cd e1 00      08:50:52.735  READ VERIFY SECTOR(S)
  40 da 01 52 2a cd e1 00      08:50:52.734  READ VERIFY SECTOR(S)
  40 da 01 51 2a cd e1 00      08:50:52.728  READ VERIFY SECTOR(S)
  40 da 01 50 2a cd e1 00      08:50:52.725  READ VERIFY SECTOR(S)
  40 da 01 4f 2a cd e1 00      08:50:52.724  READ VERIFY SECTOR(S)

[COLOR="#FF0000"]SMART Self-test log structure revision number 1[/COLOR]
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA
_of_first_error
# 1  Extended offline    Completed: read failure       90%     16235         208
6136
# 2  Conveyance offline  Completed without error       00%     16221         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Kann ich das Dingen jetzt als kaputt deklarieren und kriege keine Probleme wenn ich bei Western Digital einen RMA aufmache oder was mach ich ansonsten noch?

Gruß & Danke,

Broken One

Gelöschtes Mitglied 149873 · 26.06.2015

gelöscht

Holt · 26.06.2015

Denkt nur dran: RAIDs ersetzen keine Backups!

RPU, die Black ist keine NAS Platten, die ist weder für Dauerbetrieb noch RAID Einsatz ausgelegt (Stichwort TLER und Vibrationen). Der Wechsel zur Red war daher gut und der Einsatz der Black von Anfang an unglücklich.

Broken One · 26.06.2015

Okay ich glaube ich habe ein Problem. In der Theorie sollte doch wenn ich die kaputte Platte abklemme und sonst alles okay ist das RAID 5 von "Active" aud "Degraded" wechseln, oder? Bei einem kurzen Versuch hat dies aber nicht geklappt und wenn ich die kaputte Klappe am SATA Anschluss trenne ist das ganze Array "Failed". Wenn ich alle Platten dranmache funktioniert ist aber fängt jetzt erneut mit einem "Rebuild" an um die Parität sicher zu stellen aber zumindest kann ich in Windows auf die Daten zugreifen. Jetzt bin ich mir nicht sicher sollte ich, obwohl ich irgendwie den Speicherplatz nicht da habe, von wegen Backup, so schnell wie möglich die Daten versuchen wonanders hin zu backuppen oder kann ich mit dem Intel Rapid Storage Gefummel und einer Wechselplatte diese als 4. hinzufügen das Array rebuilden und die kaputte aus dem Array entfernen?

Holt · 27.06.2015

Wenn Dir die Daten lieb und wichtig sind, dann solltest Du Dir erstmal eine externe USB Platte mit der nötigen Kapazität kaufen und darauf alle wichtigen Dateien sichern. Solange würde ich möglichst wenig machen, denn das sieht so aus, als wenn schon 2 Platten gewissen Probleme haben.

Poste doch mal die Screenshots von CrystalDiskInfo (die Portable Standard Edition reicht und ist frei von Werbung, einfach dem Link folgen, die zip speichern und irgendwohin komplett entpacken, dann DiskInfo.exe dort starten) für alle 3 Platten, ziehe aber bitte das Fenster soweit auf, dass alle Attribute und auch die Rohwerte vollständig sichtbar sind.

Gelöschtes Mitglied 149873 · 27.06.2015

gelöscht

Holt · 27.06.2015

Die NAS Hersteller führen auch HDDs in den Freigaben die nicht 24/7 und/oder RAID geeignet sein, leider vergessen sie da wohl gerne mal darauf hinzuweisen, was die HDD Hersteller selbst für diese HDDs spezifizieren. Hat die Red nicht nur 5400rpm? 5900rpm ist so ein bei Seagate typischer Wert. Aber die Unterschiede merkt man sowieso oft nicht, meistens sind in den kleinen Consumer NAS Kisten mit ihren ARM CPUs und dem SW-RAID sowieso zu langsam auch nur die Bandbreite des Gigabit Netzwerks auszulasten und bei 4 HDDs im RAID 5 oder RAID 10 ist jede halbwegs aktuelle 3.5" HDD selbst auf den inneren Spuren eigentlich schnell genug um das eigentlich zu gewährleisten.

Das RNR 2100 hat so eine EP80579 1GHz Intel SoC von 2008, keine Ahnung was der packt, aber vermutlich etwas mehr da es ja auch ein NAS für 19" Racks ist und da wollte Neargear dann wohl die schnelleren Black verwenden, wohl um irgendwie den performanter zu sein zu untermauern, die Red Pro ist ja noch recht neu und die gab es damals noch nicht.

Broken One, wie geht es voran? Hast Du schon alle Daten gesicherst für Die Du Platz hattest oder besser noch eine USB Platte für die Sicherung aller Daten besorgt? Du kannst CDI auch einfach auf einem anderen Rechner downloaden und dann z.B. auf einen Stick entpacken und dann von dem starten, wenn das RAID Probleme mit dem Schreiben hat.

Broken One · 29.06.2015

Holt schrieb:
Broken One, wie geht es voran? Hast Du schon alle Daten gesicherst für Die Du Platz hattest oder besser noch eine USB Platte für die Sicherung aller Daten besorgt? Du kannst CDI auch einfach auf einem anderen Rechner downloaden und dann z.B. auf einen Stick entpacken und dann von dem starten, wenn das RAID Probleme mit dem Schreiben hat.

Der Rebuild ist jetzt seit Samstag morgen 02:30 oder so auf 7%. Ich kann schon Daten von der Platte kopieren aber bei meinem ersten Versuch geschah dies so langsam, 8 GB hätten ewig gebraucht, dass ich es gelassen hatte und auf den Rebuild gehofft hatte um dann später die richtige Platte zu entfernen.

@Holt ich nehme an, dass du der selbe Holt bist der auch im computerbase Forum auf meine Beitrag Datensicherung/Backup Intel ICH9 Software RAID 5 Array ausgefallen bei nur einer defekten Platte, was tun? - ComputerBase Forum der ja mit diesem hier verknüpft ist geantwortet hat? Die SMART Werte der defekten Platte sind ja im allerersten Topic zu finden. Wenn du möchtest kopier ich dir gerne die Informationen die mir das Tool ausspuckt für die anderen beiden Platten auch noch.

Momentan bin ich mir ehrlich gesagt nicht so sicher was ich mache. So wie es jetzt ist wird der Rebuild sicherlich einen ganzen Monat dauern oder besteht eine Chance, dass dieser nochmal schneller wird? Darf ich den Rebuild unterbrechen und das System auch mal herunterfahren oder beginnt dann wieder alles von vorne?

Damals als ich ein ähnliches Problem schon mit dem RAID 0 hatte was ja auch schon jemand im computerbase Forum gefunden hatte konnte ich es retten in dem ich mit diesem Tool http://www.miray.de/de/products/sat.hdclone.html (damals in Version 2.0) Kränkelnde Festplatte im RAID0 - ComputerBase Forum die defekte Festplatte auf einen Austausch geklont habe. Dieser wurde tatsächlich vom RAID Controller erkannt und von dort war dann das Rebuild mit einer fitten Platte kein Problem.

-->

Nun überlege ich ob ich das ganze vielleicht mit der defekten Platte des RAID 5 versuchen sollte. Wenn es funktioniert und vielleicht der Clone Vorgang weit schneller läuft als der Rebuild da ja nur von der defekten Platte gelesen werden müsste. Könnte es sein, dass ich dann mit dem Klon und den zwei anderen Platten den Rebuild stressfrei hinbekomme. Wäre das eine Idee?

Holt · 30.06.2015

Ja ich bin der gleiche User wie bei CB. Die S.M.A.R.T. Werte der defekte Platte habe ich gesehen, mich interessieren aber vor allem die Werte der beiden anderen Platten und natürlich wie sich die Werte der als defekt eingestuften HDD verändert haben. Du kannst auch gerne smartmontools nehmen, wenn Dir das lieber ist.

So schlecht ist der Zustand der defekten Platte gemäßg den S.M.A.R.T. Attributen aus dem ersten Post ja auch gar nicht, es gibt werden schwebende nicht wiederzugewiesene Sekoren, allerdingt 1612 Lesefehler und einen Schreibfehler. Das sind immer noch so wenige, dass der Controller bei beiden Attributen den Aktuellen Wert bzw. VALUE noch dem Ausgangswert belassen hat. Meine Vermutung ist, dass auch eine weitere HDD nicht mehr in einem guten Zustand ist.

Oder das Problem ist, dass Du die falsche Platte gezogen hattest. Das könnte ein Problem sein, wenn der RAID Controller seine Sache ernst nimmt und ein RAID als Volumen begreift. Wurde dann beim Booten ohne die eine HDD schon auf das RAID geschrieben, dann hast Du ein Problem. Ich wieß nicht mehr ob hier oder bei CB, aber irgendwo war mal ein Thread, da hatte einer einen hochwertigen RAID Controller und zwei Platten im RAID 1 und hat sich beschwert, dass es nicht funktionieren würde. Er hat folgenden Test gemacht:
1. RAID 1 eingerichtet und (meine ich) Windows installiert
2. HDD 1 abgezogen und getestet, Windows hat normal gebootet, wurde wieder runtergefahren.
3. HDD 1 wieder eingesteckt und dafür HDD 2 entfernt.
4. Rechner hat nicht gebootet und darin hat er einen Fehler gesehen.

Das war aber kein Fehler, das war ein Profi-RAID Controller und kein Billig-Spielzeug RAID Controller, der einfach nur spiegelt. Der Profi-RAID Controller hat gemerkt, dass das RAID nach den Abziehe von HDD 1 degradiert war und da sein Inhalt überschrieben worden ist, weil Windows wie jedes OS ja auch Logs führt und damit immer auch auf sein Systemlaufwerk schreibt. Damit entsprechen nur noch die Daten auf HDD2 den aktuellen Zustand des RAIDs. Durch den direkten Tausch der beiden HDDs gab es nun diesen aktuellen Zustand nicht mehr, da die HDD2 auf der er gespeichert war, ja nicht eingebaut war und HDD1 die letzten Änderungen nicht kannte, der Controller hat das RAID also als defekt gesperrt und das war richtig.

Warum war es richtig? Nun hier hätte bei einem einfach RAID Controller der sowas nicht beachtet und wie der Type sie wohl auch nur kannte, der Rechner auch im Schritt 4 gebootet, eben ohne die Änderungen vom letzten Booten, den z.B. den Eintrag Windows hat um 11:30 gebootet der nur auf HDD2 stand. Dann wäre auf HDD 1 nun z.B. 11:45 als letzter Zeitpunkts des Bootens vermerkt. Was kommt raus, wenn man nun beide HDD bei so einem RAID wieder einbaut? Hängt davon ab, ob die Datei von der einen oder von der anderen Platte gelesen wird. Die Daten stmmen auch beiden Platten nicht überein und das fällt bei solche Billiglösung auch nicht gleichen auf, den RAID lesen immer nur von einer Platten und erst wenn es dort einen Lesefehler gibt, von der anderen. Beide Daten sind aber korrekt lesbar, weichen aber voneinander ab und das darf eben bei Enterprise RAIDs nie passieren, da können wichtig Daten drauf liegen und bei einem Abgleich kann dann auch nicht mehr sagen, welche korrekt sind.

Daher wäre der korrekte Test in dem Fall gewesen, den Schritt 3. so zu gestalten, dass man erst die HDD 1 wieder einfügt, dem RAID Controller Zeit gibt das Resync der Daten von HDD 2 auf HDD 1 abzuschliessen und dann erst HDD 2 zieht. Dann hätte HDD 1 den korrekten Datenstand des RAIDs enthalten und es hätte funktioniert. Hoffenlich hast Du verstanden, was ich damit sagen will, wenn ich sage, dass ein RAID eben ein logisches Volumen und mehr als nur die Summe der Platte ist und wieso es gut ist, wenn ein Controller das auch so handhabt.

Ob ein Intel Chipsatz RAID das macht, weiß ich nicht aber ich vermute es stark, es legt ja auch am Anfang jeder Platte Metadaten des RAID ab und damit ist wäre auch durchaus möglich dort einen entsprechenden Zähler oder das Datum des letzten Schreibzugriffs auf das RAID abzulegen. Dann ist Dein Problem nun, dass erstmal versucht wird den Datenstand auf der versehentlich gezogenen Platte wieder auf den letzten Stand zu bekommen und daher geht auch das Rebuild los, sobald alle drei Plalten eingebaut sind. Nur ist eben eine der beiden Patte die diesem letzten Stand des RAID als Volumen entsprechen, leider die kaputte Platte und daher dauert es entsprechend und der Zustand geht beim Entfernen der defekten HDD nicht auf "Degraded" sondern "Failed", weil das Rebuild ja noch nicht abgeschlossen ist und die beiden Platten dann unterschiedliche Informationsstände haben, also zusammen nicht den letzten Stand des RAID als Volumen wiederspiegeln.

Broken One · 30.06.2015

Holt schrieb:
Ja ich bin der gleiche User wie bei CB. Die S.M.A.R.T. Werte der defekte Platte habe ich gesehen, mich interessieren aber vor allem die Werte der beiden anderen Platten und natürlich wie sich die Werte der als defekt eingestuften HDD verändert haben. Du kannst auch gerne smartmontools nehmen, wenn Dir das lieber ist.

Also anbei die SMART Daten von allen drei Festplatten:

Code:

smartctl 6.4 2015-05-30 r4101 [i686-w64-mingw32-win7(64)-sp1] (cf-20150530)
Copyright (C) 2002-15, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Red
Device Model:     WDC WD20EFRX-68AX9N0
Serial Number:    WD-WMC300048688
LU WWN Device Id: 5 0014ee 0035e56ca
Firmware Version: 80.00A80
User Capacity:    2.000.398.934.016 bytes [2,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Tue Jun 30 15:42:51 2015 MS
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed

                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (26460) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off supp
ort.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 267) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x70bd) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_
FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -
       0
  3 Spin_Up_Time            0x0027   179   172   021    Pre-fail  Always       -
       4050
  4 Start_Stop_Count        0x0032   098   098   000    Old_age   Always       -
       2987
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -
       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -
       0
  9 Power_On_Hours          0x0032   078   078   000    Old_age   Always       -
       16326
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -
       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -
       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -
       160
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -
       31
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -
       2955
194 Temperature_Celsius     0x0022   111   101   000    Old_age   Always       -
       36
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -
       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -
       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -
       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -
       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -
       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA
_of_first_error
# 1  Conveyance offline  Completed without error       00%     16231         -
# 2  Conveyance offline  Completed without error       00%     16220         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Code:

smartctl 6.4 2015-05-30 r4101 [i686-w64-mingw32-win7(64)-sp1] (cf-20150530)
Copyright (C) 2002-15, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Red
Device Model:     WDC WD20EFRX-68AX9N0
Serial Number:    WD-WMC300049011
LU WWN Device Id: 5 0014ee 058b39f0d
Firmware Version: 80.00A80
User Capacity:    2.000.398.934.016 bytes [2,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Tue Jun 30 15:45:50 2015 MS
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed

                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (25500) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off supp
ort.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 258) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x70bd) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_
FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -
       9
  3 Spin_Up_Time            0x0027   180   176   021    Pre-fail  Always       -
       3991
  4 Start_Stop_Count        0x0032   098   098   000    Old_age   Always       -
       2986
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -
       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -
       0
  9 Power_On_Hours          0x0032   078   078   000    Old_age   Always       -
       16326
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -
       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -
       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -
       160
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -
       31
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -
       2954
194 Temperature_Celsius     0x0022   110   100   000    Old_age   Always       -
       37
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -
       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -
       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -
       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -
       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -
       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA
_of_first_error
# 1  Conveyance offline  Completed without error       00%     16231         -
# 2  Conveyance offline  Completed without error       00%     16220         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Code:

smartctl 6.4 2015-05-30 r4101 [i686-w64-mingw32-win7(64)-sp1] (cf-20150530)
Copyright (C) 2002-15, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Red
Device Model:     WDC WD20EFRX-68AX9N0
Serial Number:    WD-WMC300041212
LU WWN Device Id: 5 0014ee 0035e6d7b
Firmware Version: 80.00A80
User Capacity:    2.000.398.934.016 bytes [2,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Tue Jun 30 15:46:31 2015 MS
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed

                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (26580) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off supp
ort.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 268) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x70bd) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_
FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -
       3820
  3 Spin_Up_Time            0x0027   180   175   021    Pre-fail  Always       -
       4000
  4 Start_Stop_Count        0x0032   098   098   000    Old_age   Always       -
       2986
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -
       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -
       0
  9 Power_On_Hours          0x0032   078   078   000    Old_age   Always       -
       16326
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -
       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -
       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -
       160
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -
       31
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -
       2954
194 Temperature_Celsius     0x0022   109   099   000    Old_age   Always       -
       38
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -
       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -
       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -
       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -
       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -
       1

SMART Error Log Version: 1
ATA Error Count: 228 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 228 occurred at disk power-on lifetime: 16221 hours (675 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle
.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 01 57 2a cd e1  Error: UNC at LBA = 0x01cd2a57 = 30222935

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  40 da 01 57 2a cd e1 00      08:50:52.738  READ VERIFY SECTOR(S)
  40 da 01 56 2a cd e1 00      08:50:52.737  READ VERIFY SECTOR(S)
  40 da 01 55 2a cd e1 00      08:50:52.737  READ VERIFY SECTOR(S)
  40 da 01 54 2a cd e1 00      08:50:52.736  READ VERIFY SECTOR(S)
  40 da 01 53 2a cd e1 00      08:50:52.735  READ VERIFY SECTOR(S)

Error 227 occurred at disk power-on lifetime: 16221 hours (675 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle
.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 01 56 2a cd e1  Error: UNC at LBA = 0x01cd2a56 = 30222934

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  40 da 01 56 2a cd e1 00      08:50:52.737  READ VERIFY SECTOR(S)
  40 da 01 55 2a cd e1 00      08:50:52.737  READ VERIFY SECTOR(S)
  40 da 01 54 2a cd e1 00      08:50:52.736  READ VERIFY SECTOR(S)
  40 da 01 53 2a cd e1 00      08:50:52.735  READ VERIFY SECTOR(S)
  40 da 01 52 2a cd e1 00      08:50:52.734  READ VERIFY SECTOR(S)

Error 226 occurred at disk power-on lifetime: 16221 hours (675 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle
.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 01 55 2a cd e1  Error: UNC at LBA = 0x01cd2a55 = 30222933

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  40 da 01 55 2a cd e1 00      08:50:52.737  READ VERIFY SECTOR(S)
  40 da 01 54 2a cd e1 00      08:50:52.736  READ VERIFY SECTOR(S)
  40 da 01 53 2a cd e1 00      08:50:52.735  READ VERIFY SECTOR(S)
  40 da 01 52 2a cd e1 00      08:50:52.734  READ VERIFY SECTOR(S)
  40 da 01 51 2a cd e1 00      08:50:52.728  READ VERIFY SECTOR(S)

Error 225 occurred at disk power-on lifetime: 16221 hours (675 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle
.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 01 54 2a cd e1  Error: UNC at LBA = 0x01cd2a54 = 30222932

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  40 da 01 54 2a cd e1 00      08:50:52.736  READ VERIFY SECTOR(S)
  40 da 01 53 2a cd e1 00      08:50:52.735  READ VERIFY SECTOR(S)
  40 da 01 52 2a cd e1 00      08:50:52.734  READ VERIFY SECTOR(S)
  40 da 01 51 2a cd e1 00      08:50:52.728  READ VERIFY SECTOR(S)
  40 da 01 50 2a cd e1 00      08:50:52.725  READ VERIFY SECTOR(S)

Error 224 occurred at disk power-on lifetime: 16221 hours (675 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle
.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 01 53 2a cd e1  Error: UNC at LBA = 0x01cd2a53 = 30222931

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  40 da 01 53 2a cd e1 00      08:50:52.735  READ VERIFY SECTOR(S)
  40 da 01 52 2a cd e1 00      08:50:52.734  READ VERIFY SECTOR(S)
  40 da 01 51 2a cd e1 00      08:50:52.728  READ VERIFY SECTOR(S)
  40 da 01 50 2a cd e1 00      08:50:52.725  READ VERIFY SECTOR(S)
  40 da 01 4f 2a cd e1 00      08:50:52.724  READ VERIFY SECTOR(S)

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA
_of_first_error
# 1  Extended offline    Completed: read failure       90%     16235         208
6136
# 2  Conveyance offline  Completed without error       00%     16221         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Was du ansonsten geschrieben hast kann ich nachvollziehen und macht auch Sinn. Eigentlich hab ich mich schon ein wenig mit RAIDs beschäftigt aber doch nur ziemlich oberflächlich und wenn ich das ganze Dingen wieder ans laufen bekomme werde ich diesmal besser vorsorgen. Festplatte zum Backup ist bestellt und die Platten die momentan drin sind hab ich jetzt auch beschriftet. Ich hab nur mit dem RMA jetzt noch gewartet weil ich mir nicht sicher bin ob das mit dem klonen der kaputten Platte eine gute Idee ist und meinen Prozess beschleunigen könnte/würde. Hast du oder sonst irgendwer dazu eine Meinung?

Schöne Grüße & Vielen Dank für die Hilfe und Mühe,

Broken One

Holt · 30.06.2015

Also bei allen 3 sieht der Controller den Zustand als gut an, bei allen steht:

SMART overall-health self-assessment test result: PASSED

Reallocated_Sector_Ct, Reallocated_Event_Count und Current_Pending_Sector ist bei allen 3 auch noch 0, damit ist das Problem eigentlich nur die Raw_Read_Error_Rate und die ist einer 0, der zweiten 9 und der defekten 3820 nach zuvor 1612. Wieso hat nun die zweite mit den 9 Lesefehlern angeblich "No Errors Logged", die mit den 3820 aber schon und wieso gibt es keine schwebenden Sektoren bei der oder auch schon wiederzugewiesene Sektoren? Das ist eigentlich die Konsequenz wenn Sektoren nicht mehr fehlerfrei gelesen werden können und das scheint ja hier der Fall zu sein. Außer die Platten schafft es dann vor dem Timeout doch immer noch die Daten des Sektors irgendwie zusammen zu bekommen. Dann müsste das Rebuild auch irgendwann erfolgreich zuende gehen, wenn sie nicht vorher den Löffel abgibt.

Der RAID verurteilt die 3. Platten vermutlich wegen der hohen Anzahl der Lesefehler oder wegen dem Multi_Zone_Error, also dem Schreibfehler.

Also Backup wäre es vorher gewesen, was jetzt ansteht fällt schon klar unter Datenrettung, eine Datensicherung ist es nur, wenn man es macht bevor es Probleme gibt. Ob das Klonen Sinn macht, kann man schwer vorhersagen, wenn Du es machst, dann mit Linux dd oder besser gleich ddrescue und über das ganze Laufwerk, also in der Art if=/dev/sdx of=/dev/sdy und nicht über die Partition (/dev/sdx1), damit Du auch die Metadaten des RAIDs mit klonst. Bei wie viel Prozent ist das Rebuild jetzt? Wenn Du auf die Daten zugreifen kann, würde ich zumindest das Allerwichtigste schon mal woanders hin kopieren, es ist nicht gesagt, dass die defekte HDDs nicht den Löffel abgibt, die Zahl der Lesefehler ist ja schon massiv angestiegen.

Broken One · 30.06.2015

Holt schrieb:
Also bei allen 3 sieht der Controller den Zustand als gut an, bei allen steht:

SMART overall-health self-assessment test result: PASSED

Ja das ist mir auch schon ganz am Anfang aufgefallen. Wobei ja dieses großartige Intel RST Tool nicht hingeht und einen SMART Status ändert wenn ich eine Platte von "ausgefallen" auf "normal" setze, oder?

Reallocated_Sector_Ct, Reallocated_Event_Count und Current_Pending_Sector ist bei allen 3 auch noch 0, damit ist das Problem eigentlich nur die Raw_Read_Error_Rate und die ist einer 0, der zweiten 9 und der defekten 3820 nach zuvor 1612. Wieso hat nun die zweite mit den 9 Lesefehlern angeblich "No Errors Logged", die mit den 3820 aber schon und wieso gibt es keine schwebenden Sektoren bei der oder auch schon wiederzugewiesene Sektoren? Das ist eigentlich die Konsequenz wenn Sektoren nicht mehr fehlerfrei gelesen werden können und das scheint ja hier der Fall zu sein. Außer die Platten schafft es dann vor dem Timeout doch immer noch die Daten des Sektors irgendwie zusammen zu bekommen. Dann müsste das Rebuild auch irgendwann erfolgreich zuende gehen, wenn sie nicht vorher den Löffel abgibt.

Der RAID verurteilt die 3. Platten vermutlich wegen der hohen Anzahl der Lesefehler oder wegen dem Multi_Zone_Error, also dem Schreibfehler.

Aber man kann zumindest sagen, dass die anderen beiden Platten doch ziemlich fit sein sollten oder sollte mir die 9 Lesefehler auf der zweiten Sorgen machen?

Ja zumindest hat der Controller zwei mal als STEAM versucht hat Daten auf das Array zu schreiben geweint und das Array als ausgefallen gemeldet und beide Male schien es da Schreibfehler zu geben.

Also Backup wäre es vorher gewesen, was jetzt ansteht fällt schon klar unter Datenrettung, eine Datensicherung ist es nur, wenn man es macht bevor es Probleme gibt. Ob das Klonen Sinn macht, kann man schwer vorhersagen, wenn Du es machst, dann mit Linux dd oder besser gleich ddrescue und über das ganze Laufwerk, also in der Art if=/dev/sdx of=/dev/sdy und nicht über die Partition (/dev/sdx1), damit Du auch die Metadaten des RAIDs mit klonst. Bei wie viel Prozent ist das Rebuild jetzt? Wenn Du auf die Daten zugreifen kann, würde ich zumindest das Allerwichtigste schon mal woanders hin kopieren, es ist nicht gesagt, dass die defekte HDDs nicht den Löffel abgibt, die Zahl der Lesefehler ist ja schon massiv angestiegen.

Das mit dem Backup war für die Zukunft gemeint. Was ich jetzt mache ist Datenrettung das hab ich schon verstanden keine Sorge

. Okay ich hab damals das obengenannte Tool benutzt und würde es wahrscheinlich auch wieder benutzen weil ich damit schon Erfahrung habe. Von den Fähigkeiten von HDClone her sollte es aber genau machen was du meinst. Hat es ja damals auch als die die Platte aus dem RAID 0 damit geklont habe. Demnach werde ich wohl morgen bei WD den RMA mit Vorabtausch anstossen und hoffen, dass die Platte zügig hier ist und es dann versuchen.

Der Rebuild ist erst bei 10%... (Edit: wenn ich mit gestern s.o. vergleiche dann schaffe ich also momentan 3% am Tag und wäre bei 90% die fehlen noch 30 Tage beschäftigt...)

Die meisten allerwichtigste Dinge hab ich ja sowieso schon. Als ich am Wochenende versucht hatte mal testweise 8 GB von der Platte an nice-to-have Dokumenten zu kopieren geschah das mit einer Geschwindigkeit von xxx kb/sek ich befürchte das wird sich nicht gebessert haben und ich werde nicht soweit damit kommen aber vielleicht versuche ich es nochmals. Ansonsten scheint mir der Versuch die Platte auf eine baugleiche zu klonen dann wirklich der beste Versuch.

Holt · 30.06.2015

Broken One schrieb:
Ja das ist mir auch schon ganz am Anfang aufgefallen. Wobei ja dieses großartige Intel RST Tool nicht hingeht und einen SMART Status ändert wenn ich eine Platte von "ausgefallen" auf "normal" setze, oder?

Also ich "bei allen 3 sieht der Controller den Zustand als gut an," geschrieben habe, waren die Controller der Platten gemeint, der Intel RST setzt da sicher anderen Maßstäbe an und dürfte sich an den Lese- und dem einen Schreibfehler stören. Das kann man dem wohl auch nicht ausreden.

Broken One schrieb:
Aber man kann zumindest sagen, dass die anderen beiden Platten doch ziemlich fit sein sollten oder sollte mir die 9 Lesefehler auf der zweiten Sorgen machen?

Bei jedem Fehler einer Platte muss man sich Sorgen machen, mal mehr, mal weniger.

Broken One schrieb:
Ja zumindest hat der Controller zwei mal als STEAM versucht hat Daten auf das Array zu schreiben geweint und das Array als ausgefallen gemeldet und beide Male schien es da Schreibfehler zu geben.

Die Tränen solltest Du trocknen ehe es Kurzschlüsse gibt ;D

Das kann sein, dass genau der Sektor mit dem Schreibfehler auf der einen Platte betroffen war. Du solltest sowas auch unterlassen und versuchen so wenig wie möglich am Rechner zu machen.

Broken One schrieb:
Von den Fähigkeiten von HDClone her sollte es aber genau machen was du meinst.

HDClone kenn ich nicht, aber es muss Sektor für Sektor wirklich jeden Sektor 1:1 klonen und sollte bei Lesefehlern nicht abbrechen, sondern mit dem nächsten Sektor weitermachen.

Broken One schrieb:
Hat es ja damals auch als die die Platte aus dem RAID 0 damit geklont habe. Demnach werde ich wohl morgen bei WD den RMA mit Vorabtausch anstossen und hoffen, dass die Platte zügig hier ist und es dann versuchen.

Das mit dem Vorabtausch musst Du wissen, keine Ahnung wie viel Zeit Du hast die defekte HDD zurück zu schicken, aber wenn das Rebuild so lange dauert, könnte das für das Klonen auch gelten.

Broken One schrieb:
Der Rebuild ist erst bei 10%... (Edit: wenn ich mit gestern s.o. vergleiche dann schaffe ich also momentan 3% am Tag und wäre bei 90% die fehlen noch 30 Tage beschäftigt...)

So viele Lesefehler sind es nun auch nicht, eigentlich müsste der Bereich in dem die auftreten auch irgendwann mal vorbei sein. Bleibt es so langsam und kommen immer mehr Lesefehler hinzu, dann ist das aber leider kein gutes Zeichen.

Broken One schrieb:
Die meisten allerwichtigste Dinge hab ich ja sowieso schon. Als ich am Wochenende versucht hatte mal testweise 8 GB von der Platte an nice-to-have Dokumenten zu kopieren geschah das mit einer Geschwindigkeit von xxx kb/sek

Wenigstens etwas, wobei ich an Deiner Stelle erstmal alles kopieren würde, was noch nive-to-have ist. Das die Geschwindigkeit dabei gering ist, sollte nicht wundern, die Köpfe müssen ja immer hin und her, das RAID ist ja auch mitten in einem Rebuild und dann die Lesefehler....

Broken One schrieb:
Ansonsten scheint mir der Versuch die Platte auf eine baugleiche zu klonen dann wirklich der beste Versuch.

Wobei dabei zu hoffen bleibt, dass dies innerhalb einer vernünftigen Zeit gelingt und es gelingt alle Sektoren zu kopieren, keine Ahnung was für einen Datenmüll das RAID sonst produziert, wenn beim Klonen einzelne Sektoren übersprungen werden mussten, denn dann kann es durchaus sein, dass es danach Filesystemfehler und korrupte Dateien auf dem RAID gibt.

Suche

Defekte Festplatte im Intel ICH9 Software RAID5?

Broken One

Enthusiast

Gelöschtes Mitglied 149873

Guest

Holt

Legende

Broken One

Enthusiast

Holt

Legende

Gelöschtes Mitglied 149873

Guest

Holt

Legende

Broken One

Enthusiast

Holt

Legende

Broken One

Enthusiast

Holt

Legende

Broken One

Enthusiast

Holt

Legende

Ähnliche Themen