Software RAID 5 Probleme

viruz82 · 18.10.2021

Hallo,

ich habe ein Problem mit meinem Software Raid 5 bestehend aus 6 HDDs. Eine davon ist eine Spare Platte (/dev/sdb).
Das ganze muss in ein kleineres NAS mit nur 4 Bays umziehen. Dementsprechend wollte ich das Raid auf 4 HDDs schrumpfen. Das hat bis zu 99,9% auch geklappt und seitdem tut sich seit Tagen nichts mehr. Laut Syslog und dmesg liegt es an defekten Sektoren einer HDD (/dev/sdh). Das Problem ist nun, dass ich die HDD nicht als faulty markieren kann.
Sobald ich das mittels "mdadm --manage --fail /dev/md127 /dev/sdh" tue, ist das die Rückmeldung:
mdadm: set device faulty failed for /dev/sdh: Device or resource busy

Wenn ich nun die defekte HDD durch die Spare HDD ersetzen will: mdadm --manage --replace /dev/md127 /dev/sdh --with /dev/sdb
ist das das Ergebnis:
mdadm: Marked /dev/sdh (device 1 in /dev/md127) for replacement
mdadm: Failed to set /dev/sdb as preferred replacement.

Ich komme hier einfach nicht weiter und drehe mich im Kreis. Hat jemand von euch eventuell eine Idee, was ich noch tun könnte?

So sieht es momentan aus:

Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md127 : active raid5 sdb[4](S) sdh[7] sdd[5] sda[3] sdc[2]
11720661504 blocks super 1.2 level 5, 512k chunk, algorithm 2 [4/3] [_UUU]
[===================>.] reshape = 99.9% (3903912448/3906887168) finish=279719738.6min speed=0K/sec

unused devices: <none>

/dev/md127:
Version : 1.2
Creation Time : Fri Dec 25 09:15:04 2015
Raid Level : raid5
Array Size : 11720661504 (11177.69 GiB 12001.96 GB)
Used Dev Size : 3906887168 (3725.90 GiB 4000.65 GB)
Raid Devices : 4
Total Devices : 5
Persistence : Superblock is persistent

Update Time : Sun Oct 17 15:52:13 2021
State : clean, degraded, reshaping
Active Devices : 4
Working Devices : 5
Failed Devices : 0
Spare Devices : 1

Layout : left-symmetric
Chunk Size : 512K

Consistency Policy : resync

Reshape Status : 99% complete
Delta Devices : -1, (5->4)

Name : nas:RAID
UUID : b263b06d:11da36a5:28c4f23b:a76d50d3
Events : 13278149

Number Major Minor RaidDevice State
- 0 0 0 removed
7 8 112 1 active sync /dev/sdh
2 8 32 2 active sync /dev/sdc
3 8 0 3 active sync /dev/sda

4 8 16 - spare /dev/sdb
5 8 48 4 active sync /dev/sdd

Danke und Gruß
Kai

hostile · 18.10.2021

Da es ein Raid 5 ist kannst du doch einfach die defekte Platte ziehen?
SMART checken kannst du übrigens mit smartctl --all /dev/xxx machen.

gruß
hostile

viruz82 · 18.10.2021

Leider nicht, denn ein RAID 5 braucht mindestens 3 HDDs, um zu laufen. Das hab ich schon getestet und das Ergebnis war, dass das RAID nicht gestartet werden konnte, weil es zu wenig HDDs sind. Ich versteh's auch nicht. Es war die mit den defekten Sektoren, die ich gezogen habe.

hostile · 18.10.2021

Genau, 3 Platten. 6 hast du, 5 im Raid (also 4 damit alle Daten da sind), 1 spare.
Selbst mit 4 Platten (nach der Verkleinerung) kannst du 1 ziehen, damit alle Daten weiterhin da sind.

Was hat denn das System genau gesagt ("das RAID nicht gestartet werden konnte, weil es zu wenig HDDs sind")?

gruß
hostile

PS: Bist du denn wirklich sicher, ganz ganz sicher, dass du die defekte Platte gezogen hast?

viruz82 · 18.10.2021

Ich weiß leider nicht genau, welchen Status das RAID hat. Ich habe es ja verkleinert bzw. verkleinern wollen und es hängt bei 99,9% im reshape. Aktuell sieht es ja so aus: [4/3] [_UUU]
Ich bin einfach davon ausgegangen, dass die nicht laufende HDD die mit den defekten Sektoren ist und habe sie testweise mal rausgezogen. Ich schaue morgen noch mal, welche Fehlermeldung das genau war. Bin heute nicht mehr zuhause. Aber danke schon mal für deine Tipps.

Gruß
Kai

viruz82 · 21.10.2021

Hallo hostile,

ich habe testweise die defekte HDD rausgezogen (ja, wirklich die defekte

) und beim Start des Raids folgende Rückmeldung bekommen:
mdadm: /dev/md/RAID assembled from 3 drives and 1 spare - not enough to start array

Mein nächster Plan war dann, die defekte HDD mittels Clonezilla auf eine andere HDD zu klonen, aber Clonezilla kann keine Software Raid Platten klonen. So langsam weiß ich echt nicht mehr weiter. Ich habe jetzt ein "badblocks -svn /dev/sdd" laufen.

l0n · 21.10.2021

Eventuell hilft ein --force um das Array als Degraded zu starten wenn du die defekte Platte gezogen hast.
Falls du eine weitere Platte übrig hast könntest du aber auch ein ddrescue auf die defekte HDD laufe lassen und somit die Daten auf die andere Platte kopieren.

viruz82 · 21.10.2021

Leider nicht, hab ich auch schon versucht. Eine Platte hab ich tatsächlich noch über. Ich muss mir mal den richtigen Befehl raussuchen, dann teste ich ddrescue.

Edit:
ddrescue läuft jetzt: ddrescue -d -f -r3 /dev/sdd /dev/sdf /root/ddrescue.log

Anschließend nehme ich die defekte HDD raus und stecke genau dort die neue HDD rein und hoffe, dass mein RAID dann wieder startet...

hostile · 21.10.2021

Starte das Raid doch mal manuell. Also explizit angeben mit welchen Disks. Im Moment will mdadm ja das Raid starten, dass in der Konfig steht.

gruß
hostile

viruz82 · 22.10.2021

So, irgendwann heute Nacht ist das ddrescue durchgelaufen. Ich habe jetzt die defekte HDD rausgenommen und in den Slot die Ersatzplatte gesteckt. Das RAID startet auch wieder mit dem reshape, kommt einen Tick weiter als vorher und hängt dann wieder. Aktuell sieht es so aus:

Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md127 : active raid5 sdd[7] sde[5] sda[3] sdc[2]
11720661504 blocks super 1.2 level 5, 512k chunk, algorithm 2 [4/3] [_UUU]
[===================>.] reshape = 99.9% (3904327388/3906887168) finish=24.3min speed=1750K/sec

Im dmesg steht folgendes:

[ 253.883941] md: reshape of RAID array md127
[ 605.577031] INFO: task md127_resync:1916 blocked for more than 120 seconds.
[ 605.577060] Tainted: P O 5.11.22-5-pve #1
[ 605.577093] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[ 605.577116] task:md127_resync state

stack: 0 pid: 1916 ppid: 2 flags:0x00004000

Ich befürchte fast, dass noch eine HDD defekte Sektoren hat. Zum kotzen.

hostile · 22.10.2021

Also wenn's wirklich wichtige Daten sind bleibt ja nur eines: 2x 14TB kaufen, Raid 1 erstellen und Daten kopieren.
Erst danach kannst du dich dann kreativ am Raid5 auslassen.
Was sagen denn die SMART-Daten bei den anderen Platten? Magst du mal alle schicken? Serial kannst du ja rauslöschen.

gruß
hostile

viruz82 · 26.10.2021

Daten kopieren ist ja so das Problem. Ich komme aktuell nicht ran an die Daten. Das Reshape und Rebuild ist nun durchgelaufen, aber ich komme immer noch nicht ran. Jetzt gibt es Probleme mit dem Dateisystem. Ich glaube, was ich vergessen habe, ist, das Dateisystem mittels tune2fs zu verkleinern. Ich habe das RAID ja von 5 auf 4 HDDs verkleinert und vorher auch ausreichend Daten gelöscht.
Jetzt habe ich testdisk drüberlaufen lassen und komme damit auch nicht weiter. Ich hab keine Ahnung, was ich bei Geometry machen muss...

hostile · 27.10.2021

Oh shit. Das ist richtig shit. Ich dachte das hättest du bereits getan 1) Speicher freimachen 2) Dateisystem verkleinern 3) RAID verkleinern und wir ständen an Punkt 3. Jetzt hast du 1/5 deiner Partition/Daten verloren. Früher war die Geometrie deiner Platte wichtig zu wissen z.B. CHS = Cylinder, Heads, Sectors. Ich verlinke einfach mal was [1].
Heute gibt's nur noch LBA (Logical Block Addressing).
Aber du möchtest jetzt eigentlich eher den Schritt in Richtung Datenrettung gehen.
Theoretisch müsste ein Image von dem RAID gezogen werden, aus diesem werden dann die Daten gerettet, falls das möglich ist.
TestDisk sagt dir auch, dass die Platte zu klein erscheint.

Deswegen sollst du wahrscheinlich die Geometrie prüfen, die angegeben ist (so wurde nämlich damals die Größe einer Platte berechnet).

Jetzt ist ein auf Datenrettung spezialisiertes Unternehmen an der Reihe. Wenn die Daten wichtig sind, nichts mehr am RAID ändern.

gruß
hostile

[1] https://en.wikipedia.org/wiki/Cylinder-head-sector

viruz82 · 27.10.2021

Ja, das ist wirklich richtig Shit. Da sind schon echt ein paar Dinge drauf, die wichtig für mich sind. Ich hatte gehofft, das noch irgendwie hinzukriegen. Danke dir jedenfalls.

Digi-Quick · 27.10.2021

Eine der Grundlegenden Anweisungen bei Raid-Level-Migration (RLM) oder auch Online Capacity Expansion (OCE), also Operationen die die Raidstruktur betreffen : NIEMALS OHNE BACKUP!!!

Im übrigen sind Daten die nicht gesichert sind sowieso als gelöscht zu betrachten!

Ob da eine professionelle Datenrettung überhaupt noch was retten kann stelle ich mal als zumindest fraglich hin, da hier die Raidsruktur vermutlich schon weitgehend zerstört zu sein scheint. Mach dich auf jeden Fall auf einen deutlich 4 stelligen Betrag gefasst - eine ordentliche Datensicherung wäre billiger zuhaben gewesen.

Suche

Software RAID 5 Probleme

viruz82

Profi

hostile

Urgestein

viruz82

Profi

hostile

Urgestein

viruz82

Profi

viruz82

Profi

l0n

Enthusiast

viruz82

Profi

hostile

Urgestein

viruz82

Profi

hostile

Urgestein

viruz82

Profi

Anhänge

hostile

Urgestein

viruz82

Profi

Digi-Quick

Urgestein