RAID5-NAS friert ein

Pebibyte

Neuling
Thread Starter
Mitglied seit
14.12.2015
Beiträge
10
Grüßt euch,

ich habe seit vorgestern Probleme mit meinem NAS und mir fehlt es an Wissen eindeutig sagen zu können, welche Komponente der Übeltäter ist.
Daher erhoffe ich mir hier Hilfe zu bekommen <3

Jedenfalls, mein NAS ist selbsgebaut und besteht aus 5x 4TB HGST Deskstar NAS (H3IKNAS40003272SE) im RAID5-Modus.
Desweiteren ist ein Sockel 775 Mainboard "XFX nForce 680i LT SLI" (Abbildung nicht exakt) mit dem Prozessor "Intel E4500 2x2,2 Ghz" verbaut.
Als OS nutze ich OpenMediaVault (OMV).

Das NAS hat auch tadellos etwa 2 Wochen funktioniert, bis es vorgestern Abend beim Lesen plötzlich angefangen hat zu stottern und letztendlich komplett einfrohr.
Als ich mal ins NAS reingeschaut habe, habe ich bemerkt, dass eine Heatpipe auf dem Mainboard abartig heiß war. Der dafür montierte aktive Kühler funktionierte nicht mehr.
Ich habe also eine Zeit lang abkühlen lassen und einen zusammengepfuschten Notkühler montiert.
Danach fehlte das RAID in der WebGUI von OMV, Die Festplatten wurden jedoch richtig erkannt.
Anschließend habe ich mit "mdadm" und weiteren Befehlen herausgefunden, dass die Festplatte hinter sdf fehlte.
mit "mdadm --assemble" und "mdadm --add /dev/sdf" konnte ich mein NAS wiederherstellen. Meine Daten sind also bisher nicht verloren, jedoch friert mein NAS nun beim rebuild-Prozess jedes mal ein.
Das erste mal bei 50%, heute bei 99%.

Soweit ich die SMART-Werte interpretieren kann liegt das Problem nicht an den Festplatten - Nachdem irgendwas auf dem Mainboard überhitzt ist, liegt meine Vermutung nahe, dass der Sata-Controller nun eine Macke hat.
Aber bevor ich ein neues Mainboard(+CPU+RAM) kaufe, wollte ich hier nachfragen.
Hier mal ein Auszug der SMART-Werte von 2 Festplatten - die Werte von sd[bcd] sehen auch ungefähr so aus. (sde ist die OS-Platte).

Code:
sda ---------------------------------------------------------------------
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     PO-R--   100   100   016    -    0
  2 Throughput_Performance  P-S---   137   137   054    -    77
  3 Spin_Up_Time            POS---   155   155   024    -    381 (Average 615)
  4 Start_Stop_Count        -O--C-   100   100   000    -    118
  5 Reallocated_Sector_Ct   PO--CK   100   100   005    -    0
  7 Seek_Error_Rate         PO-R--   100   100   067    -    0
  8 Seek_Time_Performance   P-S---   121   121   020    -    34
  9 Power_On_Hours          -O--C-   100   100   000    -    423
 10 Spin_Retry_Count        PO--C-   100   100   060    -    0
 12 Power_Cycle_Count       -O--CK   100   100   000    -    118
192 Power-Off_Retract_Count -O--CK   100   100   000    -    130
193 Load_Cycle_Count        -O--C-   100   100   000    -    130
194 Temperature_Celsius     -O----   166   166   000    -    36 (Min/Max 22/54)
196 Reallocated_Event_Count -O--CK   100   100   000    -    0
197 Current_Pending_Sector  -O---K   100   100   000    -    0
198 Offline_Uncorrectable   ---R--   100   100   000    -    0
199 UDMA_CRC_Error_Count    -O-R--   200   200   000    -    0

sdf ---------------------------------------------------------------------

ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     PO-R--   100   100   016    -    0
  2 Throughput_Performance  P-S---   136   136   054    -    81
  3 Spin_Up_Time            POS---   244   244   024    -    249 (Average 386)
  4 Start_Stop_Count        -O--C-   100   100   000    -    232
  5 Reallocated_Sector_Ct   PO--CK   100   100   005    -    0
  7 Seek_Error_Rate         PO-R--   100   100   067    -    0
  8 Seek_Time_Performance   P-S---   121   121   020    -    34
  9 Power_On_Hours          -O--C-   100   100   000    -    415
 10 Spin_Retry_Count        PO--C-   100   100   060    -    0
 12 Power_Cycle_Count       -O--CK   100   100   000    -    219
192 Power-Off_Retract_Count -O--CK   100   100   000    -    240
193 Load_Cycle_Count        -O--C-   100   100   000    -    240
194 Temperature_Celsius     -O----   193   193   000    -    31 (Min/Max 21/49)
196 Reallocated_Event_Count -O--CK   100   100   000    -    0
197 Current_Pending_Sector  -O---K   100   100   000    -    0
198 Offline_Uncorrectable   ---R--   100   100   000    -    0
199 UDMA_CRC_Error_Count    -O-R--   200   200   000    -    0


Viele Dank fürs Lesen schonmal!
Ich hoffe mir kann jemand mit Gewissheit sagen, dass meine Vermutung richtig ist.
Was mich nur wundert ist, dass mein NAS vorrübergehend richtig funktioniert und später erneut fehlschlägt.
Die Temperatur der besagten Heatpipe habe ich von Hand desöfteren überprüft und war höchstens 'handwarm'.
Ich weiß leider nicht, wo oder ob es einen Temperatursensor für genau diese Stelle auf dem Mainboard gibt.
Nach der Überhitzung hätte ich allerdings erwartet, dass keine Festplatte richtig erkannt wird.


Grüßle
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Also wenn Du schon nicht selbst weißt auf welche Attribute es ankommt, dann solltest Du die Werte aller Platten posten, denn ungefährt gleich sehen diese für Laien immer aus, aber eine Zahl kann den Unterschied zwischen in Ordnung und einem Problem bedeuten.

Dann solltest Du auch von den wichtigen Daten auf Deinem NAS immer ein Backup Backup z.B. auf einer USB Platte haben, denn RAIDs ersetzen keine Backups!! Wenn Du schon selbst ein NAS baust und Deine Daten liebst, dann solltest Du auch auf HW mit ECC Unterstützung setzen, nimm z.B. so einen HP ProLiant ML10 v2, Pentium G3240, 4GB RAM (814483-421) ab € 196,15, da hast Du eine anständige Serverhardware für wenig Geld und weniger Probleme als wenn Du die alte PC HW aufbrauchen willst, die schon längst jenseits der üblichen Lebenserwartung für Consumer HW ist.
 
Also wenn Du schon nicht selbst weißt auf welche Attribute es ankommt, dann solltest Du die Werte aller Platten posten, denn ungefährt gleich sehen diese für Laien immer aus, aber eine Zahl kann den Unterschied zwischen in Ordnung und einem Problem bedeuten.

Alles klar! Danke für den Hinweis.

Code:
sda-------------------------------------------------------------------
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     PO-R--   100   100   016    -    0
  2 Throughput_Performance  P-S---   137   137   054    -    77
  3 Spin_Up_Time            POS---   155   155   024    -    381 (Average 615)
  4 Start_Stop_Count        -O--C-   100   100   000    -    118
  5 Reallocated_Sector_Ct   PO--CK   100   100   005    -    0
  7 Seek_Error_Rate         PO-R--   100   100   067    -    0
  8 Seek_Time_Performance   P-S---   121   121   020    -    34
  9 Power_On_Hours          -O--C-   100   100   000    -    426
 10 Spin_Retry_Count        PO--C-   100   100   060    -    0
 12 Power_Cycle_Count       -O--CK   100   100   000    -    118
192 Power-Off_Retract_Count -O--CK   100   100   000    -    130
193 Load_Cycle_Count        -O--C-   100   100   000    -    130
194 Temperature_Celsius     -O----   157   157   000    -    38 (Min/Max 22/54)
196 Reallocated_Event_Count -O--CK   100   100   000    -    0
197 Current_Pending_Sector  -O---K   100   100   000    -    0
198 Offline_Uncorrectable   ---R--   100   100   000    -    0
199 UDMA_CRC_Error_Count    -O-R--   200   200   000    -    0

sdb-------------------------------------------------------------------
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     PO-R--   100   100   016    -    0
  2 Throughput_Performance  P-S---   136   136   054    -    82
  3 Spin_Up_Time            POS---   185   185   024    -    316 (Average 519)
  4 Start_Stop_Count        -O--C-   100   100   000    -    91
  5 Reallocated_Sector_Ct   PO--CK   100   100   005    -    0
  7 Seek_Error_Rate         PO-R--   100   100   067    -    0
  8 Seek_Time_Performance   P-S---   121   121   020    -    34
  9 Power_On_Hours          -O--C-   100   100   000    -    355
 10 Spin_Retry_Count        PO--C-   100   100   060    -    0
 12 Power_Cycle_Count       -O--CK   100   100   000    -    91
192 Power-Off_Retract_Count -O--CK   100   100   000    -    101
193 Load_Cycle_Count        -O--C-   100   100   000    -    101
194 Temperature_Celsius     -O----   162   162   000    -    37 (Min/Max 21/42)
196 Reallocated_Event_Count -O--CK   100   100   000    -    0
197 Current_Pending_Sector  -O---K   100   100   000    -    0
198 Offline_Uncorrectable   ---R--   100   100   000    -    0
199 UDMA_CRC_Error_Count    -O-R--   200   200   000    -    0

sdc-------------------------------------------------------------------
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     PO-R--   100   100   016    -    0
  2 Throughput_Performance  P-S---   136   136   054    -    81
  3 Spin_Up_Time            POS---   158   158   024    -    374 (Average 601)
  4 Start_Stop_Count        -O--C-   100   100   000    -    163
  5 Reallocated_Sector_Ct   PO--CK   100   100   005    -    0
  7 Seek_Error_Rate         PO-R--   100   100   067    -    0
  8 Seek_Time_Performance   P-S---   121   121   020    -    34
  9 Power_On_Hours          -O--C-   100   100   000    -    438
 10 Spin_Retry_Count        PO--C-   100   100   060    -    0
 12 Power_Cycle_Count       -O--CK   100   100   000    -    163
192 Power-Off_Retract_Count -O--CK   100   100   000    -    175
193 Load_Cycle_Count        -O--C-   100   100   000    -    175
194 Temperature_Celsius     -O----   171   171   000    -    35 (Min/Max 22/55)
196 Reallocated_Event_Count -O--CK   100   100   000    -    0
197 Current_Pending_Sector  -O---K   100   100   000    -    0
198 Offline_Uncorrectable   ---R--   100   100   000    -    0
199 UDMA_CRC_Error_Count    -O-R--   200   200   000    -    0

sdd-------------------------------------------------------------------
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     PO-R--   100   100   016    -    0
  2 Throughput_Performance  P-S---   136   136   054    -    80
  3 Spin_Up_Time            POS---   157   157   024    -    378 (Average 609)
  4 Start_Stop_Count        -O--C-   100   100   000    -    93
  5 Reallocated_Sector_Ct   PO--CK   100   100   005    -    0
  7 Seek_Error_Rate         PO-R--   100   100   067    -    0
  8 Seek_Time_Performance   P-S---   119   119   020    -    35
  9 Power_On_Hours          -O--C-   100   100   000    -    355
 10 Spin_Retry_Count        PO--C-   100   100   060    -    0
 12 Power_Cycle_Count       -O--CK   100   100   000    -    93
192 Power-Off_Retract_Count -O--CK   100   100   000    -    103
193 Load_Cycle_Count        -O--C-   100   100   000    -    103
194 Temperature_Celsius     -O----   200   200   000    -    30 (Min/Max 22/38)
196 Reallocated_Event_Count -O--CK   100   100   000    -    0
197 Current_Pending_Sector  -O---K   100   100   000    -    0
198 Offline_Uncorrectable   ---R--   100   100   000    -    0
199 UDMA_CRC_Error_Count    -O-R--   200   200   000    -    0

sde (Systempartition, nicht Teil des RAID-Verbunds, Solid State Drive)-
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     PO----   100   100   000    -    0
  3 Spin_Up_Time            PO----   100   100   000    -    0
  4 Start_Stop_Count        -O----   100   100   000    -    0
  5 Reallocated_Sector_Ct   PO----   100   100   000    -    0
  9 Power_On_Hours          -O----   100   100   000    -    6928
 10 Spin_Retry_Count        PO----   100   100   000    -    0
 12 Power_Cycle_Count       -O----   100   100   000    -    2444
178 Used_Rsvd_Blk_Cnt_Chip  PO----   100   100   000    -    0
187 Reported_Uncorrect      -O----   100   100   000    -    0
190 Airflow_Temperature_Cel -O----   100   100   000    -    0
192 Power-Off_Retract_Count -O----   100   100   000    -    0
193 Load_Cycle_Count        -O----   100   100   000    -    0
194 Temperature_Celsius     -O----   100   100   000    -    0
195 Hardware_ECC_Recovered  -O----   100   100   000    -    0
197 Current_Pending_Sector  -O----   100   100   000    -    0
198 Offline_Uncorrectable   ------   100   100   000    -    0
199 UDMA_CRC_Error_Count    -O----   100   100   000    -    0

sdf-------------------------------------------------------------------
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     PO-R--   100   100   016    -    0
  2 Throughput_Performance  P-S---   136   136   054    -    81
  3 Spin_Up_Time            POS---   244   244   024    -    249 (Average 386)
  4 Start_Stop_Count        -O--C-   100   100   000    -    233
  5 Reallocated_Sector_Ct   PO--CK   100   100   005    -    0
  7 Seek_Error_Rate         PO-R--   100   100   067    -    0
  8 Seek_Time_Performance   P-S---   121   121   020    -    34
  9 Power_On_Hours          -O--C-   100   100   000    -    419
 10 Spin_Retry_Count        PO--C-   100   100   060    -    0
 12 Power_Cycle_Count       -O--CK   100   100   000    -    219
192 Power-Off_Retract_Count -O--CK   100   100   000    -    241
193 Load_Cycle_Count        -O--C-   100   100   000    -    241
194 Temperature_Celsius     -O----   214   214   000    -    28 (Min/Max 21/49)
196 Reallocated_Event_Count -O--CK   100   100   000    -    0
197 Current_Pending_Sector  -O---K   100   100   000    -    0
198 Offline_Uncorrectable   ---R--   100   100   000    -    0
199 UDMA_CRC_Error_Count    -O-R--   200   200   000    -    0


Dann solltest Du auch von den wichtigen Daten auf Deinem NAS immer ein Backup Backup z.B. auf einer USB Platte haben, denn RAIDs ersetzen keine Backups!! Wenn Du schon selbst ein NAS baust und Deine Daten liebst, dann solltest Du auch auf HW mit ECC Unterstützung setzen, nimm z.B. so einen HP ProLiant ML10 v2, Pentium G3240, 4GB RAM (814483-421) ab € 196,15, da hast Du eine anständige Serverhardware für wenig Geld und weniger Probleme als wenn Du die alte PC HW aufbrauchen willst, die schon längst jenseits der üblichen Lebenserwartung für Consumer HW ist.

Ja ich weiß. Das NAS sollte möglichst kostengünstig werden, weshalb ich es aus alten Komponenten zusammenbaute, die noch ungenutzt rumlagen. Mir ist bewusst, dass ich keine 100% Garantie habe nie einen Datenverlust zu erleiden. Von den wichtigen Daten existiert auch bereits ein Backup - ich vertraue seit meinem Seagate-Desaster keiner Festplatte mehr, die nicht länger als 2 Monate reibungslos funktioniert :P
Es ging mir bei dem Vorhaben mehr um Machbarkeit und Komfort, als um Sicherheit.

Jedenfalls, von den 16TB Daten, die da potentiell draufpassen, ist nur ein Teil lebensnotwendig. Ich werde deinen ECC-Tipp in Zukunft beherzigen, aber so kurz vor Weihnachten bin ich eher an einer kostengünstigen Lösung für meine bestehende Hardware interessiert! :)
Falls das nicht möglich ist und wirklich neue Hardware besorgt werden muss, denke ich an dich!
 
Soweit ich das sehen, sind die Werte alle in Ordnung, aber was mich wundert ist die Anzahl der "Power-off Retract Count", auch und besser als "Unexpected power loss count" bekannt. Die ist bei allen HDDs höher als die "Power Cycle Count", also die Anzahl der Einschaltungen, was ungewöhnlich ist und entweder wird der Rechner immer einfach ausgemacht, die Platten werden nicht über die bevorstehende Ausschaltung informiert oder es gibt ein Problem mit dem Netzteil / der Spannungsversorgung der Platten. Was für ein Netzteil ist das?

PS: Sehen gerade das es bei den HGST auch bedeuten kann, dass die Platten in den Standby gefahren sind, lässt Du die nach einiger Zeit in den Standby gehen? Dann wäre das normal, aber dann musst Du auch mit 10 bis 20s Verzögerung beim Wiederanfahren rechnen!

Wurde das rebuild inzwischen beendet? Gab es Fehlermeldungen in den Logs?

Was hattest Du denn für Probleme mit den Seagate Platten? Hast Du da einfach die billigen Barracuda im einem RAID und womöglich im Dauerbetrieb genutzt? Das ist nicht zu empfehlen, dafür sind die Desktopplatten einfach nicht gemacht, gedacht und geeignet.

Da Du schon kein System mit ECC RAM Unterstützung hast, hast Du das RAM hoffentlich vorher mal mit Memtest86(+) gründlich getestet, also mindestens 6 PASS durchlaufen lassen und keinen Fehler bekommen. Wenn nicht, mach das mal.
 
Zuletzt bearbeitet:
Soweit ich das sehen, sind die Werte alle in Ordnung, aber was mich wundert ist die Anzahl der "Power-off Retract Count", auch und besser als "Unexpected power loss count" bekannt. Die ist bei allen HDDs höher als die "Power Cycle Count", also die Anzahl der Einschaltungen, was ungewöhnlich ist und entweder wird der Rechner immer einfach ausgemacht, die Platten werden nicht über die bevorstehende Ausschaltung informiert oder es gibt ein Problem mit dem Netzteil / der Spannungsversorgung der Platten. Was für ein Netzteil ist das?

PS: Sehen gerade das es bei den HGST auch bedeuten kann, dass die Platten in den Standby gefahren sind, lässt Du die nach einiger Zeit in den Standby gehen? Dann wäre das normal, aber dann musst Du auch mit 10 bis 20s Verzögerung beim Wiederanfahren rechnen!

Ja, sie fahren in Standby - und es handelt sich um ein Corsair CS550M, das vermutlich die neuste Komponente in dem Rechner ist :d


Wurde das rebuild inzwischen beendet? Gab es Fehlermeldungen in den Logs?

Ich betreibe das NAS gerade degraded mit 4 statt 5 Platten - sdf fehlt.
Die ersten zwei Versuche, wie im Eingangspost beschrieben, sind fehlgeschlagen. Ich werde heute Nacht noch einen Versuch wagen, aber da das einige Stunden brauchen wird, werde ich da bis morgen früh nichts zu sagen können.
Wie kann ich denn die Logs von den ersten beiden Versuchen aufrufen?


Was hattest Du denn für Probleme mit den Seagate Platten? Hast Du da einfach die billigen Barracuda im einem RAID und womöglich im Dauerbetrieb genutzt? Das ist nicht zu empfehlen, dafür sind die Desktopplatten einfach nicht gemacht, gedacht und geeignet.

Hatte mir damals eine 1,5TB-Platte von Seagate gekauft, als 1,5TB noch viel war. Nach 3 Wochen ist sie ohne Vorankündigung einfach gestorben.
Im Internet las ich von einem Firmware-Bug, unter dem alle 1TB und 1,5TB Platten litten. Ich hatte dieser Festplatte bereits 300GB an Daten anvertraut - ohne Backup.
Das waren zwar nicht die wichtigsten Daten, aber 300GB mit einer 6000er-Leitung erneut herunterzuladen, bei der nur 2000 ankommen, ist nicht sehr witzig.


Da Du schon kein System mit ECC RAM Unterstützung hast, hast Du das RAM hoffentlich vorher mal mit Memtest86(+) gründlich getestet, also mindestens 6 PASS durchlaufen lassen und keinen Fehler bekommen. Wenn nicht, mach das mal.

Wird erledigt! Ich nutze das Memtest86+ v4.20, das auf ner Linux-LiveCD enthalten ist. Was du mit 6 PASS meinst, weiß ich nicht. Hatte keine Einstellmöglichkeit.
Aber es ist gerade bei 30%. Ich melde mich/editiere diesen Beitrag, falls es Neuigkeiten gibt.


Vielen Dank für deine Hilfsbereitschaft! :3

- - - Updated - - -

Nachdem über eine Million Fehler aufgetreten sind, habe ich den Memtest abgebrochen, einen der beiden Riegel entfernt und erneut getestet.
Erneut Fehler.
Habe dasselbe mit dem anderen Riegel gemacht und ebenfalls Fehler.

Als Laie wage ich zu behaupten, dass das schlecht ist.
Da neuer DDR2-Ram gar nicht so günstig ist, schätze ich, ist es wohl sinnvoller neue Hardware anzuschaffen..
Könnte man an dieser Stelle mit Sicherheit sagen, dass das Mainboard stets funktionstüchtig ist oder noch risikobehaftet?
In meinen Augen ist das ein großer Zufall, dass irgendein Kühler auf dem Mainboard ausfällt und zur gleichen Zeit der RAM versagt - schließlich hat das NAS 2 Wochen vorher einwandfrei funktioniert.

Was wäre an dieser Stelle die sinnvollste Option um das NAS wieder (und zwar nicht degraded) in Betrieb zu nehmen?

Ach und vielen lieben Dank für den memtest-Hinweis! Ist nicht das erste mal, dass ich einen memtest durchführe, aber das erste mal, dass tatsächlich Fehler auftreten.
Hätte wohl ohne deine Hilfe nie defekte Speicherriegel gefunden.
 
Zuletzt bearbeitet:
Ja, sie fahren in Standby
Dann sollte das geklärt sein.

es handelt sich um ein Corsair CS550M, das vermutlich die neuste Komponente in dem Rechner ist :d
Das ist auch schon mal gut.

Ich betreibe das NAS gerade degraded mit 4 statt 5 Platten - sdf fehlt.
Da kann ich an den S.M.A.R.T. Werten aber nicht erkennen, wieso.
Wie kann ich denn die Logs von den ersten beiden Versuchen aufrufen?
Zuerst würde ich mal in /var/log/messages schauen, also mal ein grep md /var/log/messages*|more laufen und schauen was da erscheint.

Hatte mir damals eine 1,5TB-Platte von Seagate gekauft, als 1,5TB noch viel war. Nach 3 Wochen ist sie ohne Vorankündigung einfach gestorben.
Im Internet las ich von einem Firmware-Bug, unter dem alle 1TB und 1,5TB Platten litten. Ich hatte dieser Festplatte bereits 300GB an Daten anvertraut - ohne Backup.
Ja da hatte Seagate mal ein Problem, aber sowas gab es auch bei anderen Herstellern schon. Das eigentlich Problem war ja wohl das fehlende Backup und dafür ist man immer selbst verantwortlich, da gerade neue HDDs besonders ausfallgefährdet sind, vor allem wenn sie beim Transport nicht ordentlich behandelt wurden.
Ich nutze das Memtest86+ v4.20, das auf ner Linux-LiveCD enthalten ist. Was du mit 6 PASS meinst, weiß ich nicht. Hatte keine Einstellmöglichkeit.
Das kannst Du nehmen, einstellen musst Du nichts, lasse einfach laufen bis die Zahl unter PASS auf 6 gestiegen ist, oder eben Fehler auftreten.
Nachdem über eine Million Fehler aufgetreten sind, habe ich den Memtest abgebrochen, einen der beiden Riegel entfernt und erneut getestet.
Erneut Fehler.
Habe dasselbe mit dem anderen Riegel gemacht und ebenfalls Fehler.
Das ist nicht gut, da scheint das Board ein Problem zu haben, das könnte auch die Problem mit dem RAID erklären und so solltest Du das System nicht weiter benutzen.

Als Laie wage ich zu behaupten, dass das schlecht ist.
Ja, RAM Fehler sind ganz schlecht und können alle möglichen Probleme verursachen. Wenn Du richtig Pech hast, sind nun jede Menge Dateien auf dem RAID korrupt. Daher lege ich auch so viel Wert auf ECC RAM und jeder der seine Daten liebt, sollte das auch tun.
Da neuer DDR2-Ram gar nicht so günstig ist, schätze ich, ist es wohl sinnvoller neue Hardware anzuschaffen..
In die alte HW würde ich kein Geld mehr investieren, zumal es ja mit dem Board schon ein Problem gibt und wenn es bei beiden Riegel massiv Fehler gibt, besteht der Verdacht, dass die Ursache woanders ist und gar nicht unbedingt die RAMs selbst defekt sind. Die Einstellungen im BIOS sind auf Default? Oder hast Du da versucht noch etwas zu übertakten?
Könnte man an dieser Stelle mit Sicherheit sagen, dass das Mainboard stets funktionstüchtig ist oder noch risikobehaftet?
Mit Sicherheit kann man gar nichts sagen, dazu müsste man die RAM Riegel in einem anderen Rechner testen und ggf. andere Riegel die woanders fehlerfrei laufen in dem Board und danach ggf. noch mal im anderen Rechner.
In meinen Augen ist das ein großer Zufall, dass irgendein Kühler auf dem Mainboard ausfällt und zur gleichen Zeit der RAM versagt - schließlich hat das NAS 2 Wochen vorher einwandfrei funktioniert.
Die Überhitzung kann auch Folgeschäden verursacht haben. Bei dem S. 775 ist ja der RAM Controller noch in der Northbridge, also im Chipsatz und der ist ja zu warm geworden, wenn ich das richtig verstanden habe.

Was wäre an dieser Stelle die sinnvollste Option um das NAS wieder (und zwar nicht degraded) in Betrieb zu nehmen?
Solange Memtest86+ nicht fehlerfrei durchläuft, solltest Du das Linuc nicht hochfahren und am RAID nichts machen.

Ach und vielen lieben Dank für den memtest-Hinweis! Ist nicht das erste mal, dass ich einen memtest durchführe, aber das erste mal, dass tatsächlich Fehler auftreten.
RAM Fehler sind nicht so selten wie viele User glauben, google hat dazu mal eine Analyse gemacht, die nutzen aber ECC RAM und was dort als correctable errors auftaucht, bleibt ohne ECC RAM natürlich unentdeckt und führt ggf. zu einem Problem:
Also im Alter von 10 bis 18 Monaten traten oft erst zunehmend Fehler auf, daher ist es eben auch durchaus sinnvoll den RAM Test nicht nur am Anfang einmal zu machen, sondern auch mal zu wiederholen, spätestens wenn sich denn mal Probleme zeigen. Wobei der Zeitraum sich auf Dauerbetrieb bezieht, also auf 7300 bis 13140 Betriebsstunden, wobei bei Heimanwendern auch mal 3 bis 6 Jahre dauert so viele Betriebsstunden zu erreichen.
 
Ja, RAM Fehler sind ganz schlecht und können alle möglichen Probleme verursachen. Wenn Du richtig Pech hast, sind nun jede Menge Dateien auf dem RAID korrupt.

Kann ich das irgendwie überprüfen ohne alles mal anzuklicken? Irgendwie die Dateien mal mit einem MD5-Hash auf meinem NAS mit meinem (Teil-)Backup abgleichen? Ginge das, oder muss ich ohnehin mit unterschiedlichen Hashes rechnen?

Daher lege ich auch so viel Wert auf ECC RAM und jeder der seine Daten liebt, sollte das auch tun.

Ich habe mich auch mal nach ECC-Mainboards umgeschaut. Am liebsten Sockel 1151, damit ein günstiger und hübscher i3-6100 draufpasst (der auch ECC unterstützt).
(An dieser Stelle wollte ich noch einfügen, dass mein NAS auch als Server fungiert. Etwas mehr Rechenpower ist also nicht overkill)
Jedoch finde ich kein Mainboard unter ~250€, das 6 Sata-Anschlüsse hat und ECC.
Lediglich ECC-Unterstützung im Sinne von "kann man einschalten, aber keine Fehlerkorrektur".
Dein Vorschlag hat leider auch nur 4 Sata-Anschlüsse.

Gibt es denn kein ECC Mainboard mit 6 Sata-Steckern für unter 150€?


Die Einstellungen im BIOS sind auf Default? Oder hast Du da versucht noch etwas zu übertakten?

Ich habe ein paar wenige Änderungen gemacht. Beispielsweise versucht das Mainboard by default von Floppy zu booten und wenn es scheitert, muss ich mich F1 bestätigen, bevor es von einem anderen Medium probiert.
Das habe ich abgeschaltet - aber ich habe nichts übertaktet.


Im Moment tendiere ich eher zu DDR4 mit einem i3. So schön ECC auch klingt, es liegt im Moment ausserhalb meines Budgets.
 
Irgendwie die Dateien mal mit einem MD5-Hash auf meinem NAS mit meinem (Teil-)Backup abgleichen? Ginge das, oder muss ich ohnehin mit unterschiedlichen Hashes rechnen?
Das könnte man machen, aber erst wenn das RAM Problem behoben ist, jetzt müsstest Du sowieso mit falschen Hashes rechnen. Ob das sowieso passiert dürfte, wird davon abhängen wann das Backup erstellt wurde und wann das Problem mit den RAMs aufgetreten ist.

Jedoch finde ich kein Mainboard unter ~250€, das 6 Sata-Anschlüsse hat und ECC.
Ja die S.1151 Xeon Boards kosten noch richtig Geld und sind auch noch kaum bis gar nicht zu haben. Bin auch schon am überlegen was einen N54L ersetzen soll und habe auch schon ein Auge auf diese Xeon-D Boards geworfen, da ist ein 4 bzw. 8 Kern Broadwell schon dabei und ebenso zwei 10Gbit Ethernetports. Das kleine Boards gibt es für unter 600€ und die Xeon-D Familie wird noch ausgebaut, auch mit den neuen Pentium-D nach unten. Aber die Broads sind nicht gerade leicht zu bekommen und Du hast ja im Moment auch nicht wirklich viel Zeit.
Gibt es denn kein ECC Mainboard mit 6 Sata-Steckern für unter 150€?
Das Fujitsu D3417-B kostet noch viel mehr als die 150€, es soll von den Montagelöchern her angeblich in ein uATX Gehäuse passen, obwohl das Board ein wenig kleiner ist.

Sonst setze halt auf die älteren S. 1150 Xeons oder den Du nimmst halt ASRock C2550D4I mit dem Atom C2550 bzw. das ASRock C2750D4I mit dem Atom C2750 8 Kerner. Die Atom CPUs sind zwar viel schwächer als die Xeon-D mit ihren Broadwell Kernen, aber die Boards sind optimal für NAS und unterstützen ECC RAM. Dazu passt dann auch das SilverStone DS380, Mini-ITX (SST-DS380B) Gehäuse optimal und ermöglich es 8 3.5" einzubauen und zwar von außen zugänglich, nur mal als Anregung.

Die 4TB HGST Deskstar NAS kosten ja pro Stück auch mindestens 150€, das sind also alleine 750€ für die Platten, das muss der Rest eben auch was kosten dürfen, ein ordentliches Storage kostet eben mehr als man in Summe für die HDDs aufbringen muss.
aber ich habe nichts übertaktet.
Gut bzw. nicht gut, sonst hätte man ja vielleicht das Problem darüber schon beheben können.
So schön ECC auch klingt, es liegt im Moment ausserhalb meines Budgets.
Wie Du gerade nach der Erfahrung darauf verzichten kannst, verstehe ich zwar nicht, aber es sind ja Deine Daten.
 
Zuletzt bearbeitet:
Zuletzt bearbeitet:
Unter einem deiner Links versteckte sich das Asus P9DX.
Hat alles, was ich brauche, ECC und 140€. Sag das doch gleich! :P
Dazu einen i3-4170, der nur minimal schlechter ist als der i3-6100 und dazu "Kingston ValueRAM DIMM 8 GB ECC DDR3-1600", der auch in der Speicherkompatibilitätliste aufgeführt wird.

Ich finde das klingt vernünftig. Nicht wahr?

Vielen Dank für deine Hilfe!

- - - Updated - - -

Nachteil vom Fujitsu Board: kein IPMI/iKVM, ob vPro unterstützt wird, ist leider nicht ersichtlich >> somit nur "eingeschränkter" Headless (ohne Monitor, Tastatur, Maus) Betrieb möglich. Spätestens wenn da was nicht so funzt wie es soll, muss man Monitor, Tatstatur und Maus anschliessen

Zur Zeit würde ich noch eher auf So1150 mit Haswell setzen
z.B. ASUS P9D-MV (90SB03J0-M0UAY0) in Mainboards: Intel Xeon | heise online Preisvergleich
Mainboards: Intel Xeon | heise online Preisvergleich

Danke dir auch! Hab deinen Tipp eben erst gelesen - ich trödel manchmal bei Tippen.
 
kleiner Tip, der i3 4370 ist ca. 30 € teuerer, hat aber 3,8 GHz und den grösseren Cache (4 MB statt 3 MB)

Das Asus P9DX hat ASWM Enterprise, in wie fern das Vergleichbar zu IPMI/iKVM ist, kann ich nicht sagen, habe ich noch nicht unter den Fingern gehabt.
 
kleiner Tip, der i3 4370 ist ca. 30 € teuerer, hat aber 3,8 GHz und den grösseren Cache (4 MB statt 3 MB)

Das Asus P9DX hat ASWM Enterprise, in wie fern das Vergleichbar zu IPMI/iKVM ist, kann ich nicht sagen, habe ich noch nicht unter den Fingern gehabt.

Danke dir! Werd ich mir genauer anschauen.


Nochmal zu meinem DDR2-Arbeitsspeicher.
Habe doch noch ein herumliegendes Mainboard ausgegraben. Dort funktionieren die Ramriegel auch nicht. Beide ab ziemlich exakt 129MB bei Test #7 - Random Number Sequence (Vorher nicht), beginnt die unendliche Reihe der Fehler.
Das hält mich jetzt zwar nicht davon ab neue Hardware anzuschaffen, wollte ich aber dennoch in diesem Thread verewigen :d
 
Zuletzt bearbeitet:
Grüß euch,

neue Hardware ist inzwischen da - alles eingebaut, Memtest sicherheitshalber auch mal durchlaufen lassen und alles läuft wie am Schnürchen!
Rebuild ging auch einwandfrei durch und ich habe stichprobenhaft MD5-Checks durchlaufen lassen mit meinem "Backup" auf dem Ursprungsdatenträger - Ebenfalls makellos.

Vielen lieben Dank nochmals an der Stelle für die Hilfe!

Was ich allerdings noch fragen wollte: Ist es möglich, dass der Arbeitsspeicher erst beschädigt wurde, als die Northbridge überhitzte?

Ansonsten würde ich das Thema jetzt als 'gelöst' markieren, aber das scheint in diesem Forum hier nicht üblich zu sein - zumindest wüsste ich nicht wie.

Grüßle
 
Zuletzt bearbeitet:
Ja, RAM kann eben eine Weile halten und dann kaputt gehen (siehe #6) und außerdem ist ja bei dem alten S.775 der RAM Controller noch nicht in der CPU sondern in der Northbridge (siehe #6).
 
Ja, RAM kann eben eine Weile halten und dann kaputt gehen (siehe #6) und außerdem ist ja bei dem alten S.775 der RAM Controller noch nicht in der CPU sondern in der Northbridge (siehe #6).

Schon klar, hab den Post gelesen <3
Wollte nur explizit nachfragen, ob der RAM durch den Schaden an der Northbridge ebenfalls Schaden davon tragen kann.
Das würde die Wahrscheinlichkeit, dass alle meine Daten in gutem Zustand auf das NAS kopiert wurden, erheblich erhöhen - schließlich besteht die Möglichkeit, dass der RAM vorher in Ordnung war und nich schon seit Wochen beschädigt ist, richtig?
 
Zuletzt bearbeitet:
Richtig, die besteht und dann wären die Daten auf dem NAS auch in gutem Zustand. Du hast ja nun ein System mit ECC und das sollte man auch nicht als Freibrief nehmen auf ECC RAM (und die passende Plattform, sonst macht es keinen Sinn) zu verzichten, denn wenn es nicht aufgefallen wäre weil sich das RAID zerlegt hat, wäre der Rechner so vermutlich dann weiterbetrieben worden und was dann hätte passieren können.......
 
Richtig, die besteht und dann wären die Daten auf dem NAS auch in gutem Zustand.

Genau das wollte ich hören!

Du hast ja nun ein System mit ECC und das sollte man auch nicht als Freibrief nehmen auf ECC RAM (und die passende Plattform, sonst macht es keinen Sinn) zu verzichten, denn wenn es nicht aufgefallen wäre weil sich das RAID zerlegt hat, wäre der Rechner so vermutlich dann weiterbetrieben worden und was dann hätte passieren können.......

Ich will es mir lieber nicht ausmalen :P


So, dann ein letztes endgültiges 'vielen Dank' für alles!
Alle Probleme gelöst, alle Fragen beantwortet :d

Frohe Weihnacht & Grüßle!
 
Der Chipsatz vom Mainboard ist ein Problemkind!

Der hat damals für massive Probleme gesorgt.
Nicht unbedingt die beste Basis für eine stabile NAS.

Ich würde dir hier eine günstige Intel-Chipsatz-Lösung vorschlagen.
Es hat schon seinen Grund warum es keine nVidia Chipsätze mehr gibt, die können nur gute Grafikkarten bauen.
 
Nachteil vom Fujitsu Board: kein IPMI/iKVM, ob vPro unterstützt wird, ist leider nicht ersichtlich >> somit nur "eingeschränkter" Headless (ohne Monitor, Tastatur, Maus) Betrieb möglich. Spätestens wenn da was nicht so funzt wie es soll, muss man Monitor, Tatstatur und Maus anschliessen

http://sp.ts.fujitsu.com/dmsp/Publications/public/DS-D3417-B.pdf
Sieht für mich sehr ersichtlich aus. (wenn es denn die CPU kann...)
Ich werde über Weihnachten 2 in Betrieb nehmen.

Wobei ein richtiges IPMI schon die bessere Wahl ist.
Ich würde in dem Fall dann zu einem SM X10SLL greifen. Kostet dann aber 180Taler.
(Vertraue SM mehr als ASUS)

EDIT:
Digi-Quick schrieb:
Das Fujitsu D3417-B kostet noch viel mehr als die 150€, es soll von den Montagelöchern her angeblich in ein uATX Gehäuse passen, obwohl das Board ein wenig kleiner ist.
Jop, es ist ne Mischung aus normalem ATX und µATX.
 
Zuletzt bearbeitet:
Es hat schon seinen Grund warum es keine nVidia Chipsätze mehr gibt, die können nur gute Grafikkarten bauen.

Kein Grund zur Sorge, das alte nVidia Bord wurde bereits entsorgt! :3
Hat aber zumindest unter meinem Zepter bis zum jüngsten Tag zuverlässige Arbeit geleistet!
 
@underclocker.
das Board unterstützt halt "nur" iAMT und vPro, wobei das ganze dann wieder nur mit den Xeons funktioniert - wenn ich mich recht entsinne haben Celeron, Pentium und i3 kein vPro.

iPMI geht ganz einfach, vPro/iAMT habe ich nicht hinbekommen/überhaupt nicht verstanden - habe da irgendwie nur "Bahnhof" gelesen :)
Darüberhinaus gibt es auch keinen dedizierten Managementport, wie er bei iPMI fast üblich ist. (ob bei jedem Board weiss ich natürlich nicht)

Ein ASUS P9-D hatte ich schon hier, war ein feines Board - wr nur für den Verwendungszweck (Workstation) ungeeignet, da der Graafikchip wirklich nur "VGA" kann, keine directX Unterrstützung etc. (DirectX != Direct3D).
 
Zuletzt bearbeitet:
Xeon + Intel Sockel 1151 mit CPU Features: vPro Preisvergleich
Wer vPro + ECC will, dann nur XEON.

Wer also beides will, zahlt halt Premiumpreise. Da kann ein IPMI-Board + P oder i3 die preiswertere Wahl sein.

Hast(hattest) du das Board schon da? Ich habe bei mir etliche vPros (Q77 und Q87) am laufen. Eigentlich kein Thema, ist aber sehr fummelig. IPMI ist da die Plug&Play-Lösung.
Ja, bei dem Board ist das kein dedizierter Port. Bei meinen Q77 und Q87 ist aber der extra Port der Fall. (die nutze ich als miniESX-Server, bzw. als Clients bei meiner Familie)

Ich habe das FSC-Board genommen, weil ich es als WS und/oder HTPC nutzen will. Zugleich in einem passiv Case, was die RAM-Slots ins Spiel bringt.
 
Zuletzt bearbeitet:
Ein ASUS P9-D hatte ich schon hier, war ein feines Board - wr nur für den Verwendungszweck (Workstation) ungeeignet, da der Graafikchip wirklich nur "VGA" kann, keine directX Unterrstützung etc. (DirectX != Direct3D).
Diese Aspeed sind dafür auch nicht gedacht, die sind nur als Ausgabe für die Konsole bzw. meist remote über eben den Managmentport gedacht. Wenn Du eine Workstation machen willst, solltest Du die iGPU nutzen oder eine Graka verbauen. Die Workstationboards habe meist auch keinen Aspeed verbaut, dass ist nur bei Serverboards üblich. Workstations muss man ja auch nicht Remote verwalten können, da sitzt ja einer davon und arbeitet daran, was bei Servern eben meist nicht der Fall ist.
 
Zuletzt bearbeitet:
Welches ASUS P9D hast Du denn genau? Es gibt ja mehrere Ausführungen des P9D und für den Einsatz als Workstation wäre halt das P9D-WS das passende gewesen, worauf das WS in der Bezeichnung ja auch hindeutet. Das auch keinen Aspeed verbaut, wenn ich das richtig gesehen habe.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh