Board defekt? X9DR3-F

Steggi

Enthusiast
Thread Starter
Mitglied seit
31.12.2010
Beiträge
3.488
Nabend,

im Eventlog meines X9DR3-F sammeln sich seit einiger Zeit häufiger ECC Fehler

Extrembeispiel von letzter Nacht:
Code:
656	2017/07/09 00:58:14	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1) - Asserted
657	2017/07/09 00:58:18	OEM	Memory	Correctable Memory ECC @ DIMMA2(CPU1) - Asserted
658	2017/07/09 00:58:21	OEM	Memory	Correctable Memory ECC @ DIMMB2(CPU1) - Asserted
659	2017/07/09 00:58:26	OEM	Memory	Correctable Memory ECC @ DIMMB2(CPU1) - Asserted
660	2017/07/09 00:58:27	OEM	Memory	Correctable Memory ECC @ DIMMB1(CPU1) - Asserted
661	2017/07/09 00:58:30	OEM	Memory	Correctable Memory ECC @ DIMMB2(CPU1) - Asserted
662	2017/07/09 00:58:36	OEM	Memory	Correctable Memory ECC @ DIMMA1(CPU1) - Asserted
663	2017/07/09 00:58:37	OEM	Memory	Correctable Memory ECC @ DIMMB2(CPU1) - Asserted

Das mal ein einzelner auftritt, der dann korregiert wird, ist ja nicht ungewöhnlich, aber gleich auf 4 Slots und immer nur diese? Hab die 4 Module mal gegen neue getauscht, aber der Fehler bleibt.
Die beiden Prozis gegeneinander austauschen brachte auch nichts. Wäre der Speichercontroller in der CPU defekt müsste der Fehler ja theoretisch jetzt andere DIMM Sockel betreffen.

Gibts sonst noch was, was diese Fehler auslösen könnte? Ich kann die Fehler anscheinend auch nicht bewusst provozieren, da mal wochenlang Ruhe ist, und dann treten sie wieder in Massen auf.

Da das Brett inzwischen gute 4 Jahre alt sein dürfte, ist die Garantie ja schon rum. Oder ist Supermicro da öfters mal kulant?
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Vergiss die Garantie. Einen Mobo Fehler halte ich für unwahrscheinlich. Versuch mal ein anderes Netzteil. Und ganz vielleicht könnte ne neue Mobo Batterie helfen.
 
Die Batterie ist laut IPMI OK --> VBAT Normal 3.216 Volts

Kann ich aber die Tage mal tauschen bzw. mit nem Multimeter messen.

Das Netzteil, ein Seasonic SS-500L2U, ist grade mal ein halbes Jahr alt. Würde mich wundern, wenn das jetzt schon einen weg hätte, zumal auch hier im IPMI alles OK aussieht.

Code:
+1.1 V	Normal	1.088 Volts
+1.5 V	Normal	1.472 Volts
3.3V	Normal	3.264 Volts
+3.3VSB	Normal	3.36 Volts
5V	Normal	5.056 Volts
+5VSB	Normal	4.992 Volts
12V	Normal	12.19 Volts
VBAT	Normal	3.216 Volts

Muss mal schauen, ob ich irgendwo noch ein anderes Netzteil mit 2x8Pin hier rumfliegen hab, sonst muss ich hier nen größeren Umbau machen.
Ich meine aber, das Board hat damals im SC836 auch schon gerne mal rumgezickt...

Was sich leider durch den CPU Wechsel nicht behoben hat ist, dass der Server bei jedem Kaltstart erst einen Tritt Reset braucht, um nicht beim POST mit "System Initializing... 2F" stehen zu bleiben :( Angeblich deutet diese Meldung zwar auf Probleme mit dem RAM hin, da diese Meldung aber unabhängig vom verwendeten RAM auftritt und auch nur hier und nicht beim nahezu baugleichen anderen Host, muss ich wohl weiterhin damit leben. Aber wann ist das Rack bei mir mal ausgeschaltet :fresse2:
 
Das Netzteil ist eigentlich ziemlich gut, aber die Leistung scheint mir schon etwas knapp bemessen.
Ein ähnliches Board, ein Supermicro X9DRi-F, ist mir letztlich mitten im Betrieb nach einigen Jahren Dauerbetrieb gestorben - sowas kann es auch geben :(
 
Meinste? Die Kiste zieht unter Prime95 noch keine 340W aus der Dose, da halte ich die 500W eigentlich noch für angemessen.

Das X9DRi-F ist ja bis auf die fehlende SAS SCU baugleich mit dem X9DR3-F. Wenn das Brett direkt ganz abraucht, weiß man wenigstens, dass es im Eimer ist :fresse:

Immerhin, in den letzten zwei Tagen sind keine Probleme mehr aufgetreten, trotz teils mehrstündiger beinahe Vollast (Render-VM), allerdings auch ohne die vier DIMMs, die immer angemeckert wurden.
 
Ich hatte wegen der diversen HDDs (wie viele sind es denn?) mit mehr Verbrauch gerechnet. Wenn er nur max. 340W aus der Steckdose zieht, reichen 500W locker aus, zumal bei nem Seasonic. Mein X9DRi-F ist nicht ganz tot - IPMI geht noch. Aber auch darüber kann man es nicht mehr anschalten :(
 
Meins läuft ja ansonsten problemlos. Aktuell schon wieder seit knapp 2 Wochen, aber eben nur mit 128GB RAM und 12 von 16 DIMM Sockeln.

Inzwischen hab ich auch mal ne neue CMOS Batterie am Start. Ich werd die morgen mal tauschen und die 4 fehlenden DIMMs wieder einsetzen.

Physikalisch würden 12 Hotswap Platten in den Server passen, es sind aber nur 5 HDDs und eine SSD (fest verbaut) drin.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh