Windows Server 2012 Standard / WHEA-Logger Warnung 23 / ECC-RAM Problem ?

Shinma

Neuling
Thread Starter
Mitglied seit
07.09.2008
Beiträge
14
Moin,

Ich hoffe Ihr könnt mir helfen. Ich habe mir gerade einen neuen Server zusammengeschrabt;

- Intel Xeon 1225v3
- Supermicro X10SAE
- Adaptec RAID 71605E
- 6x WD RED (RAID10)
- 16 GB Kingston DDR3 1600MHz ECC-Kit (4x4GB)
- Samsung SSD 840 Pro 128GB (System Platte)
- Windows Server 2012 Standard 64-Bit

Die genaue Warnung in der Windows Ereignisanzeige lautet:

WHEA-Logger Ereigniss-ID: 23
Komponente: Arbeitsspeicher
Fehlerquelle: Generisch
Fehlertyp: Einzelbit-ECC

Die Meldung kommt alle Paar Minuten, manchmal alleine aber manchmal auch drei in der selben Sekunde.
Es scheint egal zu sein ob ich gerade was aktiv mach oder der Server Idle ist.

Was heißt das für mich der gerade alle Daten von der alten NAS (Synology) rüber kopiert ?

Ich hoffe Ihr könnt mir helfen und DANKE DANKE im Vorraus !
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Dann greift wohl ECC und eins (oder mehrere) der Memory Module scheint hinüber zu sein. Könnte aber auch simpel nur ne Inkompatibilität sein.

Ich würde als erstes mal die Riegel durchtesten. Sprich jeweils paarweise immer nur zwei stecken und dann mal die Bänke durchtauschen auf alle möglichen erdenklichen Kombinationen. So bekommst du raus, ob alle Riegel betroffen sind, oder nur einer/zwei. Und du bekommst raus, ob ggf. die CPU einen "Schaden" hat, weil nur einer der beiden Speichercontroller diese Meldungen ausspuckt.

Blöd ist aber, das du schon auf S1150 bist. Denn da sieht es noch eher mau aus, mit der allgemeinen "Bekanntheit" von möglichen Fehlern oder Inkompatibilitäten :(
Die Kingston Riegel stehen beispielsweise nicht! auf der Kompatibilitätsliste von SuperMicro. (wo so ziemlich gar kein Riegel aktuell steht)

Kingston selbst gibt diese Riegel frei für das Board:
Speichersuche | Kingston
Sind deine da zu finden?
 
Danke für die Antwort !

Habe eben einfach Mal die BIOS-Defaults geladen und zwei von Vier Modulen rausgenommen = Keine Fehler mehr !
Die einzelnen BIOS-Bausteine heißen KVR16E11K4/16I Sehe ich das Falsch oder sind das nicht genau die empfohlenen Module (nur eben als ViererPack) ?
 
jupp, die scheinen drauf zustehen...

Und mit zwei Modulen sind die Fehler weg?
Wenn du nun diese beiden ziehst und die anderen beiden steckst -> Fehler ja oder nein?
 
In den Logs steht etwas von Speicherfehlern. Was macht man dann wohl zu erst? Finger in Po Mexiko? Spaghetti in Lauch-Hack-Soße? Microsoft anrufen? ...

Genau, das, was man auch direkt nach dem Bau des Servers hätte tun sollen: Einen Memtest!
Amateure, tztz! :p

Memtest86+ - Advanced Memory Diagnostic Tool
Mindestens zwei Pass durchlaufen lassen, dauert ein paar Stunden je nach Speichermenge.
Kannst gleich die 500rc1 verwenden:
Index of /download/beta/500rc1

Wenn ein Fehler gefunden wird kannst du in der Regel anhand der Angaben auch sehen um welchen Slot es sich handelt, wenn das nicht weiter hilft muss man sich halt durch probieren. Das geht am einfachsten in dem man immer "durch Zwei teilt". Sprich wenn man 8 Riegel hat beginnt man mit 4. Wenn die keine Fehler zeigen steckt man 2 dazu. Und so weiter. Umgekehrt natürlich genau so: Sobald es mit 4 Fehler gibt nimmst du 2 raus.
 
Zuletzt bearbeitet:
@GrafikTreiber
findet der Memtest auch ECC Fehler? Weil das sind ja "noch nur" Major Meldungen.
 
Die ECC-Fehlerkorrekturen geschehen ja in der Regel da durch dass der Speicher defekt ist. Ich halte hier einen Defekt eines RAM-Moduls oder eine falsche BIOS-Einstellung für am wahrscheinlichsten.
Für dein System brauchst du wohl auf jeden Fall die 500rc1, die alten Release-Versionen werden wohl den Chipsatz nicht richtig erkennen.

Neue Rechner sollte man immer direkt nach der Assemblierung mit Memtest prüfen, bevor man das Betriebssystem installiert. Das tun alle namhaften Hersteller so.

In der "PC-Manufaktur" meines ehemaligen Arbeitgebers in der hauptsächlich Individual-PCs gebaut wurden zeigte etwa jeder 20ste Neubau Speicherfehler. Natürlich waren die Module nicht immer defekt sondern manchmal einfach nur das Mainboard zum Arbeitsspeicher nicht kompatibel. So etwas passiert halt wenn man keine Stangenware produziert. Nur mal damit ihr ein Gefühl für die Wahrscheinlichkeit von Speicherfehlern direkt nach dem Zusammenbau bekommt. ;)
 
Zuletzt bearbeitet:
ja das schon klar, ich meinte eher, ob der Memtest ECC korrigierte Fehler überhaupt reportet... ;)
Wenn er das nämlich nicht macht, dann sieht es im Memtest alles gut aus.
 
Windows bekommt es doch auch mit wenn ECC einen Fehler korrigiert. Selbiges geschieht auch bei Memtest86+.
Also die Antwort auf deine Frage ist "Ja". ;)

So sieht das das in etwa aus falls ein Fehler gefunden wird:
408105d1303991164-problemfindung-memtest1.jpg memtest.png 7.gif

In Bild 3 sieht man diesen Part namens "ECC Correctable Errors" auch.
 
Zuletzt bearbeitet:
Bei allen drei Screens ist aber ECC Off ;)

Wie gesagt, ich wäre mir da nicht so sicher, das man das sieht... Ich hab schon einige Systeme gehabt, die halt ECC Errors einfach korrigiert haben und man bekommt das gar nicht mit. -> es sei denn, der Host reportet es irgendwie zum OS.
Beispielsweise schicken unsere Fujitsu Server alle über das IRMC Board die Mails bei ECC korrigierten Fehlern. Wärend der installierte ESXi Server davon nicht unbedingt was mitbekommt.

Aber sei es drum, Memtest kann schon definitiv mal nich schaden, mal schauen was bei raus kommt ;)
 
Das sind ja auch einfach zufällige Screenshots die ich via Google Bildersuche gefunden habe.
Die Anzeige ECC ist Off sagt nichts aus und ist nicht für die Funktionalität des Tests erforderlich.
pugetsystems.com - How to Check ECC RAM Functionality
If Memtest detects that ECC is working, it will simply show "On" in the ECC column. If it shows "off", this does not mean that ECC is not working, but rather that Memtest does not detect ECC for your chipset and you need to try one of the other methods to determine if ECC is working properly.
Egal ob dort On oder Off steht. Auch mit ECC Off werden dort Speicherfehler erkannt. Glaub mir einfach, ich hab es einfach schon sehr oft gesehen. ;)
Memtest86+ wird von vielen IT-Systemhäusern in der Fertigung und Wartung verwendet und ist auch auf vielen Linux-Installations-CDs enthalten, z.B. bei Ubuntu und gilt es "der Standard" für Speichertests.

Edit:
Wie ich gerade gesehen habe hat Passmark nun die Entwicklung übernommen, neue Versionen gibt es nun auf
http://www.memtest86.com/
In Feb 2013, PassMark Software took over the maintenance of the project from Chris. We have recently added an option to purchase a pre-made USB flash drive and also created a support forum where users can discuss issues. The MemTest86 code remains open source.

Es sagt oben auch "Memtest86 The original industry standard memory diagnostic utility". :fresse:
Das ist eine gute Sache, ich hoffe nun kommen Chipsatz-Updates schneller da nun eine Firma dahinter steht.
 
Zuletzt bearbeitet:
Ich glaub dir schon ;)
Muss aber gestehen, bis dato nie Fehlerhaften ECC RAM mit Memtest gegengeprüft zu haben. Da idR die ILO/IRMC oder sonstigen Management Interfacen vorher schon die Fehler reportet haben :fresse:
Ich weis nur, das meine definitiv defekten FB-Dimms im Memtest auch nach mehreren Tagen Dauertest keine Fehler ausspucken -> obwohl mehrere Server den Speicher als defekt erkennen :( Daher meine Zweifel.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh