Server Hardware Fehler eruieren - vSphere

AliManali

cpt sunday flyer
Thread Starter
Mitglied seit
07.03.2012
Beiträge
4.627
Ort
Ostschweiz
Hi

Ich habe da (seit ewigen Zeiten) ein Problem mit meinem Server. Der macht eigentlich alles was er soll. Ausser kopieren über Netzwerk, da friert er gerne mal ein. Des Weiteren ist wohl der Switch involviert, da entweder der Server den Switch mit in den Tod zieht, oder umgekehrt. D.h., wenn ich z.B. ein Backup von 200 GB einer VM machen möchte, dann geht der Server down (selbst die Hardware Konsole am ESXi ist eingefroren), und zu dem Zeitpunkt nimmt es auch den Switch mit. Da ist dann gar kein Netzwerk mehr am Switch verfügbar, welcher hinter einer Zywall 110 hängt. Der Server und der Switch reagieren dann einfach nicht mehr.

Das Netzwerk siehst Du hier:

Netzwerk vSphere

Wenn ich einfach Last mit den VM’s erzeuge, z.B. 5 Windows VM‘s gleichzeitig starte, dann macht das dem Server gar nichts aus. Nur kopieren über Netzwerk ist das Problem, so wie ich das sehe.

Ich habe da schon diverses ausprobiert, um den Fehler zu finden. Ich habe schon die Quad Port NIC getauscht. Dann hatte ich die Southbridge des Boards im Verdacht. Ich habe jedoch neulich einen HBA eingebaut (im IT Mode geflasht und an ein NAS OS durchgereicht); der Fehler besteht weiterhin. Ausserdem habe ich einen neuen CPU Kühler montiert, und alle Ventis ausgetauscht. Auch die GPU und Netzteil vom Server wurde schon getauscht.

Der Server ist ein total unsupportetes X79 Desktophardware System mit 64 GB RAM. vSphere ist soweit aktuell, wobei ich habe das Problem wie gesagt schon ewig.

Ich habe einen USB Stick mit vSphere drauf. Dann hängt dort eine kleine lokale SSD am Chipsatzcontroller, wo die beiden Filer drauf sind. An eines dieser NAS OS hängt eine VMDK an sozusagen allen Netzen (z.B. LAN, DMZ, LAN2) am ASMedia vom Board, als Netzwerk Zwischenablage für alle VM‘s. Am zweiten NAS OS am durchgereichten Dell Perc H310 HBA (nas4free) hängen einerseits eine 2 TB Consumer SSD für die VM’s, andererseits zwei 6 TB WD Gold. Die beiden Festplatten haben je einen SMB Share (Daten), die SSD wird dem ESXi per NFS zur Verfügung gestellt.

Ich habe nun eine kleine SSD zur Verfügung. Der Plan ist, die Mal in den Server einbauen, und dort ein Windows 7 zu installieren. In dem Windows kann ich dann mal Prime laufen lassen, den Arbeitsspeicher überprüfen, und so was. Weil ich glaube, das ist irgendein Problem mit dem Board/der CPU/dem Speicher.

Ach ja, die %RDY und #CSTP Werte sind auch ok.

Nur bin ich etwas unschlüssig, wie ich das bewerkstelligen soll. Muss ich da den HBA-, und den onboard SATA Controller abklemmen für die Tests? Ich muss ja dann auch kopieren auf Datenträger testen, habe leider aber nicht unbeschränkt Hardware zur Verfügung. Wär also schön, wenn ich das irgendwie mit der aktuellen Serverhardware testen könnte.

Bevor ich anfange, den Server zu zerlegen und testen: hat da einer grad noch ein Tipp dazu auf Lager, wie ich das am besten mache?

Gruss und Danke!
 
Zuletzt bearbeitet:
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Ohne mir jetzt seitenweise Details durchzulesen: ist eine Ethernet Loop auszuschließen? Wenn ein Server einen Switch abstürzen lässt, hört sich das für mich so an.
 
Oder mal schauen: Server MTU 9000, Switch 1500? Irgendwelche Leitungen gebündelt? Welche SSDs genau hast du drin? Was sagen die Logs vom ESXi (bei mir erzeugte eine SanDisk SSD lustige Fehler, die hat der ESXi ab und an „verloren“, Schreibfehler usw.)?
 
Ohne mir jetzt seitenweise Details durchzulesen: ist eine Ethernet Loop auszuschließen? Wenn ein Server einen Switch abstürzen lässt, hört sich das für mich so an.

Leider kein Plan. Mein Netzwerk ist arg versifft. Ich weiss ehrlich gesagt auch nicht genau, was Du damit meinst. Auf dem Switch liegen drei vLAN’s an, welche mit dem Server (2x vLAN), dem Desktop (1x vLAN), und zwei weiteren Clients verbunden sind.

Wie gesagt, das Ethernet sieht man hier auf Seite 4

Oder mal schauen: Server MTU 9000, Switch 1500?

Ich habe auch hier keinen Plan. Ich habe leider im Moment grad keinen Zugriff auf den Switch, da alle meine Clients in vLAN’s hängen. Aber da ist in vSphere und am Switch alles auf default.

Irgendwelche Leitungen gebündelt?

Nein.

Welche SSDs genau hast du drin?

SSD:

  • Eine 850 Evo 2 TB für die VM's an dem HBA (durchgereicht an den ersten Filer, per NFS weiter an vSphere)
  • Kingston UV400 Kit 120GB für die beiden Filer (am X79 Chipsatz Controller)

Des Weiteren:

  • 2x 6 TB WD Gold HDD durchgereicht am HBA
  • 1x 2 TB WD RE4 lokal als VMDK am ASMedia vom X79 Controller an allen vLAN's am zweiten Filer
  • 1x USB Stick mit vSphere drauf


//**

Wie auch immer. Ich klemme jetzt alle Platten ab und installiere auf einer weiteren SSD Windows 7. Dann bench ich da, und schau mal, ob CPU/Speicher/Board auszuschliessen sind. Weil ich vermute das Problem eher dort. Ich reparier jetzt endlich mal meinen Server. Der wär echt sexy, wenn er laufen würde…

**//
 
Zuletzt bearbeitet:
Hi

Ich habe jetzt mal alle Platten abgeklemmt, und eine SSD mit einem Windows drauf angeschlossen zum testen. Gestern Nacht habe ich Mal Prime95 v26.6 build3 (letzte Version ohne AVX) etwa eine Stunde rödeln lassen, bzw. den Blend Test, lots of RAM tested. Prime macht da keine Fehler, allerdings wird die CPU recht heiss, für ohne AVX (stabil um die 90°).

Verbaut ist eine 3930k CPU mit einem Alpenföhn Ben Nevis (14.10cm) Kühler. Ausserdem habe ich ein selbst gebasteltes Mod BIOS mit dem aktuellen uCU für Spectre II auf meinem Board (Gigabyte GA-X79_UD5). Allerdings habe ich die Fehler auch mit dem anderen BIOS (aktuelle Version F12).

Dann habe ich Memtest v5.01 laufen lassen, weil ich trotz des fehlerfreien Runs von Prime95 den Speicher im Verdacht hatte. Und siehe da: schon nach wenigen Sekunden memtest gibt es zahlreiche Fehler (siehe Screenshots im Anhang). Verbaut ist folgender Speicher (2x Quad Kit, 64 GB insgesamt):

Corsair Vengeance LP (4x, 8GB, DDR3-1600, DIMM 240)

Ich habe das XMP Profil im BIOS deaktiviert, und lasse jetzt alles auf default laufen. Aber memtest macht weiter viele Fehler (siehe Anhang).

  • Kann mir einer sagen, wie ich den Speicher im BIOS einstellen muss, damit der sicher läuft?
  • Brauch ich für die Virtualisierungsgeschichten AVX? Meine CPU unterstützt nur das normale AVX. AVX2 und AVX-512 gab es damals bei Sandy-E noch nicht. Verschlüsselt ist da am Server nichts grossartiges, eventuell ein Vera Crypt Container würde ich am durchgereichten HBA mal einrichten. Soll ich den Prime95 Stresstest mit einer AVX Version wiederholen?
  • kann theoretisch auch die CPU einen weg haben, bzgl. der RAM Fehler? Der Memory Controller sitzt ja in der CPU seit X58... CPU zum tauschen hätte ich da, mache ich aber nur ungern, da ich dann meinen Desktop noch zerlegen müsste.

Was etwas komisch ist, dass der Server soweit gut funktioniert. Da kann ich 15 VM's gleichzeitig in Betrieb haben, und an mehreren Windows Gästen gleichzeitig Updates ziehen, oder mehrere VM's neu starten. Das einfrieren des Hosts gibts wirklich nur beim kopieren von grossen Files (ab ca. 50-100 GB).


Gruss und Danke!


20180501_192948.jpg

20180501_193241.jpg

20180501_193732.jpg
 
90 Grad @ Stock-Frequenz? Das wäre viel zu viel. Da wage ich fast zu behaupten, dass der Kühler nicht richtig drauf ist/verrutscht ist/die WLP mehr isoliert als das sie die Wärme weiterleitet.

Ist das Ding über all die Jahre mit solchen Temps gelaufen? So ein Burn-In-Test würde den Alterungsprozess stark beschleunigen.
 
Zuletzt bearbeitet:
Ja, läuft @stock. Allcoreturbo auf 3.8 ist glaub ich per dafault an bei dem Board. Ist halt nicht so ein riesen Kühler, den habe ich aber erst gerade getauscht. Ich glaube, die Sandy-E sind halt ein wenig Hitzköpfe. Die CPU hat auch nicht getrottlet beim Prime run, und wird im Alltag im Server nie diese Last haben. Ich habe da im BIOS alles auf automatisch bei der CPU.

Auch meine zweite Sandy-E im Desktop macht solche Temperaturen bei Volllast, dort hängt eine 240er AIO drin. Die hat aber leider eine abartig hohe VID (1.316V).

Ich muss dazu sagen, dass ich nicht so der Overclocker bin. Mir läuft alles @stock.
 
Entweder du entschärfst die Timings vom RAM noch etwas oder du gehst mal von 1600Mhz auf 1333 herunter und testest dann nochmal. Da du alles im BIOS auf Auto hast, sollte theoretisch keine Unterspannung anliegen. Das BIOS gibt meist eher mehr als nötig.
 
Hi

Ich hatte da ein riesiges hin und her. Ich könnte jetzt einen Roman dazu schreiben, aber ich fasse mich kurz. Da waren irgendwelche Overclocking Settings aktiv, bzw. am IO Panel hat es ein overclocking Button. Ich habe jetzt beide BIOS resetet (Aktuelles von Gigabyte Seite sowie Mod BIOS mit Spectre Patch), und dann mit und ohne den OC Button getestet.

Das BIOS ist eine rechte Zicke. Im BIOS Monitor wurden die eingestellten Settings korrekt angezeigt. Im Windows Taskmanager wurden (werden) aber wilde Werte zum Basistakt angezeigt. Anfangs hatte ich auch in CPU-Z, hwinfo64 und coretemp als maximalen Multiplikator 59 drin. Nun wird einfach noch im Windows Taskmanager 100 x 59 angezeigt, die anderen Programme zeigen nun den korrekten Multi (32-35, bzw. 38). Der RAM läuft jetzt auch mit den spezifizierten Settings (10-10-10-29@1600MHz). Die CPU scheint aber immer mit non OC standard Turbo gelaufen zu sein. Aber irgendwie meldet das BIOS dem Windows einen maximal möglichen Turbotakt von 59, statt 38-36-36-35-34 o.ä.

Das sieht im Taskmanager jetzt halt komisch aus:

uCU713_OC_OFF_Prime.jpg

Die Kiste läuft jetzt unter Windows aber sauber. Ich kann den Prime Torture Blend Test ausführen, und nebenbei hunderte GB Daten verschieben. Auch mit allen Quad Port Karten geht das.

Wegen der Anzeige von 5.9 GHz im Taskmanager: ich hatte die Windows Installation in Verdacht, da ich die SSD mit einem installierten Windows aus einem anderen Rechner einfach umgestöpselt habe. Das kann ich aber ausschliessen, da ich jetzt extra noch ein aktuelles Windows frisch aufgesetzt habe.

Kann mir einer sagen, an was das die fehlerhafte Anzeige im Windows Taskmanager liegt, bzw. wie ich das noch beheben kann, bevor ich die Serverhardware wieder einbaue?
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh