Server hängt sich auf - und das ganze Netzwerk gleich mit

H_M_Murdock

Urgestein
Thread Starter
Mitglied seit
29.10.2007
Beiträge
8.838
Ort
München
Hallo zusammen,

ich hab ein ganz besonders interessantes Problem:
Nachdem mein Backupserver letzte Woche die Krätsche gemacht hat (Absturz beim Backup auf Band mit Parity Error auf dem PCI-X Slot in dem der SCSI Controller steckt) und dann nimmer an ging hab ich den Wechsler an meinen Fileserver gesteckt (der hat SCSI Onboard) und dort die Software installiert (Symantec Backup Exec 2010).

Config vom Fileserver sieht folgendermaßen aus:
Asus TR-DLS
2x Pentium III 1,4 GHz
4 GB RAM (ECC Reg.)
Intel Pro/1000 MT Server
3Ware 9550SX-16ML
2x SCSI Onboard (ein Kanal über Slotblech raus geführt)
HP SureStore 1/8 LTO Autoloader
Windows Server 2008
Backup Exec 2010

Beim Backup (Daten liegen lokal) hat sich der Server dann aufgehängt (kein Bluescreen, eher ein Freeze), das ganze später wieder.
Das schieb ich jetzt mal aufs Backup Exec, ist mir heut Nacht nämlich wieder passiert und da hing kein Wechsler mehr dran. Vorher war nie was in der Art und ich betreibe das System schon sehr lange.
Hab jetzt die Backup Exec Dienste mal alle gestoppt und feg das heut Abend von der Platte.

Was mich aber gewundert hat:
Solang der Server hing ging im Netzwerk gar nichts. Als würden die Switches hängen.
Die Server hängen an nem HP ProCurve 1810G-24, meine beiden Clients an nem 1800-8G der an ersterem hängt.
Meine Clients waren aber weder untereinander über den kleinen noch sonstwohin über den großen Switch dazu in der Lage zu kommunizieren.
Der betroffene Server übernimmt aber keine fürs Netz lebenswichtigen Aufgaben wie DHCP, DNS oder WINS, das macht der DC der vom Ausfall selbst nicht betroffen war.

Meine fast noch größere Sorge als die warum der Server hängt ist warum die Switches so anfällig reagieren.
Wäre es evtl. denkbar dass der Server sie durch die Flow Control komplett ausbremst?

Das ist mir ein Rätsel.
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Ich hatte mal so ein Problem in meinem Cluster. Da sendete ein abgestürzter Rechner unkontrolliert Pakete ins Netzwerk und legte somit alles lahm. Kannst ja mal bzgl. "broadcast storm" googeln. Die meisten Switches (Deiner auch) haben für sowas Einstellungen wie "network storm control", wo man die Datenrate begrenzen kann.
 
Ja ich glaub das isses, hab auf den 1810ern mal die Storm Control angeworfen.
Auf dem 1800er kann ich nur manuell Limits setzen, hab ich jetzt erstmal gelassen weil die potentielle Fehlerquelle eh am zentralen 1810G-24 hängt.

Interessant ist dass der ProCurve 1810G und der 1800er unterschiedlich arbeiten:
Die Storm Control beim 1810G filtert ab einem gewissen Grad verbrauchter Bandbreite des Ports, der 1800er dagegen filtert nach einer gewissen Anzahl Broadcasts oder Multicasts pro Sekunde.

EDIT:
Mein Server stürzt immer noch hin und wieder ab, kein Plan warum.
Die Ereignisanzeige weist an der Stelle immer eine größere Lücke auf.

Ggf. setz' ich ihn die Tage einfach mal mit Windows Server 2003 neu auf, seitdem 2008 drauf ist gefällt er mir eh nicht mehr so gut.
 
Zuletzt bearbeitet:
interessant wäre das ganze mal zu monitoren... Sprich auf nem/dem Client mal ein Wireshark mitlaufen lassen. Ggf. gar auf zwei Clients, welche über den "Umweg" Coreswitch verbunden sind. Und dann mal versuchen wärend der Hängerphase den Traffic zu analysieren.

Es kann an der Stelle so einiges an Anfälligkeiten geben, ohne zu wissen, wie die Konfig ausschaut, wäre es nur reinste Spekulation. Ich könnte mir beispielsweise auch vorstellen, das QoS dir die Datenpakete wegschmeißt, weil der hängende Server irgendwie das LAN mit höher priorisierten Paketen zuspamt.
Genau so hast du ja beispielsweise bei Multicast das Problem, wenn der Switch das nicht "blocken" (IGMP Snooping) kann es dir eben zu Problemen kommen.

Was mich aber wundert ist das Fehlerbild, rein von logischer Betrachtung sollte da nämlich kein Zusammenhang bestehen...
 
Ja an nen Sniffer hatte ich auch schon gedacht.
Mich wundert halt dass solche Probleme bevor der Autoloader dran hing und Backup Exec drauf war nie bestand, inzwischen ist beides weg und die Abstürze noch da.
Denk ich reinstall die Kiste echt am WE mal aber evtl nehm ich mir vorher mal die Zeit und mach das mit dem Sniffer wenn das Problem wieder auftaucht.

Gesendet von meinem HTC One X mit der Hardwareluxx App
 
Wäre zumindest gut. Gerade was die Clients an Paketen rausschicken (wenn Kommunikation zwischen diesen Stattfindet) und was am anderen Ende noch ankommt wäre interessant.
 
Es wird immer schlimmer, jetzt ist die Kiste teilweise kaum ein paar Minuten an und hängt sich auf mit dem beschriebenen Verhalten.
Ich hab das Gefühl dass nur die Onboard Schnittstelle diese krassen Paketstürme loslässt, wundert mich umso mehr dass die den Switch down bringt weil die nur 100 MBit/s kann.

Hab die Kiste jetzt mal vom LAN abgeklemmt und wenn ich bevor ich mich heut Abend dran setz sie neu aufzusetzen noch Bock hab spiegel ich mal den betroffenen Switchport und häng mich mit Wireshark dahinter dann bin ich mal gespannt was raus kommt.

EDIT:

Ich hatte die Kiste jetzt mal neu installiert am vorletzten WE.
Windows Server 2003 SP2, kein Backup Exec mehr drauf, nur der Backup Exec Agent.
Lief jetzt auch gut bis heute Nacht, dann wieder das gleiche. System freeze, Netzwerk ging heut früh noch, heut Nachmittag nimmer, also auch da wieder tot.
Storm Control hat aufm Switch leider nichts geholfen, aufgehängt hat sich der allerdings nicht, sobald der Server resettet war ging's LAN auch wieder.

Hab den Backup Exec Agent jetzt wieder runter, probier das Backup mal über die Freigabe. SQL kann er dann halt nicht ohne Umwege sichern aber das soll jetzt im Moment auch mal nicht das Problem sein.
Ich befürchte ja allmählich dass es an der Hardware liegt, ist ja nicht mehr die jüngste.
IntelBurnTest lief aber zuletzt noch fehlerfrei durch, denk ich werd trotzdem nochmal was in der Art testen und mir ggf. mal das Board anschauen obs nen Elko zerrissen hat oder so.
Memtest schadet sicher auch mal nichts, wobei ich bei sowas eher mit nem Bluescreen rechne als mit nem Freeze.

Hab leider nicht wirklich Ersatzhardware da in die mein SATA-RAID-Controller (PCI-X) passen würde. Am ehesten noch nen HP DL560 G1 aber da drin krieg ich natürlich keine 12 SATA Platten unter.
Mal sehen wie's weiter geht, ich wart jetzt erstmal den nächsten Freeze ab und mach das letzte Backup das dank des Absturzes abgebrochen wurde nochmal von vorn.

EDIT 2:
Ich hab jetzt sowas wie nen Bluescreen ("Systemabbruchfehler"), wenn ich daheim bin such ich die genaue Meldung mal raus. Endlich steht was verwertbares im Eventlog.
Hab gestern Abend schonmal flüchtig recherchiert und komm immer mehr zu der starken Vermutung dass die Hardware nen Schaden hat was bei dem Alter kaum verwunderlich ist.

Ggf. nehm ich mir die Tage mal die Zeit das Board raus zu holen und es ohne RAID Controller und Platten und an nem anderen NT zu testen.
Registered SD-RAM hätte ich zur Not ja auch noch ersatzweise rumliegen.

EDIT 3:
Ich hab das Problem denk ich auf einen defekten RAM Riegel eingrenzen können, der ist jetzt raus geflogen und das System wieder zusammengebaut. Mal abwarten was sich in den nächsten 1-2 Wochen tut.
 
Zuletzt bearbeitet:
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh