Server lahmt plötzlich

dako

Enthusiast
Thread Starter
Mitglied seit
14.02.2008
Beiträge
415
Hier läuft ein Server unter Server 2008 r2 64 mit einem RAID5 angebunden per Ethernet 1GBit (über eine Intel Dualportkarte und einen HP Switch) sowie eine Mellanox IB 10GBit Verbindung an einen Arbeitsrechner (und per 1GBit LAN noch mehrere andere Rechner.

Die Serverperformance beim SChreiben/Lesen auf das RAID war perfekt (ca. 100 MB/s über 1GBit Netz und ca. 350 MB/s über die 10GBit Verbindung).

Seit einiger Zeit besteht nun folgendes Problem:

Sowohl bei einem Zugriff über das 1Gbit las auch das 10GBit Netz ist bei ca. 40-50 MB/s Schluss. Geändert habe ich zu diesem Zeitpunkt nichts. Der zugriff von den anderen Rechnern über das 1GBit LAN lahmt ebenfalls.

Da es ja komplett getrennte Netze mit unterschiedlichen Netzwerkkarten und unterschiedlichen Kabeln sind und der Switch ja auch nur beim 1GBit Lan dazwischenhängt kann ich ein Hardwareproblem beim Netzwerk ausschließen.

Der Zugriff zwischen anderen Rechnern im 1Gbit Netzwerk ist dagegen ok.

Das RAID ist auch intakt, Zugriff vom Server selbst aus auf das RAID mit den gewohnten 500 MB/s und mehr.

Die CPU Auslastung ist sowohl beim Zugriff per 1GBit als auch 10Gbit LAN gering und nicht am Anschlag, der Speicher ist ebenfalls frei, auch hier keine Veränderung zu vorher (die Last ist beim 10GBit Zugriff auch noch geringer als vorher, da ja weniger übertragen wird).

Firewalls und Virenscanner habe ich testweise komplett deaktiviert: Keine Veränderung.

Treiber ersetzt durch aktuellere und dann auch mal ältere: Keine Veränderung am Problem an sich.

Die IB verbindung habe ich auch getestet mit ib_write und ib_send, die Werte liegen hier bei 780+ mb/s, die Verbindung ist also hardwaretechnisch absolut ok.

Es scheint, da ich faktisch alles andere ausschließen kann, irgendwie an der Windows bzw. Netzwerkkonfiguration des Servers zu liegen. Da habe ich mittlerweile aber alles durchgespielt, was es meiner Meinung nach durchzuspielen gab und auch hier irritiert mich, dass eben beide Verbindungen betroffen sind.

Vielleicht hat ja jemand noch eine Idee?! Danke!
 
Zuletzt bearbeitet:
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Kann es sein das deine Platten evtl. fast voll oder ca.70%+ sind?
Nein, daran kann es eiegntlich nicht liegen, das Problem tritt zudem auch dann auf, wenn ich z.B. vom Netzwerk auf eine RAM Disk zugreife. Zudem ist ja die Performance des RAIDs an sich völlig ok und nicht merklich verändert.
 
Kann es sein das der im Server verbaute Raid-Controller eine Cache Batterie hat und diese ihren Dienst eingestellt hat?
Kontrolliere das bitte, wenn ja dann ist das verhalten normal. -> Batterie austauschen
 
Eine BBU ist verbaut und diese ist ok. Mir ist auch nicht ganz klar, wieso bei nicht intakter BBU die verbiindung einbrechen sollte wenns übers LAN geht, aber nicht bei zugriffen direkt vom Server?! zudem besteht das Problem ja auch beim Zugriff auf z.B. eine RAM Disk.
 
Battery kann man ausschließen, da ist mir auch kein Fall bekannt.

Werf mal ein blick in den Ressourcenmanager und schau mal bei 'Festplatte' und 'Netzwerk'
nach den Prozessen mit der größten Schreib/Lese Rate und zwar im Leerlauf und während des Zugriffs auf das RAID.
 
Im Leerlauf ist keine Aktivität auf dem RAID vorhanden, im Netzwerk sind es so 4kb/s:
svchost.exe (termsvcs) 3,6kb/s
System
cmdagent.exe
svchost.exe (NetworkService)

Bei Zugriff vom Server auf das interne Raid sind es 627mb/s insgesamt verteilt auf:
DiskmarkX64.exe (um die Last zu erzeugen) mit ca. 627mb/s
System 11kb/s
svchost.exe (LocalServiceNetwork) 20b/s

Im Netzwerk ist alles unverändert zu eben, mit leichten Schwankungen.


Beim Zugriff von außen (Test auch mit Diskmark, das Problem zeigt sich aber mit allen Anwendungen inkl. normalem Kopieren) Aktivität aufs RAID:
System ca. 31mb/s
svchost.exe (LocalServiceNetwork) 9b/s

Und beim Netzwerk:
System mit ca. 31mb/s
svchost.exe (termsvcs) 6kb/s

Das wars.
 
Zuletzt bearbeitet:
Eine defekte bbu hat zur Folge das der Cache des Raid Controllers deaktiviert wird. Du verwechselt aber bbu nicht mit usv?
 
Eine defekte bbu hat zur Folge das der Cache des Raid Controllers deaktiviert wird. Du verwechselt aber bbu nicht mit usv?
Und wie soll das dafür verantwortlich sein, dass Lese und Schreibzugriffe vom Server selbst flott sind, aber über das Netzwerk nicht mehr die vorherige Leistung bringen? Ganz abgesehen vom Zugriff z.B. auf eine RAM Disk?!
 
Sind Jumbo Frames eingeschaltet? (Sollte an sein) Ist teaming von NICs eingerichtet und zusätzlich spanning tree aktiv? (Sollte vermieden werden - je nach Art des Teamings)
 
Sind Jumbo Frames eingeschaltet? (Sollte an sein)
Ist im Moment an, hatte es auch bereits ausgeschaltet probiert, beides führt zu obigem Problem, bzw. löst es nicht.

Ist teaming von NICs eingerichtet und zusätzlich spanning tree aktiv? (Sollte vermieden werden - je nach Art des Teamings)
Ja, beim 1GBit Netzwerk ist Teaming eingerichtet (mit einer Intel pro/1000PT mit 2 Ports). Was meinst du mit spanning tree, bzw. was du damit meinst weiß ich, aber wo kann ich es ein oder ausschalten? Für das 10GBit Netzwerk wird es aber vermutlich keine Lösung sein können, denn das ist ja eine Infiniband Direktverbindung, die völlig losgelöst vom Ethernet ist.
 
Spanning tree hat der Switch.

p.s. in den Treiber Optionen gibt es ein Tool, was testet, ob das Team richtig arbeitet. Ansonsten würde ich das Team mal auflösen und einen Anschluss alleine versuchen.
 
Zuletzt bearbeitet:
Spanning tree hat der Switch.

p.s. in den Treiber Optionen gibt es ein Tool, was testet, ob das Team richtig arbeitet. Ansonsten würde ich das Team mal auflösen und einen Anschluss alleine versuchen.

Ich komme derzeit aus der Ferne nicht auf den Switch, werde das aber nachreichen. Zu letzterem: Getestet ohne Teaming wurde bereits, keine Veränderung! Zudem betrifft das Problem ja auch das komplett abgetrennte 10GBit Netz (Mellanox IB Karten und Direktverbindung).
 
Dann kann das Teaming nicht Schuld sein. Einzige Idee meinerseits: Ist da vielleicht Malware am Werke? Hast Du ein Backup aus der Zeit vor dem Problem?
 
Ist da vielleicht Malware am Werke?
Kann ich nach bestem Wissen ausschließen.

Hast Du ein Backup aus der Zeit vor dem Problem?
Da Einspielen des ältesten Backups brachte keinen Erfolg, wobei ich aber vor einem Backup (bisher) nicht erst einen Performancetest laufen gelassen habe ... und das Problem ja nicht beim normalen Betrieb wirklich deutlich ins Gewicht fällt. Nur beim Videoschnitt fällt das schon merklich auf, der ist aber nicht alltäglich.
 
Ein älterer Systemsnapshot (Systemwiederherstellung) unter Windows wäre ggf. hilfreich.
Hat das Problem nicht gelöst, bzw. das Problem war dann schon vorhanden.

Siehe 1. Bild, Client Bildschirm, auf dem Server lief netio als Server und über das 1GBit LAN, das 10GBit Netzwerk habe ich auch schon getestet, siehe 2. Bild. Die beiden Netzwerke sind imho hardwaremäßig ok. Oder wie deutet ihr die Ergebnisse?

netio.jpg

perf_infi.jpg
 
Zuletzt bearbeitet:
Teste die IB-Strecke doch auch mal mit netio.
Die 1Gbit sehen bis auf das senden doch recht ok aus. Hast du ggf. einen Realtek-Chip onboard?
 
Die 10gbit Verbindung ist auch OK. Es werden Intel NICs verwendet. Die onboard Chips sind unter Windows deaktiviert.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh