Konzept für virtuelle Maschinen (+ Storage)

Knogle

Enthusiast
Thread Starter
Mitglied seit
03.05.2014
Beiträge
2.821
Ort
Aix-la-Chapelle
Hallo Freunde.

Aktuell habe ich mir einen kleinen Server mit einem ASRock EPYC8D-2T Board, + EPYC 32 Kerner gebaut inkl. 256GB REG ECC RAM.
Das ganze sollte mein ASRock Rack X470 ablösen mit einem Ryzen 1700 (Als Storage), als auch ein dual Sockel 1366 System mit Xeon X5650 und 92GB REG ECC DDR3 RAM für Virtualisierung.
Leider bin ich um ehrlich zu sein nicht wirklich zufrieden mit meinem aktuellen Setup.
Ich habe 3 verschiedene Boards testen müssen, bei jedem gibt es in irgendeiner Form Instabilitäten weil es leider keine Firmware Updates mehr gibt.

Zuvor habe ich ein Supermicro Board für meinen EPYC genutzt, dort konnte ich aber keine meiner NVMe SSDs betreiben da es dann immer zum "freeze" der SSDs kam laut Kernel Log, und das System immer nach ein paar Minuten neugestartet ist.
Bei meinem ASRock Board habe ich das Problem sporadischer "PCIE #SERR" Meldungen, bei denen das System auch einfach mal gelegentlich alle 2-14 Tage neustartet. Unterer PCIe Slot ist nicht benutzbar, egal mit welcher Komponente, dort kommt es dann zu einer Flut von "PCIe #SERR" Meldungen, der Speicher vom BMC läuft voll, das BMC läuft nicht mehr, und ich muss den Chip neu flashen mit einem externen Flasher.
Austauschboard hat das gleiche Problem.

Aktuell habe ich es wie folgt aufgebaut: Ich habe ein Fedora 34 am laufen mit Cockpit, und habe dort meine ganzen VMs aktiv. Weiterhin habe ich eine FreeNAS VM und einen RAID Controller vom Typ LSI 9211 8i durchgereich an die VM welche dann meinen Storage verwaltet.
Ich finde das Setup an sich gut, da ich sowohl die Features von Fedora mit Cockpit als auch FreeNAS extrem mega finde, auf beides würde ich nicht gerne verzichten wollen, jedoch muss sich was ändern.
Häufig ist das Problem, dass die VMs nur vernünftig laufen wenn diese auf entsprechende NFS Shares auf dem FreeNAS System zugreifen können. Das ist jedoch vorallem beim Starten ein Problem, da die FreeNAS VM einfach 6 Minuten länger zum Starten braucht als alle anderen VMs.

Weiterhin ist das Problem, dass nach jedem "Crash" bedingt durch die "PCIE #SERR" Problematik immer wieder mal 2-3 HDDs (von 16) aus dem Pool rausfliegen, und ich die aufwändig wieder eingliedern muss.
Am liebsten hätte ich ja 2 Maschinen, eine als reinen Storage, und die andere für die VMs. Das Problem hier, mein aktuelles Setup wäre dann wohl absoluter Overkill.

Vielleicht paar Daten zur Auslastung:

Typische Auslastung des Gesamtsystems auf CPU beläuft sich auf ca. 11%. Im worst case, maximal 50% CPU Auslastung bisher vorgefunden.
RAM Auslastung durch die VMs liegt bei ca. 110GB (Storage abgezogen, sonst ca. 200GB).

Ganz wichtig ist für mich die Stabilität speziell beim Storage. Die VMs können von Zeit zu Zeit gerne mal abschmieren, kein Problem. Das ganze nur wieder zu synchronisieren mit dem Storage und den VMs ist aktuell Kotze.
Daher habe ich mir gedacht, ich hole mir für 35 Euro ein Supermicro 1366 Board, schmeisse da 48GB REG ECC RAM drauf die ich noch übrig habe, den X5650, und nutze das rein für Storage. Rein von der Zuverlässigkeit her war das 1366 System extrem stark, da hatte ich zum Teil Uptimes von 3 Jahren, und keine Crashes.

Ich hoffe ich bin nicht zu sehr ausgeufert.
Ich würde mich äußerst freuen über ein paar Ratschläge von euch bzgl. meiner Problematik, vielleicht hatte jemand ein ähnliches Problem.
Freue mich über TIpps zu meinem Setup, meinen Planungen, oder mein VM / Storage Konzept, was eventuell Verbesserungen mtisich bringen könnte!
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Nur aus Neugier welche NVMe waren das? Kingston?
 
Ein paar Anmerkungen:
- Auch wenn ich selber eher Freund von einer Storage VM bin ist das für dich nötig hier Storage und Virtualliserung zu trennen? Da du eh schon Cockpit nutzt, das hat - wenn auch nicht Offiziell - ein gut Funktionieredes ZFS-plugin. So könntest du hier einen gewissen Overhead rausnehmen und so die Komplexität und auch Fehleranfälligkeit senken, kanst aber weiterhin das Storage einfach zu managen.

- Wenn du eh damit Liebäuglest dein Storage auszulagern, warum nicht einfach machen? Wenn das nicht für 24/7 spricht doch nix dagagen. Allerdings kann natürlich hier die Anbindung 10G/40G NFS/iSCSI wieder halt ein Flaschenhals oder auch eine "Problemquelle" je nach Anforderung werden. Ob z.B.: mit Freenas/Truenas einfach so RDMA geht weis ich garnicht.
Sonst ist natürlich auch ein S2011 oder XeonD oder sowas hier echt eine Überlegung, Prinzipell ist auch ein 1151(v2) System eine sehr sehr stabile und auch ausreichend performante Platform.

- Wenn dir Stabilität so wichtig ist würde ich vll auch eher zu was "Abgehangenes" und Intel raten was Plattform angeht, da sind die meisten Kinderkrankheiten einfach behoben oder es gibt zumindest leicht zugängliche Workarounds. Und bei den SSDs halt nicht auf Consumer setzten.

- Evtl ist auch wenn es um Stabilität geht Fedora nicht gerade das die Linux Distro der Wahl, sonder eher was aus dem Serverberreich ein CentOS/RHEL; SELS; UbuntuLTS / Debian
 
Ein paar Anmerkungen:
- Auch wenn ich selber eher Freund von einer Storage VM bin ist das für dich nötig hier Storage und Virtualliserung zu trennen? Da du eh schon Cockpit nutzt, das hat - wenn auch nicht Offiziell - ein gut Funktionieredes ZFS-plugin. So könntest du hier einen gewissen Overhead rausnehmen und so die Komplexität und auch Fehleranfälligkeit senken, kanst aber weiterhin das Storage einfach zu managen.

- Wenn du eh damit Liebäuglest dein Storage auszulagern, warum nicht einfach machen? Wenn das nicht für 24/7 spricht doch nix dagagen. Allerdings kann natürlich hier die Anbindung 10G/40G NFS/iSCSI wieder halt ein Flaschenhals oder auch eine "Problemquelle" je nach Anforderung werden. Ob z.B.: mit Freenas/Truenas einfach so RDMA geht weis ich garnicht.
Sonst ist natürlich auch ein S2011 oder XeonD oder sowas hier echt eine Überlegung, Prinzipell ist auch ein 1151(v2) System eine sehr sehr stabile und auch ausreichend performante Platform.

- Wenn dir Stabilität so wichtig ist würde ich vll auch eher zu was "Abgehangenes" und Intel raten was Plattform angeht, da sind die meisten Kinderkrankheiten einfach behoben oder es gibt zumindest leicht zugängliche Workarounds. Und bei den SSDs halt nicht auf Consumer setzten.

- Evtl ist auch wenn es um Stabilität geht Fedora nicht gerade das die Linux Distro der Wahl, sonder eher was aus dem Serverberreich ein CentOS/RHEL; SELS; UbuntuLTS / Debian
Hey vielen Dank dir, das sind gute Tipps.
Ich werde aufjedenfall mal das Cockpit Plugin ausprobieren, aber langfristig die Option mit etwas "abgehangenem" wählen, also das Storage wirklich auslagern.
Da hast du wohl Recht, bei meinen Intel Xeon Servern hatte ich bisher solche Probleme absolut noch garnicht. Ich habe eher die Problematik von der Performance, dass ich selbst Gigabit nicht annähernd ausgelastet bekomme unter meiner FreeNAS VM + Storage, obwohl laut iperf3 gut 20 gbit/s bei rumkommen (40G Link). Daher habe ich mir das aktuell abgeschafft, und gebe mich mit 1G zufrieden. Ich wäre froh wenn ich zumindest 1G dauerhaft auslasten könnte (Was früher durchaus ging).
1151 wäre echt interessant, aber wie seht ihr das dann mit der Thematik bezüglich ECC?
Der Vorteil an der 1151 ist ja die extreme Sparsamkeit.
Im Falle von einer non-bleeding edge Intel Hardware kann ich ja sogar super auf Debian Stable oder CentOS wechseln.

@oNyX` Ja das Problem ist noch nichtmal Linuxabhängig, die PCIE #SERR bekomme ich im IPMI gemeldet, und selbst wenn ich z.B. im BIOS unterwegs bin schmiert die Kiste dann weg.

Also ich muss ehrlich sein, bei storage bin ich mit nem vollen Gigabit echt zufrieden, LAG mit LACP ist ggf. auch bei meinen Switchen noch drin.
Insgesamt habe ich 16x 4TB Platten, davon 14x in einem Raid-Z2, und 2x als Hot Spare
 
Zuletzt bearbeitet:
Ich hab hier 2x S1151v2 Xeon Systeme im 2 Node Cluster mit 192GB ECC am laufen. Rocksolid von Anfang an.

SM X11SCL-F und X11SCH-LN4F mit Xeon E-2236.
 
Hmm... das ist echt ärgerlich.

Ich hab einen 3647-XeonSilver-ESXi-Host auf Supermicro (X11SPi-TF) und einen x399-Threadripper1920X-ESXi-Host auf ASRockRack (X399D8A) - beide superstabil mit uptimes von mehreren Monaten am Stück (und dann auch nur von mir bewusst unterbrochen), der Xeon lief zuletzt 1,5 Jahre. Hab in beiden NVMe SSDs drin, 1x 'ne Samsung SM961 und 1x 'ne Intel 660p (grds. ein Schrottding aber tut hier unauffällig).

Dazu hab ich noch eine bare-metal Solaris-Schleuder auf einem Supermicro-Brett mit Pentium G4560 - ist nur ein Backup-System und meistens aus, aber auch total unauffällig. Und m.E. für rein Storage mit bissi 10Gbit auch noch flott genug.

Das 3647er Solaris Brett ist manchmal auch etwas zickig - je nach Erweiterungskarten-Kombination in welchen Slots mag das auch nicht immer booten - aber wenn es bootet, dann zuverlässig und immer wieder und dann läuft's auch. :)

Tendenziell würd ich aber trotzdem immer wieder auf Supermicro setzen, wenn es zuverlässig sein soll. Der Support ist echt gut (und subjektiv besser als meine Erfahrungen mit ASrockRack).
 
1151 wäre echt interessant, aber wie seht ihr das dann mit der Thematik bezüglich ECC?
ECC ist *fast* immer besser als kein ECC. Einzig die UDimm sind häufig teuerer als die RDimm.
Ob man ECC braucht oder nicht musst du halt selbst entscheiden. Wenn die Datenintegrität egal, also deine VMs eh alle nase lang neu erstellt werden und nur zu Tests/Entwicklung ist kann man eigentlich auch drauf verzichten. Wenn man wirklich die Daten für länger sichert würde ich auf jeden ECC nehmen. Für non-ECC solltest du beachten nicht auf den E2x2 Chipsätzen laufen.

Der Vorteil an der 1151 ist ja die extreme Sparsamkeit.
Naja, wenn du 16 Festplatten a 5-7W hast im Leerlauf ist es eig auch egal ob die Platform 20W oder 40W im Idle verbrät

Im Falle von einer non-bleeding edge Intel Hardware kann ich ja sogar super auf Debian Stable oder CentOS wechseln.
Mit Backport Kernel oder den EL Kernel kann man auch bei Debian Stable oder CentOS (7) oder so bleiben.

Also ich muss ehrlich sein, bei storage bin ich mit nem vollen Gigabit echt zufrieden, LAG mit LACP ist ggf. auch bei meinen Switchen noch drin.
Insgesamt habe ich 16x 4TB Platten, davon 14x in einem Raid-Z2, und 2x als Hot Spare
Wenn du SYNC an hast ist das logisch (für nfs default). Aber ohne Sync komme ich selbst mit nem Mirror aus 8TB Platten (Außnahme Random4k1q) an die 150-200Mb/s.
 
Bei Epyc scheinen die Asus Boards stabiler zu laufen, mein KNPA-U16 läuft sowohl unter ESXi, als auch unter einem aktuellen Gentoo Kernel rock solid, ohne deine Fehlermeldungen zu produzieren. Habe unter ESXi auch einen HBA, eine TV-Karte und einen USB-Controller durchgereicht sowie SR-IOV mit einer Intel X520 am Laufen, ohne Probleme.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh