[Sammelthread] ZFS Stammtisch

dogma2k · 23.02.2019

Ich glaube stehe gerade auf dem Schlauch...
Wenn ich 2 vdev als Z2 mit 6 Festplatten z.B. 4TB mache. Hat ja jedes vdev 16 TB. Werden die beiden vdev dann auch zusammen gefasst und man hat 32TB die ich dann im ESXi als eine Platte einer VM zuweise oder bleibt es bei 2x 16TB die ich dann als Festplatte unter z.B. Windows VM hätte?

Wobei ich sagen muss das ich bis jetzt jede Platte einzeln in einer Windows VM via passthrought freigegeben habe. Somit weiß ich nicht ob ich mehr IOP‘s brauchen würde, das mit die Geschwindigkeit für zuhause ausgereicht hat.

Gesendet von iPhone mit Tapatalk

gea · 23.02.2019

Ein ZFS Pool (Name ist Programm) besteht aus einem oder mehreren vdevs. Dies werden wie ein Raid-0 gestriped. Ein Pool aus 2 vdevs mit je 6 x 4 TB Platten hat raw 48 TB und 32 TB nutzbar. At home ist das aber bei Neukauf eher "suboptimal". Ein Pool aus einem Z2 mit 6 x 8 TB Platten hätte auch 32 TB nutzbar bei Halb soviel Platten und Stromverbrauch. 2 beliebige PLatten dürfen dabei ausfallen - sollte reichen.

Auf diesem 32 TB Pool wird ein Dateisystem angelegt und per NFS an ESXi gegeben. Die Größe des Dateisystems ist nicht festgelegt, könnte also die ganzen 32 TB abgreifen. Weitere Dateisystem würde man beispielsweise für Backup oder Filerdienste nutzen. Jedes Dateisystem kann alles was da ist nutzen. Geregelt wird das mit Quotas (max Belegung) und Reservations (garantierter Platz). Nennt sich neudeutsch auch Storage Virtualisierung (What is storage virtualization? - Definition from WhatIs.com). Das ist anders als z.B. bei Windows Partitionen. Die sind auf eine Größe festgelegt und nicht dynamisch wie ZFS Dateisysteme die ja vergleichbar zu Partitionen wären.

Hat aber nichts damit zu tun dass man ein Storageserver selber virtualiserten kann (Storagevirtualisierung auf einem virtualisierten Storage Appliance/SAN)

dogma2k · 23.02.2019

Ok hab nochmal nachgeschaut RaidZ2 wäre dann ja wie ein Raid5. Wenn ich dann 2 RaidZ2 strippe tue wäre es ja ein Raid50.
So langsam kommt es wieder ( hab mich ca. ein halbes Jahrzehnt nicht mehr damit beschäftigt ).

Neukaufen wäre nur die Festplatten da ich das Passenden 19“ Gehäuse habe sowie einen LSI 9201-16i.

jetzt muss ich mich nur entscheiden ob ich ein RaidZ2 mit 6x6TB nehme (24TB ist das doppelte von dem was ich bis jetzt habe) oder ob ich ca. 250€ mehr ausgebe und deinen Vorschlag mit 2x 6x4TB mit 32TB + mehr IOP‘s nehme.

Tendiere imo zur zweiten Variante wegen geringen Aufpreis (4TB haben ein besseres preis/TB Verhältnis gegenüber der 6TB)+ Leistung.

Gesendet von iPhone mit Tapatalk

gea · 23.02.2019

dogma2k schrieb:
Ok hab nochmal nachgeschaut RaidZ2 wäre dann ja wie ein Raid5. Wenn ich dann 2 RaidZ2 strippe tue wäre es ja ein Raid50.

Korrektur
Raid Z2 wäre wie Raid-6 und 2 x Z2 wie Raid-60
(nur ohne die write-hole Probleme von Raid-6, "Write hole" phenomenon in RAID5, RAID6, RAID1, and other arrays. )

JohnnyBGoode · 23.02.2019

gea schrieb:
Nein. Ein Mirror is genauso schnell wie eine Optane. Man macht mirrors damit beim Ausfall einer Platte der Pool unverändert schnell bleibt. Zudem verbessert er etwas die Siecherheit damit bei einem Absturz mit gleichzeitigem Slog Ausfall keine Daten verloren gehen. Ein Slog Ausfall im normalen Betire ist unktitisch. ZFS nutzt dann den onpool ZIL. Genauso sicher (wenn der Pool PLP kann) nur viel langsamer
[...]

Da ich ebenfalls ein Optane-Mirror ZIL/L2ARC machen möchte: Heißt das, das anders als bei "vernünftigen" RAID1-Lösungen die Lese-Geschwindigkeiten nicht etwa 2n sind, da parallel gelesen werden kann - das Schreiben unverändert ist, ist ja klar?

Experimentiere mit U.2 905P/480 GB-Modellen und bei gleichzeitiger Lese-/Schreib-Beanspruchung bricht die Schreibleistung doch etwas ein, da hatte ich gehofft, dass dies durch eine Mirror-Konfiguration gelindert werden könnte, da der Lesevorgang eben schneller abgeschlossen ist und die Laufwerke für den Schreibevorgang frei sind.

Der ZFS-Umzug zieht sich bei mir leider noch etwas hin, da ich aus Platzmangel nur eine Abstellkammer für "kleines" NAS und "großen" Server habe, in die keine standard Rackmounts & Co. passen, so dass ich ein wenig nach Frankensteins Monster-Manier mir "Hängeschränke" an die Decke baue, in denen mit 2 SAS-Expandern 16 entkoppelte Icy Dock MB074SP-1B Black Vortex betrieben werden.

(Offene Funktionstests der Komponenten waren ohne jegliche Fehler, keine Probleme mit Consumer- oder Enterprise-HDDs)

CommanderBond · 23.02.2019

Bzzz schrieb:
Platte extern duplizieren und dann eine davon scrubben? Oder du scrubbst deine einzige Platte direkt, denn wie gea schon sagt, erst danach weiß ZFS, was alles unlesbar ist. Kommt halt drauf an, wie sehr du an deinen nicht redundant gespeicherten Daten hängst, "nicht sehr" wär jetzt meine Vermutung. Dann direkt scrubben...

Naja eigentlich ist da nicht weiter wichtiges Zeug drauf. Hät aber zumindest gern ne Übersicht mit den Dateinamen sodass ich weiß was da im Einzelnen drauf ist/war

gea · 24.02.2019

JohnnyBGoode schrieb:
Da ich ebenfalls ein Optane-Mirror ZIL/L2ARC machen möchte: Heißt das, das anders als bei "vernünftigen" RAID1-Lösungen die Lese-Geschwindigkeiten nicht etwa 2n sind, da parallel gelesen werden kann - das Schreiben unverändert ist, ist ja klar?

Experimentiere mit U.2 905P/480 GB-Modellen und bei gleichzeitiger Lese-/Schreib-Beanspruchung bricht die Schreibleistung doch etwas ein, da hatte ich gehofft, dass dies durch eine Mirror-Konfiguration gelindert werden könnte, da der Lesevorgang eben schneller abgeschlossen ist und die Laufwerke für den Schreibevorgang frei sind.

ZFS liest von allen Platten eines Mirrors parallel. Von einem Slog wird aber normalerweise nie gelesen - lediglich bei einem Reboot nach einem Crash um die noch nicht geschriebenen Daten aus dem Ram-Schreibcache nachträglich auf den Pool zu schreiben. Für L2Arc mag das anders sein - mit ausreichend RAM ist der L2Arc Nutzen aber extrem klein. Wenn man aber eh 2 Optane nutzen möchte würde ich eine als Slog und eine als L2Arc nehmen. Dann gibt es die (bei Optane relativ kleine Performance) Beeinflussung nicht.

- - - Updated - - -

CommanderBond schrieb:
Naja eigentlich ist da nicht weiter wichtiges Zeug drauf. Hät aber zumindest gern ne Übersicht mit den Dateinamen sodass ich weiß was da im Einzelnen drauf ist/war

Dann einfach Scrubben. Ohne Redundanz wird nichts repariert sondern nur gelesen und anhand der Prüfsummen ermittelt ob Dateien defekt sind. Die Platte erst duplizieren würde da auch kaum was bringen da man die gleiche Last hätte - außer man müsste davon ausgehen dass sich z.B. durch einen Headcrash Partikel in der Platte befinden die die Anzahl der Fehler im Betrieb erhöht.

Wenn dann würde ich erst versuchen alle Daten zu sichern (z.B. robocopy mit retry=1 oder rsync) und dann scrubben um die defekte Dateien zu ermitteln - die eventuell auch kopiert wurden.

Trambahner · 24.02.2019

Wobei das mit dem "liest parallel bei einem Mirror" zumindest bei BSD nicht automtatisch zu einer Verdopplung (bei einem 2*Mirror) der Leserate führt. Mit einem 2*Mirror der HC530 (jeweils frischer Pool) hab ich grad etwa im Schnitt 350 MB/s sequentiell lesend bekommen, bei einem Stripe die vollen 520 MB/s. D.h. scheinbar werden bei einem Mirror beide Platten mit den gleichen Blöcken parallel angesprochen und die erste wo die Daten liefert, zählt.
Wie gesagt: mit BSD. Mit Solarish mag das ggf. wieder anders aussehen (muss ich mal mit den HC530 testen).

dogma2k · 25.02.2019

Kann man eigentlich wenn man ein vdev RaidZ2 aus z.B. 6 Platten gemacht hat und feststellt mach möchte noch lieber mehr IOP, einfach einen zweiten vdev RaidZ2 stripped dran hängen oder muss man den tank komplett neu anlegen?

sch4kal · 25.02.2019

Kann man einfach dranhängen.
Bedenke aber, das deine bisherigen Daten auf dem ersten vdev liegen und nicht umverteilt werden. Gibt einfach mehr Platz und iops.

AliManali · 25.02.2019

Hi

Nur so rein hypothetisch: Wenn ich 2 Server mit napp-it und vSphere free habe, kann ich dann im ausgeschalteten Zustand einer VM diese auf den anderen Server schubsen?

gea · 25.02.2019

AliManali schrieb:
Hi

Nur so rein hypothetisch: Wenn ich 2 Server mit napp-it und vSphere free habe, kann ich dann im ausgeschalteten Zustand einer VM diese auf den anderen Server schubsen?

Ja
bei ausgeschalteter VM z.B.
- per SMB den VM Ordner einfach kopieren
- das Dateisystem replizieren

bei eingeschalteter VM und Stand wie "Absturz"
- per SMB den VM Ordner aus "vorheriger Version" einfach kopieren
- das Dateisystem replizieren

bei eingeschalteter VM und Stand "Hot Memory" (Kopie online, exakt wie Quell-VM)
- das Dateisystem replizieren oder Kopieren per SMB inkl ESXi Hot Snap, dann in ESXi auf Snap zuückgehen

Luckysh0t · 25.02.2019

Müsste das nicht auch gehen, wenn man die zwei Storage VMs im Rahmen deines "Cluster in a Box" verbindet (Fals der überhaupt unterschiedliche HW unterstützt) ? Nur dass es halt dann nicht mehr "in a Box" ist.

Hätte man das so nicht dann sogar in "real time" ?

Oder ist der Gedanke eher zerstörerisch ?

gea · 25.02.2019

Ein napp-it Cluster besteht aus zwei VMs (oder Barebone Storage Server) die z.B. per SAS oder ESXi shared Disks gleichzeitig auf einen Plattenpool zugreifen können. Eine VM ist aktiv und hat den Pool gemounted und stellt Dienste wie iSCSI, NFS, SMB oder Webservices zur Verfügung. Die andere VM ist Standby (entweder als Failover System oder zum Updaten/Upgraden oder Testen neuer Software). Bei Bedarf oder automatisch falls der aktive Head crashed übernimmt der zweite Cluster Node den Pool und stellt die Dienste über eine HA ip zur Verfügung.

Nutzt ein ESXi den Storage Cluster als NFS Storage so bekommt der idealerweise von dem Failover (dauert ca 20s) nichts mit. Ein Hot-Failover einer VM von einer ESXi Maschine zur nächsten hat damit nichts zu tun würde auch ohne einen HA/Storage Cluster funktionieren.

dogma2k · 25.02.2019

sch4kal schrieb:
Kann man einfach dranhängen.
Bedenke aber, das deine bisherigen Daten auf dem ersten vdev liegen und nicht umverteilt werden. Gibt einfach mehr Platz und iops.

Also hätten nur die neuen Daten etwas von den iops Zuwachs?

Gesendet von iPhone mit Tapatalk

sch4kal · 26.02.2019

dogma2k schrieb:
Also hätten nur die neuen Daten etwas von den iops Zuwachs?

Gesendet von iPhone mit Tapatalk

Ja. Platten zur Steigerung von iops ist heutzutage obsolet. Bau mehr RAM ein, nutze ne Optane als SLOG/L2ARC oder erstelle einen dedizierten SSD Pool für Anwendungen die einen hohen Bedarf an iops haben.

gea · 26.02.2019

Alle neuen oder geänderten Daten verteilen sich über die vdevs. Mit der Zeit nutzt ein immer größerer Teil der Daten dann alle vdevs. Beschleunigen kann man das Re-Balancing für ein kritisches Dateisystem durch Replizieren auf dem Pool (anschließend altes Dateisystem löschen und neues entsprechend umbenennen)

dogma2k · 26.02.2019

sch4kal schrieb:
Ja. Platten zur Steigerung von iops ist heutzutage obsolet. Bau mehr RAM ein, nutze ne Optane als SLOG/L2ARC oder erstelle einen dedizierten SSD Pool für Anwendungen die einen hohen Bedarf an iops haben.

Ich wollte sowie Optane für ZIL und L2ARC nehmen.
Gibt es eine grobe Richtlinie wieviel Ram optimal ist? Wie z.B. 1GB Ram pro 1TB Speicher?
Macht es eigentlich Sinn den ZFS auf einen Zweiten ESXi zu ertellen und dann beide ESXi's mit einer 10GB Direktverbindung zu verbinden?

gea · 26.02.2019

RAM
Eigentlich kann man nur sagen, dass ein 64bit OS wie Solaris ca 2 GB braucht, andere eventuell leicht mehr. Den Rest nutzt man als Schreib/ Lesecache. Die Größe ist eigentlich weniger von der absoluten Poolgröße sondern eher von der gewünschten Performance für aktive Daten abhängig.

Per Default nutzt Open-ZFS 10% des RAM (max 4 GB) als Schreibcache. Beim Lesen werden kleine Random Reads (allem voran die Metadaten) im Arc Lesecache gehalten. Wenn man auf hohe Performance Wert legt, sollte man mindestens 8 GB RAM haben, Bis vielleicht 32 GB RAM ist normalerweise eine Performanceverbesserung immer feststellbar. Für einzelne Anwendungsszenarien kann aber auch 128 GB und mehr die Performance spürbar verbessern.

Es hängt aber auch von der Poolperformance ab. Ein Optane Pool mit 4 GB RAM kann sich fast genausoschnell anfühlen wie ein Plattenpool mit 32GB.

Wenn man zwei All-in-One Systeme mit ESXi und lokaler Storage Appliance hat, sollte man den auch als Storage für die lokalen VMs nutzen. Ist sehr schnell und so ein Server läuft völlig autark ohne Abhängigkeit zu Kabeln und Switchen. Natürlich kann man übers Netz auch auf den NFS einer anderen Storage Appliance zugreifen.

tekken321 · 26.02.2019

Hi, habe bei einem Neustart der NappIT VM folgende Fehlermeldung erhalten (siehe Anhang).
Kann mir jemand sagen was es damit auf sich hat?

Ich habe dann versucht über WinSCP auf NappIT zuzugreifen um ein Backup zu machen, um die VM notfalls komplett neu aufzusetzen, allerdings bekommen ich keinen Zugriff mit meinem Password, openssh läuft aber. Liegt das eventuell auch an der Fehlermeldung?

VLB · 26.02.2019

OmniOS beschwert sich darüber, dass es ein Dateisystem nach "/data/media/movies" einhängen soll, das Verzeichnis (=der Mountpoint) "/data/media/movies" allerdings nicht leer ist und fährt in die Maintenance (Wartung).
In der Maintenance funktioniert das Netzwerk nicht - daher auch kein Zugriff mit WinSCP.

Mit "Enter" sollte der Login-Prompt kommen, dann einloggen und mit "ls -la /data/media/movies" nachschauen, was da im Mountpoint rumliegt.

gea · 26.02.2019

Ich würde
Pool exportieren: zpool export -f data

dann midnight commander aufrufen: mc
und nachschauen was im Ordner /data/media/movies liegt
Das dann löschen oder verschieben, dann Pool wieder importieren

zpool import data
Der Pool sollte sich dann mit allen Dateisystemen mounten lassen

tekken321 · 27.02.2019

Hallo, vielen Dank schonmal für eure Antworten. Habe jetzt mal geschaut, der Mountpunkt ist nicht leer, andere Mountpunkte sind aber auch nicht leer und lassen sich trotzdem mounten. Also werde ich wohl doch mal mit Midnight Commander schauen das ich das alles verschiebe. Problem ist jetzt aber das der MC nicht startet,ich dachte der wird automatisch installiert? Wäre eine Alternative den Pool exportiert zu lassen, NappIT als VM neuzustarten, damit diese nicht mehr im Mainteance Modus ist und von da dann mit WinSCP o.ä. darauf zuzugreifen? oder irgendwie den MC zu installieren?

PS: Habe glaube ich meinen Fehler gefunden, habe in einer Windows VM zwei Ordner umbenannt, einer davon war besagter movies Ordner, im Gegenzug habe ich einen neu angelegten Ordner in movies benannt, wäre es eventuell eine Möglichkeit in der Shell diese Ordner wieder umzubenennen? (jaja, war blöd von mir -.-)

you · 27.02.2019

mv altername neuername ... in der shell

gea · 27.02.2019

tekken321 schrieb:
. Also werde ich wohl doch mal mit Midnight Commander schauen das ich das alles verschiebe. Problem ist jetzt aber das der MC nicht startet,ich dachte der wird automatisch installiert? -.-)

Midnight Commander wurde eine Zeitlang von der Uni Maryland installiert. Die dortige Version machte aber unter einem neueren OmniOS Probleme und wurde daher eine Zeitlang nicht automatisch installiert. Der aktuelle wget Installer liefert den aber wieder mit. Den Installer kann man auch nachträglich nochmal laufen lassen (installiert napp-it 18.12). Mc kann man auch separat herunterladen: https://www.napp-it.org/doc/downloads/mc.zip. Das zip entpacken, nach / kopieren und /usr/bin/mc ausführbar machen.

Alternative SSH und root Zugriff aktivieren (Menü Services) und per WinSCP als root anmelden. Damit kann man die Dateistruktur und Dateien komfortabel von Windows aus bearbeiten. Per SSH und Putty kann man aber auch Midnight Commander remote nutzen.

VLB · 27.02.2019

Zum Thema "Mountpunkt nicht leer": Bei nicht eingehängtem Dateisystem sollte der zugehörige Mountpoint leer sein. Durchs "Drübermounten" erscheint ja ein anderes Dateisystem dort, was die zuvor im Mountpoint abgelegten Dateien so oder so unsichtbar macht.

andrer250282 · 04.03.2019

Hallo,

ich weiß ich hatte das mal hier irgendwo gelesen, aber bei 380 Seiten finde ich es tatsächlich nicht.
Ich habe einen neuen Server ML30 Gen9 aufgesetzt, B140i in AHCI Modus, eine SSD 256GB und 3x 4TB SATA Disks rein. Habe ESXi installiert und das napp-it OVA Template. Da ich keinen HBA habe (und der Server noch ein aktives Care-Pack hat und ich damit leider keinen LSI reinbauen kann (wäre ein H240 eine Option eigentlich?)) habe ich die 3 4TB Disks als RDM durchgereicht. Soweit so gut, passt auch alles mehr oder weniger.

Aber wenn ich mir die Disk Übersicht ansehe, oder auch bei der Erstellung eines Pools werden mir statt der erwarteten ~3.6TB nur 1.8TB angezeigt.

Was mache ich falsch?

EDIT: wenn ich im Napp-it unter Disks --> initialize die 3 Disks neu initializiere werden sie korrekt angezeigt:

Aber ein angelegter Raid.Z1 Pool hat eine falsche Größe (als wären es wieder nur 2TB)

gea · 04.03.2019

Ich vermute mal dass hier eine 2TB (1,8TiB) Partitions-Grenze bei vdisks das Problem ist.

Beste Alternative:
SAS Controller (immer was mit LSI chips 2008, 2307 oder 3008 nehmen, am Besten mit IT Firmware, IR ist auch ok).
Diese Controller kann man komplett per pass-through durchreichen oder einzelne Platten als Raw Disk einer VM zuweisen (keine 2TB Grenze, voller Zugriff inkl. Smart).

zur Not physical RDM via Sata
How to passthrough SATA drives directly on VMWare ESXI 6.5 as RDMs · GitHub

Dell HP 240: eher nein (Raid-5 Kontroller)
anyone have more info about HP H240 HBA? | Page 2 | ServeTheHome and ServeThe.Biz Forums

Dell HP 220: ja
Flashing HP H220 SAS card to latest FW | Page 2 | ServeTheHome and ServeThe.Biz Forums
-> Flashen mit LSI IT Firmware

andrer250282 · 04.03.2019

Hallo gea,

vielen Dank für deine Antwort, aber ich hab die als physical RDM durchgereicht? Oder kann man da was groß verkehrt machen?
Ich hab das nach der Anleitung gemacht: How to Create VMware RDM Physical Compatibility Disk

Der VM habe ich extra 2 SCSI Controller, das Boot Device an Controller 0, die 3 phyiscal RDMs an Controller 1

Wie gesagt, sie werden ja in ESXi sowie unter napp-it --> Disks ja auch korrekt angezeigt

gea · 04.03.2019

Ich habe keine Erfahrung mit dem B140, RDM und Platten > 2TB.
Ich würde aber den Controller zunächst als vermutliche Ursache sehen.

[Sammelthread] ZFS Stammtisch

Enthusiast

Urgestein

Enthusiast

Urgestein

Enthusiast

Enthusiast

Urgestein

Urgestein

Enthusiast

Enthusiast

cpt sunday flyer

Urgestein

Enthusiast

Urgestein

Enthusiast

Enthusiast

Urgestein

Enthusiast

Urgestein

Enthusiast

Enthusiast

Urgestein

Enthusiast

Experte

Urgestein

Enthusiast

Experte

Urgestein

Experte

Urgestein

Ähnliche Themen