[Sammelthread] ZFS Stammtisch

sch4kal · 30.12.2018

Dell PERC H310 kaufen, auf LSI 9211-8i IT Mode umflashen, sollte doch kein Problem sein ?! Die dinger bekommst du für ~ 40 € auf eBay.

don redhorse · 30.12.2018

Habe jetzt einen Dell Perc H310 geordert, der war am schnellsten verfügbar. Die originalen LSI kamen aus China, dauert mir zu lange.

Das der Host Controller nur einen geringen Teil des Preises ausmacht ist mir klar, auch dass man gerade an dem nicht sparen sollte.
Das Board hat zwei PCIe Slots, aber intern nur Platz für 4 Platten. Auf Dauer wird’s also noch eine Karte mit SFF 8088 Ports für ein externes Gehäuse geben. Für 8 oder 16 Platten, wird derzeit aber nicht gebraucht. Vielleicht täusche ich bis dahin die Hardware eh komplett, erstmal geht’s ums Erfahrung sammeln und dafür wollte ich ungern ne 200€ Karte verbauen die dann doch zu groß ist.

Jetzt erstmal Karte abwarten, umflashen und gut.

Bliebe immer noch das Problem mit den hochdrehenden Lüftern, hätte da noch jemand ne Idee?

Stangensellerie · 31.12.2018

HPE supportet meines Wissens nur noch 2 Generationen zurück und vom DL320G8 gibt es auch 2 Versionen. Mit Ivy-Bridge (1200v2) ist es Version 1 und wird offiziell nur bis 6.0u3 supportet. Die Version 2 als DL380G8_v2 wurde dagegen mit Haswell (1200v3) und Support für 6.5u2 ausgeliefert. Ausgehend davon könnte das bereits das Problem deiner 6.7er ESXi-Inst sein.
Gibts einen bestimmten Grund, auf den 6.7er zu setzen? Mit dem haben auch einige Backup-Tools und 3rd-Party-Plugins für die VCSA noch so ihre Probleme. Eventuell löst dann der 6.5er dein Problem.
Ausgehend von meiner Beobachtung auf meinem Dell unter 6.5u2 solltest du da auf jeden Fall den letzten Build von VMware einspielen. Die in meinen Augen beste Patch-Auflistung gibt es unter https://esxi-patches.v-front.de/ESXi-6.5.0.html. Damit verschwanden auch einige unverständliche Meldungen unter Host->Überwachen->Hardware->Systemsensoren. Sieht man sich https://www.vmware.com/content/dam/digitalmarketing/vmware/en/pdf/support/product-lifecycle-matrix.pdf an, haben 6.5 und 6.7 denselben Supportzeitraum. Von daher gibt es kaum einen Grund, bei unsupporteter HW auf den 6.7er zu setzen. VMware hat da nur noch mehr ältere HW rausgeworfen.

Bzzz · 31.12.2018

Trambahner schrieb:
Abgesehen davon sind die LSI/Broadcom-Teile für 24/7-Betrieb und Belastung ausgelegt und entsprechend qualitätsgeprüft.

Airflow beachten

Relativ nahe an OT kann ich zudem folgendes berichten: Controller-Not im 16-Bay-Gehäuse zwecks weiteren Platten fürs Backup, was tun? Die vier SATA-Ports vom ICH10R auf meinem Supermicro kann man mit einem Reverse Breakout Cable auf SFF-8087 wandeln, jenes kann man in einen Slotblendenadapter auf SFF-8088 (SST-SA022) stecken, dort passt auf der anderen Seite ein kurzes SFF-8088<->-SFF-8088-Kabel hinein, und auf dessen anderes Ende passt der zweite Slotblendenadapter, diesmal in Richtung SFF-8087. Und weil dort ein normales Breakoutkabel reinpasst, das auf eine expanderfreie Supermicro-Backplane (1HE) geht, laufen dort nun vier SATA-Laufwerke über eine absurde SAS-Kabelkette an einem SATA-Controller :fresse2:

Ich bau da noch ne Stromversorgung rein, gekürzt ist das Gehäuse schon, das wird dann mein Offsite-Backup. Kabellänge grenzwertig, ich weiß.
Ja, ein versägtes Supermicro-Gehäuse um einmal im Jahr ein Backup zu ziehen, nobel geht die Welt zugrunde :xmas:

(was man halt nicht so alles aus dem Schrott zieht!)

Jetzt würd mich geas enclosure map schon reizen...

don redhorse · 31.12.2018

Das BIOS ist vom Mai diesen Jahres, etwas scheinen die Mädels und Jungs von HPE noch zu machen. Eigentlich schade das solche Hardware jetzt nicht mehr Supportet wird, für meinen Einsatzzweck ist die eigentlich super. In der 4ma (daher habe ich den) habe ich jetzt einen DL325 verbaut, der spielt natürlich etwas andere Musik, aber im Prinzip hätte ich den DL320 noch nen Jahr laufen lassen, nur Cheffe wollte noch unbedingt Geld investieren...

Weshalb denn 6.7. Die 6.5 wird doch noch mit dem vSpere Clienten verwaltet, den gibt’s doch nicht als Free Version(?) und ich habe kein Windows. Aber in der Hardwareconfig sind einige Sensoren nicht erkannt, dass kann natürlich gut sein. Da muss ich mir wohl noch nen USB Stick fertig machen und die 6.5 testen. Andererseits, wenn napp-it sauber mit dem PERC zusammenarbeitet gibt’s keinen Grund mehr für XigmaNAS. Ich will ZFS, dass wie ist ja egal, sobald das Set läuft guckt man doch eh nur noch alle paar Wochen mal nach Updates.

TCM · 31.12.2018

gea schrieb:
Ja, napp-it.org leitet alle Anfragen per redirekt auf https

Außer man landet nicht dort, sondern irgendwo anders. Warum nicht richtig machen und gleich per HTTPS connecten?

Stangensellerie · 31.12.2018

don redhorse schrieb:
Weshalb denn 6.7. Die 6.5 wird doch noch mit dem vSpere Clienten verwaltet, den gibt’s doch nicht als Free Version(?) und ich habe kein Windows.

Die HTML5-Oberfläche gab es zumindest als VMware-Fling ab 5.5 und funktionierte da auch schon recht gut. Die 5.5 ist gleichzeitig auch die letzte Version, bei dem man alles für den Free-User wichtige noch per Win-Client einstellen und trotzdem noch historisch bedingte Insellösungen vorherige ESXi-Installationen verwalten konnte. In einigen Firmen läuft angeblich auch heute noch ein 4.1er oder 5.0er ESXi, weil der GF für neue IT kein Geld rausrücken will/kann und/oder nur (noch) in ältere, sprich gebrauchte HW investiert; darf halt alles nix kosten...

TCM schrieb:
Außer man landet nicht dort, sondern irgendwo anders. Warum nicht richtig machen und gleich per HTTPS connecten?

Das wäre die sauberste Lösung.

don redhorse · 31.12.2018

Ok, dann ist die 6.5U2 für mich wohl die beste Variante. Software in alten Versionen nutze ich eigentlich eher ungern, vor allem wenn man frisch anfängt. Irgendwann steigt man eh auf was neues um und dann muss man sich umgewöhnen. Hatte nur gelesen das der 6.7 die erste Version ist die nur mit der HTML Oberfläche zu bedienen ist, die vorherigen Versionen das eben noch nicht zu 100% haben. Woanders gabs zu lesen das VMWare Hardware soweit unterstützt, wie Intel die MC Updates bringt und das ist doch bis SandyBridge runter. Wenn Ivy schon rausfällt bleibt ja nur die ältere Version. Der kleine hat eh kein HT, damit ist das größte Einfallstor immerhin soweit dicht. Ich investiere auf jeden Fall nicht in neue Hardware bis sie (Intl/AMD) das im Griff haben.

Danke für die Tipps, Donnerstag soll die Karte kommen, flashen und gucken, dazu downgrade auf 6.5, ich werde berichten.

Trambahner · 31.12.2018

Mit 6.5 wurde die Host embedded HTML-Oberfläche bedienbar, hatte aber noch Macken und war teilw. sehr zäh.
Mit 6.7 ist die HTML-Oberfläche nun schön flüssig, dafür hat die Original 6.7 jedoch Onboard-Sata Passthrough eingebüßt. 6.7U1 hat diese wieder.

qoosinoo8 · 31.12.2018

Jemand eine Idee warum die aktiven Napp-It Replication Jobs nicht automatisch laufen (siehe Screenshot)? Den letzten ausgeführten Job am 28.12. habe ich manuell angestoßen.

gea · 31.12.2018

Stangensellerie schrieb:
Läuft die Update-Anfrage über HTTPS?

Ein automatisches Redirekt gibt es bei html und ist da wegen der Formulare (DSGVO) nötig.
Bei den Update-Files gibt es kein redirekt. Doi werden so ausgeliefert wie angefragt.

Erfolgt keine Antwort auf den Request ist es eher ein sonstiges Netzwerkproblem.

- - - Updated - - -

qoosinoo8 schrieb:
Jemand eine Idee warum die aktiven Napp-It Replication Jobs nicht automatisch laufen (siehe Screenshot)? Den letzten ausgeführten Job am 28.12. habe ich manuell angestoßen.

Anhang anzeigen 454347

Pro Version abgelaufen?
Sonst mal auf das Datum klicken (Details) oder auf replicate (Übersicht) in der Zeile des Jobs.

don redhorse · 31.12.2018

Also laut VMWare Seite ist IvyBridge noch mit der 6.7 supportet. Einführung mit der 5.5 bis eben jetzt aktuell.
Soweit ich das sehen kann ist die 6.7 eher eine 6.5 U3, grundlegend scheint sich da nix geändert zu haben. Egal, austesten, dass Ding ist so schlank und fix aufgesetzt, warum rätseln.

Stangensellerie · 31.12.2018

"Software in alten Versionen ungern nutzen" verstehe ich, wenn beide aber denselben Supportzeitraum haben und die Bedienung gleich ist...
VMware unterstützt nicht sämtliche Hardware, haben sie nicht und werden sie nie. Meine HW wird offiziell auch nur bis 5.5u3 unterstützt. Bis dahin hatte Dell halt Geld für dessen HCL-Prüfung investiert und für nicht mehr im Verkauf befindlicher Systeme gibt kein Hersteller weiter Geld aus. Dank des Eintrags zum HP-Microserver mit genau meiner CPU-Generation wußte ich aber zumindest, daß CPU & Chipsatz soweit auch mit 6.5 laufen sollten. Eine fehlende Listung kann aber zumindest als Hinweis dienen und wird von VMware wohl auch genutzt, um Supportanfragen abzuweisen.

Die Sache mit dem HT bzw Spectre/Meltdown wird in meinen Augen künstlich hochgebauscht. JA, da ist eine Riesensauerei passiert und die Fehler sind weiterhin nicht mal halbwegs beseitigt. Das werden sie vermutlich aber erst in einer komplett neuen, erstmals auf Sicherheit hin entwickelten CPU-Serie gelöst bekommen.
Auf der anderen Seite stelle dir mal die Frage, wieviele Menschen weltweit haben Server-HW dastehen bzw nutzen überhaupt Virtualisierung und wieviele davon hosten/vermieten VMs?
Anstatt mit irgendwelchen langwierigen und nicht unbedingt trivialen Methoden HT zu belauschen oder sonstigen Seitenkanal-Attacken auszunutzen, ist es für einen Angreifer doch weit einfacher, den "Verwaltungsrechner" bzw den für die tagtägliche Arbeit genutzten Rechner anzugreifen und mit irgendetwas willst du ja sowohl auf die VMs zugreifen als auch mal im Netz surfen oder zocken...

[edit]
Du betrachtest dort nur die CPU. Da fehlen immer noch Chipsatz, Netzwerk und ggf Datenträger um ein System draus zu machen. Der ESXi ist aber weder Windows noch Linux und schreibt seine eigenen Regeln.

don redhorse · 31.12.2018

Spectre/ Meltdown sind nen Thema für sich, keine Frage. Aber ungepatcht ein System mit HT, da ist mir auch als Endanweder das Risiko zu groß, leider werden Mainboards über vier Jahre so gut wie nicht mehr supportet, deswegen ist es wichtig das die Microcode Updates auch vom BS geladen werden. In der c‘t wurde das ganze recht ausführlich besprochen und so ganz egal ist es auch nicht mehr, da es schon automatisierte Tools gibt die das können.
ESXi 6.0 hat Support bis 2022, 6.5/7 bis 2023, reicht mir. Getestet wird die 6.5 sobald ich wieder zuhause bin.
Habe nur den Link der CPU gepostet, andere Komponenten sind auch noch mit drin, komplett ist das aber schlecht zu prüfen..

Oh, geht doch
VMware Compatibility Guide - System Search

Grmbl, ESXi 6.0 administriert man wie? Nur mit dem vSpere Clienten?

es gibt aber nen update Package für den DL320 für den ESXi 6.7 auf der HP Seite. Ich hasse deren Seiten, da was zu finden..

gea · 01.01.2019

don redhorse schrieb:
Grmbl, ESXi 6.0 administriert man wie? Nur mit dem vSpere Clienten?

Hier geht noch der Windows vsphere client neben dem neuen html-5 Webclient.
Der ist aber in der 6.0 noch recht buggy und hat noch nicht alle Features.

sch4kal · 01.01.2019

Bekomme ich eig. auch in der "freien" Solaris 11.4 Variante Bugfixes etc. oder muss ich dafür auch zahlen ?
Ist die ZFS Dataset Encryption in Solaris auch in napp-it integriert oder geht das nur für den gesamten Pool ?

qoosinoo8 · 01.01.2019

gea schrieb:
Ein automatisches Redirekt gibt es bei html und ist da wegen der Formulare (DSGVO) nötig.
Bei den Update-Files gibt es kein redirekt. Doi werden so ausgeliefert wie angefragt.

Erfolgt keine Antwort auf den Request ist es eher ein sonstiges Netzwerkproblem.

- - - Updated - - -

Pro Version abgelaufen?
Sonst mal auf das Datum klicken (Details) oder auf replicate (Übersicht) in der Zeile des Jobs.

Danke, Pro Version abgelaufen

gea · 01.01.2019

sch4kal schrieb:
Bekomme ich eig. auch in der "freien" Solaris 11.4 Variante Bugfixes etc. oder muss ich dafür auch zahlen ?

Ohne Moos nichts los.
Ohne Subscription gibts keine Updates.
Erst wenn eine neue Version kommt (11.5), gibts was neues

Ist die ZFS Dataset Encryption in Solaris auch in napp-it integriert oder geht das nur für den gesamten Pool ?

ZFS Encryption in Solaris arbeitet per Dateisystem. Man kann also für jedes Dateisystem anders und mit anderem Schlüssel verfahren.

don redhorse · 04.01.2019

Moin,

hoffe alle gut ins neue Jahr reingekommen!

Die PERC H310 ist da, BIOS gelöscht und jetzt ohne eigenes BIOS verbaut.
Napp-it gestartet, Lüfter laufen schonmal nicht hoch, fein. Die Platten wurden sofort angezeigt, Pool und ZFS Storage angelegt, Freigabe eingerichtet. Am Mac Apfel-k, Freigabe rausgesucht angemeldet Daten kopieren angeworfen 115 MB/s also komplett Anschlag. Mehr will ich doch gar nicht

Der Controller hat bei den ersten flash Versuchen rumgehackt, löschen ging, aber das hochladen der neuen Firmware klappte nicht. Ich habe es dann mit dieser FW geschafft. Musste erstmal die Wühlkiste durchsuchen nach nen FreeDOS Bootstick..

Danke ihr habt mir sehr geholfen.

Wozu wäre das eigene BIOS eigentlich gut? Doch nur damit sich die Karte beim booten meldet und man sie dort verwalten kann. Oder habe ich sonstige Nachteile ohne BIOS?

gea · 04.01.2019

don redhorse schrieb:
Wozu wäre das eigene BIOS eigentlich gut? Doch nur damit sich die Karte beim booten meldet und man sie dort verwalten kann. Oder habe ich sonstige Nachteile ohne BIOS?

Das Bios brauchts nur um davon zu booten.

hitman22 · 04.01.2019

Hallo,

bei mir hat sich heute Nacht irgendwie das Solaris System aufgehangen und SSH, Zugriff über iSCSI usw. hat nicht mehr funktioniert. Dann habe ich ein Reset über IPMI ausgelöst und dann konnte Solaris wieder starten. Allerdings werden mir nun zwei Platten als UNAVAIL und eine als DEGRADED angezeigt. Ich habe bei mir ein RAID Z2 am Laufen. Die beiden Platten die als UNAVAIL angezeigt werden, hat das System nun mit einer anderen Systembezeichnung eingehangen und bekomme die Platten mit UNAVAIL nicht mehr weg, um diese neu zuzuweisen zu können.

So sieht der Pool momentan aus und auch die Meldungen, dies es dazu gibt. Momentan mache ich sicherheitshalber noch eine Datensicherung.

Code:

        NAME                       STATE      READ WRITE CKSUM
        tank                       DEGRADED      0     0     0
          raidz2-0                 DEGRADED      0     0     0
            c6t5000CCA25E29AE19d0  ONLINE        0     0     0
            c5t5000CCA25E3D8B1Dd0  ONLINE        0     0     0
            c2t5000CCA25E2EAAA5d0  ONLINE        0     0     0
            c1t5000CCA25E2A0BD5d0  UNAVAIL       0     0     0
            c4t5000CCA25E07F5DDd0  UNAVAIL       0     0     0
            c3t5000CCA25E4845B5d0  ONLINE        0     0     0
            c8t5000CCA25E48B241d0  ONLINE        0     0     0
            c7t5000CCA25E2F7789d0  DEGRADED      0     0     0
        logs
          c12t1d0                  ONLINE        0     0     0
        cache
          c11t5d0                  ONLINE        0     0     0

device details:

        c1t5000CCA25E2A0BD5d0    UNAVAIL          too many errors
        status: FMA has faulted this device.
        action: Run 'fmadm faulty' for more information. Clear the errors
                using 'fmadm repaired'.

        c4t5000CCA25E07F5DDd0    UNAVAIL          too many errors
        status: FMA has faulted this device.
        action: Run 'fmadm faulty' for more information. Clear the errors
                using 'fmadm repaired'.

        c7t5000CCA25E2F7789d0    DEGRADED         too many errors
        status: FMA has faulted this device.The device is degraded to
                maintain enough replica.
        action: Run 'fmadm faulty' for more information. Clear the errors
                using 'fmadm repaired'.

Ich habe dann über Napp-It ein Replace versucht was aber auch nicht funktioniert hat. Die beiden Platten werden mir dort als c1t5000CCA25E07F5DDd0 und c4t5000CCA25E2A0BD5d0 angezeigt.

Kennt Ihr dort noch eine Möglichkeit, dass ich den Pool wiederstellen kann oder muss dieser dann komplett neu gemacht werden?

gea · 04.01.2019

Was mich etwas irritiert, ist dass jede Platte eine andere Controller Nummer hat (c1..c7). Normalerweise hat man einen Controller/HBA und da hängen mehrere Platten dran.

Was auf jeden Fall vermutlich passiert ist, ist dass die Systemüberwachung (fmd, fault management daemon) zu viele Fehler auf den Platten entdeckt hat. Um weiteren Schaden abzuwenden wurden die deaktiviert.

Das Kommando
prtconf | grep retired

zeigt deaktivierte Geräte. Die kann man mit
fmadm repaired device

wieder aktivieren (Fehler löschen)

siehe napp-it Menü System > Faults > Repair

hitman22 · 04.01.2019

Danke für die Antwort gea.

Ich habe den Befehl prtconf | grep retired ausgeführt, aber dort kommt nichts heraus. In meinem System ist nur ein HBA verbaut, evtl. kommt das auch weil die Platten an einer Backplane hängen. Ich führe die anderen beiden Befehle mal aus, wenn die Datensicherung fertig ist oder sollte ich die Festplatten doch lieber tauschen und falls ja, hat Du eine Empfehlung welche Platten man nehmen soll? Momentan habe ich diese verbaut HGST HUS726020ALS214.

Danke.

gea · 04.01.2019

HGST sind ultra zuverlässig, selbst ältere 2TB Platten.

Ich würde das System erstmal aus/einschalten und den Pool exportieren, dann importieren. Dabei werden alle Platten neu eingelesen - unabhängig von der Controllernummer. Eventuell ein Pool > Clear ausführen (löscht Fehler)

Bleiben die Plattenprobleme würde ich die ausbauen und z.B. per WD Data Liveguard z.B. unter Windows intensiv testen. Je nach Ergebnis dann weiternutzen oder wegwerfen.

hitman22 · 04.01.2019

Ich habe den Pool exportiert und neu importiert. Dort wurden mir dann die beiden Platten die als UNAVAIL angezeigt wurden als Offline angezeigt. Ich habe dann beide mal mit zpool online auf Online gestellt und noch ein Clear Error durchgeführt. Nun wird mir alles als Online angezeigt.

Ich habe mal noch ein Benchmark gemacht um sicherzugehen ob wirklich alles passt. Ich denke das Ergebnis ist so weit in Ordnung.

Code:

pool                            tank (recsize=128k, compr=off, readcache=all)
slog                            SSDPEK1W060GA 59 GB
remark                           


Fb3                             sync=always                     sync=disabled                   

Fb4 singlestreamwrite.f         sync=always                     sync=disabled                   
                                2234 ops                        7998 ops
                                446.785 ops/s                   1599.440 ops/s
                                2619us cpu/op                   1365us cpu/op
                                2.2ms latency                   0.6ms latency
                                446.6 MB/s                      1599.2 MB/s
________________________________________________________________________________________
 
read fb 7-9 + dd (opt)          randomread.f     randomrw.f     singlestreamr
pri/sec cache=all               582.6 MB/s       7.2 MB/s       2.4 GB/s                      
________________________________________________________________________________________

Danke für deine Hilfe und Tipps.

gea · 04.01.2019

446 MB/s sync write aus alten 2TB Platten und Z2 ist der Hammerl
Intel Optane ist einfach unschlagbar.

hitman22 · 04.01.2019

Das stimmt. So wie es scheint haben aber wohl meine iSCSI LUNs den Ausfall nicht überlebt. Unter Windows kommt Datenfehler (CRC-Prüfung) und ESXi zeigt den Datenspeicher erst gar nicht an.

Edit: Habe die LUN nochmal gelöscht via Napp-IT und neu importiert und nun geht es wieder.

Trambahner · 05.01.2019

Jo, die Optanes waren ein Segen für uns ZFSler.
=> Sync writes? Who cares. :fresse2:

MisterY · 05.01.2019

Wofür benötigt ihr die optane? Slog? L2arc?

Trambahner · 05.01.2019

Beides, yup. Nutze das AIO-Konzept und insbesondere Slog ist wichtig, da ESXI-Datastores per NFS ja syncwrites will. Klar, kann man disablen; dann wirds aber weniger sicher.
Da dies aber ja nicht die 280er Optane ausnutzt, hab ich auch etwas L2Arc spendiert.
Wenige GB hat auch die Storage-VM auf der Optane; denn die ist mein einziges nicht durchgereichtes Storage-Device.

Da das Durchreichen der Optane nicht in allen Szenarien geht, muss sie bei mir eh als VMFS-Device sprich lokaler Datastore laufen. Dadurch dass sie aber soviel Power hat und auch keinen onboard DRAM-Cache braucht, kann man im Homelab IMO Slog und L2Arc im Optane-Fall durchaus als Vdisk benutzen.

Sprich: ESXI-Booten von USB, Autostart Storage-VM von der Optane, SAS und Sata sind beide durchgereicht für ZFS (damit bei mir 16 Ports dafür verfügbar).

Rest der Optane ist dann bei Bedarf Temp-/Scratchspace für VMs.

Kritisch bei der Optane ist ggf. der richtige Treiber je nach ESXI und Optane-Firmware. Falsche Treiberversion bombt einen schnell mit nem PSOD aus.

[Sammelthread] ZFS Stammtisch

Enthusiast

Enthusiast

Experte

Enthusiast

Enthusiast

Enthusiast

Experte

Enthusiast

Urgestein

Neuling

Urgestein

Enthusiast

Experte

Enthusiast

Urgestein

Enthusiast

Neuling

Urgestein

Enthusiast

Urgestein

Experte

Urgestein

Experte

Urgestein

Experte

Urgestein

Experte

Urgestein

Urgestein

Urgestein

Ähnliche Themen