[Sammelthread] ZFS Stammtisch

DQ--12 · 27.07.2012

AG1M schrieb:
Hallo,

ich kann dir leider nicht alle Antworten geben, das müssen die anderen übernehmen.

Danke für deine Antworten!

AG1M schrieb:
"Am besten" gibts nicht, kommt immer auf deine Wünsche/Ansprüche an. Alle haben Vor- und Nachteile. Wenn du auf USB Stick installieren willst, fallen schon einmal Solaris, OpenIndiana und Nexentastor weg. Die laufen nur auf normalen HDDs/SSDs gut/flüssig. FreeNas, nas4free und zfsguru basieren alle auf FreeBSD (je nach Build von FreeBSD 8.x bis 9.x) und lassen sich sehr gut auf USB Sticks installieren.

Gut zu wissen, dann wirds wohl auf eines der drei und Geli als Verschlüsselungstool hinauslaufen. FreeNas wird so wie ich das bisher raus lesen konnte am häufigsten eingesetzt.

AG1M schrieb:
Geht schon ist aber nicht zu empfehlen schau dir mal die Stripesize an 4 HDDs @ RAID-Z2 = 128KB / 2 = 64KB und bei 5 HDDs @ RAID-Z2 = 128KB / 3 = 42,66* KB. Könntest ja die 5. als Spare machen, dann könnten bis zu 3 HDDs ausfallen, das wäre aber sehr übertrieben.

Du meinst 5 HDDs in einem Raid-Z2 machen generell weniger Sinn wegen der kleinen Stripesize? Ist das wirklich spürbar von der Performance? (ich brauch keine 150+ MB/s Leseraten - macht das Netzwerk eh nicht mit

Die Ausfallsicherheit von 2 HDDs ist genug. Hatte ursprünglich nur raidz1 vor, aber bei 3TB HDDs ist mir das dann doch zu riskant ob da beim rebuild nicht noch eine weitere HDD ein Problem bekommt. Wird auf dem N40L sicher auch seine Zeit dauern bis das durch ist.

AG1M schrieb:
Meinst du jetzt einen anderen Hersteller? Kann ich dir leider nicht sagen, ich hab den N36L und 2x4 GB ECC von der selben Marke. Schau dazu mal lieber in den N36L/N40L Thread, da wird dir sicher schnell geholfen.

Ja, ich meinte ob man das mitgelieferte 4GB Modul einfach drin lassen kann und irgend einen zusätzlichen 4GB Riegel dazu steckt. Aber ich informier mich da mal im anderen Thread.

AG1M schrieb:
Auf der USB/eSata HDD auch ZFS Verschlüsselung anschalten, wie schon bei deinem NAS. Kannst doch pools importieren und exportieren nach belieben, da ist kein TrueCrypt und Co. notwendig.

Wäre eine Möglichkeit. Wobei eine Sicherung auf eine TrueCrypt verschlüsselte NTFS Partition oder ähnliches sicher auch Vorteile hätte da es direkt unter Windows/OSX lesbar wäre falls mal ein Problem mit dem Server besteht und man schnell an die Daten kommen muss.

xrated · 27.07.2012

in mdb sieht man zumindest, wenn man ::memstat aufruft das 1GB reserviert ist. Der Kernel hat bei mir 542MB und free ist 550MB. Von dem free kann man evtl. noch was abzwacken.
Ich glaube mit swapfs_minfree geht das.

gea · 28.07.2012

vege schrieb:
Moin,
ich habe eine Beginnerfrage: Ich teste gerade etwas an einem kleinen ZFS Nas herum und habe Probleme eine weitere HDD einzubinden.

Openindiana 151a5 mit napp-it 0.8 installiert auf einer 8GB SSD.
Jetzt möchte ich eine oder mehrere Festplatten als Pool für die Daten hinzufügen.
Festplatten, System-SSD und DVD sind alle am gleichen Onboard Controller (Intel ICH-8) angeschlossen.

In napp-it erscheint die Platte unter home>disks bei all disks. Wen ich auf disks>details gehe, erscheint nur die Sytem SSD (Disk in use) und die Tabelle bei available disks ist leer.

Wie mache ich die Festplatte (Sata, 500GB Seagate ES) verfügbar?

Ich habe hier gelesen, das ich Sie vorher formatieren soll. Habe ich probiert:
Mit einer Windows Boot CD ntfs formatiert (keine Schnellformatierung),
mit Seatools Boot CD komplett gelöscht,
Fat 32 formatiert,
im Terminal mit dem Befehl format probiert, da kommt die Fehlermeldung ich sollte ein Herstellertool zur Formatierung benutzen,

dann den Rechner immer neu gestartet und gehofft die Platte ist verfügbar.
Eine andere Platte habe ich auch probiert, ging auch nicht.

Ich habe auch die Platte gelöscht und mit gparted eine Sun Partitionstabelle erstellt, hatte auch kein Erfolg.

Also: was mach ich falsch, wie bekomme ich die Festplatte verfügbar?

Vielen Dank für Eure Hilfe..
Christoph

Vor ein paar Wochen wurde ein derartiges Problem in hardforum diskutiert. Problem war da dass
menu disk mit iostat -Ensr arbeitet, Menü pool aber mit dem Kommando cfgadm -avl das mehr
und genauere Informationen liefert. Die Disk-id zwischen beiden war nivht identis (mit und ohne d0)
am Ende. Die Ursache konnte nicht genau geklärt werden. Ich habe aber etwas an napp-it geändert.

Ansonsten versuchen:
- Update auf napp-it newest
- Unformatierte oder nicht ZFS formatierte Platten nehmen
oder Platte (ganze Platte, keine Partitionen) formatieren und EFI Label aufspielen (format)
- anderen/ neueren Controller nehmen (LSI HBA)
- Pool per CLI Kommando erstellen (zpool create)

---------- Post added at 01:21 ---------- Previous post was at 01:15 ----------

millenniumpilot schrieb:
Hast Du das Problem in den Griff bekommen? Bezieht sich das Problem mehr auf die Kombination SAS-Expander + Sata-Platten oder spielt der Kontroller die große Rolle? Konnte das leider bisher noch nicht richtig rauslesen.
Habe einen HP 468406-B21 bestellt und leider erst jetzt von diesem Problem gelesen.
Funktioniert die Kombination mit einem IBM M1015 + HP SAS Expander und SATA-Platten? Hier macht der Kontroller ja auch schon 6G und ist ein LSI2008.

Ziel der Aktion: Wollte eigendlich in meinem 24-Plattencase 3 Stück IBM M1015 einbauen, aber erstens gibts die gerade nicht so günstig wie gewünscht und zweitens weis ich noch nicht sicher, ob diese 3 HBAs auch ohne Probleme in meinem Board funktionieren. Bei 24 Platten lohnt sich daher nun doch langsam ein Expander und den zweiten M1015 baue ich dann lieber in den Backupserver ein.

Edit: oder solle man lieber auf einen Intel RES2SV240 umsteigen? Dieser ist zwar teurer, aber anscheinend sind da die SFF8087 Kabel dabei, das kann man sich dann schönrechnen und wenn er weniger Probleme macht ist mir das dann auch etwas wert.

Wenn Expander, dann am Besten LSI 2008 HBA (IBM 1015, LSI 9211 etc) mit LSI SAS2 24Port oder 36 port Expander (z.B. Intel) nehmen. Geht problemlos mit SAS Platten. Es gibt aber immer wieder Berichte von Problemen mit SATA Platten oder zu langen Kabeln.

Wenn möglich, besser mehrere 8port oder 16port SAS2 Controller nehmen. Ist problemloser und meist billiger.
Man sollte halt ein Mainboard mit genügend PCI-e Slots ab 4x haben und nach Möglichkeit einen Slot für 10GBe freilassen.

millenniumpilot · 28.07.2012

Hallo Gea,

ich. benutze LSI2008-Controller, speziell IBM M1015 UND Sata-Platten. Ist hier der Einsatz von Expandern ein NoGo unter ZFS wie im Hardforum beschrieben? Spielt es eine Rolle welchen Expander ich verwende oder ist die Kombination mit einem Intel genauso toxisch wie mit einem HP-Expander? SAS-Platten werde ich im Heimeinsatz definitiv nicht verwenden. Ich verwende das von Dir empfohlene Board, da sind die Slots schon etwas knapp. Beim Einsatz von Expandern hätte ich einen Slot für eine IB-Karte frei.

Ghandalf · 28.07.2012

millenniumpilot schrieb:
Hallo Gea,

ich. benutze LSI2008-Controller, speziell IBM M1015 UND Sata-Platten. Ist hier der Einsatz von Expandern ein NoGo unter ZFS wie im Hardforum beschrieben? Spielt es eine Rolle welchen Expander ich verwende oder ist die Kombination mit einem Intel genauso toxisch wie mit einem HP-Expander? SAS-Platten werde ich im Heimeinsatz definitiv nicht verwenden. Ich verwende das von Dir empfohlene Board, da sind die Slots schon etwas knapp. Beim Einsatz von Expandern hätte ich einen Slot für eine IB-Karte frei.

Hi,

ich habe diesen Thread im Hard Forum auch verfolgt. So wie ich das herausgelesen habe, sind ja doch schon einige Seiten, ist, dass es egal ist, welchen Controller und Expander man verwendet. Es geht einzig und allein um SATA Platten, welche eben mit dieser Kombination Probleme bereiten können.
Man sollte auch bei einem 16x SAS Controller aufpassen. So viel ich weiß nutzen hier viele schon einen integrierten Expander. Ob hier ähnliche Probleme auftreten können, konnte ich aus dem Thread nicht herauslesen, aber es ist halt auch ein Expander.

LG Ghandalf

antilope114 · 28.07.2012

Hat mittlerweile eigentlich mal jemand die vmware-tools auf Solaris 11 installieren können? Mittlerweile gibt es für ESXi 5 schon das erste Update aber nach wie vor tut sich da nichts.

millenniumpilot · 28.07.2012

Hallo Ghandalf,

ich habe mir soeben den gesamten Thread durchgelesen und teile Deine Einschätzung. Ich nehme von meinem Vorhaben abstand und sende den Expander ungeöffnet wieder zurueck.

gea · 28.07.2012

millenniumpilot schrieb:
Hallo Gea,

ich. benutze LSI2008-Controller, speziell IBM M1015 UND Sata-Platten. Ist hier der Einsatz von Expandern ein NoGo unter ZFS wie im Hardforum beschrieben? Spielt es eine Rolle welchen Expander ich verwende oder ist die Kombination mit einem Intel genauso toxisch wie mit einem HP-Expander? SAS-Platten werde ich im Heimeinsatz definitiv nicht verwenden. Ich verwende das von Dir empfohlene Board, da sind die Slots schon etwas knapp. Beim Einsatz von Expandern hätte ich einen Slot für eine IB-Karte frei.

Es gibt viele die das ohne Probleme am Laufen haben, es gibt aber andere die Probleme haben.

Wenn Expander, dann ist LSI 2008 HBA + LSI Expander (z.B. Intel) derzeit die beste Lösung - auf max 1m Kabel achten. Wenn es aber anders geht (z.B. 16Port LSI SAS HBA) ist das sicher vorzuziehen und oft sogar biliger.

millenniumpilot · 28.07.2012

Hallo Gea,

dank für Deine Ausführungen. Aber mal gehts und mal nicht ist mir für meine Daten zu heikel. Das muss ich mir nicht antun.

Weis den jemand, ob die OnBoard Sata-Ports des X8SIL unter OI HotSwap fähig sind? Bei meinem Consumer-Board von Asus habe ich diesbezüglich Optionen im Bios. aber wie sieht es bei Serverboards aus? Im BIOS habe ich diesbezüglich nichts entdecken können.

gea · 29.07.2012

millenniumpilot schrieb:
Hallo Gea,

dank für Deine Ausführungen. Aber mal gehts und mal nicht ist mir für meine Daten zu heikel. Das muss ich mir nicht antun.

Weis den jemand, ob die OnBoard Sata-Ports des X8SIL unter OI HotSwap fähig sind? Bei meinem Consumer-Board von Asus habe ich diesbezüglich Optionen im Bios. aber wie sieht es bei Serverboards aus? Im BIOS habe ich diesbezüglich nichts entdecken können.

Ja, würde ich auch so machen.
Bis 50 Platten (Chenbro Chassis) geht es ohne Expander eigentlich besser.

Zum hotpug:
Sata auf AHCI stellen und es sollte funktionieren.

xrated · 30.07.2012

gea hast du schon mal probiert die 1GB Kernelreservierung zu ändern?

gea · 30.07.2012

xrated schrieb:
gea hast du schon mal probiert die 1GB Kernelreservierung zu ändern?

Nein habe ich nicht.
Ich bin ohnehin heilfroh, dass Solaris & Co ohne die ZFS Tuning-Anpassungen wie bei BSD oder Linux
in fast allen Fällen das Optimale aus der Hardware herausholt.

ansonsten:
wer AFP/ netatalk braucht:

napp.it 0.8k mit netatalk 3 ist verfügbar

Installation:
-OpenIndiana 151a5 installieren, reboot
- nappit default per wget installieren, reboot
- napp-it online auf 0.8k updaten
- netatalk3 per wget afp installer installieren, reboot

Hauptvorteil:
-richtig schnell (viel schneller als SMB vom Mac aus)
-endlich keine "unsichtbaren" AFP Dateien mehr im freigegebenen Ordner
(Ordner sieht unter SMB genauso aus wie unter AFP)

ron2105 · 31.07.2012

xrated schrieb:
gea hast du schon mal probiert die 1GB Kernelreservierung zu ändern?

also ich habe dies hier Let ZFS use all of your RAM » ZFS Build optimiert, und habe tatsächlich mehr ARC.

Gruß
Ron

xrated · 31.07.2012

Wie genau hast du es geändert? /etc/system gibts bei mir glaube gar nicht.

Edit:
echo swapfs_minfree/W0t65536|mdb -kw
Das bringt bei mir keine Änderung (mdb -k, dann ::memstat), zfs verwendet nach wie vor max. 3 von 4GB.

echo "arc_stats:

rint -d arcstat_size.value.ui64" | mdb -k
arcstat_size.value.ui64 = 0t80663568
Der ARC Cache läuft mir mit 2054MB

Weitere Parameter:
zfs_arc_max
zfs_vdev_cache_size

Also nicht so ganz einfach das ganze

Auch seltsam ist, obwohl in power.conf keine Disks stehen, machen die regelmäßig spindown

ron2105 · 01.08.2012

xrated schrieb:
Wie genau hast du es geändert? /etc/system gibts bei mir glaube gar nicht.

Edit:
echo swapfs_minfree/W0t65536|mdb -kw
Das bringt bei mir keine Änderung (mdb -k, dann ::memstat), zfs verwendet nach wie vor max. 3 von 4GB.

Da fehlen 2 blanks: echo swapfs_minfree/W0t65536 | mdb -kw

und zweitens hast du natürlich bei nur 4 GB RAM keinen Effekt, denn 1 GB fürs System bleibt als Vorgabe erhalten, bei höherer Bestückung ergibt sich ein größerer ARC.

xrated · 01.08.2012

das geht imho auch ohne Leerzeichen aber genau um diese 1gb gings ja

startplus · 01.08.2012

ZFS Neuling

Hallo,

ich bin Frank und neu hier im Forum.

Ich möchte einen Storage-server(4 TByte netto Daten - mehr kann ich nicht sichern) bauen.
Einziger Dienst - für die Klientrechner - iscsi.
Für das OS dachte ich an "OpenIndiana Development oi_151.1.5 X86 (powered by illumos)" und für die Administration an "napp.it".

Ich habe das erstmal auf einem Rechner installiert - fühlt sich gut an.
Einen zweiten Rechner habe ich als Klient(Ubuntu 12.04 LTS) eingerichtet und konnte auch den Dienst problemlos nutzen.

Der Vollständigkeit halber hier die Testinstallation:
1 X OpenIndiana HP DL360G7 Ram: 96Gbyte, Platten: 2xSAS 300GByte, 2xSAS 146GByte(alle einzeln, jeweils als Raid0 Device dem OS zur freien Verfügung).
Das OS selber ist auf einer externen USB Platte installiert.

1 X Ubuntu HP DL360G7 Ram: 96Gbyte, Platten: 1xSAS 300GByte für alles.

Die Rechner verfügen jeweils über eine InfiniBand Karte: Mellanox Technologies MT26428 [ConnectX VPI PCIe 2.0 5GT/s - IB QDR / 10GigE] (rev a0).
Zur Zeit sind die Rechner direkt, mit 1 Kabel, verbunden.

Ausgabe von zpool status storage-pool:

pool: storage-pool
state: ONLINE
scan: none requested
config:

NAME STATE READ WRITE CKSUM
storage-pool ONLINE 0 0 0
mirror-0 ONLINE 0 0 0
c3t0d0 ONLINE 0 0 0
c3t1d0 ONLINE 0 0 0
mirror-1 ONLINE 0 0 0
c3t2d0 ONLINE 0 0 0
c3t3d0 ONLINE 0 0 0

Eine vom Klient initierte iscsci Session:

Eine vorhandene 10Gbyte Datei vom Fileserver lesen

############
iscsi Login (Transport ISER)
Logging in to [iface: iser, target: iqn.1986-03.com.sun:t-data, portal: 192.168.1.30,3260]
Login to [iface: iser, target: iqn.1986-03.com.sun:t-data, portal: 192.168.1.30,3260]: successful

sleep 1 && mount /dev/sdb1 /mnt

blockdev --getra /dev/sdb:
256

blockdev --setra 2048 /dev/sdb
blockdev --getra /dev/sdb:
2048

fs sync und cache löschen:
sync && echo 3 > /proc/sys/vm/drop_caches

time dd if=/mnt/10G1 of=/dev/null bs=1M (ohne Klient fs cache)
10000+0 records in
10000+0 records out
10485760000 bytes (10 GB) copied, 4.43836 s, 2.4 GB/s

real 0m4.500s
user 0m0.008s
sys 0m3.880s

time dd if=/mnt/10G1 of=/dev/null bs=1M (mit Klient fs cache)
10000+0 records in
10000+0 records out
10485760000 bytes (10 GB) copied, 2.08897 s, 5.0 GB/s

real 0m2.091s
user 0m0.000s
sys 0m2.084s

umount /mnt && sleep 1

iscsi Logout (Transport ISER)
Logging out of session [sid: 18, target: iqn.1986-03.com.sun:t-data, portal: 192.168.1.30,3260]
Logout of [sid: 18, target: iqn.1986-03.com.sun:t-data, portal: 192.168.1.30,3260]: successful

############

und

6 1Gbyte Dateien löschen > 6 gleichzeitge Prozesse erstellen jeweils eine 1Gbyte Datei >
welche nach sync und Löschen des Klient-Datei-Caches durch 6 gleichzeitge Prozesse gelesen werden.

############
blockdev --getra /dev/sdb:
512

rm /mnt/1g*
sleep 3

dd if=/dev/zero of=/mnt/1g1 bs=1M count=1000 & (6 Prozesse)
sleep 10
1000+0 records in
1000+0 records out
1048576000 bytes (1.0 GB) copied, 1.33737 s, 784 MB/s
1000+0 records in
1000+0 records out
1048576000 bytes (1.0 GB) copied, 1.34029 s, 782 MB/s
1000+0 records in
1000+0 records out
1048576000 bytes (1.0 GB) copied, 1.37541 s, 762 MB/s
1000+0 records in
1000+0 records out
1048576000 bytes (1.0 GB) copied, 1.38449 s, 757 MB/s
1000+0 records in
1000+0 records out
1048576000 bytes (1.0 GB) copied, 1.39036 s, 754 MB/s
1000+0 records in
1000+0 records out
1048576000 bytes (1.0 GB) copied, 1.3974 s, 750 MB/s

sync

real 1m15.002s
user 0m0.000s
sys 0m0.000s
echo 3 > /proc/sys/vm/drop_caches

dd if=/mnt/1g1 of=/dev/null bs=1M & (6 Prozesse)
1000+0 records in
1000+0 records out
1048576000 bytes (1.0 GB) copied, 3.64288 s, 288 MB/s
1000+0 records in
1000+0 records out
1048576000 bytes (1.0 GB) copied, 3.81172 s, 275 MB/s
1000+0 records in
1000+0 records out
1048576000 bytes (1.0 GB) copied, 3.96113 s, 265 MB/s
1000+0 records in
1000+0 records out
1048576000 bytes (1.0 GB) copied, 4.03046 s, 260 MB/s
1000+0 records in
1000+0 records out
1048576000 bytes (1.0 GB) copied, 4.05776 s, 258 MB/s
1000+0 records in
1000+0 records out
1048576000 bytes (1.0 GB) copied, 4.14943 s, 253 MB/s

############

Der erste Test zeigt mir gelesen wird aus RAM, solange die Datei dort ist.
Das zweite Lesen aus dem Klient-Cache geht natürlich noch schneller.

Der zweite Test suggeriert mir ein schnelles Schreiben auf den Fileserver.
Allerdings zeigt mir die Dauer vom sync(1m:15sec) das hier die Daten wohl erstmal in den Ram geschrieben wurden.
Das Lesen nach sync und Löschen des Klient-Datei-Caches scheint hier wieder teilweise von den Platten zu kommen.

Zum ersten Test muss ich noch erwähnen:
Die Werte stammen vom zweiten Durchlauf. Beim ersten Durchlauf waren die Werte weitaus schlechter.

Als Hardware für den Fileserver war ein 2HE Server mit 4 X 3,5"SATA 2TByte Platten für die persistente Speicherung der Daten + 2 kleine Platten für das OS angedacht.

Hier stellen sich jetzt meine Fragen:
* welche und wieviel SSD's sollten für das Log verwendet werden
* welche und wieviel SSD's sollten für das Cache verwendet werden bei 32GByte RAM

Verwendet werden soll das Gerät als Iscsi Target für ein Pool von 6 Xenserver(DL360G7) mit ca. 50 VM's.

Sollte man gleich ein 3HE Server wählen zumal Daten und OS Platten alleine 6 Plattenschächte belegen?
Was haltet Ihr von der OCZ RevoDrive 3 X2 Max IOPS 240GB(OCZ RevoDrive 3 X2 Max IOPS 240GB, PCIe 2.0 x4 (RVD3MIX2-FHPX4-240G) | Deutschland - Hardwareluxx - Preisvergleich) als cache und log device?

xrated · 01.08.2012

Also mit iscsi und Fibrechannel hatte ich schon zu tun aber mit Infiniband noch nie. Benutzt man nicht Infiniband um eine direkte SCSI Verbindung zu haben, ohne Netzwerkoverhead wie bei iSCSI ?

gea · 02.08.2012

startplus schrieb:
Hier stellen sich jetzt meine Fragen:
* welche und wieviel SSD's sollten für das Log verwendet werden
* welche und wieviel SSD's sollten für das Cache verwendet werden bei 32GByte RAM

Verwendet werden soll das Gerät als Iscsi Target für ein Pool von 6 Xenserver(DL360G7) mit ca. 50 VM's.

Sollte man gleich ein 3HE Server wählen zumal Daten und OS Platten alleine 6 Plattenschächte belegen?
Was haltet Ihr von der OCZ RevoDrive 3 X2 Max IOPS 240GB(OCZ RevoDrive 3 X2 Max IOPS 240GB, PCIe 2.0 x4 (RVD3MIX2-FHPX4-240G) | Deutschland - Hardwareluxx - Preisvergleich) als cache und log device?

Beim Lesen wird bei OpenIndiana anderweitig ungenutzter RAM automatisch als LeseCache benutzt. Daher wird ZFS umso schneller je mehr RAM (kein freier RAM unter Last, daher auch die Meinung, dass ZFS soviel RAM braucht obwohl es nur der Performance dient). Ein LeseCache SSD ergänzt diesen schnellen RAM Cache um langsameren SSD Cache. Ein SSD LeseCache lohnt also erst, wenn mehr RAM nicht geht. Man kann mehrere SSD nutzen und die werden parallel genutzt. High performance SSD siehe z.B. Zeus Iops

Beim normalem asyncronen Schreiben gehen die Schreibvorgänge in den RAM, werden dort gesammelt und nach ca 5s als ein großer sequentieller Schreibvorgang auf Platte geschrieben. Ein ZIL/Log Laufwerk (sofern vornanden wird nicht genutzt)

Bei syncronen Schreib-Requests muss jeder Schreibvorgang sofort von der Platte bestätigt werden. Das Sammeln im RAM geht damit nicht. Schreiben kann dann bei vielen kleinen requests bis zu 100x langsamer werden. Ein Log device protokolliert jetzt die Schreibvorgänge der letzten 5s damit wieder sequentiell geschrieben werden kann (ohne Performanceverlust).

Das Log device wird also nur für syncrones Schreiben benötigt. Wichtig sind geringe Latenzen und hohe Schreib I/O Werten. Das ist etwas was eine SSD schlecht kann. Ein SSD Log-device hilft also nur bedingt. Mehrere sind nur als Mirror sinnvoll um den seltenen Fall eines Absturzes mit Ausfall des Log-device abzusichern. Ansonsten wird nur ein Logdevice benutzt. Soll die asyncrone Geschwindigkeit gehalten werden, muss das Log-device ein DRAM device sein (ZeusRam oder DDRdrive, max 8GB werden gebraucht)

Ich würde übrigens gleich ein 4 HE/16 Slot nehmen. Wenn man mal Snaps kennengelern hat, nutzt man die auch - Zumindest in einem zweiten Backup-Pool. Es schadet also nicht, Platz zu haben. Auch werden Pools mit der Anzahl der Platten schneller.

bluesunset · 02.08.2012

Ich würde sogar sagen, ein 4HE mit 24 Wechselrahmen.
2x 8 Port LSI 2208 OEM Controller und einmal 6-8 onboard Ports vom Mainboard.
Damit kannst du z.B. schön ein Raid 60 über 16 HDDs machen und hast noch Platz für 2-4 SSDs und zwei Hotspare. RAM hättest du ja genügend, auch wenn dieser bei iSCSI wohl nicht so viel bringt.

Anstatt SSDs von OCZ würde ich eher zu Modellen von Intel raten, diese verhalten sich deutlich stabiler. Bei den SATA3 oder auch SAS2 (7200 rpm) HDDs natürlich nur "Enterprise"-Modelle.

startplus · 02.08.2012

xrated schrieb:
Also mit iscsi und Fibrechannel hatte ich schon zu tun aber mit Infiniband noch nie. Benutzt man nicht Infiniband um eine direkte SCSI Verbindung zu haben, ohne Netzwerkoverhead wie bei iSCSI ?

Bin nicht der Infinibandfachmann. Hier ein Link zu einem groben Überblick http://www.searchsecurity.de/glossar/articles/183739/.
Der Satz dort "Infiniband basiert auf Internet Protocol Version 6 (IPv6), um eine fast grenzenlose Anzahl von Geräten unterstützen zu können." mit dem hier ersetzen / ergänzen http://compnetworking.about.com/cs/clustering/g/bldef_infiniban.htm ersetzen.

Openindiana - iscsi Software Comstar und die Software Open-iscsi kann den Transport über ISER(Extensions for RDMA) realisieren. ISER(http://en.wikipedia.org/wiki/ISCSI_Extensions_for_RDMA) benutzt für die Übermittlung der Daten RDMA.

Openindiana - iscsi Software Comstar und die Software Open-iscsi kann den Transport auch über tcp realisieren. Das ist das iscsi was über herkömmliche Ethernetadapter benutzt wird. Infiniband benutzt hierfür den Softwarestack IPoIB(http://pkg-ofed.alioth.debian.org/howto/infiniband-howto-5.html).

Durch den zusätzlichen Aufwand die Daten für den Transport(tcp) aufzubereiten und der zusätzliche Protokoll-overhead kostet richtig:

iscsi Login (Transport ISER)
Logging in to [iface: iser, target: iqn.1986-03.com.sun:t-data, portal: 192.168.1.30,3260]
Login to [iface: iser, target: iqn.1986-03.com.sun:t-data, portal: 192.168.1.30,3260]: successful

sleep 1 && mount /dev/sdb1 /mnt

blockdev --getra /dev/sdb:
256

blockdev --setra 2048 /dev/sdb
blockdev --getra /dev/sdb:
2048

fs sync und cache löschen:
sync && echo 3 > /proc/sys/vm/drop_caches

dd if=/mnt/10G1 of=/dev/null bs=1M (ohne Klient fs cache)
10000+0 records in
10000+0 records out
10485760000 bytes (10 GB) copied, 4.19676 s, 2.5 GB/s

umount /mnt && sleep 1

iscsi Logout (Transport ISER)
Logging out of session [sid: 8, target: iqn.1986-03.com.sun:t-data, portal: 192.168.1.30,3260]
Logout of [sid: 8, target: iqn.1986-03.com.sun:t-data, portal: 192.168.1.30,3260]: successful

############

iscsi Login (Transport tcp)
Logging in to [iface: default, target: iqn.1986-03.com.sun:t-data, portal: 192.168.1.30,3260]
Login to [iface: default, target: iqn.1986-03.com.sun:t-data, portal: 192.168.1.30,3260]: successful

sleep 1 && mount /dev/sdb1 /mnt

blockdev --getra /dev/sdb:
256

blockdev --setra 2048 /dev/sdb
blockdev --getra /dev/sdb:
2048

fs sync und cache löschen:
sync && echo 3 > /proc/sys/vm/drop_caches

dd if=/mnt/10G1 of=/dev/null bs=1M (ohne Klient fs cache)
10000+0 records in
10000+0 records out
10485760000 bytes (10 GB) copied, 17.8377 s, 588 MB/s

umount /mnt && sleep 1

iscsi Logout (Transport tcp)
Logging out of session [sid: 9, target: iqn.1986-03.com.sun:t-data, portal: 192.168.1.30,3260]
Logout of [sid: 9, target: iqn.1986-03.com.sun:t-data, portal: 192.168.1.30,3260]: successful

Bemerkung:
blockdev --setra 2048 /dev/sdb

Set readahead (in 512-byte sectors)

Ist bei mir default bei 256. Das setzen auf 2048 verdoppelte die Leseleistung der Testinstallation von 1.2 Gb/s auf 2.5 GB/s

bluesunset · 02.08.2012

SCSI ohne Netzwerkoverhead = FC.
SCSI mit Netzwerk = iSCSI
FCoE = SAN für Leute die meinen FC-Switche wären so teuer
RDMA = ein Sicherheitsalptraum, erlaube Host x in RAM von Host y zu schreiben ohne Umwege (angeblich auch in CPU-Cache/Register)

gea · 02.08.2012

bluesunset schrieb:
RAM hättest du ja genügend, auch wenn dieser bei iSCSI wohl nicht so viel bringt.

.

ARC Cache arbeitet auch bei iSCSI (ist ja auch nur eine Darreichungsform eines ZFS Dateisystems)
AnandTech - ZFS - Building, Testing, and Benchmarking

millenniumpilot · 04.08.2012

Hallo Ihr,

ich verwende aktuell ein AllInOne mit 2 IBM M1015 in einem Inter-Tech 4U-4324L Case. Leider habe ich so einige Probleme mit dem HotSwap von Platten.
Ich verwende oi_151a5 und Nappit 0.8k
Stecke ich Platten nach dem Booten der Maschine hinzu, so werden sie nicht in allen Menüs von Nappit korrekt angezeigt (manchmal wird eine Platte von Dreien erkannt) , entferne ich diese, stehen sie für alle Zeit noch in den Listen drin. Wie kann ich OI oder Nappit dazu überreden, die Platten neu einzulesen, d.h. fehlende Platten zu entfernen und neue Platten anzuzeigen? Ein Disk->HotSwap->Scan hilft auch nicht. Die Disklist ist vor und nach dem Scanlauf immer gleich.
Im Controllerbios gibt es die EInstellung, Wechselmedien zu unterstützen. Damit sind meiner Meinung nach aber keine Platten gemeint.
Mache ich etwas falsch?

AG1M · 05.08.2012

Mit dem GUI bei napp-it hab ich das auch nicht hinbekommen. Ich machs immer per CLI und cfgadm für meine Backup HotSwap HDDs. Wenn doch irgendwie mit dem GUI klappt würde mich das auch interssieren.

gea · 05.08.2012

millenniumpilot schrieb:
Hallo Ihr,

ich verwende aktuell ein AllInOne mit 2 IBM M1015 in einem Inter-Tech 4U-4324L Case. Leider habe ich so einige Probleme mit dem HotSwap von Platten.
Ich verwende oi_151a5 und Nappit 0.8k
Stecke ich Platten nach dem Booten der Maschine hinzu, so werden sie nicht in allen Menüs von Nappit korrekt angezeigt (manchmal wird eine Platte von Dreien erkannt) , entferne ich diese, stehen sie für alle Zeit noch in den Listen drin. Wie kann ich OI oder Nappit dazu überreden, die Platten neu einzulesen, d.h. fehlende Platten zu entfernen und neue Platten anzuzeigen? Ein Disk->HotSwap->Scan hilft auch nicht. Die Disklist ist vor und nach dem Scanlauf immer gleich.
Im Controllerbios gibt es die EInstellung, Wechselmedien zu unterstützen. Damit sind meiner Meinung nach aber keine Platten gemeint.
Mache ich etwas falsch?

Es gibt da lediglich ein paar Tipps

1, wenn der Controller kein hotplug kann:
- zum Plattenwechseln immer herunterfahren

2. wenn der Controller hotplug kann (z.B. AHCI, SAS HBA):
- neu eingesteckte Platten werden automatisch erkannt
- Platten dürfen nicht einfach entfernt werden sondern müssen vorher per disk - hotplug - unconfigure abgemeldet werden
- Ein Platte tauschen: neue disk einstecken, disk replace, alte Platte per unconfigure abmelden und herausnehmen
(napp-it menu disk-hotswap - set offline bzw set online - nutzt cfgadm)
Platte ist aber durchaus noch als unconfigured bis zum reboot bekannt (erst beim reboot wird sie nicht mehr angezeigt, stört aber nicht weiter, da napp-it sie nicht als verfügbar anzeigt.)

3. richtige Wechselplatten per USB nutzen

4. Pool exportieren und entfernen: pool export +disks unconfigure via menu disk hotswap

Zu napp-it und den verschiedenen Menüs
disk: Hier wird per iostat der grundlegene diskstatus angezeigt
- sehr schnell, geht immer

disk-details: hier werden per cfgadm auch details erfragt (Seriennummer, Controller etc)
- disk details nutzt auch zpool status um die pool-Zugehörigkeit zu ermitteln
- langsamer als iostat, eine defekte Platte kann diese Anzeige blockieren

smartmontools:
hier gibt es die sicherste Möglichkeit Seriennummern auszulesen, dazu Status und Temperatur
- geht nicht immer zuverlässig

SAS2 monitoring
- nutzt alle obenstehenden Methoden + LSI tools um den physikalischen Schacht einer Platte zu ermitteln

Leider gibt es kein Tool, das alle Informationen sicher und schnell ermittelt.
Die Information, die jedes tool zeigt, sind jeweils unterschiedlich und manchmal nicht konsistent (z.B. Seriennummer)

millenniumpilot · 06.08.2012

Hallo Gea,

danke für die Tips. Aber ganz so konnte ich das aber leider nicht nachstellen.
Erstens funktioniert bei mir das HotPlug beim per PassTrouht durchgereichten Intel-ICH nicht. Ich habe auch den EIndruck, das die Platten garnicht erst anlaufen, wenn sie in Verbindung mit den Backplanes nachträglich an die MB-Sataports angeschlossen werden.
Desweiteren funktionierte bei mir das unconfigure der SATA-Platten (Hitachi 7k3000) am HB (IBM M1015 IT-Mode) nicht. Es kam immer eine schnell verschwindene Fehlermeldung mit ... I/O-Error.

Meine Intention war die Verfahrensweise beim Ausfall einer Platte zu testen. Dazu generierte ich mir ein Mirror mit einer Hotpsare.
Eine Platte wurde einfach abgezogen und so ein Ausfall simuliert. Die Spareplatte sprang immer erst ein und ein Resilvering wurde durchgeführt, wenn es einen Schreibzugriff auf den Mirror gab. Vorher merkte das OI nichts vom Ausfall der Platte.
Ein Rebuild mit einer anderen Platte fand nur statt, wenn das System die Platte seit dem letzten Booten noch nicht kannte.
Einfach eine freie Platte aus einem anderen Schacht entfernen (unconfigure ging ja grundsätzlich nicht) und in den ausgefallenen Schacht stecken funktionierte nicht.
Die angezeigten Platteninfos bei den unterschiedlichsten Menüpunkten widersprachen sich oft, so wie gea es auch schon schreibt. Ab und an half auch ein Abmelden vom Napp-it und neues anmelden um einigermaßen schlüssige Infos zu bekommen.
Zum Beispiel löste ich einen Pool auf, habe damit neue freie Platten, aber beim erneuten Anlegen eines Pools wurden mir keine freien Platten angeboten, obwohl sie in anderen Menüpunkten als frei vermerkt waren. Ich habe den EIndruck gewonnen, das das Buffern von Werten von Napp-it in den einzelnen Menüs hier oft Kontraproduktiv war. Den sicheren Königsweg für den Ernstfall habe ich noch nicht gefunden, dazu musste ich zu sehr mit den einzelnen Menüpunkten im Napp-it kämpfen. Als bei mir guter Weg die Platten ordendlich einlesen zu lassen hatte sich bei mir der Aufruf der Smart-Parameter und das SAS2 monitoring (vorher die Buffertabelle löschen lassen) erwiesen.

gea · 06.08.2012

millenniumpilot schrieb:
Hallo Gea,

danke für die Tips. Aber ganz so konnte ich das aber leider nicht nachstellen.
Erstens funktioniert bei mir das HotPlug beim per PassTrouht durchgereichten Intel-ICH nicht. Ich habe auch den EIndruck, das die Platten garnicht erst anlaufen, wenn sie in Verbindung mit den Backplanes nachträglich an die MB-Sataports angeschlossen werden.

ICH 10 sollte Hotplug unterstützen - aber nicht im IDE sondern nur im AHCI Modus

Desweiteren funktionierte bei mir das unconfigure der SATA-Platten (Hitachi 7k3000) am HB (IBM M1015 IT-Mode) nicht. Es kam immer eine schnell verschwindene Fehlermeldung mit ... I/O-Error.

die Platte darf nicht Teil eines Pools sein

Meine Intention war die Verfahrensweise beim Ausfall einer Platte zu testen. Dazu generierte ich mir ein Mirror mit einer Hotpsare.
Eine Platte wurde einfach abgezogen und so ein Ausfall simuliert. Die Spareplatte sprang immer erst ein und ein Resilvering wurde durchgeführt, wenn es einen Schreibzugriff auf den Mirror gab. Vorher merkte das OI nichts vom Ausfall der Platte.

Solaris arbeitet so. Erst beim Zugriff wird der Fehler erkannt (Oder über den fmd service oder einen anderen regelmäßigen Test). Das ist auch gut so. Solaris ist auf unterschiedliche Speichersysteme mit hunderten Platten ausgelegt. Ein kurzfristiges Fehlen/ reconnect darf nicht stören. Lediglich beim Zugriff müssen die Platten verfügbar sein. (Ein kurzzeitiger Ausfall führt lediglich zu einem Pool offline bis die Platten wieder das sind)

Ein Rebuild mit einer anderen Platte fand nur statt, wenn das System die Platte seit dem letzten Booten noch nicht kannte.
Einfach eine freie Platte aus einem anderen Schacht entfernen (unconfigure ging ja grundsätzlich nicht) und in den ausgefallenen Schacht stecken funktionierte nicht.

benötigt alles hotplug-Fähigkeit

Die angezeigten Platteninfos bei den unterschiedlichsten Menüpunkten widersprachen sich oft, so wie gea es auch schon schreibt. Ab und an half auch ein Abmelden vom Napp-it und neues anmelden um einigermaßen schlüssige Infos zu bekommen.
Zum Beispiel löste ich einen Pool auf, habe damit neue freie Platten, aber beim erneuten Anlegen eines Pools wurden mir keine freien Platten angeboten, obwohl sie in anderen Menüpunkten als frei vermerkt waren. Ich habe den EIndruck gewonnen, das das Buffern von Werten von Napp-it in den einzelnen Menüs hier oft Kontraproduktiv war.

napp-it puffert Platten-Information nur in der Extension SAS2 monitoring (und das nur wenn die Platteninfo aus Menü disks/ iostat sich nicht ändert.). Ansonsten ist es das Verhalten von OpenIndiana, beim Booten erfasste Platten zu inventarisieren und nicht zu vergessen, auch wenn sie (kurzzeitig oder für immer) nicht mehr zur Verfügung stehen. Mit unconfigure (und hotplug) kann man OI aber sagen, dass eine Platte nicht mehr benutzt werden soll (bis zu einem optionalen configure)

Ansonsten:
Wie wurde denn der Pool aufgelößt - Per pool destroy? Dann stehen die Platten wieder zur Verfügung. Ansonsten erkennt ZFS das die Platten Teil eines Pools sind/waren und benutzt sie nicht (bis zu einem Reformatieren am Einfachsten auf ein nicht Solaris Format)

Den sicheren Königsweg für den Ernstfall habe ich noch nicht gefunden, dazu musste ich zu sehr mit den einzelnen Menüpunkten im Napp-it kämpfen. Als bei mir guter Weg die Platten ordendlich einlesen zu lassen hatte sich bei mir der Aufruf der Smart-Parameter und das SAS2 monitoring (vorher die Buffertabelle löschen lassen) erwiesen.

Ohne funktionierendes Hotplug ist ein reboot bei Plattenänderungen/-ausfall nicht vermeidbar.

millenniumpilot · 06.08.2012

gea schrieb:
ICH 10 sollte Hotplug unterstützen - aber nicht im IDE sondern nur im AHCI Modus

ja, im BIOS des Hostes war AHCI aktiviert. Da der Kontroller an die virtuelle Maschine durchgereicht ist, habe ich auch hier nachgeschaut. Hier gibt es aber keine entsprechende Funktion.

gea schrieb:
Solaris arbeitet so. Erst beim Zugriff wird der Fehler erkannt (Oder über den fmd service oder einen anderen regelmäßigen Test). Das ist auch gut so. Solaris ist auf unterschiedliche Speichersysteme mit hunderten Platten ausgelegt. Ein kurzfristiges Fehlen/ reconnect darf nicht stören. Lediglich beim Zugriff müssen die Platten verfügbar sein. (Ein kurzzeitiger Ausfall führt lediglich zu einem Pool offline bis die Platten wieder das sind)

Danke, damit ist die Sache klar. Also normal.

gea schrieb:
Ansonsten:
Wie wurde denn der Pool aufgelößt - Per pool destroy? Dann stehen die Platten wieder zur Verfügung. Ansonsten erkennt ZFS das die Platten Teil eines Pools sind/waren und benutzt sie nicht (bis zu einem Reformatieren am Einfachsten auf ein nicht Solaris Format)

per Destroy. In einigen Listen wurden die Platten anschließend als nicht in Benutzung (nicht einem Pool zugeordnet) aufgeführt, trotzdem wurden sie mir nicht beim Erstellen eines neuen Pools vorgeschlagen. Erst ein an und abmelden an Napp-it hatte so glaube ich mich zu erinnern dieses Problem behoben. Daher die Vermutung mit dem Puffern von Statusinfos.

gea schrieb:
Ohne funktionierendes Hotplug ist ein reboot bei Plattenänderungen/-ausfall nicht vermeidbar.

die eingesetzte Kombination aus HBA und Backplanes sollte ein HotPlug unterstützen.
Ein unconfigure ging leider mit besagter Melung nicht. Kann das an den SATA-Platten liegen? Du verwendest ja wohl SAS-Platten

Sind die WWNs bei SATA-Platten Plattenspezifisch oder Slot-Spezifisch? SAS-Platten bringen nach meiner Infos ihre WWN selber mit, bei SATA werden die vom HBA generiert? Ist das so richtig? Bei Plattenspezifisch kann ich die WWN auf die Platten raufschreiben, wenn die vom HBA-Slot abhängt natürlich nicht.

Nachtrag:

>>Desweiteren funktionierte bei mir das unconfigure der SATA-Platten (Hitachi 7k3000) am HB (IBM M1015 IT->>Mode) nicht. Es kam immer eine schnell verschwindene Fehlermeldung mit ... I/O-Error.

> die Platte darf nicht Teil eines Pools sein

das ist doch aber der Sinn des ganzen! Ich will eine Platte des Pools austauschen da defekt o.ä..
Du schreibst doch selber weiter oben, erst unkonfigure, dann tauschen.
Bei Platten die NICHT im Pool sind, macht das doch eigendlich ansonsten keinen Sinn.

gea · 06.08.2012

defekte Platte tauschen:

- neue Platte einsetzen (falls keine Platte bereits als hotswap dem Pool hinzufügt wurde)
- defekte Platte durch funktionierende ersetzen (disk-replace, passiert automatisch wenn hotswap Platte vorhanden), resilver
- defekte Platte abmelden (unconfigure, geht jetzt, da die defekte Platte jetzt nicht mehr Pool-Mitglied ist)
- defekte Platte herausziehen

WWN
Ich verwende (in der Mehrzahl) auch SATA Platten. Da ist bei neueren Platten auch eine eindeutige WWN Nummer auf der Plattenfirmware. Bei älteren Platten wird der Controller eine WWN erzeugen. Ansonsten ist die WWN meist eindeutig und plattenspezifisch (wie die MAC Adresse der Netzwerkkarte) und kann nicht durch den Benutzer geändert werden.

(meist eindeutig; ich hatte schon SSD's bei denen mehrere Platten die gleiche WWN hatten - funktioniert dann halt nicht unter ZFS)

[Sammelthread] ZFS Stammtisch

Neuling

Enthusiast

Urgestein

Enthusiast

Neuling

Enthusiast

Enthusiast

Urgestein

Enthusiast

Urgestein

Enthusiast

Urgestein

Neuling

Enthusiast

Neuling

Enthusiast

Neuling

Enthusiast

Urgestein

Semiprofi

Neuling

Semiprofi

Urgestein

Enthusiast

Legende

Urgestein

Enthusiast

Urgestein

Enthusiast

Urgestein

Ähnliche Themen