[Sammelthread] ZFS Stammtisch

Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Ich dachte bei einem Raid-Z2 können bis zu 2 Platten gleichzeitig ausfallen?

Ich denke, das Problem war, dass zwei Platten ausgefallen sind. Die Ursache lag nicht an den Platten. Da die Redundanz damit weg ist, hat jeder weitere Fehler der "Ursache" einen Datenverlust zu Folge.

Die Frage ist also, was war die Ursache, dass zwei Platten zeitgleich ausfallen.
 
Die zwei Festplatten haben wohl schon länger, seit ca. 1-2 Monaten in die Logfiles "offline"-Meldungen geschrieben.. Das System wurde aber leider nicht gewissenhaft gepflegt und administriert... Festplatten wurden nicht rechtzeitig ausgetauscht und es waren nicht genug spares konfiguriert.. Und dann kam eine dritte ins Spiel mit "offline" und das wars. Aber selbst wenn genug Spares da sind, kann es trotzdem theoretisch passieren, dass Festplatten zu schnell nacheinander ausfallen, bevor resilvering abgeschlossen ist, und zum totalen Datenverlust führen.

Hier noch der Auszug aus dem Log:
Jan 24 20:29:58 s911fs007 scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci8086,3410@9/pci1000,3150@0/sd@e,0 (sd20):
Jan 24 20:29:58 s911fs007 drive offline
Jan 24 20:29:58 s911fs007 scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci8086,3410@9/pci1000,3150@0/sd@f,0 (sd21):
Jan 24 20:29:58 s911fs007 drive offline
Jan 24 21:01:12 s911fs007 scsi: [ID 365881 kern.info] /pci@0,0/pci8086,3410@9/pci1000,3150@0 (mpt1):
Jan 24 21:01:12 s911fs007 Log info 0x31140000 received for target 13.
Jan 24 21:01:12 s911fs007 scsi_status=0x0, ioc_status=0x8048, scsi_state=0xc
Jan 24 21:01:15 s911fs007 scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci8086,3410@9/pci1000,3150@0/sd@d,0 (sd19):
Jan 24 21:01:15 s911fs007 Command failed to complete...Device is gone
Jan 24 21:01:15 s911fs007 scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci8086,3410@9/pci1000,3150@0/sd@d,0 (sd19):
Jan 24 21:01:15 s911fs007 SYNCHRONIZE CACHE command failed (5)
Jan 24 21:01:15 s911fs007 scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci8086,3410@9/pci1000,3150@0/sd@d,0 (sd19):
Jan 24 21:01:15 s911fs007 drive offline
Jan 24 21:01:15 s911fs007 scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci8086,3410@9/pci1000,3150@0/sd@d,0 (sd19):
Jan 24 21:01:15 s911fs007 SYNCHRONIZE CACHE command failed (5)
Jan 24 21:01:16 s911fs007 scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci8086,3410@9/pci1000,3150@0/sd@d,0 (sd19):
Jan 24 21:01:16 s911fs007 drive offline
Jan 24 21:01:16 s911fs007 scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci8086,3410@9/pci1000,3150@0/sd@d,0 (sd19):
Jan 24 21:01:16 s911fs007 drive offline
Jan 24 21:01:16 s911fs007 scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci8086,3410@9/pci1000,3150@0/sd@d,0 (sd19):
Jan 24 21:01:16 s911fs007 drive offline
Jan 24 21:02:25 s911fs007 scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci8086,3410@9/pci1000,3150@0/sd@d,0 (sd19):
Jan 24 21:02:25 s911fs007 drive offline
Jan 24 21:02:25 s911fs007 scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci8086,3410@9/pci1000,3150@0/sd@e,0 (sd20):
Jan 24 21:02:25 s911fs007 drive offline
Jan 24 21:02:25 s911fs007 scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci8086,3410@9/pci1000,3150@0/sd@f,0 (sd21):
Jan 24 21:02:25 s911fs007 drive offline

Als die sd19 sich zum ersten mal im Log zeigte, waren Daten nicht mehr verfügbar.
 
Ich denke, das Problem war, dass zwei Platten ausgefallen sind. Die Ursache lag nicht an den Platten. Da die Redundanz damit weg ist, hat jeder weitere Fehler der "Ursache" einen Datenverlust zu Folge.

Die Frage ist also, was war die Ursache, dass zwei Platten zeitgleich ausfallen.

Da habe ich wohl grandios was nicht verstanden. Mein ZFS-Weltbild:

Folgende Konfiguration: 6 Platten als RAIDZ2 und eine weitere als Platte als spare. Failmode=continue, Autoreplace=on als Pool Parameter.

1. Eine Platte fällt aus -> ZFS nimmt die spare automatisch in den Pool.
- Danach fällt eine weitere Platte aus, Pool degraded aber voll funktionstüchtig
- Nun fällt noch eine Platte aus, Pool degraded aber voll funktionstüchtig
- Nun fällt noch eine Platte aus, Daten im Pool sind verloren

2. Eine Platte fällt aus -> ZFS nimmt die spare automatisch in den Pool.
- Während des Resilvering fällt eine weitere Platte aus, Pool degraded aber voll funktionstüchtig?? -> Stimmt das??

3. Eine Platte fällt aus -> ZFS nimmt die spare automatisch in den Pool.
- Während des Resilvering fallen zwei weitere Platten aus, Pool degraded aber voll funktionstüchtig?? -> Stimmt das??

4. Eine Platte fällt aus -> ZFS nimmt die spare automatisch in den Pool.
- Während des Resilvering fallen drei weitere Platten aus, Game over...

Wenn in /var/adm/messages folgende Warnungen auftauchen, gibt es dann auch einen Hinweis auf Probleme bei zpool status?

Jan 24 18:29:29 s911fs007 scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci8086,3410@9/pci1000,3150@0/sd@e,0 (sd20):
Jan 24 18:29:29 s911fs007 drive offline
Jan 24 18:29:29 s911fs007 scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci8086,3410@9/pci1000,3150@0/sd@f,0 (sd21):
Jan 24 18:29:29 s911fs007 drive offline

Wenn nicht, dann sollte in einem produktiven System wohl in jedem Fall /var/adm/messages ständig geprüft werden, oder.

Sorry für die vielen Fragen.
 
Netter ZFS Homeserver für die Scheichs:

So sieht ein Petabyte-Rack aus

Megabytes und Gigabytes sind heutzutage nur noch für die Allerwenigsten Fremdwörter, und selbst das Terabyte kennen nicht nur die absoluten IT-Spezialisten, seitdem immer größere Festplatten am Markt verfügbar sind. Vom Petabyte hört man hingegen normalerweise eher wenig, und der normale Anwender hat mit dieser Größenordnung beim Speicher nie Kontakt. ....

mehr 360 SAS-Festplatten, 7000 Watt und 495.000 Dollar Kaufpreis - So sieht ein Petabyte-Rack aus - Gestatten: Petarack!
 
hallo Gea,

vielen Dank für den letzten Link. War sogar für mich verständlich ;-)

btw: hat schon jemand ein Backupsystem auf Basis von ZFS hochgezogen? Mein Hauptserver (GEAs AllInOne) läuft jetzt und ich möchte einen zweiten Server (OI nativ) hochziehen, der das FS vom Hauptserver täglich repliziert (vorher ein HotSnap auf dem Hauptserver durchführen) und dann per Snaps eine Historie vorhält. Habe mit ZFS send/receive noch nicht gearbeitet. Gibt es soetwas wie eine crontab bei OI? Oder kann man alles mit nappit erschlagen? Gibt es da schon Hinweise/HowTos für ZFS/OI Anfänger?

Gruß Millenniumpilot
 
Such einfach mal nach https://encrypted.google.com/search?hl=de&q=zfs+send+receive+ssh oder https://encrypted.google.com/search?hl=de&q=zfs+send+receive+script , so findest du massig Anleitungen. ;)

http://www.aisecure.net/2011/06/27/zfs-backups-with-differential-snapshots/
http://www.aisecure.net/2012/01/11/automated-zfs-incremental-backups-over-ssh/

Eventuell musst du je nach Betriebssystem die Sachen etwas anpassen, aber im Grunde ist das fast alles gleich für diesen Anwendungszweck.

Und bevor du dich fragst wie man sich ohne Password über SSH einloggt, siehe https://encrypted.google.com/search?hl=de&q=ssh+key+login

Einfach mal selber suchen, in der Regel findet man so schneller eine Antwort als man überhaupt einen Post in einem Forum verfassen kann.

Das könnten sich viele Leute mal angewöhnen: Anstatt ständig den gleichen Standardkram zu fragen den man durch 30 Sekunden googeln herausfinden kann. Mal ganz davon abgesehen dass man dann sofort eine Lösung hat und nicht erst Stunden oder Tage warten muss bis sich jemand meldet. :)

Und ob die Lösung die man in dem Forum in dem man gefragt hat dann überhaupt optimal oder richtig ist, ist auch immer so eine Sache. Oft posten Leute die überhaupt keine Ahnung haben wovon sie da eigentlich reden oder ohne einen richtig großen Überblick über das Thema zu haben.

Oft kommt es mir so vor dass wenn ich nach einem speziellen Problem recherchiere ich schon nach wenigen Minuten mehr weiß als die Leute die auf solche Fragen in diversen Foren antworten. Also lieber selbst schauen anstatt sich auf andere zu verlassen! ;)

Sehr schön dazu: https://xkcd.com/903/ :d
 
Zuletzt bearbeitet:
Hallo Grafiktreiber,

Du verstehtst da etwas falsch. Unter Linux z.B. kann ich das alles und handle es schon so. ssh per key ist auch kein Problem. Alles bekannte Sachen für mich. Aber leider nicht Solaris. Da tue ich mich noch sehr schwer, da die meisten Befehle so ganz anders heissen oder funktionieren. Das ist nicht so einfach wie ein Script oder eine Idee mal von einer Distribution auf eine Andere anzupassen. Daher wäre eine Einführung für Solaris/OI-Anfänger schon nicht schlecht ;-)

Millenniumpilot
 
Zuletzt bearbeitet:
Hast du dir überhaupt irgendeinen Link angeguckt? Automated ZFS incremental Backups | aisecure.net sollte genau dass sein was du gesucht hast.

Es ging mir bei meinem Post nicht darum dich persönlich anzugreifen sondern ein grundsätzliches "gesellschaftliches" (?) Problem anzusprechen.
Mit deiner Antwort zeigst du genau auch das angesprochene Verhalten. Anstatt selbst zu suchen hoffst du dass dir irgendwer die Antworten auf einem Silbertablett serviert. :fresse:
Ich antworte hier knapp 50 Minuten später. Hättest du jetzt wieder selber gegoogelt wärste wüsstest du nun auch schon folgendes:
Die ZFS-Syntax ist unter jedem Betriebssystem gleich. Ich meine Solaris verwendet Vixie Cron, das ist auch bei vielen Linux-Distributionen der Fall, also gilt hier auch wieder das selbe, crontab -e ist dein Freund. ;)
Als Shell oder für Scripte kannst du unter Solaris auch Bash verwenden.

Fassen wir mal kurz was ich vermitteln möchte: Selber suchen ist schneller, macht schlauer, kostet nichts und liefert oft auch die besseren Ergebnisse.
Bei sehr speziellen Problemen ist das natürlich nicht immer möglich. Aber das hier ist kein spezielles Problem sondern Standardzeugs. ;)
 
Zuletzt bearbeitet:
2-6TByte sind in gewissen Umgebungen eine normale Speichergröße. Stelle mir nur das Disk to Disk to Tape Backup interessant vor :)
Selbst bei LTO5 mit 1500GByte bräuchte man 720 Bänder für die 3TByte SAS HDDs (redundanz des Raids jetzt nicht mit rausgerechnet).
 
Hallo Grafiktreiber,

ehrlich gesagt noch nicht, sitze leider aktuell vor keinem PC :-)
Werde ich morgen nachholen. Aber trotzdem hat man ab und an durch sein Berufs- und Familienleben etwas anderes zu tun als sich durch Google zu hangeln und nâchtelang an einer eigenen Lösung zu friemeln. Man muss ja nicht alles selber machen, wenn es schon etwas feines dafür gibt. Oder ich werde langsam zu alt dafür ;-)
 
Habt ihr schon von dem Solaris Source leak gehört?
Sieht so aus als hätte jemand die gesamten Kernelsourcen von Solaris 11 auf piratebay Hochgeladen.
Damit ist die Source von ZFS v33 Offen verfügbar (Die mit Verschlüsselung).
Die Letzte offene war v28 (Open Indiana, BSD, ZFSonLinux).

Damit steigt die chance das es offene ZFS-Crypto Implementierungen geben wird die mit den Oracle Versionen Kompatibel sind.
Evtl bewegt das Oracle dazu die Solaris 11 Source endlich Offiziell unter CDDL freizugeben.
 
Zuletzt bearbeitet:
Naja, die Chancen steigen damit nicht wirklich. Jeder der Anhand dieses Quellcodes eine ZFS-Crypto Implementierung für OI, FreeBSD, zfs-fuse oder zfsonlinux erstellt macht sich strafbar. Es ist außerdem durchaus möglich das die Sourcen nie offiziel freigegeben werden. Daher denke ich nicht dass sich jemand die Arbeit machen wird und irgendwas in der Richtung mit diesem Sourcecode anfangen möchte.
Sollten die Sourcen irgendwann später mal freigegeben werden hat man dann natürlich schon mal eine gewisse Zeit damit arbeiten können. Aber bis dahin ist das alles illegal. Und ich bin mir ziemlich sicher dass sobald da irgendwer irgendwo etwas in SVN oder git oder was auch immer hochlädt oder großartig diskutiert Oracle da ganz schnell bei der Sache ist. ;)

Siehe https://github.com/zfsonlinux/zfs/issues/494 sowie https://www.illumos.org/boards/1/topics/256 .
 
Zuletzt bearbeitet:
Naja, die Chancen steigen damit nicht wirklich. Jeder der Anhand dieses Quellcodes eine ZFS-Crypto Implementierung für OI, FreeBSD, zfs-fuse oder zfsonlinux erstellt macht sich strafbar

Das eigentliche Problem ist, dass bisher bei ZFS V.28 bisher Schluss ist mit austauschbaren ZFS pools. Auch wenn crypto und das freie ZFS wohl zu 90% fertig war als Oracle SUN übernahm, sind die restlichen Codes in dem Leak vergiftet. Jeder der das nutzt läuft Gefahr, verklagt zu werden, auch wenn CDDL darübersteht (Niemand weiß ob das gefälscht ist). Inkompatible Pools wiil eigentlich keiner.

GottseiDank sind die meisten ursprünglichen ZFS Entwickler jetzt alle bei Illumos, Joyent, Nexenta etc. Es besteht damit noch Hoffnung, dass Oracle so vernünftig ist, die ZFS Entwicklung offen zu halten- und sei es nur im Tausch mit ZFS-KVM von Joyent.

Und wenn nicht, who cares about Oracle?
Wenn es ohne gehen muss, dann muss es halt so sein! Dann gibt es vermutlich ein inkompatibles Zpool V31i mit Encryption von Illumos - incompatibel (hoffentlich) für Oracle.

Wenn nicht kaufe ich notfalls Solaris 11 - wer weiß, hoffe aber auf (erwarte eher) eine freie Lösung.
Etwas Gutes zu kaufen ist aber allemal besses als es nicht zu nutzen - auch wenn es closed source ist und es vor Allem den Großen wie MS, Adobe, Apple, Oracle etc nutzt.

Ich erwarte diesen worst case aber nicht und erwarte dass ZFS wie Linux im Grundlegenden frei bleibt.
 
Zuletzt bearbeitet:
Versuch mal iostat -E - glaube das zeigt Serials an (zumindest unter Sparc). Leide rist das Backend seitens Oracle undurchsichtig. Schick mir mal per PN Deine Mail. Wenn ich mal Zeit habe (wir haben gerade ein Baby bekommen) dann schaue ich mal nach.

MFG
 
OK, ich sehe das Posting zum LSIUtil ist gelöscht...naja, dann such ich halt nicht weiter.

MFG
 
OK, ich sehe das Posting zum LSIUtil ist gelöscht...naja, dann such ich halt nicht weiter.

MFG

Hatte es kurz darauf gefunden und dann den Beitrag wieder gelöscht, da war deiner aber noch gar nicht da, sorry. ;)
Es ist nicht mehr direkt auf der LSI-Seite verlinkt, die verweisen nach Oracle und da gibt es das auch nicht mehr. Zum Glück habe ich dann in den weiten des Webs noch einen Hardlink gefunden: Pages - Download Agreement
cfgadm und iostat haben die Seriennummern nicht angezeigt, lsiutil ebenso.
Da war die stundenlange Suche wohl umsonst. Habe mir nur ein kleines Script geschrieben und die Anzeige mit smartctl realisiert, werde es hier mal reinstellen sobald ich mal wieder Solaris gebootet habe, unter Linux kann ich den zpool nicht öffnen, ist leider zu neu.
 
Zuletzt bearbeitet:
Hallo Ihr,

wollte heute mein oi_151a updaten, leider klappte anschließend nicht mehr die Authentifizierung gegen einen Windows Domänencontroller. Auch ein reseten oder löschen des Computerkontos und erneute Aufnahme in die Domäne half nicht. Domänenkontroller konnte nicht gefunden werden, obwohl alle Angaben stimmten. Rollback gemacht, OI erneut in die Domäne aufgenommen (Computerkonto war ja schon gelöscht worden) und alles ist wieder chic.
Hat jemand von Euch schon die aktuellen Updates eingespielt und ähnliche Probleme gehabt?
Das Umgehen mit den Snapshots des rpools war nicht ganz verständlich für mich, vorallem da der OI-Updatemanager nach dem Update wohl das Filesystem umbenennt. Ich dachte er fragt nach dem Namen für das Snapshot.
Aber er bootet standardmäßig den neuen Namen an und der Snapshot ist unter dem alten Namen zu erreichen. Oder habe ich da etwas falsch verstanden?
 
Hallo Ihr,

wollte heute mein oi_151a updaten, leider klappte anschließend nicht mehr die Authentifizierung gegen einen Windows Domänencontroller. Auch ein reseten oder löschen des Computerkontos und erneute Aufnahme in die Domäne half nicht. Domänenkontroller konnte nicht gefunden werden, obwohl alle Angaben stimmten. Rollback gemacht, OI erneut in die Domäne aufgenommen (Computerkonto war ja schon gelöscht worden) und alles ist wieder chic.
Hat jemand von Euch schon die aktuellen Updates eingespielt und ähnliche Probleme gehabt?
Das Umgehen mit den Snapshots des rpools war nicht ganz verständlich für mich, vorallem da der OI-Updatemanager nach dem Update wohl das Filesystem umbenennt. Ich dachte er fragt nach dem Namen für das Snapshot.
Aber er bootet standardmäßig den neuen Namen an und der Snapshot ist unter dem alten Namen zu erreichen. Oder habe ich da etwas falsch verstanden?

Ich hatte auch erst Probleme.
Mit lmauth-level=3 hat es bei mir geklappt (napp-it Menü Service smb-active directory..)
 
Hallo gea,

ich hatte es wie üblich bei mir mit Level 2 probiert. Soll zwar laut Beschreibungstext bei Problemen mit W2k8 helfen, war bei mir aber auch immer bei W2003 notwendig.
 
Hallo gea,

ich hatte es wie üblich bei mir mit Level 2 probiert. Soll zwar laut Beschreibungstext bei Problemen mit W2k8 helfen, war bei mir aber auch immer bei W2003 notwendig.

Level 2 war bisher das Richtige bei OpenIndiana.
Bei der neuesten Version (und bei Solaris 11) scheint die Einstellung Level 3 notwendig zu sein

- ansonsten gibt es die Fehlermeldung, a Domain controller for ... could not be found/
Domänencontroller konnte nicht gefunden werden.
 
Zuletzt bearbeitet:
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh