[Sammelthread] ZFS Stammtisch

@gea
Hätte noch mal ne Frage zu napp-it und den Jobs, gibt es eine Möglichkeit einzelne Jobs (z.B. replication) zu verknüpfen, so dass diese sequentiell ausgeführt werden? Konnte in den Dokus so ad hoc nichts in die Richtung finden.

Man könnte mit postjob scripts "jobid.post" jobs sequentiell starten. Am Einfachsten aber die Jobs mit Verzögerung starten. Eine leichte Überlappung kann kaum ein Last Problem sein.

Eine weitere Verständnisfrage zu den push Alert Jobs, worauf sollten diese reagieren? Auf jegliche Fehler wie bei der Email Alarmierung (sprich Disc, Cap und Jobs)? Konnte zwar test Pushs per webapi erhalten, bei einem testweise fehlerhaft endenden other job kam aber keine Alarmierung per push, obwohl dieser mit error in der job Liste stand. Auto-Job ist aktiv (1min).

Alert Mails und Push Alerts sind von der Auslösung identisch. Wird jedoch ein Alert oder Push getriggert, so wird am gleichen Tag kein weiterer Alert (Push oder Mail) mit gleicher Ursache verschickt.
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Danke für die Rückmeldung gea,

das mit den .postjobs gucke ich mir mal an.

Das Verhalten beim alert schaue ich mir auch noch mal an, ob es eventuell an der Aktivierung von email und push alert liegt.
 
Hm,

habe den email Job komplett weggeschmissen. Ändert aber nichts, laut auto.log wird der job fleissig jede Minute aktiviert?
Zum Testen habe ich den Push Job auch noch mal komplett neu angelegt.

root@NAS02:/var/web-gui/_log# more auto.log
2025.01.22.21.56.00: job 1737577018: start auto push
2025.01.22.21.55.01: job 1737577018: start auto push
2025.01.22.21.54.00: job 1737577018: start auto push

....

Interessanterweise scheint aber schon gar kein zugehöriges log zu der JobID des push alerts geschrieben zu werden.

1737579264606.png


1737579308095.png


Ich habe hier allerdings die webapi.pl unter _my/
-rw-r--r-- 1 napp-it root 7414 Jan 19 14:16 /var/web-gui/_my/scripts/webapi/webapi.pl
abgelegt und etwas angepasst, um einen lokalen gotify Server anzutriggern.

Ein Test aus der gui klappt, ein Aufruf der oben liegenden webapi.pl ohne Parameter löst ebenfalls
einen Test-Push aus. Nur wenn jetzt theoretisch ein Abbruch eines Jobs aufgetreten ist, passiert einfach
nichts, wird bei einem echten Alarm noch irgendetwas an anderer Stelle berücksichtigt?

1737579808290.png
 
Nicht so einfach zu beantworten vor allem bei einer so speziellen und selten genutzten Funktion

1. man könnte debuggen und den job manuell starten mit run_jobid
perl /var/web-gui/data/napp-it/zfsos/_lib/scripts/job-push.pl run_173780874

Dann im Script mit print Anweisungen den Ablauf anzeigen lassen

2. Einen "other job" anlegen der sich am push-test orientiert und eigene Ereignisse auswertet

3. Job > Report anlegen mit Alert only und webapi
und schauen ob das geht. Report kann man mit eigenen Reports erweitern.
 
Bin jetzt etwas weiter gekommen,

erster Stolperstein, bei manuellen Jobs wird anscheinend nichts gemacht,
1737635460606.png


zweiter Stolperstein, nur einmal pro Tag, aber kann man ja zu Testzwecken mal auf immer ändern.
1737635541011.png


dritter Stolperstein, Job werden nicht in .par Datei aufgenommen, auch wenn sie bei der Anlage in der GUI angehakt sind.
1737635681709.png

neu angelegt
1737635743362.png


root@NAS02:/var/web-gui/_log/jobs# cat 1737635700.par | grep trigger
trigger=Disk,Low,

Fügt man dann dort auch ein , Job hinzu, dann wird letztlich auch ein Push beim Alarm für einen Job gemacht.
 
Push > Alert als Alternative zu Email > Alert war vor Jahren eine Idee die ich seither nicht mehr angefasst und stattdessen selbst erweiterbare Report Scripts eingebaut habe, bei denen man beliebig viele per job selektierbare Trigger haben kann. Da kann man dann auch per Reportjob Mail, TLS oder Push/webapi als Sendmethode wählen. Spricht aber nichts dagegen, die Scripte anzupassen.

ps
Im aktuellen napp-it 25.x wird jetzt Jobs in die Push Parameterdatei übernommen (Leerzeichen nach Komma im Formular war das Problem) und ein Hinweis angezeigt das Push Alertjob auf active stehen muss.
 
Sollte eigentlich nicht so sein.
Der Report /var/web-gui/data/napp-it/zfsos/_lib/scripts/report/r03#joberror#parse_job_results#SIL#AS.pl prüft in sub my_report ob ein Job in id.par aktiv ist und dann ob die id.log am Anfang (letzter Logeintrag) ein error stehen hat.

ps
Wenn Themen zu speziell werden, diese bitte im napp-it Thread oder besser einem eigenen Thread auslagern
 
Uhm, mein zil/l2arc device hat irgendwas, wie entfern ich das (ist ein Truenas, allerdings manuell hinzugefügt) richtig?

Hinzugefügt per:
zpool add apps cache gptid/00bd58e3-7efa-a046-85d6-...
zpool add apps log gptid/aa6d566f-ab06-2a4a-a35b-...

mit remove statt add gehts irgendwie nicht...
 
Für alle, die sich schon mal mit dem "Aufräumen" von ZFS Snapshots rumschlagen mussten: Ich habe kürzlich ein kleines Kommandozeilen-Tool geschrieben, dass das ganze etwas vereinfachen soll. Das Tool ist noch in der Alpha-Phase - also empfehle ich es, erstmal auf Testsystemen einzusetzen (Haftung schließe ich aus). Ich persönlich setze es auf meinem Homeserver ein und bin mit den Ergebnissen ganz zufrieden bisher:


Features:
  • Filtern, Limitieren und Sortieren von snapshots anhand mehrerer Kriterien
  • Templatebasierte Ausgabe der Eigenschaften von Snapshots, um eigene Übersichten zu realisieren
  • Ermitteln des "Reclaimed"-Space - der Platz den man frei macht, wenn man einen Snapshot löscht (auch kumuliert)
Mehr Doku und Beispiele auf der Projektseite.

Bissel Feedback würde mich freuen - vielleicht erfinde ich auch hier das Rad neu, man könnte das sicher auch mit Shell-Scripten lösen, ich fand ein geschlossenes Tool nur etwas handlicher als das gescripte.
 
Servus,

heute kam mir mein Storage total lahm vor.
Blick ins Dashnoard (Napp-it) führt beide NIC auf.
e1000g0 net1 Ethernet up 1000 full BOUND 10.0.1.x 255.255.255.0 0:e0:81:d6:f2:aa 1500 ok
mcxe0 net2 Ethernet up 10000 full BOUND 10.0.1.x 255.255.255.0 0:2:c9:57:18:e0 1500 ok

Allerdings geht alles über die e100O NIC und nicht über die Mellanox.
Host ist ein Solaris 11.3 System.
Interessant ist, dass die e1000 ein IP hat, ich diese aber nicht ansprechen kann.
Wenn ich das Kabel an der e1000 abziehe, komme ich nicht mehr auf das Webinterface, was aber auf der IP der Mellanox läuft.
Bin verwirrt ;)
Ich habe die zweite NIC als Fallback, weil es vorkam, dass die Mellanox kein Link hatte.

Was passiert, wenn ich die Intel "ausschalte" ?
Könnte mir jetzt n´boot Snap machen, aber dachte, ich frage mal vorweg :)
 
Mit zwei Netzwerkkarten im gleichen Subnet gibts gerne Routing oder Broadcastprobleme. Ich würde das nur machen wenn man etwas spezielles erreichen will, ansonst unterschiedliche subnets nehmen z.B. 10.0.1.x und 10.0.2.x mit 255.255.255.0

Zum Testen dem Desktop je eine ip im entsprechendem Subnetz geben.
 
Interessant ist, dass die e1000 ein IP hat, ich diese aber nicht ansprechen kann.
Die e1000 ist bei mir sehr problematisch. Die schmiert regelmäßig einfach ab und ist nicht mehr ansprechbar (Debian 12 / Proxmox 8). Mit folgendem habe ich es halbwegs in den Griff bekommen:
Code:
# /etc/network/interfaces

iface eth0 inet manual
    post-up /usr/sbin/ethtool -K $IFACE tso off gso off 2> /dev/null

Aber stabil ist es nicht, alle paar Monate mal ist die Kiste einfach offline, dann muss ich an die Hardware (Monitor anschließen) und das Netzwerk neustarten.

Meine Vermutung ist, dass es bei mir ein Kernel / Treiberproblem ist, denn mit Proxmox 7 hatte ich das nicht.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh