ESX / ESXi - Hilfethread

Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Hallo zusammen,

ich habe in letzter Zeit Probleme mit meinem privaten ESXi Host.
Lief einige Zeit auf 7.0, habe ich jetzt aber auf 7.0 U2 aktualisiert, aber Fehler bleibt.
Zur Hardware:
Intel i3-9100
Fujistu D3644-B1 Bios mittlerweile auf R1.8.0
16 GB Kingston ECC Ram
Samsung 970 EVO Plus 1TB
DVB-T Empänger per USB an eine VM weitergericht.
4-Port Intel Gbit NIC
2 Win10 VMs
4 Debian VMs

Leider kommt es alle 5-10 Tage zu einem Reboot des Hosts.
Kein Purple Screen of Death, er bootet einfach neu.

Habe jetzt die Logfiles mal auf den Datastore Umgeleitet, damit ich sehe was passiert. Habe die entpsrechenden Auszüge mal unten angehangen.

Die letzte Meldung vor dem Reboot scheint zu sein:
2021-08-19T04:38:06.225Z cpu0:262716)SunRPC: 1092: Destroying world 0x46775
Hier war ggf. noch ein altes NFS Storage drin, welches es aber nicht mehr gibt. Das habe ich nun gelöscht.

Interessanterweise bekomme ich auch immer wieder:
2021-08-19T04:42:53Z smartd: [warn] t10.NVMe____Samsung_SSD_970_EVO_Plus_1TB____________14679E0157382500: REALLOCATED SECTOR CT below threshold (0 < 90)
Wenn ich die SSD im einen Windows-PC stecke und dort mit CrystalDisk draufschaue, sieht aber alles gut aus.

Habt ihr vllt noch eine Idee?
 

Anhänge

  • syslog.txt
    316,6 KB · Aufrufe: 1.086
  • vmkernel.txt
    122,9 KB · Aufrufe: 582
@Vogelbecker
In den Logs war nichts zu finden was weiterhilft, bleibt eigentlich nur ausprobieren. Du könntest eine kleine SSD anschliessen und dort ESX neu installieren. Wenn der Fehler dann immer noch da ist, wird es ein Hardwaredefekt sein, das findest Du nur über schrittweises Austauschen der Komponenten (z.B. Anschlusskabel der SSD, die SSD selber, Mainboard, Speicher, Netzteil.
 
@Vogelbecker: schon mal in nvme logs geschaut? zB:
esxcli nvme device log smart get -A <vmhba>
esxcli nvme device log error get -e 10 -A <vmhba>
 
Moin zusammen,

danke für eure Hilfe.
Smart sieht so aus:
[root@localhost:~] esxcli nvme device log smart get -A vmhba1
SMART And Health Info:
Available Spare Space Below Threshold: false
Temperature Warning: false
NVM Subsystem Reliability Degradation: false
Read Only Mode: false
Volatile Memory Backup Device Failure: false
Composite Temperature: 332 K
Available Spare: 100 %
Available Spare Threshold: 10 %
Percentage Used: 2 %
Data Units Read: 0x2d9e09b
Data Units Written: 0x3851dac
Host Read Commands: 0x7fc805a6
Host Write Commands: 0xa19a3f48
Controller Busy Time: 0xbdd
Power Cycles: 0x66
Power On Hours: 0x17f8
Unsafe Shutdowns: 0x60
Media Errors: 0x0
Number of Error Info Log Entries: 0x62
Warning Composite Temperature Time: 0 Mins
Critical Composite Temperature Time: 0 Mins
Temperature Sensor 1: 332 K
Temperature Sensor 2: 348 K
Temperature Sensor 3: 0 K
Temperature Sensor 4: 0 K
Temperature Sensor 5: 0 K
Temperature Sensor 6: 0 K
Temperature Sensor 7: 0 K
Temperature Sensor 8: 0 K

Im Error log steht nur
Error Info:
Error Count: 0x0
Submission Queue ID: 0
Command ID: 0
Status Field: 0
Byte in Command That Contained the Error: 0
Bit in Command That Contained the Error: 0
LBA: 0x0
Namespace: 0
Vendor Specific Information Available: 0

Werde mal schauen, ob ich noch ne SSD rumliegen habe, dann werd ich die mal als Erstes tauschen. Das ist ja schnell gemacht
 
Werde mal schauen, ob ich noch ne SSD rumliegen habe, dann werd ich die mal als Erstes tauschen. Das ist ja schnell gemacht
Das meine ich damit. Wenn Du auf dem Host nur 5 VMs laufen hast, kann die Konfig eigentlich nicht soo kompliziert sein. Bevor man nun Stundenlang Logs wälzt, kann man das System eher neu installieren und hat dann schonmal Gewissheit, ob es ein Konfig/Software Problem ist, oder die Hardware.
 
Nachdem ich etwas mit meinem X399D8A "Versuchs"board und 7.01c rumgespielt hab mit Passthrough:
Konnte mit ein paar Einträgen USB HID-Gerät (Maus) einer VM mit GPU-Passthrough der VM eine Usb-Maus (ist ne billige Lenovo Office Maus) zuordnen, ohne eine eigene USB-Karte durchzureichen. Die Maus hängt dabei am normalen Onboard-USB am IO-Shield..

VM-Config brauchte die Einträge
usb.generic.allowHID TRUE
usb.quirks.device0 0x17ef:0x6019 allow

Sowie die /etc/vmware/config
usb.quirks.device0 = "0x17ef:0x6019 allow"

Nach Reboot, konnte man die Mausals "sonstiges Gerät" in die VM ehinzufügen. Geht. :bigok:
Die Maus-IDs waren mit lsusb -v | grep -E '(^Bus|HID)' in Erfahrung zu bringen.
 
Keyboard ging auch noch auf die gleiche weise, nur dass man es noch mit Vendor und Device ID in die /bootbank/Boot.cfg für die Kerneloptions eintragen musste, damit sich der Hypervisor die Tastatur nicht schnappt und für sich reserviert.

kernelopt=autoPartition=FALSE CONFIG./USB/quirks=0x1b1c:0x1b09::0xffff:UQ_KBD_IGNORE
 
Wie kommt man denn an / findet den richtigen Teil hinter "quirks="?

Und geht das auch mit 6.7? Dann könnte man sich ja wirklich den USB-Controller sparen (die eh gerne rumzicken).
 
lsusb -v | grep -E '(^Bus|HID)' in der ESXI-Shell oder halt via Putty/SSH, dann kommt sowas raus; da siehst dann ja bei "ID" die id's.

Btw, gefunden hab ich das Prozedere hier bei dem ESXI-Interessenten.

Code:
Bus 001 Device 001: ID 0e0f:8003 VMware, Inc. Root Hub
Bus 002 Device 001: ID 0e0f:8003 VMware, Inc. Root Hub
Bus 003 Device 001: ID 0e0f:8003 VMware, Inc. Root Hub
Bus 001 Device 002: ID 17ef:6047 Lenovo ThinkPad Compact Keyboard with TrackPoint
        HID Device Descriptor:
          bcdHID               1.00
        HID Device Descriptor:
          bcdHID               1.00
can't get device qualifier: Resource temporarily unavailable
Bus 003 Device 002: ID 17ef:6019 Lenovo M-U0025-O Mouse
        HID Device Descriptor:
          bcdHID               1.11
can't get device qualifier: Resource temporarily unavailable

Bus 003 Device 003: ID 1b1c:1b09 Corsair Vengeance K70R keyboard
        HID Device Descriptor:

6.7 weiss ich nit.
 
Zuletzt bearbeitet:
Hallo zusammen,
bei mir läuft ESXi 7.0 Update 2
Imageprofil: (Updated) DEL-ESXi-702_17867351-A03 (Dell Inc.)


Ich wollte jetzt die aktuelle Version wie esxcli aufspielen erhalte aber eine Fehlermeldung, mache ich etwas falsch?
Diese Version habe ich heruntergeladen

mein Updatebefehl in der Konsole war dieser:

Code:
esxcli software vib update -d /vmfs/volumes/datastore1/VMware-ESXi-7.0U2c-18426014-depot.zip


Fehlermeldung:
Code:
[InstallationError]
 This upgrade transaction would skip ESXi Base Image VIB(s) VMW_bootbank_i40enu_1.8.1.137-1vmw.702.0.20.18426014, which could cause failures post upgrade. Please use an alternative upgrade method that would install the above VIB(s). For example, use an image profile instead of VIBs to perform the upgrade.
 Please refer to the log file for more details.


eine andere Datei gibt es aber in dem Bereich zum Download nicht :unsure:

liegt es an den Dell Modifikationen? sollte ich zu einem "clear" ESXi wechseln?
 
Probier es Mal mit der Anleitung auf esxi-patches:

# Cut and paste these commands into an ESXi shell to update your host with this Imageprofile
# See the Help page for more instructions
#
esxcli network firewall ruleset set -e true -r httpClient
esxcli software profile update -p ESXi-7.0U2c-18426014-standard \
-d https://hostupdate.vmware.com/software/VUM/PRODUCTION/main/vmw-depot-index.xml
esxcli network firewall ruleset set -e false -r httpClient
#
# Reboot to complete the upgrade
 
danke das hat geholfen,
ich habe zeitgleich aber auch gefunden woran es lag,
ich muss mit
Code:
esxcli software sources profile list -d /vmfs/volumes/<DataStore-Name>/<Update-Datei>.zip
mir die Profile anzeigen lassen die das Paket beinhaltet und dann

Code:
esxcli software profile update -d /vmfs/volumes/<DataStore-Name>/<Update-Datei>.zip -p <Image-Profile>


die installatation ausführen, das er ein gewisses Profil verwendet, muss man mal drauf kommen :-)
 
Da patcht man einmal und direkt am nächsten Tag die nächste Version *heul* :d
 
Behebt wohl nur ein sehr spezielles Problem:

PR 2824750: ESXi hosts in a cluster on Dell EMC PowerFlex might intermittently fail with a purple diagnostic screen due to a PCPU preemption error
The management of persistent memory in a cluster on Dell EMC PowerFlex with NVMe drives added as RDM devices might inconsistently update a PCPU preemption counter in ESXi hosts in the cluster. As a result, ESXi hosts might intermittently fail with a purple diagnostic screen.
 
Gibt's eigentlich irgendwas, was die 7er Version für uns Home-Frickler besser macht als 6.7U3? :d
Keine Ahnung seit wann das geht, aber in 7x kann ich für PCIe Geräte Passthrough ohne Neustart des Hosts aktivieren.
Brauchte früher immer n Boot des Hosts.
 
Bezüglich aktueller Windows 11 Release Notes: https://blogs.windows.com/windows-i...g-windows-11-insider-preview-build-22000-194/
This build includes a change that aligns the enforcement of the Windows 11 system requirements on Virtual Machines (VMs) to be the same as it is for physical PCs. Previously created VMs running Insider Preview builds may not update to the latest preview builds.

Die "Killer" Anforderungen für Win11 sind bekanntlich CPU Generation, Secure Boot, EFI und TPM.

CPU, EFI und Secure Boot sind kein Problem, aber TPM erfordert anscheinend ein vCenter.

Kennt jemand ein TPM Lösung für einen Stand-Alone ESXi 7 ohne vCenter?
 
Scheint wie du sagst nur mit vCenter zu gehen.
Ich habe es mal kurz versucht mit der VM Workstation (aktuelle Version), da ist das TPM zwar da, lässt sich aber dann nicht einpflegen.
 
Du kannst aber über die Vm Ware (Esxi als Datastore) eine VM erstellen. Evtl. kann man so über diesen Umweg das teil dann Nativ über den ESXI laufen lassen. Ich teste das später mal.

Oder du erstellst die VM und schiebst sie dann in den ESXI, das sollte auch gehen.
 
Soweit ich weiß, braucht man einen Keymanagement Server um auf vSphere eine VM zu verschlüsseln bzw verschlüsselt laufen zu lassen. Und somit wohl auch vCenter.

Aber ja, einen Test ist es wert.
 
Oder du erstellst die VM und schiebst sie dann in den ESXI, das sollte auch gehen.
Wenn dem so wäre, könnte man die VMX Datei auch manuell bearbeiten, da stehen alle Einstellungs Parameter drin.

Ich habe eine Win11 VM am laufen. Aber die wird entweder nicht weiter aktualisiert, oder verweigert dann in Zukunft anderweitig den Dienst.
 
So ich habe das ganze jetzt durchgespielt.

1. Du musst auf der Lokalen Maschine die VM Erstellen sonst erscheinen die ganzen Optionen nicht.
2. Ob du jetzt Windows 10 oder ESXI 7 Kompatibilität einstellst ist egal. Es erscheinen bei beiden die benötigten Optionen.
3. Die VM verschlüsseln. TPM ist Verfügbar.
4. Auf den ESXI Datastore Hochladen.
5.VM Registrieren geht, aber wird als ungültig deklariert. Es lässt sich außer Deregistrierung nichts machen. Ich vermute wegen der Verschlüsselung der Platte.

Über diesen Weg geht es nicht.
 
Zuletzt bearbeitet:
Soweit ich weiß, braucht man einen Keymanagement Server um auf vSphere eine VM zu verschlüsseln bzw verschlüsselt laufen zu lassen. Und somit wohl auch vCenter.
Yop, so siehts aus. vCenter läuft schon, aktuell bin ich dabei einen KMS zu konnektieren.

Bin mir nicht sicher ob das praxistauglich ist, weil das dumme vCenter mal eben 12 GB Ram vom Host zieht und bei einer Handvoll VMs nicht wirklich was zu tun hat.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh