Warum rauchen mir Markennetzteile immer wieder ab?

Knogle

Enthusiast
Thread Starter
Mitglied seit
03.05.2014
Beiträge
2.821
Ort
Aix-la-Chapelle
Hallo Freunde, ich hoffe alles ist gut bei euch!

In den letzten Jahren habe ich immer wieder wiederkehrende Probleme mit meinen PC Netzteilen.
Irgendwie gehen diese immer bei mir kaputt.

Mein PC ist wie folgt aufgebaut:

CPU: AMD Ryzen 5900X
Mainboard: MSI B550-A PRO
RAM: 64GB DDR4-3600
SSD: SAMSUNG MZ1L23T8HBLA-00A07 (Samsung OEM Datacenter SSD PM9A3 3.84TB) Datacenter SSD
SSD: WDxxx 1TB NVMe SSD
NIC: PCIe x4 Intel X550
WLAN: Intel Killer irgendwas als PCIe x1 Karte
PSU: 1000 Watt FSP Group VITA GM Modular 80+ Gold (zuvor 750 Watt be quiet! Pure Power 12 M Modular 80+ Gold)
GPU: 16GB Sapphire Radeon RX 7800 XT Nitro+
Gehäuse: Fractal Meshify 2 Compact

Folgende Thematik.

Alle paar Monate kommt es irgendwie dazu dass mein System crasht.
Ich habe Linux am laufen, aber auch ein Dual Boot mit Windows.
Ich nutze mein System als Workstation d.h. auch zum Arbeiten, und da ich viel Daten umsetze habe ich vor einigen Jahren die Samsung 3.84TB NVMe Datacenter SSD gekauft.
Diese hat einen relativ hohen Stromverbrauch von min. 8.25W bis max. 16W.

Mein PC Setup ist bis auf die GPU, und die immer wieder wechselnden Netzteile relativ identisch geblieben.
Zu Beginn, beim ersten Vorfall, hatte ich ein BeQuiet! Dark Power Pro 11 650W im Einsatz zusammen mit einer RTX 3070.
Irgendwann als ich am Spielen war, ist aufeinmal mein System abgeranzt.

Dabei konnte ich nachher im Syslog Server aus meinem dmesg meiner Linux Maschine folgendes sehen.

Code:
[  443.078021] nvme nvme0: controller is down; will reset: CSTS=0xffffffff, PCI_STATUS=0x10
[  443.078026] nvme nvme0: Does your device have a faulty power saving mode enabled?
[  443.078028] nvme nvme0: Try "nvme_core.default_ps_max_latency_us=0 pcie_aspm=off pcie_port_pm=off" and report a bug
[  443.096407] nvme0n1: I/O Cmd(0x2) @ LBA 51055264, 16 blocks, I/O Error (sct 0x3 / sc 0x71)
[  443.096410] nvme0n1: I/O Cmd(0x2) @ LBA 523128328, 32 blocks, I/O Error (sct 0x3 / sc 0x71)

Ok also der PCIe Link zur SSD ist gestorben. Wenn man da ewig recherchiert sieht man dass es in aller Regel ein PSU Problem ist.
Gut nach Ewigkeiten des Troubleshootings das Dark Power rausgeworfen, das Pure Power 12 M 750W gekauft und rein damit.
Lief gut, ca. 5 Monate, dann dort wieder das gleiche Problem. Wieder SSD gestorben bei wechselnder Last, vorallem mit GPU Interaktion.
Neues Netzteil gekafuut, diesmal das 1000 Watt FSP Group VITA GM Modular 80+ Gold, habe gedacht, mit genug Puffer, da passiert das diesmal nicht so schnell.
Hat nun ganze 10 Monate gehalten, und nun ist es wieder an diesen Punkt angelangt wie bei den anderen Netzteilen auch.

Habe jetzt mal ein Corsair bestellt, und ich vermute dass das wieder auftreten wird nach einiger Zeit.
Was ist da los? Grillt irgendwas meine Netzteile? Ich hatte mit meinen alten Systemen sowas nie.
Was vllt. eine ungewöhnliche Komponente ist, ich habe relativ viele PCIe Komponenten.
Weiterhin habe ich eine SSD die deutlich mehr Strom zieht als normale SSDs, für Consumersysteme.
Meine Vermutung als E-Techniker. Die Netzteile degradieren ja auf natürliche Weise immer ein wenig, aber evtl. reagiert mein System aufgrund dieser Last durch die Datacenter SSD besonders empfindlich wenn da die Spannungen kurz schwanken auf der 12V Schiene durch die wechselnde GPU Last, da sind die RX 7000er ja nicht so behutsam zu den Netzteilen.

Was habt ihr für eine Idee, habt ihr schon ähnliches erlebt? Was würdet ihr mir empfehlen, vllt. SSD raus, und andere rein, oder evtl. eine ganz andere Kategorie von Netzteilen?
Freue mich auf euer Feedback.

PS: Das Problem tritt auch unter Windows auf.



 
Zuletzt bearbeitet:
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
okay ist die PCIe x4 Intel X550 im untersten slot vom Mainboard verbaut ?
 
und wo ist die Intel Killer irgendwas als PCIe x1 Karte verbaut ?
Zeig mal bitte ein foto mit offenen Gehäuse
 
Im untersten PCIe x1 Slot vom Board
kay ist die PCIe x4 Intel X550 im untersten slot vom Mainboard verbaut ?
wie was wo am Bahnhof

In Spielen dann häufig an den selben Stellen, wenn die GPU wohl besonders gefordert ist.

Lad dir mal furmark als stresstest für die karte. Wenn abschmiert, bau die anderen pcie karten raus und wieder furmark starten
 
Zuletzt bearbeitet:
1730596376555.png


Hey.
Ich glaube es ist doch irgendwie wieder die PSU. Die Spannungen sind ziemlich mies. Furmark an sich klappt, aber manchmal geht die Spannung auf unter 11V und die Platte ist weg.
 
Die Spannungen die Hwinfo ausließt sind quasi geschätzt. Daran sollte man sich nicht orientieren. Und es ist am Ende sehr unwahrscheinlich das jedes Netzteil was Du holst ein Problem hat. Irgendwo anders liegt der Hund begraben.
 
Da hast du natürlich wohl Recht. Ich habe Mal geschaut im Manual von meinem Brett, die Leistungsaufnahme meiner SSD überschreitet die der Spezifikation für den M.2 Port. Evtl. passt das irgendwie nicht zusammen mit dem Consumer Brett. Werde gleich mal vielleicht mein System auf ne SATA SSD clonen und dann mal testen.

Ok unter SATA klappt es, beim Gamen disabled jedoch die ungenutzte NVMe irgendwann.
Bei Sachen die nicht so fordernd sind passiert das nicht, da geht die auch stundenlang problemlos.

Code:
[ 1291.810425] nvme nvme0: controller is down; will reset: CSTS=0xffffffff, PCI_STATUS=0xffff
[ 1291.810430] nvme nvme0: Does your device have a faulty power saving mode enabled?
[ 1291.810432] nvme nvme0: Try "nvme_core.default_ps_max_latency_us=0 pcie_aspm=off pcie_port_pm=off" and report a bug
[ 1292.097986] nvme 0000:01:00.0: Unable to change power state from D3cold to D0, device inaccessible
[ 1292.098135] nvme nvme0: Disabling device after reset failure: -19

EDIT:

Interessant ist, auf der HPE Seite finde ich z.B. eine neue Firmware zu der SSD.
Das Fehlerblind klingt fast gleich.

Screenshot from 2024-11-03 13-15-43.png
 
Zuletzt bearbeitet:
Danke dir. Ja genau, bzw. weil die SSD selbst unter einem anderen OS abschmiert bzw. selbst wenn nicht von der SSD gebootet wird.
Ich denke irgendwie langsam, dass die SSD in meiner Hardwarekombination einfach nicht rund funktioniert. Weil normal ist das nicht. Die ist halt nachweislich das einzige Teil was immer wieder Probleme macht. Denke werde da mal eine "normale" SSD kaufen.
 
Zuletzt bearbeitet:
Diese hat einen relativ hohen Stromverbrauch von min. 8.25W bis max. 16W.
Schon mal per PCIe Adapter ( https://www.amazon.de/gp/product/B094YBFZWV/ref=ppx_yo_dt_b_search_asin_title?ie=UTF8&th=1 ) in nen PCIe Slot gesteckt?
NIC: PCIe x4 Intel X550
Müsstest wsl die NIC rauswerfen zum testen. Aber man kann ja auch ohne 10 Gbit leben, für den Testzeitraum...


Vllt. hat MSI einfach einen ranzigen M.2 Stecker bzw. zu dünne Leiterbahnen mit zu viel Spannungsabfall für das PLP Teil... würd mich zwar wundern, andererseits aber auch nicht...
 
@pwnbert Danke dir! Ja das habe ich mir schon fast gedacht dass es darauf hinauslaufen wird als Test, da habe ich mich ein wenig vor gescheut.
Aber sinnvoll ist es allemal.
Ich denke irgendwie, die PSU ist es nicht. Habe mit meinem Oszilloskop auf Zeit die Spannung aufgezeichnet und die ist die ganze Zeit über super stabil, im Vergleich zu den Werten aus HWMonitor.
Den Adapter habe ich ein wenig improvisiert, meine SSD ist 22110er Format, und der Adapter kann nur normal 2280.

PXL_20241103_235049961.MP.jpgPXL_20241103_235031861.MP.jpg

Kurze Beschreibung vom Test.

  • NVMe SSD via PCIe auf M.2 Adapter drinnen.
  • OS bootet von SATA SSD
  • NVMe SSD ist unformatiert und im Idle.
  • Ich fahre in Dirt Rally 2.0 meine Lieblingsstrecke in Argentinien.

Screenshot from 2024-11-04 01-13-06.png


Ich war wieder schön am fahren, und tatsächlich kommt besagte Meldung leider wieder, jedoch ca. 5 Minuten später als sonst. (Evtl. mag die keine hohe Temperatur? Gammelt oft auf 70 Grad rum.) Im Normalbetrieb geht die auf 80 Grad bedingt durch die hohe Leistungsaufnahme trotz Kühlkörper.

Code:
[  681.465797] nvme nvme0: controller is down; will reset: CSTS=0xffffffff, PCI_STATUS=0xffff
[  681.465803] nvme nvme0: Does your device have a faulty power saving mode enabled?
[  681.465805] nvme nvme0: Try "nvme_core.default_ps_max_latency_us=0 pcie_aspm=off pcie_port_pm=off" and report a bug
[  681.507809] nvme 0000:04:00.0: Unable to change power state from D3cold to D0, device inaccessible
[  681.507896] nvme nvme0: Disabling device after reset failure: -19

Screenshot from 2024-11-04 01-26-16.png

Super schade, also ist wohl die SSD relativ eindeutig als "Schuldige" identifiziert. Ich werde die wohl wieder in den NAS packen, weil da lief die zumindest immer einwandfrei im Mirror.
Entweder ist die wohl kaputt, oder harmoniert irgendwie garnicht, denke aber fast dass die einen weg hat. Oder vielleicht hat es was mit der Temperatur der SSD zutun, keine Ahnung.
 
Zuletzt bearbeitet:
Die Sache mit ASPM klingt gar nicht verkehrt.
Check mal im UEFI ob es für PCIe aktiv ist oder nicht.
 
Vielleicht interessant, das ist wohl mehrmals vorgefallen.
Habe insgesamt 2 SSDs, eine im Server, und eine im Desktop. Werde die wohl ebenfalls in den Server verfrachten, weil ich die nicht gekühlt bekomme.

Hier SMART von der Platte im Desktop.

Code:
SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        42 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    0%
Data Units Read:                    739,891,274 [378 TB]
Data Units Written:                 308,442,514 [157 TB]
Host Read Commands:                 3,165,342,938
Host Write Commands:                3,012,686,022
Controller Busy Time:               3,981
Power Cycles:                       1,800
Power On Hours:                     8,845
Unsafe Shutdowns:                   590
Media and Data Integrity Errors:    0
Error Information Log Entries:      4
Warning  Comp. Temperature Time:    35
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               42 Celsius
Temperature Sensor 2:               65 Celsius

Hier SMART von der Platte im NAS.

Code:
=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        41 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    1%
Data Units Read:                    335,040,552 [171 TB]
Data Units Written:                 185,084,807 [94.7 TB]
Host Read Commands:                 1,586,908,298
Host Write Commands:                3,384,484,511
Controller Busy Time:               3,233
Power Cycles:                       26
Power On Hours:                     14,693
Unsafe Shutdowns:                   13
Media and Data Integrity Errors:    0
Error Information Log Entries:      0
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               41 Celsius
Temperature Sensor 2:               61 Celsius
 
Was noch interessanter ist "Unsafe Shutdowns 590" nicht schlecht Kollege :d
 
Was noch interessanter ist "Unsafe Shutdowns 590" nicht schlecht Kollege :d

Ich glaube ich muss das leider wieder aufkochen.
Aber die PSU scheint sich nun doch verabschiedet zu haben :fresse:
Die Kiste startet jetzt bei intensivem Gaming einfach neu, oder die PSU ranzt ab, und ich muss Stecker ziehen und wieder einstecken.
Oder es kommt das manchmal im laufenden Betrieb.
Habe gerade eine von Amazon bestellte Corsair RM1000e PSU hier, zum Austausch, und ich berichte mal..


2024-11-04-22-50-26-234.jpg
 
Ich würd ja mal die ganze Kiste durchmessen lassen.
Bringt dir ja auch nix ständig neue Netzteile zu kaufen wenn das eigentliche Problem immer noch besteht.
 
Ich würd ja mal die ganze Kiste durchmessen lassen.
Bringt dir ja auch nix ständig neue Netzteile zu kaufen wenn das eigentliche Problem immer noch besteht.
Ich glaub auch irgendwie.
Original geblieben sind nach den ganzen HW Wechseln und Netzteilwechseln jetzt im Grunde nur noch die CPU. SSD habe ich jetzt eine 990 PRO eingebaut. Mit dem Corsair RM1000e klappt wieder alles.
Da meinen ganzen Server seit Jahren problemlos laufen, gehe ich nicht von einem Problem im Stromnetz aus. Ich könnte mir evtl. vorstellen dass vielleicht irgendwas mit meiner Peripherie ist, habe 2 Monitore, Stichwort Rückwärtsspannung, da müsste ich aber messen.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh