Ausfallende Intel-CPUs: Crash-Reports zeigen 50 Prozent Ausfallrate

Top CPU, aber das Problem sind halt die CPUs auf der anderen Seite des Spectrums.
Schlechtes Silikon, Binning, Bios, Settings, Kühlung, Mainboard, usw was war jetzt Schuld an er kaputten/instabillen CPU :unsure:
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Nachdem vermehrt Crashes bei den Systemen mit 13. und 14. Core-Generation auftraten, haben die Anbieter damit begonnen, verschiedene Maßnahmen zu ergreifen. So wurde der Speichertakt auf DDR5-4200 reduziert und der Multiplikator auf 52 festgesetzt, sodass die Prozessorkerne nicht höher als 5,2 GHz takten. Aber auch diese Maßnahmen scheinen keinen durchschlagenden Erfolg gehabt zu haben.
Warum machen diese Deppen kein BIOS Update mit dem Profile nach Intel Vorgaben und nutzen dann dieses Profile? Dann sollte CEP aktiv sein und es kein Undervolting geben.

Neutrale Quellen ohne Plan, die auf Clicks und Reichweite aus sind, und deshalb jedes Thema, das Negativschlagzeilen eines großen Konzern betreffen, ausschlachten, bis es auch die letzte Sau in Hinterobertal in den Schädel geframed bekommen hat.
So ist es leider in der neuen Medienwelt, da geht es nicht um Informationen, sondern um Klicks und davon bekommt man umso mehr, je größer das Aufregungspotential ist.

Aber: Wenn die BIOS-Updates und die definitive Festlegung auf die Default Settings ausreichend sind, warum haben wir dann da noch kein finales Statement oder eine finale Analyse? Das wäre für Intel doch am einfachsten, wenn es damit erledigt wäre. Oder nicht?
Das eine hat nicht unbedingt mit dem anderen zu tun. Wenn Du Kopfschmerzen hast, kannst Du eine Kopfschmerztablette nehmen und sie gehen weg, die Ursache kennst Du deswegen aber noch nicht. Bei Betrieb mit Einstellungen nach Intel Vorgabe, scheinen die Instabilitäten weg zu sein, aber deswegen weiß Intel noch nicht welche Kombinationen von Einstellungen dann diese verursacht haben.

Im übrigen ist der Titel sehr irreführend, da die CPUs ja nicht ausfallen, denn dies würde bedeuten sie wären nach dem Ausfall defekt, sondern eben nur nicht stabil laufen und da wette ich, dass es zu 99% an den BIOS Einstellungen liegt. Die Leute sollen einfach mal ihre BIOS updaten und das Intel Profile verwenden. Erst wenn es dann noch Instabilitäten gibt, kann man dies ernst nehmen. Aber manchen wollen lieber über Probleme klagen als sie zu lösen, wenn ich sowas lese:
Dabei sieht man dort, dass es schon damals BIOS Updates gab um die Stabilität zu verbessern:
Da haben sie damals schon gemerkt, dass sie es mit ihren Default Einstellungen übertrieben haben und diese etwas zurückgenommen und dies dürfte vor allem die Spannungen betroffen haben, wie der nächste Beitrag zeigt:
Wenn er noch mal 0,05V extra undervoltet und keine Performancenachteile durch Clock Stretching bekommt, dann ist CEP da auch deaktiviert, also genau das Rezept für Instabilitäten. Aber die Leute lassen dann einmal CB oder Prime laufen und wenn es dabei keine Abstürze gibt, glauben sie die Einstellungen wären gut und nicht für ihre Probleme verantwortlich.
 
Es scheint wohl ein etwas tieferes Problem zu sein. Denn laut Wendel war die max. Temp die er gesehen hat 84°C.
Auch laufen viele dieser auf W680 Mainboards. Manche von diesen sind wohl gar nicht in der Lage einen 14900k überhaupt die Leistung zu liefern. Damit diese CPU überhaupt voll genutzt werden kann.
Er macht auch ziemlich deutlich, dass es wohl primär ein Problem im 24/7 Einsatz ist (4 Server pro Rechner).
Woran es genau liegt, dass weiß er auch nicht. Er denkt aber nicht das ein BIOS oder Microcode Update helfen wird.

Ab 33:54 min:sec fangen sie an über das Intelproblem zu reden

Es wird intressant sein zu sehen wie lange man braucht um das Problem zu finden und was es genau ist. Und ob man es überhaupt beheben kann.
 
MLID hat über mehrere podcasts mit Dan bestätigt dass sich die RMA fälle und retouren seit der 12k serie MASSIV häufen. Vor allem bei den hochtakt modellen.
 
MLID hat über mehrere podcasts mit Dan bestätigt dass sich die RMA fälle und retouren seit der 12k serie MASSIV häufen. Vor allem bei den hochtakt modellen.
Da passt dieser Beitrag ganz gut von @ZebuluXX . Der 13900k hat eine über 10x höhere rma quote bei mf als der 7800x3d. @Holt hast du hierfür eine Erklärung?

Jetzt kommt langsam Licht ins dunkle.
 

Anhänge

  • Screenshot_20240713_210743_Chrome.jpg
    Screenshot_20240713_210743_Chrome.jpg
    146,9 KB · Aufrufe: 157
Zuletzt bearbeitet:
Auch laufen viele dieser auf W680 Mainboards. Manche von diesen sind wohl gar nicht in der Lage einen 14900k überhaupt die Leistung zu liefern. Damit diese CPU überhaupt voll genutzt werden kann.
Das dürfte vom Mainboard abhängen. Für das ASUS Pro WS W680-ACE gibt es jedenfalls ein BIOS Update mit folgender Beschreibung:
ASUS hat die CPUs da also auch auf dem W680 vorher nicht nach Intel Vorgaben betrieben und sogar pünktlich am 31.5. das BIOS Update mit Intel Profile als Default gebracht. Außerdem haben die das Intel Extreme Profile, wonach ein 13900K/14900K dann mit 253W als PL1 und PL2 laufen kann.

Das Video sehe ich mir nicht an, aber man sollte nicht davon ausgehen, dass jemand der Rechner aufstellt und damit Geld verdient, dann auch wirklich Ahnung von dem Thema hat. Wer nicht glaubt das ein BIOS Update etwas bringt, outet sich als Dummkopf, geht der auch zum Arzt wenn er krank ist und nimmt dann die Medizin die der Arzt verordnet hat nicht, weil er nicht glaubt das sie ihm hilft? Ausprobieren und dann weiß man ob das BIOS Update was gebracht hat, diese Update mit den Intel Profilen sind ja extra dafür das die Stabilitätsprobleme zu beheben!
 
Der 13900k hat eine viel höhere rma quote als der 7800x3d. Jetzt kommt langsam Licht ins dunkle
Welche Licht soll dies in Dunkle bringen? Wie viele der reklamierten 13900K wirklich defekt sind und wie viele wegen der Defaulteinstellung des BIOS bevor die Intel Profile eingeführt wurden nur nicht stabil liefen, eben weil die mit den Einstellungen des BIOS nicht klargekommen sind, erfahren wir so auch nicht. So manchem dürfte inzwischen auch klar sein, dass seine CPU eben keine Perlen ist, wenn sie eben mit "optimierten" OC Einstellungen nicht stabil läuft und er mag versuchen auf dem Wege einer RMA dann noch mal sein Glück in der Silicon lottery zu probieren in der Hoffnung nun eine Perlen zu bekommen.
Also 0,63% sind deutlich weniger als die 50% die im Titel dieses Threads stehen.
Eben, aber für manche ist diese höhere Mathematik und davon verstehen sie nichts. :d
 
Das meine ich nicht. Der Titel dieses Threads ist doch



Also dagegen sind 0,63% RMA quote lächerlich wenig und wo kommen dann die angeblichen 50% her?
Steht doch im Artikel oder hast du nur die Überschrift gelesen ?

*Server-Anbieter wechseln auf Ryzen-CPUs
Einige Quellen von Level1Techs sind auch Anbieter von Servern auf Basis von Endkunden-Hardware. Diese bieten meist ein gutes Preis/Leistungsverhältnis und sind aktuell stark nachgefragt. Allerdings soll es bei einigen Anbietern zu einer Ausfallrate von 50 % gekommen sein*
 
Zuletzt bearbeitet:
Auch das ist albern, sind auch dafür ausgelegt.
 
wo kommen dann die angeblichen 50% her
Clickbait! Es geht heute nur noch um Aufmerksamkeit und nicht um Informationen und die Wahrheit ist doch sowieso egal. Damit meine nicht nicht nur diesen Artikel, sondern auch die auf denen er basiert und das Thema ist eben optimal geeignet um Klicks und damit Geld zu machen. Dies Problem einfach durch ein BIOS Update mit den Intel Default Profile zu lösen, würde weit weniger Aufmerksamkeit und damit Klicks und Geld generieren.

Nein, macht da lieber unsinnige Einstellungen wie "So wurde der Speichertakt auf DDR5-4200 reduziert und der Multiplikator auf 52 festgesetzt, sodass die Prozessorkerne nicht höher als 5,2 GHz takten. Aber auch diese Maßnahmen scheinen keinen durchschlagenden Erfolg gehabt zu haben." Hat man auch das BIOS Update gemacht? Nein, dann Klappe halten und sich nicht noch länger als Depp outen, denn wer behauptet dass "selbst ein Microcode-Update nur eine Teillösung sein wird" ist ein Depp. Ausprobieren und nicht nur das ME Update, sondern auch das BIOS Update machen!
Also wenn die normale Desktop CPU's in Servern nutzen dann sind die selber schuld.
Nein, es gibt ja die W680 Boards, aber zumindest die von ASUS haben ja die CPUs auch mit dem "ASUS Advanced OC Profile" betrieben, siehe Post #68 und damit außerhalb der Intel Vorgaben.
 
Also wenn die normale Desktop CPU's in Servern nutzen dann sind die selber schuld. Für Server gibt es extra dafür konzipierte CPU's da nimmt man keinen Core i9 oder Ryzen und jammert dann herum.
Ich glaub Hetzner macht auch sowas. Meine mich erinnern zu können, dass Roman in seinen Videos mit Hetzner Werbe-Intro irgendwas von Consumer-/ Desktop-CPUs erwähnt.
 
Weil es möglicherweise ein Zusammenspiel aus Spannungen und der Fertigung ist? Auf Sockel 1200 wurden doch auch heftige Spannungen durch gejagt.
Sockel 1200 hat aber noch 14nm-CPUs gefaßt. Sockel 1700 ist für "Intel7". Das soll eine verbesserte 10nm-Fertigung sein, aber so schwer, wie die bei Intel in Gang kam, läuft das wohl immer noch nicht so proper....?
 
Ich glaub Hetzner macht auch sowas.
Ist halt günstiger als echte Server Hardware aber ob die Desktop CPU's wirklich für derartige Anwendungen getestet wurden können wohl nur deren Hersteller beantworten.

Vor allem wenn bei den W680 Mainboards Sachen wie das "ASUS Advanced OC Profile" Standardmäßig aktiv sind. Dann laufen die CPU's Übertaktet 24/7 im Dauereinsatz bis sie irgendwann den Geist aufgeben.
 
Ich glaub Hetzner macht auch sowas. Meine mich erinnern zu können, dass Roman in seinen Videos mit Hetzner Werbe-Intro irgendwas von Consumer-/ Desktop-CPUs erwähnt.

Glauben ist nicht wissen, in deren dedicated Servern stecken definitiv keine K-SKUs, üblich ist dann z.B. ein Core i5 13500.

So wurde der Speichertakt auf DDR5-4200 reduziert und der Multiplikator auf 52 festgesetzt, sodass die Prozessorkerne nicht höher als 5,2 GHz takten.

Ich schätze mal dass sie Dual Rank Module mit Vollbestückung eingebaut haben, und dass sie daher gezwungen waren den Speichertakt so weit runter zu stellen.

Da sowieso nicht mit wirklich offenen Karten gespielt wird, keine vernünftigen Logs/Screenshots präsentiert werden fällt es mir schwer diesen Level1 Kram überhaupt noch ernst zu nehmen.
 
Ist halt günstiger als echte Server Hardware aber ob die Desktop CPU's wirklich für derartige Anwendungen getestet wurden können wohl nur deren Hersteller beantworten.
Gehe davon aus, dass sie dafür getestet wurden, dies kleinen Xeon-E und Xeon-W haben schon immer die Dies der Consumer i CPUs verwendet. Dies ist also nichts neues, außer das Intel jetzt auf die Xeons verzichtet und es nur noch vom Chipsatz abhängig macht, was die CPU unterstützt.

Vor allem wenn bei den W680 Mainboards Sachen wie das "ASUS Advanced OC Profile" Standardmäßig aktiv sind. Dann laufen die CPU's Übertaktet 24/7 im Dauereinsatz bis sie irgendwann den Geist aufgeben.
Dauerbetrieb ist weniger das Problem, meine Rechner laufen auch alle im Dauerbetrieb. Das OC ist eher das Thema, vor allem weil dadurch die CPUs eben mit Einstellungen außerhalb der Intel Vorgaben laufen und dies kann eben die Stabilität negativ beeinflussen, was man gerade bei Servern nicht möchte. Keine Ahnung ob es nur ASUS ist welches dies bei den W680 Boards trotzdem macht, aber sowas gehört sich einfach nicht. ASUS kann es aber eben nicht lassen, die müssen immer versuchen mehr aus den CPUs rauszuholen um die längsten Balken bei der CPU Performance in den Mainboard Reviews zu bekommen.

Statt sich auf die CPU zu konzentrieren, wäre es besser auf die Mainboards zu schauen, da liegt der Hund begraben, denn Intel kann halt nur mit Einstellungen nach seinen Vorgaben testen. Wie sollten sie auch all die diversen Einstellungen testen, die sich die Mainboardhersteller als ihre eigenen "Advanced OC Profile" so ausdenken? Dies wäre die Aufgaben der Mainboardhersteller, aber dazu müssten sie absolute Gurken CPUs haben, also solche die gerade noch ihre Spezifikationen geschafft haben. Die Gurken sind ja das Problem, die KS, also die selektierten Perlen, machen kaum bis keine Probleme und die dürften mit wirklich scharfen Settings betrieben werden.
 
Warum machen diese Deppen kein BIOS Update mit dem Profile nach Intel Vorgaben und nutzen dann dieses Profile?
Laut L1 Wendell: Diese "Deppen" nutzen in ihren eigenen Servern Workstation Boards, die die CPUs bereits komplett nach Intel Default Spec fahren. Und trotzdem laufen sie reihenweise instabil, und das vor allem stärker mit fortschreitender Zeit.
Ebenso seien auch bei den Nutzern Systeme betroffen, die bereits mit neuem Bios und Profile laufen.

Also mal ganz ruhig. Wir dürfen annehmen, dass Serverbetreiber, mittelgroße Studios und co so halbwegs wissen, was sie tun.
Für manche von ihnen scheint es ja mittlerweile so arg zum Problem zu werden, dass sie ganze Flotten auf AMD umstellen.

je größer das Aufregungspotential
Besonders witzig, wenn man deine Schreibweise hier drin betrachtet.

Erst wenn es dann noch Instabilitäten gibt, kann man dies ernst nehmen.
Wieder nach L1 Wendell: die betroffene Serverbetreiber haben teilweise den RAM auf DDR5-4200 reduziert, die Multi auf 52x gedeckelt, das PT auf die 125W, gekühlt unter 70°C und haben dann trotzdem noch regelmäßige Aussetzer, von Crashes bis zu komplett inaktiven Kernen.

Die Fehlersuche, Gegenmaßnahmen, Datenfülle geht bei diesem Problem bereits weiter, als du denkst.
Beitrag automatisch zusammengeführt:

Das Video sehe ich mir nicht an
Aber mit übers Thema quatschen wollen und den Beteiligten vorwerfen, sie hätten keine Ahnung?
Beitrag automatisch zusammengeführt:

Woher die "50%" kommen, wird in besagtem Video klar erläutert.
Es ist noch kein Clickbait nur weil du dich weigerst, die Quelle anzusehen.

Atme tief durch, schau dir das Video an und dann mach hier weiter. Dann sparst du dir vielleicht auch die beleidigenden Worte.

Beitrag automatisch zusammengeführt:

die KS, also die selektierten Perlen, machen kaum bis keine Probleme
Die KS sind in den gezeigten Crash Reports zu genüge vertreten.
 
Zuletzt bearbeitet:
Im Level1 Tech Forum steht MC 0x123 und irgendwo habe ich was von 84 Grad aufgeschnappt.

Mit MC 0x125 gibt es keinen eTVB mit 84 Grad, der wird bei über 70 Grad gedeckelt, zumindest sollte es so sein laut einem Entwickler von Asus.

Sie haben den Multi fixiert bzw. limitiert, damit ist eTVB als mögliche Ursache eigentlich raus, nicht aber eine vermurkste AC/DC LL.

Our population of systems included 128gb (4x32gb) and 96gb (2x48gb) systems. The 2x48gb were stable with the W680 default power configuration (0x123 microcode was the latest available as of 7/10/2024 on W680) and 125W tdp. Multiplier limit of 53, memory speed cap of 5000 for 1dpc and 4200 for 2dpc.
 
Zuletzt bearbeitet:
Mit MC 0x123 hatten die schon das neuste Bios dann drauf.
Das Bios was am 30.05 kam war mit diesem Microcode und halt den Intel default.
Das neue jetzt mit MC 0x125 ist nun zwei Tage Online bei Asus mit dem eTVB fix.
Ich persönlich glaube nicht das jetzt eTVB verantwortlich ist .
Da muss die CPU echt null Reserven haben, wenn es daran schon abkackt und die etwas erhöhte Temp
die Instabilität verursacht. Und ja es ist bekannt, wenn CPU´s kühl betrieben werden etwas mehr können.
 
Zuletzt bearbeitet:
Keine Ahnung wieso man überhaupt auf die Idee kommt eine übertaktbare Desktop CPU für "Server" einzusetzen.
Das ist aber eine Meinung deiner Verzweiflung. Denn damit kannst du nicht die alleinige Schuld bei anderen suchen und Intel als völlig unschuldig kommunizieren.

aber so schwer, wie die bei Intel in Gang kam, läuft das wohl immer noch nicht so proper....?
Das meine ich eben aus meiner Sichtweise. Mit Sockel 1200 und auch schon immer wurden heftige Spannungen durch das System gejagt und es gab nie solche Probleme. Das einzige was ich mitbekommen habe war nur, dass auf Asus Boards 6950X CPUs mit XMP kaputt gegangen sind, weil es Asus mit den Spannungen übertrieben hatte.

Und auch von Alder auf Sockel 1700 gibt es keine Meldungen. Deswegen phantasiere ich, dass im Zusammenspiel mit der Raptor Fertigung und den hohen Spannungen möglicherweise irgendetwas schief läuft. Letztlich sind wir alle nur am phantasieren :-)

Als AM5 CPUs durch EXPO Nutzung richtig zerstört wurden, war es doch sofort offensichtlich, dass es die wilden zu hohen Spannungen waren. AMD hätte schon vorher mit AGESA solche Spannungen unterbinden müssen.

Deswegen verstehe ich auch die Meinung von @Holt nicht, der immer wieder hier schreibt, Intel könne nicht den Board-Hersteller harte Regeln vorschreiben, weil Intel so hart abhängig ist. Aber das kleine AMD, die noch nicht einmal den Markt alleine zu 30% bedienen können, können mit AGESA klare Regelungen definieren.
 
Also mal ganz ruhig. Wir dürfen annehmen, dass Serverbetreiber, mittelgroße Studios und co so halbwegs wissen, was sie tun.
Für manche von ihnen scheint es ja mittlerweile so arg zum Problem zu werden, dass sie ganze Flotten auf AMD umstellen.
Solange Sie nicht alles offen legen, ist das alles nur Gelaber.

Wenn man sagt, das ein BIOS oder Microcode Update nicht helfen wird, :unsure:

Es gibt Serverbetreiber und Serverbetreiber, wenn ich Desktop CPUs einsetzte, zeugt das nicht gerade als Professionell, egal ob die CPU dafür ausgelegt ist oder nicht.
 
Das mit den W680 Mainboards macht schon Sinn. Wurde auch im Q&A Video erklärt.
Denn das sind System die sie an Spieler bzw. Firmen richten die so etwas anbieten. Und gerade die Spieler erwarten Gaming Hardware, mit einem Xeon oder Epyc können die nichts anfangen.
Andererseits brauchst du Features wie IPMI, um diese Systeme zu warten (BIOS Update etc.) oder um mal in die Errorlogs zu sehen ob es Probleme gibt. Diese Features bietet kein Consumer Mainboard. Sondern nur die Workstation-/Serverboards. Ein weitere Punkt ist manche Spiele brauchen eine sehr hohe Single Core Leistung, was man nur beim i9 (13900/14900 mit und ohne Kürzel). Und man möchte natürlich nicht den Aufpreis für Xeon und Epyc zahlen. Dann das sind in der Regel keine großen Unternehmen. Wenn ich es richtig verstanden habe geht es dort um Anbieter mit 50 bis 1000 Systemen.

Und wenn denen 50% aller Systeme, innerhalb der ersten 6 Monate, instabillitäten auf weisen. Diese so groß sind das man diese Austauschen muss und das ganz rein auf die CPU zurückführen kann. Dann ist das ein Problem. Welches vielleicht nicht primär für Endkunden, aber eins für Intel ist. Und darüber muss definitiv Berichtet werden.
 
Intel fällt jetzt auf die Füße, dass sie seit Jahren ein herstellerseitiges Deaktivieren der PL1+PL2-Obergrenzen durch die Mainboards kommentarlos zugesehen, dadurch quasi passiv unterstützt und die Limits selbst (!) immer weiter angehoben haben.

Jetzt mal ernsthaft - dieses winzige Stück Silizium und dann über 250W da durchjagen? Server-CPUs bieten teilweise ein Vielfaches der Die-Fläche, deutlich mehr Kerne und liegen in der gleichen TDP-Region.

Was hat Intel denn geglaubt, wie lange dieses Netburst-Spiel gutgehen kann.

Ich bin jedenfalls auf den echten Grund gespannt, den irgendein Whistleblower bei Intel irgendwann präsentieren wird.

Dann wird's auch um einige Intel-Jünger hier still, die keinen Fehler seitens Intel erkennen. :d
 
Volker von CB meint, dass die neuen BIOS von Asus nicht das Grundproblem lösen werden. Es wird sich auch in den kommenden Wochen nicht lösen.
Und wenn eine Person wie Volker damit sagt, dass es nicht alleine daran liegt, es also auch andere Umstände für diese Situation gibt, ist das glaubhafter. Denn dieses Intel ist ohne jegliche Schuld von Leuten die eh immer Intel in Schutz nehmen, hat für mich die geringste Bedeutung.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh