NEWS

Fehlende ECC-Unterstützung

Linus Torvalds schimpft über Intel

Portrait des Authors


Linus Torvalds schimpft über Intel
39

Werbung

Linus Torvalds ist nicht bekannt dafür, mit seiner Meinung hinterm Berg zu halten. In einem erneuten Ausbruch im Forum von RealWorldTech schimpfte der Linux-Erfinder über Intels Produktpolitik hinsichtlich der Unterstützung von ECC (Error-Correcting Code). Vor allem kritisiert er, dass Intel die Unterstützung für ECC ausschließlich den Xeon-Prozessoren spendiert und damit den Nutzern anderer Prozessoren vorenthält, obwohl diese ECC sinnvoll einsetzen könnten. Vor allem wirft Torvals Intel vor, die Etablierung von ECC im Massenmarkt aktiv zu blockieren.

"ECC availability matters a lot - exactly because Intel has been instrumental in killing the whole ECC industry with it's horribly bad market segmentation. (...) Intel has been detrimental to the whole industry and to users because of their bad and misguided policies wrt ECC. Seriously."

Argumente für ECC, auch im Endkundensegment, sieht Torvalds vielfach. So ließen sich damit so manche Abstürze verhindern oder zumindest Fehler erkennen. 

"We have decades of odd random kernel oopses that could never be explained and were likely due to bad memory. And if it causes a kernel oops, I can guarantee that there are several orders of magnitude more cases where it just caused a bit-flip that just never ended up being so critical." 

Torvalds wechselte vor einiger Zeit auf ein System mit Ryzen-Prozessor und sieht in AMDs Produktpolitik viele Vorteile. So bietet AMD im Client-Bereich mehr Kerne, bei den Ryzen-Threadripper-Prozessoren viele PCI-Express-Lanes und schlussendlich eben auch die Unterstützung von ECC. Dies allerdings nicht vollumfänglich bzw. nur in der Form, dass auch die Mainboardhersteller ECC explizit anbieten müssen. Für alle AM4-Modelle bietet Geizhals ebenso eine Übersicht aller Mainboards mit ECC-Unterstützung wie für TR4-und sTRX4-Mainboards. Passender Speicher findet sich auch, einige Fragezeichen gibt es aber häufig in der Softwareunterstützung.

Für Torvalds aber ist AMDs Ansatz zumindest ein Anfang, der den Markt in Bewegung bringen soll. Dies soll Intel dann in soweit unter Druck setzen, dass man auch hier ECC bei den Core-Prozessoren anbietet.

"The difference between "the market for working memory actually exists" and "screw consumers over by selling them subtly unreliable hardware" is an absolutely enormous one. And the fact that it's "unofficial" for AMD doesn't matter. It works. And it allows the markets to - admittedly probably very slowly - start fixing themselves. But I blame Intel, because they were the big fish in the pond, and they were the ones that caused the ECC market to basically implode over a couple of decades."

Ob AMD und die Nutzer allerdings genügend Druck werden aufbauen können, um ECC als Funktion breiter in den Markt zu bringen, steht auf einem anderen Blatt. Sicherlich verliert Intel derzeit einige Nutzer, die nicht bereit sind den Aufpreis für einen Xeon-(W)-Prozessoren zu zahlen, wie hoch dieser Anteil jedoch ist, lässt sich kaum abschätzen. 

Update

DDR5 wird ein On-Die ECC bieten, was bedeutet, dass jeder DDR5-Speicherchip ein ECC ausführt und damit Fehler erkennen und korrigieren kann. Dies ist eine Gegenmaßnahme aufgrund der immer komplexeren Fertigung, die immer mehr Fehler aufkommen lässt. In gewisser Weise kompensiert man damit nur einen nachteiligen Effekt in der aktuellen Entwicklung. Das ECC arbeitet aber nicht "DIMM-wide" und damit bedeutet dies nicht, dass Fehler auf dem Transportweg vom DIMM-Modul zum Speichercontroller erkannt werden.

Sk Hynix beschreibt dies wie folgt:

"On-die error correction code (ECC) and error check and scrub (ECS), which were first to be adopted in DDR5, also allow for more reliable technology node scaling by correcting single bit errors internally. Therefore, it is expected to contribute to further cost reduction in the future. ECS records the DRAM defects and provides the error counts to the host, thereby increasing transparency and enhancing the reliability, availability, and serviceability (RAS) function of the server system."

DIMM-wide ECC ist also noch immer eine Funktion, die es für DDR5 geben wird und die zusätzlicher Aufwand bedeutet. Sprich, nicht jeder Prozessor, der DDR5 unterstützt, wird auch DIMM-wide ECC unterstützen, so dass es in etwa so bleibt, wie es aktuell schon ist – es wird Prozessoren geben, die ein DIMM-wide ECC unterstützen werden und solche, die das nicht tun.

Quellen und weitere Links KOMMENTARE (39) VGWort