Recht wenig Leistungssteigerung und Energieeffizienz bei 14nm / 12nm -> 5nm / 4nm / 3nm

Martin Preiß

Enthusiast
Thread Starter
Mitglied seit
03.03.2006
Beiträge
269
Irgendwie klingen die Fortschritte von 14nm und 12nm Fertigungsprozessen über die Zwichenschritte 10nm / 9nm / 7nm / 6nm auf die heute üblichen 5nm / 4nm / 3nm nach sehr viel, was bedeuten würde das man sich etweder eine grosse Leistungssteigerung oder aber eine deutlich verbesserte Energieeffizienz erhofen könnte. Aber wenn ich mir dann das Resultat anschaue bin ich doch ziemlich enttäuscht.

Unter 14nm fielen ja z.B bei Intel:
- Core i5-8600K (Coffee Lake) für Gaming-PC
- Core i5-8500B (Coffee Lake) für Gaming-Notebooks
- Core i5-8265U (Whiskey Lake) für Subnotebooks
- Atom x5-Z8500 (Cherry Trail) für Mini-PC

Unter 12nm fielen z.B. bei AMD:
- Ryzen 5 2600X (Zen+) für Gaming-PC
- Ryzen 5 3580U (Zen+) für Crossover-Notebooks
- Ryzen 5 PRO 3350GE (Zen+) für Mini PC

Unter 12nm fielen bei Nvidia:
- sämtliche GPUs der Reihen GeForce 16 und GeForce 20

Aber wenn man sich heute z.B. einen Intel Core Ultra 5 235 oder AMD Ryzen 5 9600X für Gaming-PC, Intel Core Ultra i7-13650HX für ein Gaming-Notebook oder AMD Ryzen 5 8640U für ein Crossover-Notebook, eine GeForce RTX 4060 Ti Grafikkarte oder ein GeForce RTX 4070 Mobile Grafikmodul anschaut, dann hat sich da der Leistungszuwachs in überschaubaren Grenzen gehalten.

Vorallem wenn man bedenkt das es dazwischen auch noch sonstige Architekturverbesserungen gab.

Viel mehr Leistung gibt es zwar heute bei einem Intel Core Ultra 9 285K oder AMD Ryzen 7 9800X3D und einer GeForce RTX 4080 Super oder GeForce RTX 4090 aber deren Strombedarf ging dann auch entsprechend durch die Decke. Und vorallem bei den Nvidia Grafikchips auch der Preis.

Ich glaub wenn China auf Basis von 14nm und 12nm Fertigungsprozessen vorallem über den Preis den Markt aufrollen würden, hätten sie relativ gute Chancen gegegen die aktuellen 5nm / 4 nm / 3nm Prozessoe von Intel, AMD, Nvidia, etc.
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Vorallem wenn man bedenkt das es dazwischen auch noch sonstige Architekturverbesserungen gab.
Ja die Architekturen sind besser und bieten mehr IPC, aber dies bekommt man nicht umsonst. Man muss dafür viel mehr Transistoren aufwenden und für 10% mehr IPC reichen 10% mehr Transistoren bei weitem nicht aus. Diese zusätzlichen Transistoren brauchen Platz und Energie, weshalb man eben neue, kleinere und effizientere Fertigungsverfahren braucht oder eben die Anzahl der Kerne senken muss, wie es Intel bei Rocket Lake getan hat. Dessen Cypress Cove Kerne ja ein Backport der 10nm Ice Lake Sunny Cove Kerne waren und entsprechend gab es nur noch maximal 8 Kerne, statt 10 beim Comet Lake Vorgänger.

Am Ende müssen die CPU Hersteller eben entscheiden wofür sie die zusätzlichen Transistoren nutzen die durch eine bessere Fertigung möglich werden und bisher haben sie immer einen Kompromiss gewählt bei dem sie einen Teil für eine bessere Architektur aufgewendet haben und einen Teil für mehr Kerne.
Ich glaub wenn China auf Basis von 14nm und 12nm Fertigungsprozessen vorallem über den Preis den Markt aufrollen würden, hätten sie relativ gute Chancen gegegen die aktuellen 5nm / 4 nm / 3nm Prozessoe von Intel, AMD, Nvidia, etc.
Aus dem oben genannten Grund, wäre dies nicht der Fall. Klar könnten sie natürlich über den Preis dies Einstiegssegment unter Druck bringen, aber für den High-End Bereich braucht man eben die modernsten Fertigungsprozesse.

Auch wenn Arrow Lake für Gamer eine Enttäuschung sein mag, so ist dessen Effizienz in Anwendungen, gerade bei geringer eingestellten Power Limits, einfach unschlagbar:

Arrow Lake 285K Power Limit Skalierung.png


(Quelle)

Wie man sieht leistet der 285K bei 65W rund doppelt so viel wie der 14900K und dies kommt vor allem von der moderneren Fertigung, ohne diese bekommt man sowas einfach nicht hin. Das in Games davon wenig ankommt, liegt eben einfach daran, dass Games normalerweise nie alle Kerne voll auslasten, sondern sehr stark an der Singlethreadperformance und dazu den Latenzen hängen, vor allem auch der RAM Latenz.
 
Es gibt einige Software, die viel Singlethreadperformance braucht.
Und das hat seinen Grund im Anwendungsbereich.
Oftmals kann man Rechenoperationen schlicht nicht parallelisieren, weil die voneinander abhängig sind.
Wenn Rechenoperation B das Ergebnis von Rechenoperation A als Eingangsgröße braucht,, dann kann ich schlicht nicht Rechenoperation A und B gleichzeitig ausführen, sondern muß die nacheinander ausführen.
CAD-Programme z.B. gehören zu solcher Software.
Da nimmt man dann lieber eine CPU, die 200 MHz mehr Takt hat und dafür nur die Hälfte an Cores.
Aber auch in Spielen gibt es solche Abhängigkeiten.

Und was die Fertigungsprozesse angeht:
Die Strukturgrößen sind Pseudowerte und entsprechen schon seit einigen Generationen NICHT den tatsächlichen Strukturgrößen.
Die tatsächlichen Strukturgrößen sind größer!
Mit sinkenden Strukturgrößen handelt man sich übrigens einige Probleme ein, weshalb man z.B. für Computer, die in Satelliten. Raumstationen, Raumsonden etc. verbaut sind, rel. große Strukturgrößen verwendet.
Auch im Automobilbau ist das so. In Chips für Steuergeräte in Autos ist z.B. eine Strukturgröße von 65nm üblich.
Je kleiner die Strukturgröße, desto empfindlicher ist der Chip für ionisierende Strahlung, auch sinkt die Lebensdauer und desto empfindlicher ist der Chip gegenüber zu hohen Temperaturen und Spannungen.
 
Auch wenn Arrow Lake für Gamer eine Enttäuschung sein mag, so ist dessen Effizienz in Anwendungen, gerade bei geringer eingestellten Power Limits, einfach unschlagbar:
Ja, wenn die "Anwendung" Cinebench ist, schon.

Mal sehen, ob Intel irgenwdann wieder mitspielen darf.
 
Manche Leute lassen echt keine Gelegenheit aus um zu beweisen, wieso sie auf meiner IL gut aufgehoben sind. Erstens habe nicht in Cinebench für diesen Vergleich ausgewählt und zweitens ist es ein guter Benchmark für die Multithreadperformance. Zwar ist Cinebench sehr FPU lastig, weshalb die AMD Bulldozer da damals auch so mies abgeschnitten haben, die hatten ja nur eine FPU pro Modul, aber dafür ist Cinebench sehr gut in der Lage viele Kerne auszulasten und hängt kaum von der RAM Performance ab. Aber jeder darf dies gerne mit seinem Lieblingsbenchmark oder eben seiner meistgenutzten Anwendung selbst nachvollziehen. Das macht nur kaum jemand, man kann ja schon froh sein sowas überhaupt einmal in einem Review zu finden, die meisten Reviewer benchen nur einmal mit dem Power Limit, welches das Mainboard mit dem sie den Review machen, nun eimmal per Default vorgibt. Außerdem fehlt natürlich den meisten Leuten die Hardware um solche Vergleiche anstellen zu können.

Im Serverbereich ist es hingegen durchaus üblich Vergleich zu machen, indem man z.B. sich z.B. an sein Systemhaus wendet und dort einen Test auf unterschiedlicher Hardware mit genau der Software macht, die nachher auf dem Server laufen soll.
 
Zwar ist Cinebench sehr FPU lastig, weshalb die AMD Bulldozer da damals auch so mies abgeschnitten haben, die hatten ja nur eine FPU pro Modul, aber dafür ist Cinebench sehr gut in der Lage viele Kerne auszulasten und hängt kaum von der RAM Performance ab.
Ich glaube in der Praxis war die "FPU Schwäche" von AMD Bulldozer aber auch kein so wirkliches Problem.

Zu Zeiten des Pentium 4 und Pentium D hat man ja auch Intel eine FPU-Schwäche gegenüber Pentium III und Core Duo / Solo vorgeworfen, war aber in der Praxis auch nicht so schlimm.
 
Es hängt halt von der Anwendung ab, wie sehr die FPU Schwäche z.B. der Bulldozer ein Problem war, wenn diese auch sehr FPU lastig ist, wird man sie auch im Alltag merken. Aber bei heutigen Architekturen ist das Verhältnis von Inter und FPU Leistung relativ ähnlich und man würde mit einem einen Integer lastigen Benchmark recht ähnliche Kurven bekommen.
 
Auch wenn Arrow Lake für Gamer eine Enttäuschung sein mag, so ist dessen Effizienz in Anwendungen, gerade bei geringer eingestellten Power Limits, einfach unschlagbar:
Mein 265K ist effizienter bei Stockfish als mein verstorbener 14900KF, aber gegen einen Rechner mit 2x EPYC 9654 hat er vonseiten der Effizienz keine Chance.
Der 265K bringt bei ca. 200W CPU Verbrauch ca. 1/10 der Rechenleistung des EPYC Rechners bei 2x 320W CPU Verbrauch. Der 265K hat 20 Cores, der EPYC Rechner 192 - somit finde ich den Vergleich relativ fair.
Übrigens skaliert Cinebench nicht wirklich gut bei hohen (so ab ~64) Core Werten.
Leider ist der 265K für die von mir vorgesehene Aufgabe - CUDA mit ner 4090 viel schwächer als ein 13900K oder der 14900KF.
 
Der 265K bringt bei ca. 200W CPU Verbrauch
Schaut man sich die Kurve des 285K an, sollte klar sein, dass der bei 200W weit über dem Bereich der optimalen Effizienz betrieben wird. Stelle den auf so 65W ein und schau ob die beiden EPYC 9654 immer noch effizienter sind!
 
Stelle den auf so 65W ein und schau ob die beiden EPYC 9654 immer noch effizienter sind!
Autsch! Wo bleibt die Logik?
65W für 20 Cores würde doch ziemlich genau den 640W für 192 Cores entsprechen, wo der dual EPYC 10x schneller ist. Um effizienter zu werden, müsste der 265K durch weniger Leistung absolut (nicht relativ) schneller werden. Das schafft noch nicht einmal Intel.
 
Autsch! Wo bleibt die Logik?
Genau da:
65W für 20 Cores würde doch ziemlich genau den 640W für 192 Cores entsprechen
Mit 200W betriebst Du den 265K weit außerhalb des Betriebspunktes wo er seine beste Effizienz hat, während die EPYCs sehr wohl an ihrem optimalen Betriebspunkt betrieben werden dürften. Nur so macht eine Vergleich der Effizienz überhaupt Sinn, da die Effizienz halt sinkt, je mehr man richtig Höchstleistung geht, wie es im Diagramm ja auch klar zu sehen ist, wo die Kurven immer flacher werden, je höher die Leistungsaufnahme geht. Der 285K hat demnach wohl die beste Effizienz bei 65W, für den 265K sollte es ähnlich sein.
 
Oh je.
Der dual EPYC Computer schafft mit Stockfish in der Grundposition ca. 200 megaNodes / s bei 640W CPU Power.
Der 265K schafft mit 200W ca. 20 megaNodes /s.
Um effizienter als der EPYC zu sein, müsste der 265K mit 65W mehr als 20 megaNodes / s schaffen. Das ist nicht möglich.
 
aber wenn er dann 17 oder 18 schafft, wäre die Effizienz viel besser
Aber immernoch schlechter als beim EPYC.
Der Unterschied zwischen der AVX2 und VNNI512 ist beim EPYC irgendwo bei 2%.

Ich werde mal bei Gelegenheit den 265K mit 65W testen.
 
Hast Du bei den EPYC auch die Package Power zum Vergleich genommen und nicht nur die Leistungsaufnahme der Kerne? Zumindest bei den RYZEN bezieht sich die TDP (und auch der ECO Mode) ja nur auf die Leistungsaufnahme der Kerne, während sie bzw. eben die Power Limits sich bei Intel auf die Package Power beziehen, also die gesamte Leistungsaufnahme der CPU und nicht nur die ihrer Kerne. Bei einem RYZEN 7950X macht das mehr als 20W Unterschied aus, denn im 65W ECO Modus, hat er so 88W Package Power, was AMD als PPT bezeichnet, aber eben der TDP bei Intel entspricht.

Bei den EPYC gibt AMD keine PPT an, aber es gibt wohl ein PPL (Package Power Limit) und dies ist wohl meist 400W, demnach wären die ca. 200 megaNodes/s wohl eher bei 800W und nicht 640W CPU Power erreicht worden, also "nur" 0,25 megaNodes/s pro Watt, statt 0,3125. Schau mal was der 265K bei 65W Power Limit so schafft, wenn er auf 16,25 megaNodes/s kommt, wäre das in dem Fall dann Gleichstand.
 
Hast Du bei den EPYC auch die Package Power zum Vergleich genommen und nicht nur die Leistungsaufnahme der Kerne?
Selbstverständlich die Package Power. Die ist einstellbar von 320 - 400W.
Der 265K bringt bei 240W 21.4 mN /s, mit 65W 14.1 mN /s.
Übrings skaliert Stockfish optimal auf vielen Cores.
 
Beim EPYC SMT an, Determinism auf Power, L2 Streaming Prefetcher aus, 1 NUMA node per CPU. Alle logischen Cores werden genutzt. Ich benche in der Grundstellung - schnelle Rechner müssen 10^10 nodes berechnen, langsamere weniger, der 265K nur 10^9 (sonst wäre der Wert noch niedriger). Large pages sind auf beiden Rechnern aktiv und werden auch genutzt.
Es gibt einen interessanten Test , wo Stockfish (leider in der alten Version 16.1) verwendet wird. Die alte Version bringt mehr mN/s, aber NUMA funktioniert nicht korrekt. Ich vermute, dass da der eingebaute Benchmark verwendet wurde - da sind jede Menge Positionen mit weniger Steinen auf dem Brett drin - die sind schneller.
 
Von Stockfish und Computerschach habe ich keine Ahnung, aber google hat mir diesen Seite ausgeworfen und da hat jemand z.B. stockfish bench 2048 11 25 eingegeben. Welche Werte gibst Du da ein?
 
Mein Befehl ist ganz einfach: go nodes 10000000000
Allerdings läuft Stockfish über ein von mir programmiertes Interface, was Hash Größe und Threads automatisch eingibt.
Ohne das müsste man beides manuell eingeben.
Für den 265K:
setoption name hash value 32768 (für 32 GB - der hat 192 GB RAM)
setoption name threads value 20
go nodes 100000000
 
Wenn da so viel einzustellen ist, was dann die Ergebnisse beeinträchtigt, sollte klar sein wieso Leute Benchmarks wie Cinebench vorziehen, bei denen man nichts einzustellen braucht, was dann auch besser vergleichbare Ergebnisse bringt.
 
Den eingebauten Benchmark kann man natürlich auch nutzen - für den 265K wäre OK z.B.: bench 32768 20 26
Bedeutet: 32768 MB Hash 20 Threads bis zu einer Tiefe von 26 Halbzügen
 
Ich verstehe den Thread nicht so ganz...

Nehmen wir einfach mal den Wechsel von den RTX3000er Karten hin zu den RTX4000er Karten. Wir sind von Samsung zu einer modernen TSMC Fertigung gewechselt und die Grafikkarten haben innerhalb von 2 Jahren einen enormen Sprung gemacht. Die 4090 hat 60% mehr Performance als die 3090 gebracht und gleichzeitig hat sich die Effizienz fast verdoppelt. Von 4090 auf 5090 gab es keine neue Fertigung und entsprechend gibt es etwas mehr Leistung bei etwas mehr Stromverbrauch. Effizienz fast gleich. Wie kann man also hier die RTX4000er Karten kritisieren? Das war seit langem der größte Sprung in Sachen Effizienzsteigerung. Für 1 Watt bekommt man jetzt fast 2 Bilder anstelle von 1 Bild.

01e-Efficiency Kopie.jpg


Und ich habe zufälligerweise neben der RTX4080 einen 265k gekauft für Anwendungen und KI und auch hier war das ein enormer Sprung zu meinem alten 5800x. Gerade die Effizienz bis 100 Watt Verbrauch ist verdammt gut und schlägt auch einen Ryzen 9000er Prozessor. Und ja, Cinebench, aber bei Gaming sieht es auch nicht anders aus. Deutlich geringerer Stromverbrauch als die Intel Generation davor. Am Ende muss man schauen, welche Anwendungen man verwendet. Wenn ein Codec nicht unterstützt wird und man genau dafür eine Anwendung hat, dann kann das Ergebnis natürlich völlig anders aussehen.

Screenshot 2025-01-30 at 23-07-12 Intel Core Ultra 9 285K 7 265K & 5 245K vs. AMD Ryzen im Tes...png
 
Die 4090 hat 60% mehr Performance als die 3090 gebracht und gleichzeitig hat sich die Effizienz fast verdoppelt. Von 4090 auf 5090 gab es keine neue Fertigung und entsprechend gibt es etwas mehr Leistung bei etwas mehr Stromverbrauch. Effizienz fast gleich. Wie kann man also hier die RTX4000er Karten kritisieren?

Das ist ja auch die Ultimate-Premium-Klasse die entsprechend teuer ist.

Aber wenn ich in der Mid-Range-Klasse eine RTX 4060 Ti oder RTX 4070 Mobile anschaue sehe ich da nicht soviel Fortschritt.
 
und einer GeForce RTX 4080 Super oder GeForce RTX 4090 aber deren Strombedarf ging dann auch entsprechend durch die Decke.

Das hast du geschrieben, aber die Effizienz ist fast um 100% gestiegen innerhalb von 2 Jahren. Und trotzdem ist auch die Leistung um 60% gestiegen. Daher sehe ich auch nicht, dass man sagen kann, dass neue Fertigungen nichts gebracht haben. Was ohne neue Fertigung, selbst im Hochpreissektor für 2500€ geht, hat man jetzt an der 5090 gesehen, nicht viel.

Und nehmen wir die 4070, auch die ist deutlich effizienter geworden im Gegensatz zur 3070 und die 4070 gab es immer mal wieder für etwas über 500€.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh