Warum überhaupt noch feste Anzahl von CPU Kernen statt flexibler ALU Gruppierung?

Martin Preiß · 25.01.2025

Bin gerade auf den Gedanken gekommen das man heutzutage doch eigentlich garkeine feste fest vorgegebene Anzahl von CPU Kernen mehr bräuchte, sondern man einfach die CPUs einfach mit einem flexiblen Frontend und flexiblen Shedulern ausstatten könnte, welche die vorhandenen ALUs je nach gewähltem Profil flexibel auf virtuelle Kerne aufteilen könnten. Das könnt man dann über das EFI / BIOS erledigen.

Man könnte dann eine CPU Familie zum Beispiel in den Ausbaustufen 36+24+12 / 48+32+16 / 60+40+20 / 72+48+24 / 96+64+32 ALUs ( Integer + Gleitkomma + AVX ) und mit verschiedenem Maximaltakt anbieten.

Dann aber z.B. bei der mittleren 60+40+20 Stufe im EFI / BIOS folgende Einstellungen zulassen:

10 Performance-Kerne
4 Performance-Kerne + 12 Efficiency-Kerne
2 Performance-Kerne + 24 Efficiency-Kerne
4 Performance-Kerne + 8 Efficiency-Kerne + 4 ARM Kerne
4 Performance-Kerne + 6 Efficiency-Kerne + 6 ARM Kerne
2 Performance-Kerne + 20 Efficiency-Kerne + 4 ARM Kerne
2 Performance-Kerne + 16 Efficienty-Kerne + 8 ARM Kerne

10 Performance-Kerne wären wahrscheinlich ideal fürs Gaming, die Konfigurationen mit ARM Kernen aber zum Beispiel um Android-Apps nativ laufen zu lassen.

scars · 25.01.2025

Ich frag mich immer öfter, ob du ne KI bist die uns testet…

Scrush · 25.01.2025

scars schrieb:
Ich frag mich immer öfter, ob du ne KI bist die uns testet…

es sind gefühlt seit ein paar wochen 4-5 komische accounts hier im forum unterwegs.

HisN · 25.01.2025

Die immer die gleichen lustigen Gedanken kreisen lassen.

Holt · 26.01.2025

Martin Preiß schrieb:
sondern man einfach die CPUs einfach mit einem flexiblen Frontend und flexiblen Shedulern ausstatten könnte, welche die vorhandenen ALUs je nach gewähltem Profil flexibel auf virtuelle Kerne aufteilen könnten.

Weil dies wohl weder einfach noch performant wäre.

Niftu Cal · 26.01.2025

Scrush schrieb:
es sind gefühlt seit ein paar wochen 4-5 komische accounts hier im forum unterwegs.

In solchen großen Foren sind immer komische Leute unterwegs.

CPUs werden vermutlich auf P+E cores übergehen auch bei AMD. Zumindest existieren auch Zen 5c.

HSW · 26.01.2025

Intel wollte so etwas ähnliches mit seinen royal Cores machen (Rentable Units)

VL125 · 26.01.2025

Scrush schrieb:
es sind gefühlt seit ein paar wochen 4-5 komische accounts hier im forum unterwegs.

Brauchst ja nur bei neuste Mitglieder gucken.
Wohnort meist Asien,
Komische Brand Namen,
Irgendwas mit 888 im Namen,
Bet oder win im Namen,
junge Frauen (Name und Bild) die ki-fragen stellen.

Kannste gleich Reporten.

IronAge · 26.01.2025

HSW schrieb:
Intel wollte so etwas ähnliches mit seinen royal Cores machen (Rentable Units)

Bei RU werden die Instruktionen aufgeteilt und auf verschiedene "Partionen" verteilt, das können dann sein 1-2 P-Cores aber auch E-Cores.

In dem Artikel hier wird das Konzept/Prinzip ganz gut erklärt:

Intel 16th/17th Gen CPUs to Get Rentable Units: Why Hyper-Threading is Going Away

Intel’s adoption of the hybrid core architecture has significantly changed the roadmap of the PC chipmaking industry. More and more…

medium.com

Holt · 26.01.2025

HSW schrieb:
Intel wollte so etwas ähnliches mit seinen royal Cores machen (Rentable Units)

Ähnlich ist her aber schon sehr übertrieben, denn was Du meinst sind die Rentable Units und da geht es nur darum, dass ein CPU Kerne sich Verarbeitungseinheiten von seinem direkten Nachbarn ausleihen kann, sofern dieser diese gerade nicht selbst braucht. Lion Cove hat z.B. 6 Integer Einheiten und 4 Vector Einheiten pro Kerne und könnte dann eben im besten Fall 12 Integer Einheiten und 8 Vector Einheiten nutzen. Dazu müssen die Kerne dann direkt nebeneinander angeordnet werden, schon um die Signalwege kurz zu halten und die Kerne müssen sich abstimmen, es kann ja immer nur einer zur Zeit eine Einheit nutzen und bisher nutzt eben nur jeder Kern seine eigenen Einheiten.

Man stelle sich nur vor was für eine Verwaltungsaufwand es wäre, wenn man alle Verarbeitungseinheiten aus den Kernen selbst entfernen und in einen Pool werfen würde, auf den dann alle Kerne zugreifen könnten und was für Signalwege damit einhergehen würden. Entweder müsste der Takt dann sehr gering sein oder die Latenz für die Abarbeitung eines Befehls wäre extrem hoch, vom Energieaufwand für die ganze Verwaltung wer gerade auf welche Einheit zugreifen kann, mal ganz abgesehen. Wie schon geschrieben, wäre dies alles andere als einfach oder performant.

Martin Preiß · 26.01.2025

Niftu Cal schrieb:
CPUs werden vermutlich auf P+E cores übergehen auch bei AMD. Zumindest existieren auch Zen 5c.

Bei AMD sehe ich jetzt keine nennenswerte Bedeutung der kleineren compact Cores.

Es gab zwar schon sowohl bei den Desktops bei der Ryzen 8000 Phoenix Serie ein paar kleine Ryzen 3 und 5 mit Zen4 und Zen4c Kernen, ebenso den Notebooks der Ryzen 8000 Hawk Point Serie die kleinen Ryzen 3 und 5, und ebenso bei den Subnotebooks der Ryzen 200 Hawk Point Serie auch wieder die gleichen Ryzen 3 und 5.

Aber diese Modelle sind irgendwie scheinbar extrem unbeliebt un ich nehme sie kaum wahr. Sowohl bei den Desktops werden fast nur die grossen Ryzen 5 8600G und Ryzen 8700G die ausschliesslich normale Zen4 Kerne und die bessere Radeon 760M bzw. 780M Grafik enthalten nachgefragt. Genauso sieht es auch bei Notebooks und Subnotebooks aus. Da sehe ich auch nur Notebooks mit CPUs zwischen Ryzen 5 8640U als Einstieg und bis hin zum Ryzen 9 8945HS sowie Subnotebooks mit Ryzen 5 230 als Einstieg bis hin zum Ryzen 9 270. Allesamt ebenso ausschliesslich mit normane Zen4 Kernen und der besseren bessere Radeon 760M bzw. 780M Grafik, wobei die aber eh nur bei den Subnotebooks zum Tragen kommt. Denn die normalen Notebooks haben ja in der Regel trotzdem noch eine GeForce RTX 4050 / 4060 / 4070 Mobile verbaut.

Bei Zen5 gibt es im bei den Desktops eh noch kene entsprechenden Modelle. Für Subnotebooks gäbe es zwar die Ryzen AI 300 Strix Point Serie wo es bei fast allen Modellen der Fall wäre, aber da kenne ich bislang noch keine Geräte. Und bei der Ryzen 9000 Fire Range Serie für Notebooks und der Ryzen AI Max 300 Strix Halo Serie für Crossover-Notebooks und leistungsfähige Subnotebooks wird es auch keine entsprechenden Modelle geben.

Und ich denke Intel hat die P+E Architektur vorallem deswegen eingeführt weil die Atom Kerne aus diversen CPUs wo sie bislang allein eingesetzt wurden, ohnehin nahezu ausentwickelt vorhanden waren.

Holt · 26.01.2025

Martin Preiß schrieb:
Und ich denke Intel hat die P+E Architektur vorallem deswegen eingeführt weil die Atom Kerne aus diversen CPUs wo sie bislang allein eingesetzt wurden, ohnehin nahezu ausentwickelt vorhanden waren.

Intel entwickelt sowohl die Architektur der P als auch die Architektur der e Kerne weiter und gerade die e Kerne haben bei Arrow Lake ja nun einen gewaltigen IPC Sprung erlebt. Allerdings bekommt Intel dann irgendwann das Problem, dass die Architekturen beider Kerne sich so sehr ähneln, dass es irgendwann sinnvoller werden ist, es wie AMD bei den c Kernen zu machen, also die gleiche Grundarchitektur zu verwenden und diese nur kompakter zu verpacken, was dann auf Kosten der Taktfreudigkeit geht. Wir werden sehen wo da die Reise hingeht.

Generell ist die Hybridarchitektur vor allem für Notebooks sehr sinnvoll, da man mit den P-Kernen dann Anwendungen die nur einen oder wenige Kerne auslasten, auf den P Kernen viel schneller als auf e Kernen laufen lassen kann und auf e Kernen die Hintergrundlasten effizienter abgearbeitet werden und zugleich steigern diese die Multithreadperformance gewaltig. Gerade diese deutlich bessere Multithreadperformance macht sie auch im Desktop sinnvoll, auch wenn Gamer davon wenig haben, aber es gibt eben auch andere Anwendungen als nur Games.

Im Serverbereich sieht es anders aus, diese werden aber auch in aller Regel weit weniger universell eingesetzt als Notebooks oder Desktops, auf denen ja eine gewaltige Bandbreite von Anwendungen laufen kann. Server werden hingegen in aller Regel für ganz bestimmte Anwendungen gekauft und je nach den Anforderungen der Anwendung für die ein Server gedacht ist, machen eben schnellere P Kerne oder langsamere, aber dafür mehr e Kerne den meisten Sinn und entsprechend gibt es eben Xeons die nur P oder nur e Kerne haben, so wie AMD ja auch EPYC CPUs nur mit den normalen oder nur mit den c Kernen anbietet. Aber was man mit den Hybridarchitektur en erreichen will, nämlich eine hohe Single- und eine gute Multithreadperformance zu vereinigen, ohne dass dabei die Diegröße und Leistungsaufnahme aus dem Rahmen fallen, wird bei Servern einfach nicht gebraucht. Die allermeisten brauchen da viel Multithreadperformance, man schau sich nur deren Taktraten an und wird sehen, dass die Singlethreadperformance da einfach nicht besonders gut sein kann und für Anwendungen die eine hohe Singlethreadperformance fordern, gibt es meist spezielle Modelle mit wenigen Kernen die dafür weit höhere Taktraten als die Kernmonster erzielen, wie z.B. den EPYC 9174F oder den Xeon Gold 6434.

Martin Preiß · 27.01.2025

Ich denke das little.BIG Konzept ist toll bei Geräten die wirklich hochmobil also im Akkubetrieb genutzt werden, weil da dann Energieeffizienz bedeutet, das die Laufzeit länger wird.

Aber ansonsten sehe ich da keinn so grossen Sinn. Normale Notebooks werden ja eh fast nur portabel zwischen den verschieden Zimmern oder auch am Arbeitsplatz oder im Hotel benutzt, aber da gibt es ja überall Strom, so das die Akkulaufzeit eigentlich egal ist.

Gaming, komplexe Videobearbeitung, komplexe 3D Modellierung, etc. braucht ja alles performante Kerne. Normale Alltagsanwendungen incl. Internet und Office bis hin zu einfacher Videobearbeitung hingegen braucht jetzt nicht soviele Threads, das da jetzt die genaue Kernzahl besonders wichtig wäre.

Ich finde zwar durchaus z.B. die Intel Core i5-13600KF und i5-14600KF ganz gut für gamingtaugliche Crossover-PCs und auch Gaming-PCs und die Intel Core i5-13500HX, i5-14500HX oder i7-13650HX ganz gut für Gaming-Notebooks mit ihren 6 P- und 8 E-Kernen.

8 oder 10 P-Kerne und dafür keine E-Kerne würde wahrscheinlich noch einen Tick mehr Performance bringen. Aber 6 P- und 8 E-Kernen passt schon auch.

Und wenn ich mir Subnotebooks mit Core i5-1345U anschaue, wären die 2 P- und 8 E-Kerne auch garnicht so schlecht und würden im Prinzip schon relativ viel Leistung für die 15W TDP bieten. Aber die Iris Xe 80 iGPU ist nicht gerade das Gelbe vom Ei wen man ein bisschen zocken möchte. Vereinzelt gibt es Modelle die den Core i5-1345U mit einer GeForce RTX 4050 Mobile kombinieren, aber da geht dann trotz stromsparende CPU der Stromverbrauch in Richtung Gaming-Notebook.

Holt · 27.01.2025

Martin Preiß schrieb:
Normale Notebooks werden ja eh fast nur portabel zwischen den verschieden Zimmern oder auch am Arbeitsplatz oder im Hotel benutzt, aber da gibt es ja überall Strom, so das die Akkulaufzeit eigentlich egal ist.

So mag der Alltag bei vielen Leuten aussehen, aber eine lange Akkulaufzeit ist trotzdem ein Verkaufsargument.

Martin Preiß schrieb:
Gaming, komplexe Videobearbeitung, komplexe 3D Modellierung, etc. braucht ja alles performante Kerne.

Gaming vielleicht, wobei es da mal eine Untersuchung gab und es haben etwa so viele Spiele mit aktiven e Kernen besser performt wie Games die bei deaktivierten e Kernen schneller waren und meistens war der Unterschied gering. Bei anderen Anwendungen sollte man nicht unterschätzen wie viel die e Kerne zu Multithreadperformance beitragen und bei Raptor Lake braucht ein Cluster aus 4 e Kernen so viel Platz wie ein P Kern und hat etwa so viel Leistungsaufnahme, bei grob der doppelten Leistung. Würde kein Programm welches alle Kerne auslastet von e Kernen profitieren, wären die Ergebnisse bei z.B. Cinebench längst nicht so gut wie sie sind. Variante nur mit 12 P Kernen hätte ein Dies welches so groß ist wie ein 14900K, aber eben nicht die gleiche Multithreadperformance, dazu müsste sie 16 P Kerne haben und dazu ein entsprechend höheres Power Limit, wegen der größeren Leistungsaufnahme bei 16 statt 12 Kernen.

Bei Arrow Lake dürfte es noch extremer aussehen, da hier die IPC Steigerung gegenüber Raptor Lake für die e Kerne deutlich massiver als für die der P Kerne ausgefallen ist.

Martin Preiß schrieb:
Normale Alltagsanwendungen incl. Internet und Office bis hin zu einfacher Videobearbeitung hingegen braucht jetzt nicht soviele Threads, das da jetzt die genaue Kernzahl besonders wichtig wäre.

Dafür haben die CPUs ja auch einige P Kerne, die dann bei Anwendungen die nur wenige Kerne voll auslasten, eben trotzdem eine gute Performance zu liefern.

Martin Preiß · 27.01.2025

Holt schrieb:
Bei anderen Anwendungen sollte man nicht unterschätzen wie viel die e Kerne zu Multithreadperformance beitragen und bei Raptor Lake braucht ein Cluster aus 4 e Kernen so viel Platz wie ein P Kern und hat etwa so viel Leistungsaufnahme, bei grob der doppelten Leistung. Würde kein Programm welches alle Kerne auslastet von e Kernen profitieren, wären die Ergebnisse bei z.B. Cinebench längst nicht so gut wie sie sind.

Dann kommt die Rechnung schon hin, das bei einem Core i5-13600KF oder 14600KF statt 6 P- und 8 E-Kernen auch alternativ auch 8 P-Kerne ohne E-Kerne möglich wären.

Denke insgesamt wären die Designs gleichwertig.

Mag sein das Cinebench schlechter wäre.

Aber ich denke bei tatsächlicher Videobearbeitung mit CapCut, Adobe Premiere Rush bis hin zu Adobe Premiere Pro würde man keinen Unteschied bemerken. Denke der dürfte dann höchstens bei Lightworks anfangen, und auch nur dann wenn man auf Profiniveau mit sehr grossen Datenmengen (lange Laufzeit und hohe Auflösung) arbeitet und Sachen macht die Hobbyanwender eh überfordern.

Beim Gaming hingegen dürften 8 P-Kerne einen ganz kleinen Gewinn bei der Framerate bringen, aber vermutlich ist auch das nicht der Rede wert.

Das Konzept mit den P-Und E-Kernen bei Intel ist insgesamt nicht schlecht, und war für Intel eben einfach umsetzbar weil sie mit den Atom-CPUs schon eine gute Grundlage für die E-Kerne hatten. Aber hätten sie diese Grundlage nicht gehabt, denke ich wären sie auch so wie AMD nur mit P-Kernen ans gleiche Ziel gekommen.

Holt · 27.01.2025

Martin Preiß schrieb:
Dann kommt die Rechnung schon hin, das bei einem Core i5-13600KF oder 14600KF statt 6 P- und 8 E-Kernen auch alternativ auch 8 P-Kerne ohne E-Kerne möglich wären.

Denke insgesamt wären die Designs gleichwertig.

Mag sein das Cinebench schlechter wäre.

Von der Diegröße wären es mit 8P Kernen so groß wie mit 6+8 Kernen, aber für die Multithreadperformance bräuchte man 10 P Kerne, eine Version mit nur 8 P Kerne wäre in Multithreadanwendungen die alle Kerne auslasten, so wie es Cinebench eben kann, schon unterlegen. Die von Dir genannten Programme nutze ich nicht und kann daher nicht sagen, wie viele Kerne sie auslasten könenn und ob sie ggf. (vielleicht nur in älteren Versionen) Problemen mit den e Kernen haben oder vielleicht, je nach Einstellung durch den RAM Durchsatz beschränkt sind. Cinebench ist eben ein guter Benchmark für Anwendungen die alle Kerne auslasten können und nicht durch RAM Durchsatz eingeschränkt werden.

Martin Preiß schrieb:
Aber hätten sie diese Grundlage nicht gehabt, denke ich wären sie auch so wie AMD nur mit P-Kernen ans gleiche Ziel gekommen.

Dann hätte ein 13900K aber eben auch 16 P Kerne haben müssen, um in der Multithreadperformance mithalten oder gar vorne sein zu können, was einen deutlich größeren Chip und noch mehr Leistungsaufnahme bedeutet hätte, keine Ahnung ob der Chip noch auf den Sockel gepasst hätte. Die 8+16 Dies sind ja nur so groß wie ein Die mit 12 P Kernen wäre, mit 16 P Kernen wäre der CPU Teil also noch ein Drittel länger und damit wäre auch der Ringbus noch länger, was dann wieder Nachteile für die Latenz zwischen Latenz hätte.

Luebke · 28.01.2025

Holt schrieb:
Man stelle sich nur vor was für eine Verwaltungsaufwand es wäre, wenn man alle Verarbeitungseinheiten aus den Kernen selbst entfernen und in einen Pool werfen würde, auf den dann alle Kerne zugreifen könnten und was für Signalwege damit einhergehen würden.

der verwaltungsaufwand wäre vermutlich sogar geringer als bei den RU, da einfach immer die nächsten freien einheiten adressiert werden könnten, anstatt sich mit konkreten kernen abszustimmen. die latenz dürfte allerdings wirklich katastrophal sein. man sieht schon bei den zwei ccx-modellen von AMD was so eine vergleichsweise unbedeutende trennung auf zwei kerngruppen für eine auswirkung hat. das mal der anzahl aller AUs und bei einem abstand von im schlimmsten fall die gesamte DIE-fläche falls die erste und die letzte AU des chips für die selbe operation genutzt werden...
die auslastung der AUs wäre zwar hervorragend, aber bei den latenzen kommt da denkbar wenig leistung bei rum. das wäre wohl ne art netburst 2.0

Holt · 28.01.2025

Luebke schrieb:
der verwaltungsaufwand wäre vermutlich sogar geringer als bei den RU, da einfach immer die nächsten freien einheiten adressiert werden könnten,

Wie soll dies "einfach" gehen? Es ist immer einfach gesagt, man macht einfach dies oder das, aber der Teufel steckt im Detail und dies wäre hier schon mal, dass jeder Kern, denn es muss ja immer noch eine Einheit geben die die Befehlsfolge des Programms decodiert, die Daten lädt oder wenigstens das Laden der nötigen Daten anstößt und Ergebnisse abspeichert, mit jeder ALU verbunden sein um abfragen zu können ob die frei ist oder dies von ihr gemeldet zu bekommen. Dies hätte dann enorm viele Signalwege mit entsprechendem Platz- und Energiebedarf zur Folge, oer man macht einen Ringbus und die Daten wandern da so lange weiter, bis sie an einer freien ALU angekommen sind, was die Latenz noch mehr erhöht.

Keine Ahnung wieso dies einfacher sein soll, als wenn es bei den RU nur um zwei Kerne geht, die sich ggf. gegenseitig ungenutzte Verarbeitungseinheiten ausleihen können. Wenn man bedenkt wie lange Intel schon an der Idee von Jim Keller entwickelt, scheint dies ja auch alles andere als einfach zu sein. Die Idee selbst klingt ja auch erstmal einfach, aber der Teufel steckt halt im Detail und auch da dürfte es das Problem sein, dass man eben erstmal feststellen muss, welcher Kern nun gerade welche Verarbeitungseinheit nutzen soll, zu 100% zuverlässig, nicht das am Ende beide versuchen zeitgleich die gleiche Verarbeitungseinheit zu nutzen oder gar das Ergebnis an den falschen Kern geht. Und möglichst mit so wenig Verzögerung, dass es am Ende auch wirklich eine Steigerung der Performance bringt und die Kerne nicht am Ende sogar ausbremst.

Martin Preiß · 28.01.2025

Holt schrieb:
Von der Diegröße wären es mit 8P Kernen so groß wie mit 6+8 Kernen, aber für die Multithreadperformance bräuchte man 10 P Kerne, eine Version mit nur 8 P Kerne wäre in Multithreadanwendungen die alle Kerne auslasten, so wie es Cinebench eben kann, schon unterlegen. Die von Dir genannten Programme nutze ich nicht und kann daher nicht sagen, wie viele Kerne sie auslasten könenn und ob sie ggf. (vielleicht nur in älteren Versionen) Problemen mit den e Kernen haben oder vielleicht, je nach Einstellung durch den RAM Durchsatz beschränkt sind. Cinebench ist eben ein guter Benchmark für Anwendungen die alle Kerne auslasten können und nicht durch RAM Durchsatz eingeschränkt werden.

Dann hätte ein 13900K aber eben auch 16 P Kerne haben müssen, um in der Multithreadperformance mithalten oder gar vorne sein zu können, was einen deutlich größeren Chip und noch mehr Leistungsaufnahme bedeutet hätte, keine Ahnung ob der Chip noch auf den Sockel gepasst hätte. Die 8+16 Dies sind ja nur so groß wie ein Die mit 12 P Kernen wäre, mit 16 P Kernen wäre der CPU Teil also noch ein Drittel länger und damit wäre auch der Ringbus noch länger, was dann wieder Nachteile für die Latenz zwischen Latenz hätte.

Ich denke die meisten Anwendungen sind zwar nicht Single-Thread so das es schon dringd mehr als ein oder zwei Kerne braucht, aber auch nicht wirklich Poly-Thread und können nicht unendlich viele Kerne gut auslasten.

Core i3 mit 4-6 P-Kernen, Core i5 mit 8 P-Kernen, Core i7 mit 10 P-Kernen und Core i9 mit 12 P-Kernen könnte ich mir schon gut vorstellen.

Madschac · 28.01.2025

Hach...große Liebe für Spezialinteressen ❤️

Holt · 29.01.2025

Martin Preiß schrieb:
Ich denke die meisten Anwendungen sind zwar nicht Single-Thread so das es schon dringd mehr als ein oder zwei Kerne braucht, aber auch nicht wirklich Poly-Thread und können nicht unendlich viele Kerne gut auslasten.

Für Spiele gilt dies auf jeden Fall, bei Anwendungen ist es hingegen oft so, dass sie entweder nur einen Kern oder wirklich alle Kerne auslasten können, zumindest bis zu einem bestimmten Punkt. Irgendwann skalieren sie dann meist auch schlecht, weil entweder die RAM Bandbreite zum Flaschenhals wird oder der zentrale Thread der die Arbeit an die anderen verteilt und deren Ergebnisse zusammenführt, dann am CPU Limit des Kerns hängt auf dem er läuft. Es kann natürlich auch noch andere Flaschenhälse geben, z.B. die Bandbreite der internen Kommunikation zwischen den Kernen oder was auch immer. Aber es hängt eben immer sehr von der jeweiligen Anwendung ab und daher werden für Server auch meist Teststellungen gemacht wo die System die in Frage kommen dann mit der Anwendung gebencht werden, die wirklich darauf laufen soll. Meine Anwendungen mit denen ich arbeite, können jedenfalls in den allermeisten Situationen alle Kerne voll auslasten. Es gab mal Gerüchte Arrow Lake Refresh würde als 8+32 Kerner kommen, wenn dies stimmt, wäre das meine CPU! Aber ich bin eben auch kein Gamer.

angelsdecay · 29.01.2025

Das geht schlicht nicht da alle cpu im kern feste datenpfade haben wären die alle verbunden wär so ein design machbar
Das ist dann die frage nehme ich die Latenz in kauf den vom L0 zu L1 zu L2 die aktuell je kern zugewiesen sind auf die Vorhandenen fpu
Aktuell arbeiten die fpu zusammen mit den ccd in L1 cache würde man die fpu zusammenschließen insgesamt sind es 8 müsste die Berechnung auf die L3 cache wandern das ist beim amd Ansatz nicht möglich da der L3 als victim cache dient
Womit ein L4 notwendig wäre um das zu machen der dann die Aufgabe vom L3 derzeit übernimmt Das würde die ccd drastisch vergrößern für einen kleinen teil der perf.
Den aktuell limitiert der sram jede cpu
ne cpu ist aktuell eher mit warten auf daten beschäftigt als mit Abarbeitung was nicht zuletzt an der sram Takt liegt weniger als ein cycle sind als Latenz nicht möglich womit der coreclock entscheidend ist
Cpu können technisch bis zu 9ghz Takten bringt aber nix wenn die sram Zelle auf maximum 0,6ns braucht da sind wir noch nicht aktuell braucht eine eine um die 0,7ns
darum gibt es ja den inf fab Takt der den echten cpu clock entspricht bei intel ist das der uncore Takt.
Bliebe die menge an Daten pro cycle die man verarbeiten kann und hier sind Steigerungen möglich darum ist hier der Takt der cpu auch wichtig. womit die Größe des L0 und L1 cache wichtig wird.
Und aufgrund dieser festen Thematik wie die daten verarbeitet werden, kann man ein fluent cpu design wo alle teile der cpu zusammenschließen kann nicht funktionieren dafür müssen alle auf einen llc setzen und das hat ne derbe Latenz
Zwar hatte intel ein design das die fpu zusammenschließen konnte das basierte auf einen Ansatz mit sehr großen L1 cache und einen geringen Takt. dazu braucht es aber zwingend einen neuen os kernel der darauf ausgelegt ist damit die cpu auch weiß welcher Prozess einen Zusammenarbeit der fpu erfordert und welcher nicht das wäre schlimmer als die Kernzuweisung mit alder lake
Solch quasi im kern angesetzte Reformen der x86 design geht nicht ohne software Anpassung.

Luebke · 29.01.2025

Holt schrieb:
Keine Ahnung wieso dies einfacher sein soll, als wenn es bei den RU nur um zwei Kerne geht,

auch wenn wir uns in der sache einig sind und nur um hypothetische deails diskutieren: die von dir genannte organisationseinheit muss im falle einer komplett offenen chipweiten AU-verteilung einmalig vorhanden sein, im falle des RU aber für jede mögliche kernpaarung separat organisiert werden. da müssen die berechnungen erst nach kernen aufgeteilt werden und anschließend nochmal nach daraus resultierenden AU-kombinationsmöglichkeiten. das wäre mehr verwaltungsaufwand, dafür allerdings deutlich geringere (aber immernoch sehr hohe) latenzen. und den geringsten verwaltungsaufwand und die mit abstand geringsten latenzen haben wir beim jetzigen system, wo jeder kern seine arbeit macht und im zweifelsfall halt mal AU ungenutzt bleiben.

im grunde gibt es aber schon soetwas wie @Martin Preiß meint: GPU-computing läuft doch so ähnlich ab. einfach hunderte simpler unified shader, die sich alle parallel ansteuern lassen.
die praxis zeigt: kann massive vorteile haben, in vielen fällen aber auch massive nachteile, weshalb wir nach wie vor die klassische cpu brauchen.

Holt · 29.01.2025

Luebke schrieb:
im grunde gibt es aber schon soetwas wie @Martin Preiß meint: GPU-computing läuft doch so ähnlich ab. einfach hunderte simpler unified shader, die sich alle parallel ansteuern lassen.

Ja, aber die arbeiten dann auch alle recht dumm an den gleichen Aufgaben für alle Shader und jeder an einem fest definierten, jeweils versetzten Teil der Daten. Für GPUs ist dies ja auch ideal und ebenso für parallele Anwendungen, wo eben der gleiche Algorithmus auf eine große Datenmenge angewendet wird, die sich gut aufteilen lässt und wo das Ergebnis einer Berechnung eben nicht von dem einer vorherigen abhängt. Ein schönes Beispiel dafür ist die MD5 Berechnung, wo für jede Berechnung vom Ergebnis der vorherigen abhängt. Man kann also die MD5 einer Datei nicht parallelisiert berechnen, aber für Brute Force Passwortangriffe kann man dies sehr gut parallelisieren indem man jeden Kern eben die MD5 an einem anderen Eintrag des Wörterbuches arbeiten lässt.

Die optimale Architektur hängt eben immer von der Anwendung ab und CPUs müssen da so universell wie möglich sein, damit sie eben eine breiten Auswahl von Anwendungen möglichst gut abdecken können. Man sieht dies ja an der großen Anzahl an Benchmarks die bei einem guten CPU Review verwendet werden und ist keine CPU bei allen Benchmarks immer ganz vorne, wenn man sie fair mit ihren direkten Konkurrenten vergleicht. Eine CPU nach dem Vorbild von GPUs wäre gegenüber GPUs bei Aufgaben die GPU erledigen können, gegenüber reinen GPUs dann immer noch im Nachteil und für Aufgaben die GPUs nicht abarbeiten können, dann eine langsame CPU.

Der Kompromiss den die CPU Hersteller gehen ist, wie schon in seinem anderen Thread beschrieben, die zusätzlichen Transistoren die durch neueren Fertigungsprozesse vom Platz und der Leistungsaufnahme her möglich sind, eben teils in mehr Kerne und teils in eine bessere Architektur mit mehr IPC zu investieren und für mehr IPC braucht man noch viel mehr Transistoren. Das Verhältnis ist eben bei weitem nicht linear, man bekommt für 50% mehr Transistoren eben bei weitem keine 50% mehr IPC,man kann wohl inzwischen schon eher mit 10% zufrieden sein. Aber genaue Zahlen sind schwer zu bekommen, da weder AMD noch Intel genaue Zahlen liefern wie viele Transistoren ihre Kerne haben. Selbst die Angaben wie viele Transistoren ein Chip hat, sind oft entweder nicht zu bekommen, oder rein theoretisch indem man die Anzahl für bestimmte Schaltungen einfach auf die Gesamtfläche hochrechnet, aber die Transistoren in einer CPU sind halt nicht alle gleich groß.

Das Ziel ist halt, durch mehr IPC die Singlethreadperformance bzw. die Performance per Code bei Last auf wenigen Kernen zu steigern, da ja die Taktraten in den letzten mehr als 10 Jahren nur geringfügig gestiegen sind und damit auch die Singlethreadperformance die ja gerade für Gaming eine wichtige Rolle spielt. Außerdem will man eben durch mehr Kerne auch die Multithreadperformance steigern, da ja eben bei weitem nicht alle Anwendungen GPUs nutzen, wenn viel Multithreadperformance gefragt ist. Man mag die Balance kritisieren die die Hersteller da jeweils finden, der eine würde lieber weniger Kerne haben, die dafür mehr IPC hätten und der anderen lieber mehr Kerne, auch wenn jeder einzige von denen langsamer ist. Dies sieht man ja auch an den Xeons die es nun entweder nur mit P oder nur mit e Kernen gibt und bei AMD ist es bei den EPYC ja auch nicht so viel anderes, da gibt es auch die Varianten nur mit den c Kernen, aber dafür mehr davon.

Aber bei Servern ist es eben auch meist so, dass sie nur für eine bestimmte Aufgabe optimiert werden und die Kunden dann auch die verschiedenen Systeme mit genau dieser Anwendung vergleichen. Notebooks und Desktops müssen hingegen meist eines Vielzahl von Anwendungen abdecken und daher macht die Hybridarchitektur von Intel da auch Sinn, AMD hat keine kleinen Kerne mehr seit sie mit Zen neben den Baumaschinen auch die Katzen CPUs abgelöst haben, dafür machen sie die kompakten Kerne, die nun auch in hybriden Mobil CPUs zum Einsatz kommen. Klar wird es immer Leute geben die sind ein anderes Verhältnis von P und e Kernen wünschen würde, Den meisten Gamern wäre eine Version mit 12 P Kernen statt eines gleichgroßen 8+16 Kernes lieber, ich hätte lieber eine 4+32 CPU, aber es wäre halt auch nicht wirtschaftlich so viele Varianten anzubieten und ein einziges Die mit 12+32 Kernen aus dem man beides ableiten könnte, wäre halt viel zu groß.

Martin Preiß · 29.01.2025

Holt schrieb:
Es gab mal Gerüchte Arrow Lake Refresh würde als 8+32 Kerner kommen, wenn dies stimmt, wäre das meine CPU!

Für den Sockel 1851 kann ich mir das aber nicht vorstellen. Sondern wenn dann eher für das Workstation-Segment mit einem eigenen, grösseren Sockel, wo dann aber die Mainboards entspechend teuer sein werden.

Es gab ja schon mal neben dem Sockel 1151 (für Core i3 mit 4 Kernen bis zu den normalen Core i9 mit 8 Kernen und 16 Threads) den Sockel 2066 (für High-End Core i9 Varianten mit 10-18 Kernen und 20-36 Threads).

Könnte mir Vorstellen das für den Sockel 1851 entweder 8 P- und 16 E-Cores oder 10P- und 8 E-Cores das Maximum bleiben, aber für einen Sockel 21xx dann bis zu 8 P- und 32 E-cores oder auch 12P- und 16 E-Cores angeboten werden. Aber das wird sicher nicht günstig wegen der Mainboards.

Holt · 29.01.2025

Martin Preiß schrieb:
Für den Sockel 1851 kann ich mir das aber nicht vorstellen. Sondern wenn dann eher für das Workstation-Segment mit einem eigenen, grösseren Sockel, wo dann aber die Mainboards entspechend teuer sein werden.

Das glaube ich eher nicht, die CPUs für die großen Sockel basieren immer auf den großen Xeons. Die einzige Ausnahme hast Du ja schon selbst genannt und das war kein Erfolg. Es war halt ein Gerücht und danach gab es ein Gerücht, dass der 8+32 Kerner doch nicht kommen wird. Derzeit ist sowieso unklar was als Nachfolger für Arrow Lake im Desktop kommen wird. Durch den Wechsel des CEO kann man nun nicht einmal mehr zu 100% sicher sein, dass es beim bisherigen Rhythmus bleibt, einmal im Jahr eine neue Generation für den Desktop zu bringen und wenn es nur ein Refresh ist.

Martin Preiß schrieb:
Es gab ja schon mal neben dem Sockel 1151 (für Core i3 mit 4 Kernen bis zu den normalen Core i9 mit 8 Kernen und 16 Threads) den Sockel 2066 (für High-End Core i9 Varianten mit 10-18 Kernen und 20-36 Threads).

Das war damals die totale Fehlentscheidung und die waren wohl für Gamer gedacht, da sie mehr Takt hatten als die großen Dies, aber man konnte damit die große Plattform ja nur halbwegs nutzen, da sie nicht mehr PCIe Lanes hatte als die Varianten für den S.1151 und auch nur 2 RAM Channels, während die echten S.2066 CPUs halt von beidem viel mehr boten.

Martin Preiß schrieb:
Könnte mir Vorstellen das für den Sockel 1851 entweder 8 P- und 16 E-Cores oder 10P- und 8 E-Cores das Maximum bleiben, aber für einen Sockel 21xx dann bis zu 8 P- und 32 E-cores oder auch 12P- und 16 E-Cores angeboten werden.

Das glaube ich nicht, ein S.21xx wäre für die großen WS CPUs viel zu klein und noch einen weiteren Sockel einzuführen, dürfte sich kaum lohnen. Auch wird Intel den großen Sockel nicht zu sehr kanibalisieren wollen Es ist eher die Frage ob die Entwicklung nicht auf mehr KI Power statt mehr CPU Performance geht, aber nachdem die KI Blase an der Börse schon am Platzen ist und die Hype vielleicht schon vorbei ist, bevor die nächste Generation kommt, ist auch dies nicht sicher.

Aber egal was da wann als Nachfolger von Arrow Lake-S kommt, ich glaube nicht das es nächstes Jahr einen neuen Sockel geben wird, da dies für DDR6 noch zu früh wäre, damit würde ich erst gegen Ende 2026 rechnen. Wenn die 1851 Nachfolgeplattform dann die üblichen 2 Jahre aktuell bleibt, wäre es recht spät für DDR6 auf dessen Nachfolger. Ein Nachfolger für den S.1851 dürfte erst mit DDR6 kommen, die Frage ist nur welche CPUs noch dafür kommen oder ob die aktuellen Arrow Lake Desktop CPUs zwei Jahre durchhalten müssen.

Martin Preiß · 30.01.2025

Holt schrieb:
Das war damals die totale Fehlentscheidung und die waren wohl für Gamer gedacht, da sie mehr Takt hatten als die großen Dies, aber man konnte damit die große Plattform ja nur halbwegs nutzen, da sie nicht mehr PCIe Lanes hatte als die Varianten für den S.1151 und auch nur 2 RAM Channels, während die echten S.2066 CPUs halt von beidem viel mehr boten.

Ich bin jetzt nicht mehr so wirklich mit dem Xeon und Xeon Phi Bereich vertraut, aber ich glaub das ich da in Erinnerung gibt es da doch noch den gösseren Sockel 3647.

Aber ich denke das ist auch etwas ein "Dilemma" denn will man Prosumer wie Grafiker, Youtuber, Hobbyvideoproduzenten und auch Gamer erreichen müssen sowohl die CPUs als auch die Mainboard schon bezahlbar bleiben, da kann man keine wirklichen Unternehmenskundenpreise verlangen. Anderseits wäre es auch verständlicherweise schlecht für Intel wenn auch Unternehmenskunden günstigere Prosumer Hardware verwenden statt für Enterprise Hardware zu bezahlen. Deswegen geht es wahrscheinlich nicht ohne künstliche Beschränkungen.

Holt schrieb:
Das glaube ich nicht, ein S.21xx wäre für die großen WS CPUs viel zu klein und noch einen weiteren Sockel einzuführen, dürfte sich kaum lohnen. Auch wird Intel den großen Sockel nicht zu sehr kanibalisieren wollen Es ist eher die Frage ob die Entwicklung nicht auf mehr KI Power statt mehr CPU Performance geht, aber nachdem die KI Blase an der Börse schon am Platzen ist und die Hype vielleicht schon vorbei ist, bevor die nächste Generation kommt, ist auch dies nicht sicher.

Aber egal was da wann als Nachfolger von Arrow Lake-S kommt, ich glaube nicht das es nächstes Jahr einen neuen Sockel geben wird, da dies für DDR6 noch zu früh wäre, damit würde ich erst gegen Ende 2026 rechnen. Wenn die 1851 Nachfolgeplattform dann die üblichen 2 Jahre aktuell bleibt, wäre es recht spät für DDR6 auf dessen Nachfolger. Ein Nachfolger für den S.1851 dürfte erst mit DDR6 kommen, die Frage ist nur welche CPUs noch dafür kommen oder ob die aktuellen Arrow Lake Desktop CPUs zwei Jahre durchhalten müssen.

KI Boom könnte aber durchaus ein Argument für einen weiteren Sockel sein, denn dann könnte man vielleicht auch mehr PCIe Lanes implementieren. Wenn man zwei dedizierte Grafikkarten oder eine dedizierte Grafikkarte und eine spezielle KI-Karte verbauen möchte, werden ja 24 PCIe Lanes schnell etwas knapp.

Weis nicht ob DDR6 überhaupt einen neuen Sockel braucht.

Beim Sockel 1700 gibt es ja auch Boards mit DDR4, Boards mit DDR5 und ganz vereinzelt sogar ein paar Boards mit zwei DDR4 und zwei DDR5 Slots haben.

Holt · 30.01.2025

Martin Preiß schrieb:
Ich bin jetzt nicht mehr so wirklich mit dem Xeon und Xeon Phi Bereich vertraut, aber ich glaub das ich da in Erinnerung gibt es da doch noch den gösseren Sockel 3647.

Ja, der was für die großen Xeons und die Xeon-Phi, aber darin hätte eine Kaby Lake CPU die nur 16 PCIe Lanes und 2 RAM Channel hat, ja noch weniger Sinn gemacht.

Martin Preiß schrieb:
Aber ich denke das ist auch etwas ein "Dilemma" denn will man Prosumer wie Grafiker, Youtuber, Hobbyvideoproduzenten und auch Gamer erreichen müssen sowohl die CPUs als auch die Mainboard schon bezahlbar bleiben

Eben und daher gibt es eben auch unterschiedliche Sockel und schon seit dem 2066/3647 nun sogar einen "kleinen" und einen großen Sockel für die Xeons. Die richten sich aber nicht mehr an Gamer, da leisten die Mainstreamplattformen mehr. Bei den Mainstreamplattformen (also aktuell LGA1851 und AM5) unterscheidet man eben über die Chipsätze und deren Features, damit man eben vom einfachen Office PC bis zum Highend Gamer oder auch die Entry Workstation damit ein breites Spektrum abdecken kann.

Martin Preiß schrieb:
Deswegen geht es wahrscheinlich nicht ohne künstliche Beschränkungen.

Die Einschränkungen der kleinen Chipsätze sind eben dazu da, dass es kein Wettrennen bei allen Boards um die besten Übertaktbarkeit von CPU und RAM und die meisten Schnittstellen gibt. Wer ein Board mit einen H810 Chipsatz kauft, der will nur eine billige Officekiste damit bauen und braucht weder die viele Schnittstellen noch die fetten Spawas wie bei einem Z890 Mainboard und will dafür auch nicht bezahlen müssen, denn die machen den Löwenanteil der Kosten der Z890 Boards aus. Die Chipsätze selbst kosten bei Intel nur so 25 bis 30$ für den kleinsten H810 und etwa doppelt so viel für den Z890. Die Kosten für den Chipsatz machen als bei weitem nicht die Unterschiede bei den Mainboardpreisen aus.

Martin Preiß schrieb:
Weis nicht ob DDR6 überhaupt einen neuen Sockel braucht.

Beim Sockel 1700 gibt es ja auch Boards mit DDR4, Boards mit DDR5 und ganz vereinzelt sogar ein paar Boards mit zwei DDR4 und zwei DDR5 Slots haben.

Der S.1700 wurde aber von Anfang an für DDR4 und DDR5 ausgelegt, so wie schon vorher der S.1151 damals für DDR3 und DDR4 ausgelegt war, aber welche Plattform hat jemals nachträglich auch eine neue RAM Variante unterstützt? Beim S.1151 gab es Boards mit 2 DDR3 und 2 DDR4 Slots, wobei man da nur entweder oder nutzen konnte, aber mir ist kein S.1700 Mainboard bekannt welches sowohl DDR4 als auch DDR5 Slots hätte.

AMD hat von AM4 auf AM5 gewechselt um von DDR4 auf DDR5 zu gehen und wird auf AM6 wechseln, wenn sie auf DDR6 gehen. Es wird also schon eine neue Plattform nötig werden und die geht halt meist auch mit einem neuen Sockel einher. Selbst wenn man den physikalisch gleichen Sockel nimmt, wie AMD bei den TR gemacht hat, die TR 1000 und 2000 haben den TR4 genutzt, die TR 3000 dann den sTRX4, die beiden 4094 Pins haben und physikalisch identisch sind, sind sie untereinander nicht kompatible und stellen unterschiedliche Plattformen da und haben daher auch unterschiedliche Namen bekommen. Man kann davon ausgehen, dass es mit DDR6 dann auch bei AMD wie Intel neue Plattformen geben wird und vermutlich wird Intel dann wieder bei der ersten dieser neuen Plattformen beides unterstützen.

jdl · 30.01.2025

Martin Preiß schrieb:
KI Boom könnte aber durchaus ein Argument für einen weiteren Sockel sein, denn dann könnte man vielleicht auch mehr PCIe Lanes implementieren. Wenn man zwei dedizierte Grafikkarten oder eine dedizierte Grafikkarte und eine spezielle KI-Karte verbauen möchte, werden ja 24 PCIe Lanes schnell etwas knapp.

Aktuell verkauft Intel oberhalb des LGA 1851 Xeon 6 mit LGA 4710 (88 PCIe Lanes, 8 Speicherkanäle) LGA 7529 (96 PCIe Lanes, 12 Speicherkanäle). Die Xeon W sind schon etwas angestaubt, und brauchen bald Nachfolger.

AMDs Zen5/Zen5c EPYCs haben 128 PCIe Lanes und 12 Speicherkanäle.

Martin Preiß · 30.01.2025

Holt schrieb:
Wer ein Board mit einen H810 Chipsatz kauft, der will nur eine billige Officekiste damit bauen und braucht weder die viele Schnittstellen noch die fetten Spawas wie bei einem Z890 Mainboard und will dafür auch nicht bezahlen müssen, denn die machen den Löwenanteil der Kosten der Z890 Boards aus

Bislang sind ja nur der B860 und der Z890 Chipsatz raus, der H810 und W880 kommen ja erst noch.

Aber finde so wichtig ich die Unterschiede der Chipsätze heute auch nicht mehr, selbst wenn man einen Workstation für Grafiker oder zur Videobearbeitung oder einen Gaming-PC bauen möchte. SLI und Crossfire spielt ja keine Rolle mehr, RAID auch nicht mehr so wirklich weil heute ja eher wichtig weil heute meistens lieber auf ein NAS und Cloud setzen.

Aktuell besonders attraktiv finde ich z.B.

Gigabyte B860M Eagle
Gigabyte B860M Gaming X WIFI6E
MSI B860M Gaming Plus WiFi

Sind relativ güntig, haben µATX Format für halbwegs kleine Gehäuse, und die beiden Gigabytees haben trotzdem zwei lange PCIe x16 Slots und das MSI sogar vier lange PCIe x16 Slots wobei das mit der Nutzbarkeit bei der breite der heutigen Grafikkarten eh fraglich ist.

Für die teuren Z890 Mainboards sehe ich aktuell keine wirklichen Argumente. Er würde natürlich RAID mit m.2 SSDs unterstützen, aber das ist ha doch eher Special Interesst. Der W880 würd es auch tun, aber weis ich nicht ob der wiklich preiswerter wird.

Der H810 Chipsatz ist schon sehr abgespeckt weil der ausser den PCIe Lanes der CPU garkeine zusätzlichen PCIe Lanes bietet. Und nichtmal SATA Raid kann. Aber im Prinzip würde er auch reichen. Nur ist es fraglich ob die Boards dann wirklich soviel billiger werden als die ca. 140-190€ welche die B860 Boards kosten, das es sich lohnen würde.

Warum überhaupt noch feste Anzahl von CPU Kernen statt flexibler ALU Gruppierung?

Enthusiast

Legende

Legende

Legende

Legende

Enthusiast

Enthusiast

unverhältnismäßig absurd

Anhänge

Legende

Legende

Enthusiast

Legende

Enthusiast

Legende

Enthusiast

Legende

Urgestein

Legende

Enthusiast

Urgestein

Legende

Enthusiast

Urgestein

Legende

Enthusiast

Legende

Enthusiast

Legende

Enthusiast

Enthusiast

Ähnliche Themen