HWL News Bot
News
Thread Starter
- Mitglied seit
- 06.03.2017
- Beiträge
- 113.965
... weiterlesen
Follow along with the video below to see how to install our site as a web app on your home screen.
Anmerkung: this_feature_currently_requires_accessing_site_using_safari
hat man nicht dafür die gpu?Bei Intel drückt der Befehlssatz ordentlich auf den Strombedarf. Wird spannend wie das bei AMD aussehen wird und wie weit runter der Takt dann fällt.
Hat AVX eigentlich schon Vorteile im Endkunden (Gaming-) Markt?
Solche Vektorrechnungen werden auch für Physik in Games verwendet und das läuft noch immer meist auf der CPU. PhysX hat sich ja nicht so recht durchgesetzt.hat man nicht dafür die gpu?
512 Bit breite Register brauchen entsprechend große Rechenwerke und die vielen Transistoren brauchen entsprechend viel Energie. Wie weit der Takt gesenkt werden muss, hängt dann davon ab wie viele Kerne die CPU hat, welchen Takt sie sowieso hat und natürlich aus welcher Fertigung sie stammt. Generell wird es wohl eher weniger werden, denn die bessere IPC der neuen Architekturen werden ja über immer mehr Transistoren erkauft und damit fällt der prozentuale Anteil der Transistoren in den AVX-512 Einheiten im Vergleich zu der Gesamtzahl der Transistoren eines Kerns.Bei Intel drückt der Befehlssatz ordentlich auf den Strombedarf.
Die GPU ist für ganz andere Aufgaben als Befehlserweiterungen wie AVX-512. So ist der Overhead gewaltig, wenn man Berechnungen auf der GPU machen will, da ja erstmal die Daten und Befehl zu ihr übertragen werden müssen und dann müssen die Ergebnisse wieder zurück übertragen werden. Dies entfällt bei Befehlserweiterungen der CPU komplett, weshalb beide bzgl. ihrer Nutzung nicht wirklich in Konkurrenz treten und Befehlserweiterungen wie AVX-512 dann auch von AMD eingeführt werden, obwohl sie ja selbst auch GPUs produzieren.hat man nicht dafür die gpu?
Und wie willst Du das ermittelt haben? Selbst wenn die Anwendung oder das Spiel selbst es nicht aktiv nutzt, so kann aber z.B. ein Framework wie dotNet oder Java (z.B. bei BASE64) es nutzen. Wenn dann kein AVX-512 Offset im BIOS eingestellt ist, was per Default meistens der Fall ist, dann ändert sich da oft nicht einmal der Takt, wenn es nur ein Thread ist oder eben nur sehr kurz.Ich habe AVX512 seit 2017 und exakt 0 Anwendungen (abseits von Benchmarks) und 0 Spiele, welche das jemals verwendet haben.
Das liegt wohl daran, dass AVX512 bisher im Endkundenmark eine extreme Nische war.Ich habe AVX512 seit 2017 und exakt 0 Anwendungen (abseits von Benchmarks) und 0 Spiele, welche das jemals verwendet haben. Auf den Endkundenmarkt hat das absolut keine Auswirkung.
Falsch, die Golden Cove Kerne haben AVX-512, aber die e-Kerne nicht und daher wird AVX-512 deaktiviert, wenn die e-Kerne aktiv sind. Man kann es aber wohl aktivieren, wenn man die e-Kerne deaktiviert hat.Im Mainstream hat auch Alder Lake Q4 2021 kein AVX zur Verfügung
Wenn AMD AVX-512 bringt, ist Intel schon einen Schritt weiter
RenderMan ab Version 22.3 (aktuell ist es die 24er) nutzt AVX-512, und VirtualDub mit entsprechenden Plugin ebendso.Ich habe AVX512 seit 2017 und exakt 0 Anwendungen (abseits von Benchmarks) und 0 Spiele, welche das jemals verwendet haben. Auf den Endkundenmarkt hat das absolut keine Auswirkung.
Es kann sein das die TDP dann auf 170W steigt, die Tendenz der letzten Jahre ist ja, dass die TDP immer weiter steigt, aber ich halte es für weit hergeholt, dass dies wegen AVX-512 passiert. Dann würde es ja bedeuten, dass die CPU nur bei intensiver Nutzung von AVX-512 Befehlen so eine Leistungsaufnahme haben würde, bei Volllast ohne AVX-512 dann aber trotzdem weniger. Dies scheint mir doch sehr unwahrscheinlich, wenn die TDP dann 170W beträgt, so werden die sicher auch ohne AVX-512 Last erreicht werden und mit AVX-512 Last wird der Takt dann eben entsprechend gesenkt, wenn die Leistungsaufnahme der CPU innerhalb der 170W bleiben muss.AVX-512 ist eigentlich die höchste Last welche man auf einer CPU generieren kann, daher wird Raphael ja auch TDP bis 170 Watt mit bringen.
Das liegt daran, dass Du einen 11400 hast und ein Boards welches es erlaubt die PL1 hochzusetzen, nur wird die CPU diese ohne AVX-512 eben kaum ausschöpfen, deren Takt also ohne AVX-512 Last nicht das Power Limit begrenzt und daher ist die Package Power mit AVX-512 höher. Stelle die PL1 (und PL2 oder warte bis Tau abgelaufen ist) mal auf 65W und dann wirst Du sehen, dass die Package Power mit und ohne AVX-512 gleich ist, aber der Takt mit AVX-512 geringer ausfällt. Das ist bei den CPUs mit vielen Kernen eher der Normalzustand als bei denen mit weniger Kernen.Woran soll es sonst liegen?
Ja das hab ich doch schon in Post #14 geschrieben.Das liegt daran, dass Du einen 11400 hast und ein Boards welches es erlaubt die PL1 hochzusetzen
Um den beschriebenen Effekt zu sehen.Warum sollte ich die power Limits herunter setzen und die Leistung beschneiden?
Das hängt davon ab was man möchte, man kann natürlich auch die Power Limits hoch und den Zieltakt so weit runterstellen, dass die CPUs auch mit voller AVX-512 Last diesen Zieltakt noch innerhalb der Power Limits schafft, also deswegen nicht runtertakten muss. Dies wegen aber wohl die wenigsten so wollen, denn natürlich verliert man sonst ohne AVX-512 Last ordentlich Leistung und muss dann trotzdem einen CPU Kühler verbauen der PL1 wegkühlen kann.Allerdings eine CPU bei leistungshungrigen Anwendungen gerade mit AVX-512 strikt auf TDP Line zu fahren ist ein Fail.
Nein, denn die Leistung ist mit AVX-512 ungleich höher, wenn die Anwendung gut darauf optimiert ist und diese Mehrleistung überkompensiert den Taktverlust deutlich. Dies ist immer wieder schön an dem Test von 3D Particle Movement mit AVX-512 (gut optimiert) des Cannon Lake i3-U bei Anandtech sehen:Dazu noch mit AVX-512 aktiv, verliere ich rund 50% an Leistung
Korrekt, wobei das fettgedruckte der entscheidende Teil ist. Eine Anwendung die AVX-512 gerade so viel nutzt, das der Takt fällt, aber kein Leistungsvorteil daraus gezogen wird, ist wohl ohne AVX-512 besser dran. Da sind aber die Programmierer gefragt, Intel/AMD stellen ja nur den Befehlssatz bereit.Nein, denn die Leistung ist mit AVX-512 ungleich höher, wenn die Anwendung gut darauf optimiert ist und diese Mehrleistung überkompensiert den Taktverlust deutlich.
Wobei das bei Intel generell für AVX gilt. Also auch vor AVX512 stieg der Strombedarf bei entsprechenden Workloads sichtbar.Bei Intel drückt der Befehlssatz ordentlich auf den Strombedarf. Wird spannend wie das bei AMD aussehen wird und wie weit runter der Takt dann fällt.
Hat AVX eigentlich schon Vorteile im Endkunden (Gaming-) Markt?
Bei Spielen liegt das vor allem daran, dass Grafikschnittstellen wie D3D, OpenGL oder Vulkan traditionell mit 4-fach Vektoren einfacher Genauigkeit arbeiten, z.B. was Positionsdaten (xyzw) betrifft. Einfache Genauigkeit ist 32-bit, also 4 x 32 = 128. D.h. mit 128-bit Registern (SSE) konnte man das ganze schon recht gut beschleunigen. Man kann darüber hinaus natürlich auch noch weiter Performance rausholen. Aber dafür braucht es gut optimierten Code, was wiederum mehr Aufwand für Entwickler bedeutet. Ich denke da wird noch einige Zeit vergehen, bis es sich wirklich lohnt. Theoretisch könnten aber auch Spiele von solchen ISA Erweiterungen profitieren. Die meisten dieser Berechnungen übernimmt zwar eh der Grafikprozessor. Einiges muss aber weiterhin die CPU übernehmen. Ich denke aber, dass der Endkundenmarkt eher abseits von Spielen profitieren kann. Renderer, Transkoder usw machen ja im Grunde genommen nicht viel mehr, als Daten parallel zu verarbeiten. Dort lohnt es sich vermutlich am meisten. Und die müssen auch nicht immer mit einfacher Genauigkeit arbeiten. Von entsprechend breiteren Registern profitiert man dann auch.Ich habe AVX512 seit 2017 und exakt 0 Anwendungen (abseits von Benchmarks) und 0 Spiele, welche das jemals verwendet haben. Auf den Endkundenmarkt hat das absolut keine Auswirkung.
Welche TDP Klassen Raphael mitbringt, ist bisher unklar. Dazu gibt es noch keine offiziellen Informationen. Es gibt lediglich einen Leak zum AM5 Sockel. AM5 wird aber bekanntlich auch für mehrere Generationen genutzt. Also das muss nicht zwangsläufig was für Raphael bedeuten. Die TDP für AM5 steigt jedenfalls für normale luftgekühlte Systeme von derzeit 105W (AM4) auf 120W. Und das hat vermutlich weniger was mit AVX zu tun, sondern eher damit, dass man für den Mainstream Sockel in Zukunft mit mehr als 16 Kernen plant. Zudem sollen auch die Top SKUs in Zukunft eine iGPU bekommen. 170W ist quasi ein neues Enthusiasten Segment, was es in der Form für AM4 nicht gab, und vor allem auch auf wassergekühlte Systeme abzielt. Vorstellbar wären da natürlich ab Werk entsprechend hoch getaktete Sondermodelle. So wie man das schon mal mit der FX-9000 Reihe gemacht hat.AVX-512 ist eigentlich die höchste Last welche man auf einer CPU generieren kann, daher wird Raphael ja auch TDP bis 170 Watt mit bringen.
Das gehört alles zusammen.Wenn ich jetzt zb. die 11400, die einen Multi bis x44 (4,4GHz) besitzt, via PL strikt auf TDP 65 Watt limitiere (TAU nutzt mir bei AVX-512 Encoding zeitlich nix), kastriere ich die CPU auf max. 3,1GHz Taktung.
Dazu noch mit AVX-512 aktiv, verliere ich rund 50% an Leistung, da kann ich das auch irgendwo ganz bleiben lassen.
Also, man kann AVX-512 dazu schalten, muss es aber nicht. Es ist aber nicht verkehrt wenn die CPU das anbietet und man es nutzen möchte, denn wie man oben an meinen Testsetting sieht, liegt der Boost sogar über +9%, da die Presets niedriger eingestellt sind als hwcooling das getestet hat.Wenn Sie Handbrake einmal mit hinzugefügter und einmal ohne diese Option ausführen, werden Sie sehen, wie sehr Rocket Lake von AVX-512 in HEVC-Kodierung mit x265 profitieren kann. Wie Sie sehen können, hat der AVX-512 bei den Rocket Lake-Modellen, an denen wir dies getestet haben, die Leistung in unserem Encoding-Test um + 7,5% gesteigert. Etwas besser schneidet der Core i5-11400F ab, damit liegt der Boost bei +9 %. Laut Dokumentation könnte der Nutzen bei den langsamsten Presets vielleicht etwas besser sein. Letztendlich haben diese 512-Bit-Vektoroperationen einen relativ begrenzten Einfluss auf die x265-Codierung, es gibt keine lineare Leistungsskalierung im Vergleich zu 256-Bit-Vektoren (AVX2).
Als der x265 zunächst die Assembly-Optimierungen unter Verwendung von AVX-512 erhielt, stellte sich heraus, dass diese die Leistung der Xeon-Prozessoren nicht um den gleichen oder einen besseren Faktor erhöhten, da sie die Taktrate verringerten. Mit anderen Worten, das kombinierte Ergebnis war eine Verlangsamung statt einer Beschleunigung. Und deshalb wurde beschlossen, diesen Code standardmäßig deaktiviert zu lassen – daher wird x265 ihn nicht verwenden, bis Sie ihn erzwingen (Sie können hier darüber lesen). Und diese Einstellung scheint seitdem gleich geblieben zu sein. Die Entwickler haben empfohlen, den AVX-512 einzuschalten, wenn Sie beispielsweise 4K mit sehr langsamen Einstellungen codieren. Wenn Ihr Prozessor jedoch auf eine feste Rate übertaktet wird oder aus anderen Gründen der AVX-512 seine Taktrate nicht reduziert, sollten Sie in der Regel einen Leistungsschub bemerken. Dies sollte hoffentlich auch bei Rocket-Lake-Prozessoren der Fall sein, die auf Z590-Mainboards ihren Takt hoch halten sollen, auch wenn AVX-512 aktiviert ist.