Ein paar Gedanken zur Leistung von Zen 2 / Ryzen 3000

Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Seh ich aus so, einfach so mal 30% draufklatschen ist nicht realistisch.

Auch wenn es nicht die exorbitante Leistungssteigerung werden sollte, denke ich, dass AMD sich bewusst ist, dass sie in der Position sind um zum ersten mal seit Jahren mit Intel gleichzuziehen oder gar zu übertrumpfen. Wenn sie die technische Möglichkeit (=die Chips gut genug sind) dazu haben, werden sie die auch nutzen und nichts künstlich verknappen (vielleicht wird alles über 9900k + X% hinaus limitiert, aber dass sie Intel schlagen nehme ich persönlich stark an.)
 
Ich freue mich über jeden zusätzlichen Kern, die kann ich zum Code, für die VMs usw. gut brauchen.
Irgendwie noch mehr hoffe ich aber auf mehr Takt, was gegenüber meinem 1700er gut machbar sein sollte. ;)
Den Berichten von über 5 GHz glaube ich aber irgendwie nicht so recht.

Ich fürchte bei so viel Vorschusslorbeeren dass ryzen 3000 ein Halflife 3 werden könnte.
Da wäre es auch egal, wenn es eine Story wie Baldurs Gate mit der Grafik von Crysis in raytracing flüssig auf Berichtigung intel-igp bringen würde und der Hype wäre immer noch nicht erfüllt.
 
vielleicht wird alles über 9900k + X% hinaus limitiert, aber dass sie Intel schlagen nehme ich persönlich stark an.
Die Frage ist in welcher Hinsicht welcher der RYZEN 3000 einen 9900K schlagen kann. Das man ihn bei der Effizienz an einem bestimmten Betriebspunkt schlagen wird, hat AMD ja schon auf der CES demonstriert, aber kann er ihn auch bei der Höchstleistung schlagen? Wie sieht es bei Spielen aus? Wird man es schaffen bei praktisch jedem Benchmark und jedem Game vorne zu sein oder nur bei ausgewählten?
 
Wird man es schaffen bei praktisch jedem Benchmark und jedem Game vorne zu sein oder nur bei ausgewählten?

Nein, es wird diverse geben wo Intel vorne ist. Diese stecken nämlich massiv Ressourcen in ihr Softwareteam, welches dann Compiler kostenlos zur Verfügung stellt, deren Code auf Intel optimiert ist. Gerade unter Windows wird kaum einer den Programmcode haben und ihn mit anderen Flags compilieren. Also wird gerade bei single Thread Last Intel bei einigen Tests die Nase vorn haben.

Für mich als Konsument egal. Ich werde in wenigen Monaten einen Octacore mit nur einem CCX bei AMD kaufen können. Und der günstigste Ryzen 3000 Achtkerner wird auf jeden Fall weniger kosten, als ein 9900K.
 
Der Intel Compiler ist nicht kostenlos, außer vielleicht für Studenten, aber normalerweise muss man für den bezahlen und außerdem hat auch AMD mit der AOCC Compiler suite sein Gegenstück und auch Optimierung bei anderen Compilern beigesteuert. Die Geschichte der Intel Compiler wäre schuld, hat man während der Bulldozer Architekturen als Begründung für das schlechte Abschneiden bei Cinebench bemüht und dies hat damals schon nicht gestimmt, denn bei Cinebench schneidet Zen überdurchschnittlich gut ab. Die Ursache dafür war und ist einfach, dass Cinebench extrem FPU lastig ist und die Bulldozerarchitektur eine mies FPU Performance hatte, während diese bei Zen schon sehr gut ist und bei Zen2 nochmal deutlich verbessert worden sein soll. Seit Zen redet nun keiner mehr von der angeblichen Optimierung auf Intel in Cinebench und wenn nun die FPU Performance so viel besser und dafür vielleicht Integerperformance nicht so stark gestiegen ist, wird nun das Märchen für für Benchmarks bemüht, bei denen die Intergerperformance eine Rolle spielt, obwohl bei denen damals die Bulldozer geglänzt haben.
 
Der Intel Compiler ist nicht kostenlos, außer vielleicht für Studenten, aber normalerweise muss man für den bezahlen und außerdem hat auch AMD mit der AOCC Compiler suite sein Gegenstück und auch Optimierung bei anderen Compilern beigesteuert. Die Geschichte der Intel Compiler wäre schuld, hat man während der Bulldozer Architekturen als Begründung für das schlechte Abschneiden bei Cinebench bemüht und dies hat damals schon nicht gestimmt, denn bei Cinebench schneidet Zen überdurchschnittlich gut ab. Die Ursache dafür war und ist einfach, dass Cinebench extrem FPU lastig ist und die Bulldozerarchitektur eine mies FPU Performance hatte, während diese bei Zen schon sehr gut ist und bei Zen2 nochmal deutlich verbessert worden sein soll. Seit Zen redet nun keiner mehr von der angeblichen Optimierung auf Intel in Cinebench und wenn nun die FPU Performance so viel besser und dafür vielleicht Integerperformance nicht so stark gestiegen ist, wird nun das Märchen für für Benchmarks bemüht, bei denen die Intergerperformance eine Rolle spielt, obwohl bei denen damals die Bulldozer geglänzt haben.
Naja, im Grunde ist jetzt eh zu spät für Bulldozer.
Aber ja der Compiler musste auch an ZEN Angepasst werden, wobei inzwischen vieles nicht "anders" ist wie bei Intel. (SMT)
Am besten sind immer noch Programme, die bei der Installation auf dem Ziel Rechner sich kompilieren, z.B. wie GPU Treiber oder LuxMark. :d
 
Die Geschichte der Intel Compiler wäre schuld, hat man während der Bulldozer Architekturen als Begründung für das schlechte Abschneiden bei Cinebench bemüht und dies hat damals schon nicht gestimmt, denn bei Cinebench schneidet Zen überdurchschnittlich gut ab.

Die Compilergeschichte ist/war meine ich älter als Bulldozer und ggf. auch Cinebench - es ging da eigentlich um Optimierungen im Code, die greifen, wenn Intel drauf steht - und explizit nicht greifen wenn AMD drauf steht. Es gab dazu auch Untersuchungen mit CPUs von Via, bekomme es nicht mehr 100% zusammen. Entweder hat man den Via Prozessor mit nem AMD Vendor String verbogen oder den AMD mit nem Via. Musst du mal suchen. Hat auf Jedenfall dazu geführt, dass der Intel Compiler bei AMD einfach nicht das Beste Ergebnis rausgeholt hat.

Das was du mit Cinebench meinst ist eher ein Community Ding. Denn idR findet die Community schnell Erklärungen für sowas - egal wie sinnig oder unsinnig das am Ende wirklich ist. Alles was auf AMD schlechter läuft wird da schnell zum Intel Compiler oder Intel optimiert Thema - und alles was auf AMD schneller läuft ist der neue Maßstab. Sieht man schön am Cinebench. Ich wart ja noch auf die Verschwörungstheoretiker, die dann Intel vorwerfen, sie hätten sich für CB-R20 stark gemacht, damit ihr Prozessor wieder oben steht :fresse: Weil mit R15 hatten sie ja nach Zen bisschen das Nachsehen...
 
Es gab dazu auch Untersuchungen mit CPUs von Via, bekomme es nicht mehr 100% zusammen.
Die kenne ich auch Intel Stellungnahme dazu, dass sie eben die Optimierungen auf ihre eignen CPUs hin auslegen, da sie diese genau kennen und nicht wissen, was bei den CPUs anderer Hersteller jeweils optimal ist. Dies sollte man von dem Compiler einer CPUs Herstellers aber ebensowenig verlange, wie von HDD Tool einer HDD Herstellers zu erwarten, dass er die HDDs der anderen Hersteller ebenfalls optimal unterstützt. Sonst könnte man überspitzt auch verlangen, dass der NVidia Graka Treiber auch für die Grakas von AMD taugt und umgekehrt.
Ich wart ja noch auf die Verschwörungstheoretiker, die dann Intel vorwerfen, sie hätten sich für CB-R20 stark gemacht, damit ihr Prozessor wieder oben steht :fresse: Weil mit R15 hatten sie ja nach Zen bisschen das Nachsehen...
R20 unterstützt nun auch AVX, aber wenn man sich die ersten Ergebnisse anzieht, so scheint die AVX Nutzung nicht so intensiv zu sein, denn die Ergebnisse der CPUs mit AVX512 sind eher bescheiden, wenn man sie mit denen des Notebooks mit einer Cannon Lake CPU mit nur 15W TDP mit AVX-512 bei Anandtech ansieht:
Die Kaby Lake haben auch AVX2, aber kein AVX-512 und auch wenn die Taktraten mit AVX-512 geringer sind, so werden pro Befehl so viele Daten verarbeitet, dass die Performance extrem hoch ist, wenn diese auch genutzt werden. Schaut man sich zu den Punkten auch die Leistungsaufnahme an, so ist die Effizienz von einer anderen Welt.

Schaue ich mir dagegen die Ergebnisse bei Computerbase an, so hauen die "2 × Xeon Platinum 8180" die "2 × Epyc 7601" nicht wirklich vom Platz, so wie es der Cannon Lake bei 3D Particle Movement gegenüber den Kaby und Coffee Lake und auch dem R3 1200 macht. Die Skylake-SP Kernen in den Skylake-X und -SP haben ja auch AVX-512 Einheiten, können sich aber eben bei Cinebench R20 einfach nicht wirklich von denen ohne diese AVX-512 Einheiten absetzen, also wird da sicher noch kein AVX-512 verwendet.
 
Zuletzt bearbeitet:
Beim Cinebench R20 wird auch kein AVX512 verwendet. Der Unterschied müßte bei weitem größer sein.
Wenn man mal den Time Spy extrem Benchmark ansieht - der ja zum Teil AVX2 (30%?) nutzt - merkt man schnell, daß die Intel CPU stärker belastet wird und die eigentlichen Kontrahenten von AMD im CPU Test weiter hinter sich lässt als noch im normalen Time Spy.
Läßt man aber, sofern man die Möglichkeit hat, den Test optional mit AVX512 laufen sieht man gleich welches Potenzial da steckt.

Ich habe das einmal verglichen. Einmal mit AVX2 @4.4GHz und einmal stock mit AVX512 @3.8GHz.
Trotz 600 MHz weniger Takt erreiche ich mit AVX512 einen um 34% höheren CPU score.

Wenn also der Cinebench R20 AVX512 nutzen würde, dann würden die Ergebnisse der CPUs, die das Nutzen können, deutlich höher sein.
Tome Spy extrem AVX 2.PNGTome Spy extrem AVX 512.PNG
 
Die AVX2 und vor allem die AVX512 Einheiten sind eben extrem mächtig, brauchen aber dafür auch viel Strom, nur kommt trotz weniger Takt viel mehr Leistung dabei raus, wenn man sie nutzt. Zen2 bekommt ja nun 256 Bit statt der bisher 128 Bit breite Einheiten, die AVX512 Befehle könnten wie jetzt die 256 Bit AVX2 Befehle also sehr wohl unterstützt aber eben in zwei Schritten abgearbeitet werden. Durch die 7nm Fertigung wird AMD da natürlich einen Vorteil bei der Leistungsaufnahme haben und könnte tatsächlich ohne einen AVX2 Offset auskommen.
 
Zuletzt bearbeitet:
Und dann kommen wir zu dem unumstößlichen Fakt, dass die ganzen synthetischen Benchmarks, die Holt hier gerne präsentiert, an der Realität weit vorbeidonnern.

Das Problem bei Intels AVX(512) ist nämlich der massive Energiebedarf und die deutliche Taktreduzierung, wenn diese Energie nicht da ist.

Wait What? Epyc Is Actually Faster Than Xeon In Real World Use Cases That Leverage AVX-512? : AMD_Stock

AVX512 führt zu mehreren Problemen:
1. Wenn die TDP limitiert ist, wie fast immer in Servern, knickt die Leistung von AVX deutlich ein.
2. Wenn die Leistung des einen Cores, auf dem die AVX-Last liegt, einknickt, geht die Leistung des zweiten Threads dieses einen Cores ebenfalls in den Keller - egal, ob da auch eine AVX-Last draufliegt oder eine ganz andere Aufgabe.
3. Wenn weitere Aufgaben die Bandbreite der CPU beenträchtigen, geh bei AVX-Last die Leistung der CPU noch weiter in den Keller.

Ergo: für einzelne, spezifische Workstation-Aufgaben ist AVX ein Traum. Im realen Server-Szenario ist AVX ein Fiasko.
 
Zuletzt bearbeitet:
Die Vorzüge von AVX-512 sind halt nicht von der Hand zu weisen.

Skylake mit Broadwell verglichen, liefert selbst bei um ~20% geringerem Takt deutlich höhere GFLOP/s mit entsprechend optimiertem Code.

https://colfaxresearch.com/skl-avx512/#sec-2-2

Und wenn entsprechende spezielle Workloads/Aufgaben auf Server ausgelagert werden können wüsste ich nicht was daran Fiasko sein soll.
 
Irgendwie erkenne ich da ein Muster.
Die CPU geht extreme in die Breite, ausgehen von FP64 (Bit)
Die GPUs dagegen, gehen Richtung half Precission machen dann aber mit FP32, 2 Pakete auf einmal...

:fresse2:
 
Die Vorzüge von AVX-512 sind halt nicht von der Hand zu weisen.

Skylake mit Broadwell verglichen, liefert selbst bei um ~20% geringerem Takt deutlich höhere GFLOP/s mit entsprechend optimiertem Code.

https://colfaxresearch.com/skl-avx512/#sec-2-2

Und wenn entsprechende spezielle Workloads/Aufgaben auf Server ausgelagert werden können wüsste ich nicht was daran Fiasko sein soll.

du sprichst von Theorie. Fortunes meint doch, dass in der Praxis für AVX-512 so viel mitunter so viel Energie nötig ist, dass die CPU ins TDP Limit rennt und runtertakten muss. Die 20% höheren Peak GFlops bringen nicht annähernd so viel, wenn sie nicht gehalten werden können und am Ende stärker gedrosselt werden muss.
 
Der Broadwell wird auch eiingebremst, zwar geringer aber der Vorteil der neuen Architektur bleibt erhalten.

Und wie Du bei 1940 GFLOP/s versus 3040 GLFOP/s auf 20% kommst musst Du mir auch noch erläutern. ;)
 
Der Vorteil liegt bei wieviel Prozent?
Kannst ja mal an deiner Intel-Wunderlampe reiben.
 
In welchen realen Fällen wäre avx-512 von Nutzen und gibt es genau dazu irgendwelche Benchmarks mit 512 / ohne 512 bzw Intel/AMD?
Oder muss das Konstrukt in dem avx-512 was bringen würde so theoretisch sein, dass es da nix aus der Praxis gibt?

1. wäre sehr interessant, 2. würde das ganze Thema irrelevant machen.

Nun denn Befürworter/Gegner, liefert Daten ;)
 
Ich habe das schon relativ oft gesagt, aber gerne nochmal für dich drakrochma: die ganze Debatte Intel vs. AMD wird in Foren gerne an der Realität vorbeigeführt. In relativ simplen Rendering-Beispielen (Cinebench) ist AMD sehr gut dabei, leider stellt sowas nur einen sehr kleinen Teil des Marktes für CPUs in Dual-Socket-Systemen mit 50+ Kernen da (über die spricht man ja bei AVX512 und Zitation von irgendwelchen Studien dazu?).
Ohne ein spezifisches Problem mit beiden CPUs zu benchmarken kann man hier einfach keine qualifizierte Aussage treffen. Leider ist es so, dass bei einem solchen Benchmark mit nicht-trivialer Software, die man i.d.R. unter Verwendung (optimierter) Bibliotheken aus dem Quellcode selber bauen wird, auch die Bibliotheken und der Compiler einen Einfluss auf die Performance haben (das geht soweit, dass eine besser optimierte Bibliothek u.U. gleich mal 10-20% mehr Leistung bringt...). Und da sieht es halt, nachdem AMD vor Zen in dem Feld nicht nennenswert war, für AMD immer noch ziemlich mager aus, was den Softwaresupport angeht (jeder Compiler/Numerikbibliothekhersteller hat die letzten 10a auf Intel optimiert) und das richtig zu testen kostet eben Zeit und Geld, sodass man dann bei ähnlicher Leistung in standardisierten Benchmarks i.d.R. immer noch gerne Intel (oder im HPC-Bereich auch ARM oder MIPS oder PPC oder GPUs) kauft.

Also ein paar Beispiele zum Thema:
- https://www.servethehome.com/wp-content/uploads/2018/05/Intel-Xeon-D-2100-Series-4C-and-16C-GROMACS-versus-Intel-and-AMD.jpg - ServeTheHome testet eine halbwegs vernünftig zusammengebastelte GROMACS-Version (die ähnlich titulierten Benchmarks mit den selbstgeschriebenen Tools bei Anandtech sind in Anbetracht des nicht vorhandenen Quellcodes und der Nutzung steinalter Distro-Compiler relativ schwachsinnig)
- https://mailman-1.sys.kth.se/pipermail/gromacs.org_gmx-users/2017-December/117410.html in der echten Welt kämpfen Nutzer aber möglicherweise noch mit anderen Problemen, weil sie eben nicht notwendiger die richtigen Optionen/Systeme für spannende Benchmark-Balken erwischt haben...
- standardisierte Benchmarks außerhalb der Randgruppe "CPU-Rendering" lassen außerdem einen überschaubaren Kostenvorteil im echten Leben übrig, auch wenn die Intel laut Forum ja das vielfache kosten (https://indico.cern.ch/event/730908/contributions/3153163/attachments/1730954/2810149/epyc.pdf - S16). man beachte, dass Intel weniger Server braucht (im Vergleich zur billigsten AMD-Config), d.h. je nach Interconnect da noch mal einen kleinen Performance-Bonus haben mag, ansonsten kostet AMD gleich viel. Außerdem (S17): "Retail CPU costs used in estimate - Likely to receive volume or competitive discounts" (was hier auch niemand glaubt...)
 
Oder muss das Konstrukt in dem avx-512 was bringen würde so theoretisch sein, dass es da nix aus der Praxis gibt?
AVX512 ist ja noch recht neu (von den Xeon Phi mal abgesehen, ist es erst mit den Skylake-SP Kernen eingeführt worden) und wird gerade erst bei verschiedenen Programmen integriert, die Software hängt bekanntlich den Möglichkeiten der Hardware immer um Jahre hinterher. Es ist aber durchaus nicht nur theoretisch, sondern ist z.B. bei OpenJDK schon drin:
OpenJDK / jdk / client 8205528: Base64 encoding algorithm using AVX512 instructions date: Wed, 27 Jun 2018
Es muss aber aktiviert werden:


Was möglich ist wenn man die Software selbst compilieren und dabei entsprechend auf AVX512 optimieren kann, sieht man ja in #173 am Beispiel von
Es hängt eben sehr davon ab, welche Anwendung man konkret hat, aber auch der Einsatz von AVX512 in Software wie sie auch normalen Heimanwender nutzen, kommt voran und da bringt es auch einiges, denn schau Dir nun mal an wo heutzutage überall base64 Coding eingesetzt wird.
 
@flxmmr und Holt:
Danke für die Informationen.

Das bedeutet also, dass AVX-512 einen deutlichen Leistungsschub bringen kann, wenn auch hauptsächlich nur in speziellen Fällen und wenn die Software irgendwann angepasst sein wird oder schon direkt darauf hin compiliert wurde.

Also ganz platt gesprochen vergleichbar mit den raytracing- Einheiten der Nvidia rtx-karten, für viele "normale" Anwender aber eher von überschaubarem Interesse.

Danke, wieder was gelernt.
 
Das bedeutet also, dass AVX-512 einen deutlichen Leistungsschub bringen kann, wenn auch hauptsächlich nur in speziellen Fällen und wenn die Software irgendwann angepasst sein wird oder schon direkt darauf hin compiliert wurde.
Ganz genau so ist es. Du musst und darfst nur ein bestimmtes Programm nutzen, das explizit AVX(512) nutzt. Dann geht das Programm ab wie Lutze. Das ist aber nur ein typisches Workstation-Szenario.

In der Server-Welt kann AVX(512) erhebliche Nachteile mit sich bringen, explizit im Cloud-Zentrum.

In "Real-World-Szenarien" hat AVX(512) gewaltige Schattenseiten, wenn neben Software mit AVX-Optimierung auch noch normale Software eingesetzt wird - zeitgleich. Und das sind die Aspekte von Servern/Cloud-Anbietern.
 
Ganz genau so ist es. Du musst und darfst nur ein bestimmtes Programm nutzen, das explizit AVX(512) nutzt. Dann geht das Programm ab wie Lutze. Das ist aber nur ein typisches Workstation-Szenario.

In der Server-Welt kann AVX(512) erhebliche Nachteile mit sich bringen, explizit im Cloud-Zentrum.

In "Real-World-Szenarien" hat AVX(512) gewaltige Schattenseiten, wenn neben Software mit AVX-Optimierung auch noch normale Software eingesetzt wird - zeitgleich. Und das sind die Aspekte von Servern/Cloud-Anbietern.

Jo, und in diesen Real-World-Szenarien wissen die Leute was sie machen und AVX ist aus, siehe:

Jupp, ein Beispiel von Cloudflare.

Die meisten Leute, die Benchmarks und was weiß ich hier diskutieren wissen das nicht (inklusive den Kampfgooglern wie dir). Und in anderen Real-World-Szenarien bringt es eben ganz deutlich was (und auch wenn findige Universitätsstudenten gerne AVX-Code für alles mögliche basteln, sind es diese Szenarien, die von Intel seit Jahren als Zielmarkt abgebildet werden).
 
Genau das hab ich oben gemeint, wollte es aber nicht so explizit schreiben um nicht noch mehr Krawall der 512-Jünger vom Zaun zu brechen... ;)

AVX-512 ist ein nur beschränkt sinnvoll einsetzbares Feature ohne jegliche Relevanz für alle, die nicht spezielle Server für ganz spezielle Anwendungsfälle daheim Rum stehen haben.

Und damit kann ich zumindest für mich alle Benchmarks, die speziell in die Richtung gehen, schlicht irrelevant.
Und ich hab wieder was gelernt:d
 
Zuletzt bearbeitet:
Die Schlussfolgerung, dass die Relevanz außerhalb von Prime95-Fetischisten recht gering ist, ist durchaus auch meine Meinung. Als "fragwürdig" würde ich es jetzt nicht bezeichnen, denn wenn du dieses Fass aufmachst, sind auch ganz viele andere Dinge fragwürdig ;). Und zur Relevanz: ich denke seit etwa 10-15a ist selbst für Enthusiasten der Dual-Sockel-Markt recht irrelevant, trotzdem wird hier fleißig von Menschen über die preisliche Platzierung und Features von Dual-Sockel-Systemen gestritten, die vermutlich in ihrem Leben keinen Zugang mehr zu einem solchen System erhalten werden, geschweige denn für den Einkauf solcher Systeme geradestehen müssen :d (und zwar mit einer Vehemenz, die wundern lässt, ob das wirklich ihre einzigen Probleme sind).


Hier allerdings noch ein Bonmot aus dem in #176 verlinkten Reddite-Artikel
https://www.nextplatform.com/2017/11/28/ecosystem-expands-amd-epyc-servers/ schrieb:
With memory prices more than double what they were a year ago, this is a big advantage. To get a certain memory capacity, an Epyc system can use less dense – and therefore less costly – memory sticks to attain that memory capacity and not sacrifice memory bandwidth. All it takes is making a commitment to filling out the memory slots in the machine and not half populating them as companies often do to leave room for expansion. Until memory prices come down – way down – this is not a good strategy unless money is no object.
(und ich dachte bisher immer, dass man hauptsächlich deswegen Epyc kauft, weil man die so gut aufrüsten kann – sieht so aus, als ob die Menschen, die das wirklich machen, das etwas anders sehen...)
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh