Zweimal 32 Kerne bei 4 GHz knacken 10.000 Punkte im Cinebench

croni-x · 07.08.2018

webmi schrieb:
Was mich wundert ist, dass der Asus Server, der zum Einsatz kam, offenbar gar keine Asus Aura LED Leisten verbaut hatte

Mittlerweile haben das ja sogar die externen Festplatten von Asus schon

Ist eh alles #FakeNews wo keine RGB LEDs mit dabei sind.. Hört doch mal auf sowas überhaupt zu posten HWLuxx wird ja immer peinlicher.

Godlike23 · 08.08.2018

Don schrieb:
Glaubt ihr ernsthaft Intel zahlt uns Geld, weil in den Diagrammen Intel oben steht? Unfassbar ...

Es soll auch Leute geben die immernoch behaupten die Erde wäre flach :/

Tresel · 08.08.2018

Interessant wäre ja mal ein Stockvergleich. Ich meine kaum ein Server wird übertaktet betrieben.
Aber der8auer macht ja zZ viel Enthusiasten machbarkeitsstudien, welche die wenigsten nutzen werden, bzw. nachbauen werden.

Don · 08.08.2018

Wenn du Vergleiche zwischen Xeon und EPYC in Sachen Serverleistung und in den Standardeinstellungen suchst, dann gibt es hier ein paar Artikel: ServeTheHome: Server, Storage, Networking and Open Source Software News and Reviews

alpinlol · 08.08.2018

tonythebuilder schrieb:
Was für ein zufall das ein 4x Xeon Platinum 8180 224 Threads hat. Hier übrigens das Video zu denn 11500 Läufen. Crushing Cinebench R15 V4.5 Quad Xeon Platinum 8180 Breaks Cinebench - YouTube Der Kommentar mach übrigens sehr deutlich das Cinebench für solche Systeme ein recht ungeigneter Benchmark ist.

Ich persönlich bin recht beeindruckt von der Leistung die AMD so bringt. Insbesondere von den Preisen.

Besteht die Möglichkeit, dass 11500 nahezu das Limit an möglichen Punkten im Cinebench ist? Was der Grund dafür sein könnte, weshalb die 128EPYC Threads so nah an dem Ergebnis sind?

Luebke · 08.08.2018

eher nicht. bei benchmarks gibts normal keine punktelimits. vermutlich wird die leistung irgendwo nicht mehr linear mit der kernzahl steigen.

alpinlol · 08.08.2018

Luebke schrieb:
eher nicht. bei benchmarks gibts normal keine punktelimits. vermutlich wird die leistung irgendwo nicht mehr linear mit der kernzahl steigen.

Du renderst eine limitierte Anzahl an Objekten, die Anzahl und Arzt des Objekts ist auch immer die selbe. Hierauf die Schlussfolgerung, dass eventuell ein Limit besteht, vor allem wenn Maxon bereits auf 256 Threads limitiert.

Andere Benchmarks andere Ergebnisse, aber hier geht es spezifisch um Cinebench.

pclovely · 08.08.2018

Cinebench (r15) ist auch keine besonders AMD optimierte Software, man benutzt sie nur weil es Intels Steckenpferd war und die Software eben genau den Intel HPC Prozies besonders liegt. Das zeigt eigentlich um so mehr auf was die Epycs hier leisten.

Luebke · 08.08.2018

alpinlol schrieb:
Du renderst eine limitierte Anzahl an Objekten, die Anzahl und Arzt des Objekts ist auch immer die selbe. Hierauf die Schlussfolgerung, dass eventuell ein Limit besteht, vor allem wenn Maxon bereits auf 256 Threads limitiert.

entscheidend ist hier aber die zeit die fürs rendern benötigt wird. solange die kleinstmögliche zeiteinheit für den gesamten durchlauf nicht erreicht ist, ist imho auch das punktelimit nicht erreicht. dass die threads limitiert sind ist schon der tatsache geschuldet, dass die zu rendernden objekte begrenzt sind. wenn jede berechnung parallel abläuft sind weitere kerne einfach sinnfrei da nichts mehr für sie zu berechnen da ist...
ich denke in 1-2 jahren wird auch die marke von 20.000 punkten fallen und irgendwann 30.000 und so weiter... so wie bei super pi schon seit jahren und jahrzehnten immer neue bestmarken aufgestellt werden

MusicIsMyLife · 08.08.2018

alpinlol schrieb:
Du renderst eine limitierte Anzahl an Objekten, die Anzahl und Arzt des Objekts ist auch immer die selbe.

Das ist schon prinzipiell richtig. Der variable Punkt ist aber die Geschwindigkeit, mit der die feste Anzahl der Objekte gerendet wird. An der Stelle spielen dann solche Aspekte wie Taktfrequenzen bzw. IPC mit rein.

Nimm einen Phenom II und lasse ihn Cinebench R15 mit einem Thread rechnen und vergleiche das Ergebnis mit einem 2700X bei einem Thread. Du wirst einen großen Unterschied sehen - und das, obwohl die Renderszene sowie die Anzahl der Threads gleich ist. Die Differenz ist dann der Unterschied des höheren Taktes, der unterschiedlichen Cache-System sowie der IPC.

EDIT: zu langsam... :fresse:

Luebke · 08.08.2018

...wie immer :shot:

croni-x · 08.08.2018

pclovely schrieb:
Cinebench (r15) ist auch keine besonders AMD optimierte Software, man benutzt sie nur weil es Intels Steckenpferd war und die Software eben genau den Intel HPC Prozies besonders liegt. Das zeigt eigentlich um so mehr auf was die Epycs hier leisten.

Hast du dafür Quellen? Ich hab bis jetzt nur die andere Richtung (leider auch nur) gehört.

MusicIsMyLife · 08.08.2018

croni-x schrieb:
Hast du dafür Quellen? Ich hab bis jetzt nur die andere Richtung (leider auch nur) gehört.

Cinebench nutzt wohl einen Intel-Compiler. Das ist prinzipiell kein Problem, kann aber theoretisch eins werden. Nämlich dann, wenn Systeme so manipuliert werden, dass sich AMD-Prozessoren gegenüber dem Benchmark als Intel-CPUs melden und dann wie von Geisterhand schneller rechnen. Das ist alles schon vorgekommen und kann daher einen gewissen Zündstoff bieten.

Hier mal ein Dokument, wo auch ein wenig auf das Thema eingegangen wird (ab Abschnitt C, Punkt 62 und folgend). Dort wird beispielsweise auch Cinebench genannt.

Es ist aber auch so, dass soetwas "kippen" kann. Manch einer CPU-Architektur liegt ein gewisser Benchmark und der nachfolgenden Architektur wiederum nicht mehr. Insofern darf man da nicht zuviel hineininterpretieren. Ich denke, AMD hat Cinebench R15 aus zwei Überlegungen heraus verwendet:

1. CB skaliert hat ziemlich gut mit der Anzahl der Threads -> das kommt AMD bei dem aktuellen "Core Wars" natürlich entgegen
2. CB lief auf Intel-CPUs eigentlich immer sehr ordentlich -> warum nicht auf dem Gebiet für Aufsehen sorgen, wo traditionell der Gegner stark ist?

pclovely · 08.08.2018

Gut geschrieben, die Version r15 bevorzugt auch Intel weniger, profitiert aber von HT besonders. Wissen muss man, dass bei Prozessoren mit kräftigem Turbo der Multithreadwert nicht genau dem Produkt aus der Kernanzahl und der Singlethreadpunktzahl entspricht, wobei der Turbo vor allem Singlethread beschleunigt. So führte das seinerzeit auch die CT aus. Heißt für AMD wird in keiner Weise optimiert.

Auf der anderen Seite bedeutet ein 64bit gemeldetes Softwarethreadlimit nicht nur, dass AMD bei höherer Threadauslastung auch entsprechende Ressourcen bereitstellen muss, sondern bei synchronem I/O residente Limits auftreten könnten. AMD oder Keller haben dabei weiter gedacht als man es je bei Intel tat, oder musste. Ich vermute Zen HPC wird noch ein Burner. Ich glaube sie haben noch lange nicht alles gezeigt.

lll · 08.08.2018

Warum wurde eigentlich das englischsprachige Video eingefügt, hat uns England bereits erobert(?), Roman macht sich doch nicht sinnlos die Mühe und fertigt auch ein deutschsprachiges an, die Videos sind übrigens zeitgleich erschienen.

Pickebuh · 08.08.2018

Don schrieb:
Es wird ohnehin schon immer schwieriger die Leitung möglichst linear steigen zu lassen.

1x EPYC 7601 @ 4GHz: 6.099 Punkte
2x EPYC 7601 @ 4GHz: 10.535 Punkte

Da sprechen wir von einem Plus von nur 73 %.

Problem war laut Roman ja, dass die Bandbreite des Speichers hier offensichtlich schon limitiert, da er den Speicher nicht OCen konnte.

Kazuja · 08.08.2018

Einfach nur Klasse der Roman Hartung, ganz großen Respekt von mir für seine Arbeit und den Enthusiasmus den man ihm immer in seinen Videos anmerkt.

Das AMD so krass abgeht freut mich auch sehr.

Wünsche beiden viel Erfolg für die nächsten Rekorde.

Grüße Kazuja

.

franeklevy · 08.08.2018

Also ich hab gestern hier bei mir 14376 Punkte erreicht. Leider nicht dokumentiert, aber immerhin steht somit mein System ganz klar vor AMD. Yeah.

/ironie

croni-x · 09.08.2018

Pickebuh schrieb:
Problem war laut Roman ja, dass die Bandbreite des Speichers hier offensichtlich schon limitiert, da er den Speicher nicht OCen konnte.

What? Muss mir das Video mal ansehen, aber hat er dafür auch eine weiterreichende Erklärung/Rechnung? Okay im Vergleich zu nem Ryzen R7 2700X wäre es eine (fast) Vervierfachung der benötigten Bandbreite, dafür hat er aber auch Quad-Channel Anbindung (ist immernoch die Frage wie die genau realisiert ist). Aber trotzdem, beim Encoding kommen doch bei weitem nicht die Datenmengen zusammen, dass da der Speicher limitieren würde ??

Morpheus2200 · 09.08.2018

Wirklich interessant wird es wohl in etwa einem halben Jahr mit EPYC Rome - sollten 64 Kerne kommen und sich diese wie erwartet auf um die 5 GHz+ takten lassen, prophezeie ich für ein Singlesocket System bereits um die 15000 Punkte - DAS wird ein richtiger Schlag für Intel

Sir Diablo · 09.08.2018

Wer genau erwartet Das denn?

Pickebuh · 09.08.2018

croni-x schrieb:
What? Muss mir das Video mal ansehen, aber hat er dafür auch eine weiterreichende Erklärung/Rechnung?

Das sagt er fast am Ende dieses Videos ab 18:55.

Henn1 · 09.08.2018

Sir Diablo schrieb:
Wer genau erwartet Das denn?

Das habe ich mich auch gefragt...

croni-x · 09.08.2018

peru3232 schrieb:
Wirklich interessant wird es wohl in etwa einem halben Jahr mit EPYC Rome - sollten 64 Kerne kommen und sich diese wie erwartet auf um die 5 GHz+ takten lassen, prophezeie ich für ein Singlesocket System bereits um die 15000 Punkte - DAS wird ein richtiger Schlag für Intel

What? Davon träumst du wohl? Bei 64 Kernen auf 5GHz+ ?! Man weiß zwar nicht wie gut das neue 7nm Verfahren wird, aber realistisch läuft da nichts über 3,2-3,5 GHz AllCore. Allein das Board müsste für mehr so massiv aufgebaut sein, garnicht davon zu reden, was man da für ne Kühlleistung bräuchte.

Morpheus2200 · 09.08.2018

croni-x schrieb:
What? Davon träumst du wohl? Bei 64 Kernen auf 5GHz+ ?! Man weiß zwar nicht wie gut das neue 7nm Verfahren wird, aber realistisch läuft da nichts über 3,2-3,5 GHz AllCore. Allein das Board müsste für mehr so massiv aufgebaut sein, garnicht davon zu reden, was man da für ne Kühlleistung bräuchte.

Ist doch bei diesen OC Versuchen vom 8auer irrelevant. Der Prozess selbst soll auf 5GHz+ skallieren, also müsste das bei entsprechendem Testaufbau und Boardmodifikation laufen können - natürlich nicht praxistauglicher als der Versuch um den es in diesem Artikel geht, aber das erwartet ja auch niemand bei Rekordaufbauten
Diese 3,2-3,5GHz Allcore sollten dann vermutlich Reallife machbar sein...

Naennon · 09.08.2018

peru3232 schrieb:
Wirklich interessant wird es wohl in etwa einem halben Jahr mit EPYC Rome - sollten 64 Kerne kommen und sich diese wie erwartet auf um die 5 GHz+ takten lassen, prophezeie ich für ein Singlesocket System bereits um die 15000 Punkte - DAS wird ein richtiger Schlag für Intel

na sicher

Luebke · 09.08.2018

erstmal bleibt abzuwarten ob ryzen 2 überhaupt schneller ist als ryzen+. ich erinnere da mal an windsor vs. brisbane, wo der shrink dann sogar marginal langsamer war als der vorgänger... auch bei intel ist das nicht viel anders: hat man ne erfolgreiche cpu und es steht ein shrink an, focussiert man sich gerne auf die herstellungskosten. dazu 100 mhz mehr ab werk und fertig ist die neue generation. also schön die bälle flachhalten bevor ihr intel totredet

könnte mir gut vorstellen dass der sprung ryzen zu ryzen+ größer war als letzterer zu ryzen2, da man beim r+ noch einen konkreten flaschenhals beseitigen konnte. jetzt muss man iwie allgemein die leistung steigern.

und was die 4 mageren jahre für intel angeht: charlie demerjian von semiaccurate hat das gesagt. der mann der auch behauptet hat die 8800GTX sei der untergang nvidias und ati würde mit ihrer 2900XT mit der 8800GTX den boden wischen. da bin ich noch eher geneigt der bild zu glauben. kann sein, dass da was dran ist, aber ein münzwurf führt da zu ähnlich verlässlichen ergebnissen... also abwarten und tee trinken.

Sporck · 09.08.2018

webmi schrieb:
Was mich wundert ist, dass der Asus Server, der zum Einsatz kam, offenbar gar keine Asus Aura LED Leisten verbaut hatte

Mittlerweile haben das ja sogar die externen Festplatten von Asus schon

das dachte ich mir auch^^

webmi · 09.08.2018

Wenn ich hier in eines der Rechenzentren gehe und das Licht aus lasse, leuchten und blinken die Cisco und Dell Maschinen aber auch ohne Asus Aura schon ganz gut :fresse2:

fdsonne · 09.08.2018

Luebke schrieb:
eine noch höhere parallelisierung ist halt nur noch in sonderfällen möglich.... allerdings ist in den bereichen häufig die gpu die bessere wahl was den absatzmarkt für solche systeme weiter einschränkt.
ich vermute mal, dass amd das absatzpotential solcher systeme im vorfeld schon geprüft hat und zu dem schluss gekommen sein wird dass bei singel-rag-systemen mehr als 128 threads auf cpu nicht ausreichend gefragt sind. ist ja nicht so, dass man bei bedarf nicht einfach mehrere rags zusammenschalten könnte... die resourcen für so viele kerne müssen die boards schließlich auch noch hergeben und irgendwann wirds halt effizienter diese auf mehrere teil-systeme aufzusplitten...

Das mit der GPU ist doch Käse - die GPU kann bei weitem nicht für jegliche Rendertasks genutzt werden. Leider merkt man halt mal wieder, dass ihr das selbst nie gemacht habt - der GPU fehlt es schlicht an VRAM um da richtig gut abzuschneiden, komplexe Szenen gehen gern mal über 50GB+ an Speicherbedarf, selbst wenn du da schweine teure Tesla GV100 GPUs mit 32GB HBMv2 nutzen würdest - die wirklich schnell sind!, die Teile sehen kein Land bei Speichermangel.
Der Cinebench ist von 2013! Das Threadlimit von 256 kommt viel eher davon, dass es zur damaligen Zeit als höchstes der Gefühle ein 4P Westmere EX System mit 80 Threads gab. Bisschen später dann Ivy-EX mit 120 Threads, aber auch das ist weit unter Limit.
Auch die Aussage zu den Boards halte ich für falsch - was soll das Board da bereit stellen? Der Spaß ist quasi vollständig in der CPU. Die Daten liegen im RAM - der an der CPU direkt klemmt - die Anbindung zwischen den DIEs läuft nicht übers Board (außer bei 2P+ Systemen), die Anbindung der CPU zum Restsystem ist mit popligem PCIe 3.0 4x lange nicht das Problem.
Renderfarmen im Clusterbetrieb gibt es - aber auch dort hast du ein massives Skalierungsproblem, wenn das Backend nicht passt - du musst die Rohdaten eben extrem schnell bereit stellen, damit das funktioniert, das heist, niedrig-latente und hoch-bandbreitige Netzwerkinfrastruktur oder sehr schnelle lokale Datenvorhaltung.

croni-x schrieb:
What? Muss mir das Video mal ansehen, aber hat er dafür auch eine weiterreichende Erklärung/Rechnung? Okay im Vergleich zu nem Ryzen R7 2700X wäre es eine (fast) Vervierfachung der benötigten Bandbreite, dafür hat er aber auch Quad-Channel Anbindung (ist immernoch die Frage wie die genau realisiert ist). Aber trotzdem, beim Encoding kommen doch bei weitem nicht die Datenmengen zusammen, dass da der Speicher limitieren würde ??

Da gibts keine Erklärung dazu - und ich meine auch, das Roman das auch so im Video gar nicht gesagt hat. Weis nicht, habe nicht das verlinkte Englische Video gesehen sondern das deutsche von seinem YT Kanal - aber da viel eher die Aussage, dass die Skalierung da obenraus mit dem Takt nicht mehr so gut ist - mit der Vermutung, dass der Speicher einfach nicht schnell genug ist. Das kann auch alles sein, hat aber mit der Aussage von oben aber nichts zu tun, denn da gibts um die Skalierung von 1P auf 2P.

Epyc nutzt übrigens ein Oktachannel SI - ein Dual Epyc sogar ein Dual-Oktachannel SI. Es ist exakt 4x Ryzen pro CPU. Mit zwei dieser Teile dann eben 8x Ryzen. Die Skalierung ist hier so schlecht, weil der Run nicht mal ne Hand voll Sekunden braucht. Um so kürzer der Run, desto beschissener die Skalierung. Real hat so ein Dual Epyc annähernd 100% mehr Performance, wenn die NUMA Nodes nicht um Problem werden - also du massiv auf unabhängige Threads bauen kannst (was der CB-R15 tut - deswegen skalieren auch Dual/Multi CPU Systeme sehr gut, deswegen verliert Threadripper sogut wie keine Punkte durch das NUMA Konstrukt und auch Epyc mit seinen 4-8x NUMA Nodes skaliert annähernd perfekt)
Kurzum, der Bench ist ein Bestcase Szenario - real im Rendern erreichst du sowas - in vielen vielen anderen Bereichen kommst du da lange nicht hin... (interessiert aber die Fans nicht - die wedeln sich einen von den CB-Punkten, wie ich vor geraumer Zeit schon vorhersagte)

peru3232 schrieb:
Wirklich interessant wird es wohl in etwa einem halben Jahr mit EPYC Rome - sollten 64 Kerne kommen und sich diese wie erwartet auf um die 5 GHz+ takten lassen, prophezeie ich für ein Singlesocket System bereits um die 15000 Punkte - DAS wird ein richtiger Schlag für Intel

Das interessiert den extreme OCer - und ein paar begeisterte Nerds, mehr aber auch nicht. Real hat der Dual Epyc nen Takt von 2,2GHz Base udn ~2,7GHz Allcore im großen Modell. Das ist schlapp mal die 3/4tel bis die Hälfte von dem, was Roman da drauf drückte... Du kommst real mit einem OCed Threadripper 32C wahrscheinlich recht nahe an die Werte ran, was der Dual Eypc stock macht... Nur wie auch der Vergleich von Roman im Video zum 4P Intel - der Dual Eypc Stock macht das wieder und immer wieder, inkl. Garantie, inkl. Support und allem drum und dran - so ein über OC Threadripper oder Epyc 1P mit Kompressor/Chiller oder LN2 Kühlung macht das eben nur ne Hand voll mal - und dann krankt es irgendwo.
Allein die Tatsache, dass hier im Video 2x500W versoffen werden, die Wandler ner Hand voll Sekunden richtung 100°C gehen mit ner steil ansteigenden Temp-Kurve -> was erwartest du da bitte von 64C/128T?? Das Ding wird irgendwo ca. 50%+-x effizienter sein können, aber mehr als doppelten Takt, doppelte Coreanzahl UND dann noch die Prozessverkleinerung, also Flächenersparnis, die auch AMD da nutzen wird irgendwo um die DIE Sizes nicht ausarten zu lassen?? MMn hast du völlig falsche Vorstellungen was da ansatzweise realistisch ist...

Luebke schrieb:
zum vergleich mit dem quad-sockel intel: wo ist bitte das problem? wäre der vergleich nicht gemacht worden würden sich sicher viele fragen wie sich dual-tr zu quad-xeon verhält. mehr info ist doch nix schlechtes. ist ja zumindest seitens der tester hier nicht als schw*nzvergleich gedacht sondern als objektiver vergleich des machbaren. und dazu brauchts auch referenzwerte an denen man etwas messen und vergleichen kann.

Das "Problem" ist, dass ein 4P System nicht für Cinebench R15 Runs gemacht/gebaut ist. Das ganze P/L Gelaber vom ach so viel besseren Verhältnis ist halt unter der Maßgabe, dass das Stock Serversystem den Spaß mit Garantie und Support macht und die OC-Bastelfrucke, getaucht in irgend so ne hunderte bis tausende Euro teure Brühe - damit die Wandler nicht wegbrennen - das nur ein paar Sekunden durchzuhalten, einfach Äpfel mit Birnen. Der Witz ist, das ist ja nichtmal nur pro Intel - sondern klar auch pro AMD. Der (Dual) Eypc macht das Stock auch immer und immer wieder, wie ein 2-8P Intel. Diese OC Frucken hingegen?? Nice to know... Real aber völlig unpraktikabel.

Zweimal 32 Kerne bei 4 GHz knacken 10.000 Punkte im Cinebench

Enthusiast

Enthusiast

Enthusiast

[printed]-Redakteur, Tweety

Experte

Enthusiast

Experte

pclovely

Guest

Enthusiast

Urgestein

Enthusiast

Enthusiast

Urgestein

pclovely

Guest

lll

Guest

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Semiprofi

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Semiprofi

AMD-Fanboy

Enthusiast

Enthusiast

Legende

Legende