AMD stellte 12 EPYC-Prozessoren mit bis zu 32 Kernen offiziell vor

Auch im Kartellrecht sind beide Vertragspartner für ihr handeln verantwortlich. Intel kann diese Machenschaften nicht anzetteln, wenn sich die Handelspartner nicht dran halten. Das Beispiel bleibt bestehen.
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Intel hat seine marktbeherrschende Stellung mißbraucht und wurde dafür korrekterweise bestraft. Die Händler dagegen haben damit "ihren" Handelsmarkt nicht behindert. Indirekt haben sie zwar den CPU-Markt behindert, aber da sie nicht mit AMD im Wettbewerb stehen, kann hier das Wettbewerbsrecht auch nicht greifen.

Ich glaube man könnte Onlineshop xyz nicht mal anprangern, wenn dieser an Intel rantreten würde und sagen würde "gib mir Rabatt und ich verkauf nur dich", weil du damit nicht den Weltmarkt beeinflusst.
Klatschi scheint, schon von der Namensgebung, ein reiner Trollaccount zu sein. Oder Psychologie Semester eins Experiment. Auf jeden Fall ab jetzt muted, have fun!
 
Ich glaube man könnte Onlineshop xyz nicht mal anprangern, wenn dieser an Intel rantreten würde und sagen würde "gib mir Rabatt und ich verkauf nur dich", weil du damit nicht den Weltmarkt beeinflusst.
Klatschi scheint, schon von der Namensgebung, ein reiner Trollaccount zu sein. Oder Psychologie Semester eins Experiment. Auf jeden Fall ab jetzt muted, have fun!

was er (denke ICH) meint sind so Sachen wie damals zu Pentium/Amd Duron Zeiten wo Intel wirklich z.B. Media Markt exclusiv auf Intel trimmte (ich war damals bei Expert als AL und wir freuten uns dass die keine AMD verkaufen durften) :)

waren gute Umsatz Zeiten um die 2000er wobei Intel mit dem BX Chipsatz da auch vieles in Zeiten von Plug and Pray einfacher machte (der ging aber an "poweruser" damals) *grins*

da kam dann auch der mega OC Celeron (1-1,2 GHz) welcher auch auf Dual Boards lief ;) .... das war auch die Zeit des DVD CP breach und der Start der Recoding Szene aka "CloneDVD" was dann kaum mehr CPU Power brauchte :)
 
Zuletzt bearbeitet:

danke dir , leider ist Gigabyte (nur imho) nicht meine 1. Wahl) aber lecker info (und wohl ausgerichtet als WS ... wo es sicherlich einen Zweck abdeckt)


Slot 7: 1x PCI-Express x8 (Gen3 x8)
Slot 6: 1x PCI-Express x16 (Gen3 x16)
Slot 5: 1x PCI-Express x16 (Gen3 x8)
Slot 4: 1x PCI-Express x16 (Gen3 x16)
Slot 3: 1x PCI-Express x16 (Gen3 x16)
Slot 2: 1x PCI-Express x8 (Gen3 x8)
Slot 1: 1x PCI-Express x16 (Gen3 x16)


ist imho ne seltsame verteilung = die Tyan und Sm werden mehr Lanes auf ext (damit gemeint sind Cons für PCIe Backplanes) Connect legen für SSDs mit 4x Nvme in u.2 (wie bei AMD stellte 12 EPYC-Prozessoren mit bis zu 32 Kernen offiziell vor )

die Cons (die ich meine) sieht man im Link links unten (6 Stück)

aber ATX*** (alle eatx++) haben leider zu wenig platz für Epyx :)
 
Zuletzt bearbeitet:
fdsonne
Ist immer das gleiche bei dir. Nur andere Worte mit der gleichen Analyse, AMD bringt es nicht. Jetzt bist du schon mehrfach mit diesem Grundtenor hingefallen. Ich verstehe immer noch nicht, welche Motivation dich bewegt, weiter durch die AMD bringt es nicht Gegend zu stolpern?

AMDs Ankündigungen lassen die Aktie wieder durch die Decke jagen, Intels Skyfart lässt die Aktie von Intel fallen. Trotz Milliarden Nettogewinne liegt diese deutlich schlechter als vor 6 Monaten.
 
Ach lass ihn doch spekulieren. Er liegt ja nicht das erste mal falsch damit.
 
Vor allem quotet seine Aussagen mal. Ist immer lustig anzusehen, wie sich einige versuchen aus der Affäre zu schlingern, wenn sie feststellen, dass sie Quatsch gelabert haben. ;)

Ich warte derzeit auf Ryzen 2.0 und die Gaming-Benches mit Threadripper, inwiefern das QuadChannel-Interface mehr Boost gibt und der RAM sich bei Threadripper übertakten lassen könnte.
 
fdsonne
Ist immer das gleiche bei dir. Nur andere Worte mit der gleichen Analyse, AMD bringt es nicht. Jetzt bist du schon mehrfach mit diesem Grundtenor hingefallen. Ich verstehe immer noch nicht, welche Motivation dich bewegt, weiter durch die AMD bringt es nicht Gegend zu stolpern?

Und wieder liegst du falsch... Was soll der quatsch immer?
Kein Mensch erzählt irgendwas von "AMD bringt es nicht"...

AMDs Ankündigungen lassen die Aktie wieder durch die Decke jagen, Intels Skyfart lässt die Aktie von Intel fallen. Trotz Milliarden Nettogewinne liegt diese deutlich schlechter als vor 6 Monaten.
??
Auch davon stand nirgends was zur Diskusion... :wall:

Vor allem quotet seine Aussagen mal. Ist immer lustig anzusehen, wie sich einige versuchen aus der Affäre zu schlingern, wenn sie feststellen, dass sie Quatsch gelabert haben. ;)

Ja macht mal... Würde mich nämlich auch mal interessieren wo irgendwas über AMD/Intel Aktionprognosen und "AMD bringt es nicht" geschrieben steht...
 
Ich warte derzeit auf Ryzen 2.0 und die Gaming-Benches mit Threadripper, inwiefern das QuadChannel-Interface mehr Boost gibt und der RAM sich bei Threadripper übertakten lassen könnte.
Ich sehe bei Threadripper @ gaming gar nichts kommen. Eher wird es nachteilig werden, schon allein wegen dem Takt. Fragezeichein:Vor allen wenn man die Spiele auf 32 threads verteilt/abwechselnd laufen lässt?
Aber wäre natürlich nett wenn doch. Fürs gaming wären Threadripper CPUs + Mainboard eh zu kostspielig. Dann kommt nämlich wieder die i7 7700K Fraktion um die Ecke. Glaube kaum das ein Threadripper nur wegen QuadChannel plötzlich an 7700K gaming Leistung rankommen könnte. Wäre wie mit Kanonen auf Spatzen schießen. Neee...dafür ist Threadripper nicht da.
 
Zuletzt bearbeitet:
Aktuell ist der Takt bei den Epyc niedrig im Vergleich zu Ryzen.

AMD könnte aber, wenn QuadChannel bei Gaming tatsächlich was bringt, einen Ryzen "FX" auf der X390/X399-Plattform kommen lassen. 8~12 Kerne bei 4GHz mit leicht erhöhter TDP - und mehr RAM-Takt von 4000MHz. Wenn die Bandbreite ankommt, wäre das Teil mein Knaller.
 
Ich sehe bei Threadripper @ gaming gar nichts kommen. Eher wird es nachteilig werden, schon allein wegen dem Takt. Fragezeichein:Vor allen wenn man die Spiele auf 32 threads verteilt/abwechselnd laufen lässt?
Aber wäre natürlich nett wenn doch. Fürs gaming wären Threadripper CPUs + Mainboard eh zu kostspielig. Dann kommt nämlich wieder die i7 7700K Fraktion um die Ecke. Glaube kaum das ein Threadripper nur wegen QuadChannel plötzlich an 7700K gaming Leistung rankommen könnte. Wäre wie mit Kanonen auf Spatzen schießen. Neee...dafür ist Threadripper nicht da.
Kann es sein das du Threadripper [RYZEN] verwechselst mit Naples [EPYC] ?
AMD Ryzen 16 Core Threadripper CPUs Whitehaven Platform To Launch On Monstrous 4094 Pin Socket In June
EPYC = SP3
TR = SP3r2

Asus Teases 5GHz Overclocks For AMDs Ryzen Threadripper CPUs :drool:
 
.... warum werden CPUs eigentlich immer auf Gaming Leistung reduziert, die eh kaum Unterschiede zu Tage fördert :)

Ich WILL PCIe Lanes :) ... Storage IO ist immer noch das limitierende bei mir :)

Spielen kann ich auch auf meinem alten 3570k noch gut

... geschrieben von unterwegs (Handy)
 
Zuletzt bearbeitet:
Naja, ganz so düster sehe ich es nicht. Aber sie stehen im Moment auf jeden Fall erst mal gehörig unter Druck. Mal schauen wie schnell AMD 7nm Zens (znver3) marktreif bekommt. Die Tapeouts sollen ja noch in 2H 2017 erfolgen. Laut AMD sind eine Reihe einfacher Kernverbesserungen ("low hanging fruits") machbar. Ich tippe mal darauf, dass 10-20% IPC + 10-15% Takt in den kommenden 2 Zen Generationen mindestens machbar sind. Würde nochmal ~30% mehr Kernperformance plus 50% mehr Kerne für die 7nm Zens bedeuten, also etwa doppeltes Leistungspotenzial zur aktuellen Generation. Wird vermutlich für Intel mit ihren grossen monolithischen Dies recht schwierig, in dieser Zeit ähnliche Fortschritte zu machen, selbst in 10nm. Aufwändigeres Design, umfangreichere Validierung, höhere Produktionskosten usw. Da kommt einiges zusammen. Aber warten wir mal ab. Bleibt auf jeden Fall spannend.
 
zumindest bei PCIe Based Storage wird der Epyc schon eine kleine Revolution auslösen :)

spielt gut ins Bild der HyperConverged :)
 
Zuletzt bearbeitet:
Vor allem ist über Jahre hinweg die Software auf Intel optimiert worden.
Das hat damit rein gar nichts zu tun. AMDs Billiglösung bringt den Kunden Kostenvorteile, erhöht aber die Komplexität für die Softwarentwickler. Ein Threaripper ist logisch ein Dualsocket System und ein Dualsocket Epyc System verhält sich logisch wie ein Octosocket System. Jede der Zen CPUs hat in der Realität nur Dualchannel RAM Anbindung, und erfordert ein hohes Maß an Koordination, damit Software nicht an der lahmen Speicheranbindung verhungert. AMD hat das in den Benchmarks schön hingetrickst, dass das ganze sehr viel besser aussieht als es ist. Also nochmals damit es jeder versteht: ein Epyc Prozessor hat vier NUMA-Knoten, er verhält sich damit wie ein Intel Quadsocket System bei dem die CPUs drei QPI-Links haben. D.h. Xeon E7-4700v4 verhielten sich so. Dazu gibt es pro NUMA-Knoten maximal 8 Cores bei AMD.

Wenn die Entwickler jetzt anfangen den Zen-Core richtig zu verstehen und dahin zu optimieren, sieht es düster aus für Intel.
Hast Du schon jemals selbst programmiert? Wahrscheinlich nicht, und wahrscheinlich weißt Du nicht was für ein Aufwand es ist Software auf NUMA Systemen zu parallelisieren.
 
AMDs Billiglösung bringt den Kunden Kostenvorteile, erhöht aber die Komplexität für die Softwarentwickler.
Scheint so, dass AMDs "Billiglösung" immer noch smarter und durchdachter ist als Intels Ansatz mit riesigen monolithischen Dies. ;) Mit welchen Problemen SKL-X zu kämpfen hat, sehen wir ja. Ähnliches gilt auch für SKL-S. Den Vorteil, den manche bei der Kernanbindung in einem monolithischen Design sehen, ist rein hardwareseitig sowieso minimal und kann in der Praxis auch sehr schnell egalisiert oder sogar negiert werden. Mit 4 separaten Dies wie bei EPYC lassen sich zB Hotspots besser kontrollieren. Mal abgesehen davon, dass die Dies auch besser selektiert werden können. Heisst im Endeffekt, dass zB höher und länger geboostet werden könnte, wenn die Wärmeentwicklung geringer ist. Alleine 100 MHz bei zB 2,5 GHz auf allen Kernen hat mehr Einfluss auf die Performance als AMDs IF Anbindung vs Intels Mesh Anbindung.

Billig war IF für AMD übrigens keineswegs. Immerhin hat man dafür mehrere Hundert Millionen Dollar in Seamicro investiert. Der Langzeiteffekt wird dies aber vermutlich mehr als amortisieren. Und das weiss auch Intel. Die entwickeln nicht grundlos in eine ähnliche Richtung wie AMD, sie EMIB.

Ach ja, und die Komplexität für Softwareentwickler erhöht sich mit IF auch nicht per se. Vor allem das Thread-Scheduling ist wichtig, welches aber Aufgabe des OS ist. Damit beschäftigt man sich als Anwendungsentwickler üblicherweise nicht. Wer das tun möchte, kann natürlich trotzdem seine Software anpassen. Was auch in der Vergangenheit schon gemacht wurde, zB für SMT. Es ist aber kein Muss, auch für EPYC nicht. Alles weitere betrifft Kern- und Cacheoptimierung und gilt für Intel genauso.

Ein Threaripper ist logisch ein Dualsocket System
Nein. Ein 16C Threadripper wird vom OS als eine CPU mit 32 logischen Prozessoren gesehen, so wie er sich auch verhält, und nicht als 2 CPUs mit jeweils 16 logischen Prozessoren.

und ein Dualsocket Epyc System verhält sich logisch wie ein Octosocket System.
Nein. Auch ein 2P EPYC System verhält sich wie ein 2P System.

Jede der Zen CPUs hat in der Realität nur Dualchannel RAM Anbindung
Nein. Jede EPYC CPU hat 8 Speicherkanäle. Zumindest in der Realität, die für alle gültig ist. Ob sich diese mit deiner ganz eigenen Realität deckt, keine Ahnung. Die Ergebnisse von EPYC in Speicherbenchmarks wie STREAM bestätigen jedenfalls die enorme Speicherbandbreite. Diese wäre mit nur Dual-Channel DDR4 nicht möglich.

und erfordert ein hohes Maß an Koordination, damit Software nicht an der lahmen Speicheranbindung verhungert.
Dafür, dass EPYC bereits in existierenden Anwendungen sehr gut performt, scheint nicht wirklich was an einer lahmen Speicheranbindung zu verhungern. Überraschung, Überraschung. :rolleyes: Dass die Hardware ansich gut skaliert, ohne spezielle "Koordination", was auch immer damit gemeint sein soll, zeigt zB STREAM recht gut mit einer Skalierung von 90-95% von 1P auf 2P. Aber auch auf einem Sockel bietet EPYC mehr Speicherdurchsatz als SKL-S.

AMD hat das in den Benchmarks schön hingetrickst, dass das ganze sehr viel besser aussieht als es ist.
Klar, gerade DU kannst das ja auch beurteilen, so völlig ohne Fakten, die das untermauern. :rolleyes: Ich frage mich echt, wie AMD die Anandtech Benchmarks "hingetrickst" haben soll. Anandtech, Insidern auch bekannt als Inteltech, ist nun alles andere als pro AMD.


Hör bitte auf hier solche Märchen zu erzählen! Keine Ahnung, was du mit diesem AMD Gebashe ("Billiglösung" etc) wieder bezwecken willst. Nur als Tipp, du machst dich gerade extrem lächerlich und klingst genauso wie Intel auf ihren absurden Folien, über die sich gerade das Netz lustig macht.
 
Ist wohl doch einer auf die Intel Folien reingefallen? :(
Mir scheint es eher so zu sein, dass hier massenweise nicht verstanden wird, was AMD an Folien gezeigt hat. Siehe AMD's EPYC Server CPU - Sizing Up Servers: Intel's Skylake-SP Xeon versus AMD's EPYC 7000 - The Server CPU Battle of the Decade?, hier sieht man am zweiten Bild (dick mit Naples überschrieben), dass jede CPU aus vier NUMA-Knoten besteht, die via Infinity Fabric verbunden sind. Die Infinity Fabric ist nichts anders als eine überarbeitete Version von HyperTransport und das war und ist vergleichbar zu QPI bzw. UPI wie es Intel nun nennt. Was ist daran so schwer zu verstehen?
 
Was soll man da jetzt genau sehen? Es sind 4 Kohärent verbundene DIEs, die Folie darunter zeigt, das genug Bandbreite vorhanden ist, um die Daten zwischen ihnen gut austauschen zu können.

Wenn ich mir dann ein Paar Folien weiter die Latenz anschaue, sieht man, dass es gar nicht so viel ausmacht. Klar kann es ein kleiner Nachteil sein, aber meistens liegen die Daten eh im RAM und da gibt es dann ganz andere latenzen.
Memory Subsystem: Latency - Sizing Up Servers: Intels EPYC 7000 - The Server CPU Battle of the Decade?

Und nur so nebenbei, "AMDs Billiglösung" ist die Zukunft, wie groß sind die großen SKL-X? 600mm²? Wie hoch ist bei so einer größe die yield? Rechnet man da noch in chips pro Wafer oder ist es Wafer pro Chip?
Irgendwie kommt mir die AMD Lösung viel durchdachter vor, hohe yield, durch kleine Chips und dadurch günstig zu produzieren. Der gleiche DIE für alles chips... und dafür dann nur eine etwas schlechtere Latenz, so etwas nimmt man doch gerne in kauf, wenn die CPU dafür nur die hälfte kostet.....
Klar wird es Anwendungen geben, in denen diese Latenz evtl zu Problemen führen kann, aber die dürften sehr wenige sein, für die breite Masse zählt eher Bandbreite und Preis, und bei beidem kann Epyc punkten. Oder etwa nicht?
 
Naja, ganz so düster sehe ich es nicht. Aber sie stehen im Moment auf jeden Fall erst mal gehörig unter Druck. Mal schauen wie schnell AMD 7nm Zens (znver3) marktreif bekommt. Die Tapeouts sollen ja noch in 2H 2017 erfolgen. Laut AMD sind eine Reihe einfacher Kernverbesserungen ("low hanging fruits") machbar. Ich tippe mal darauf, dass 10-20% IPC + 10-15% Takt in den kommenden 2 Zen Generationen mindestens machbar sind. Würde nochmal ~30% mehr Kernperformance plus 50% mehr Kerne für die 7nm Zens bedeuten, also etwa doppeltes Leistungspotenzial zur aktuellen Generation.

was die IPC angeht, bin ich nicht ganz so optimistisch. Bei einer völlig neuen Architektur wie Zen, wird man aber sicher so 5-7% rausholen können. Siehe Vishera auf Bulldozer.
Aber vom Globalfoundries 7nm-LP Prozess verspreche ich mir eine Menge. Tapeout laut meiner Info Anfang 2018 und ich hoffe, dass Zen 2, dann früh im 2. Halbjahr 2018 das Licht der Welt erblicken wird.
Globalfoundries: 7-nm-Fertigung läuft 2018 an - für Zen 2 Vega-Nachfolger Navi denkbar

Was die 40% mehr Performance bzw. 60% weniger Energie angeht, wird das vielleicht für einige Extremfälle im jeweiligen Sweetspot gelten. Was die proklamierten 5GHz angeht, bin ich mir noch ein wenig unsicher. https://www.globalfoundries.com/sites/default/files/product-briefs/7lp-product-brief.pdf
Aber lassen wir es mal 4,8 Ghz sein für nen "Turbo-Takt" und ~4,4 Basis-Takt eines möglichen 2800x. Da klingen die 3,6 Ghz vom 1800x fast schon mickrig gegen. Bei >20% mehr Takt sind wir sogar weit über deiner prognostierten Range.
Rechnet man dann noch den IPC-Vorteil dazu, würde so ein Zen2 2800X einem virtuellen 1800X @ 4,65 BasisTakt entsprechen.

Das klingt schon fast zu schön um wahr zu sein. Aber GF hat hier auch den 10nm-Prozess einfach übersprungen und ist direkt auf 7nm gegangen. Klar weiss ich, dass das auch nur Marketingzahlen sind. Aber GlobalFoundries hat auch schon für 14nm-LPP >3GHZ versprochen und man sieht ja, dass Ryzen da viel rausgeholt hat aus dem Prozess. Dennoch einer der Gründe, warum 4GHZ für Ryzen einfach eine "magische" Grenze darstellen https://www.globalfoundries.com/sites/default/files/product-briefs/product-brief-14lpp.pdf

Die Platzersparnis muss man hier auch in Betracht ziehen. Ein Ryzen mit 3, statt 2 CCX und damit 12Cores wäre theoretisch problemlos möglich. Weiss jedoch nicht ob die ungrade Zahl in der Praxis zu Problemen führen könnte. Innerhalb eines CCX sind zumindest 3 statt 4 Cores ja möglich. Siehe 1600X.
Vielleicht wären es auch 6 Cores in einem CCX? :fresse:

Fazit: Zen2 ist einer der Gründe, warum ich nach dem famosen Ryzen erst noch auf meinem 4930k Ivy-Bridge sitze. Ich erhoffe mir noch deutlich mehr Takt und die IPC-Steigerung nehme ich für Single Core-Performance auch gerne mit. :)
Um bei Thema zu bleiben: Das Ganze jetzt auf Epyc hochgerechnet wird 7nm Intel einiges an Marktanteil kosten. Ich bin jetzt niemand der RIP-Intel oder "Intel wird vernichtet"-Fraktion, aber das ist schon ein ganz schöner Brocken der auf Intel da zukommt.
AMD Leaked Roadmap Confirms 7nm Starship CPU With 48 Zen 2 Cores
48Core Starship als Naples Nachfolger. Beim bisherigen Design der CPU mit 4 Dies würde dies meine 12Core-Theorie in jedem Fall bestätigen.
2018 wird in jedem Fall genauso "heiss" wie 2017 was AMD betrifft.
 
Zuletzt bearbeitet:
Absolute Zustimmung zu why_me. Natürlich ist die Organisation tendenziell etwas langsamer angebunden, aber das lässt sich auf Dauer nicht vermeiden. Ich will nur mal an 1ns Latenz bei DDR1-RAM erinnern, und jetzt sind wir bei 10-20ns, weil die Bandbreite deutlich wichtiger für uns geworden ist. Auch bei den CPUs wird man immer mehr Rechenleistung brauchen und je mehr Kerne in einem Die schön eng und schnell angebunden zusammengepresst sind, umso unbezahlbarer wird die CPU und umso mehr Abfall wird produziert.

An Infinity Fabric führt auf Dauer absolut kein Weg vorbei, auch nicht für Intel. Die haben nur den Fehler gemacht, und den Umstieg verschlafen, als es bereits lohnenswert war und somit AMD die Tür dazu geöffnet, zwar nicht mit der Leistung zu überholen, aber deutlich mit der Leistung/Preis.

Am Ende bringt die Diskussion über die Umsetzung auch nicht viel, weil man praktisch sieht, dass DDR4 trotz zehnfacher Latenz meilenweit überlegen ist, und die Ryzen-CPUs auch mehr Gesamtleistung für weniger Geld bieten.
 
An Infinity Fabric führt auf Dauer absolut kein Weg vorbei, auch nicht für Intel. Die haben nur den Fehler gemacht, und den Umstieg verschlafen, als es bereits lohnenswert war und somit AMD die Tür dazu geöffnet, zwar nicht mit der Leistung zu überholen, aber deutlich mit der Leistung/Preis.

Am Ende bringt die Diskussion über die Umsetzung auch nicht viel, weil man praktisch sieht, dass DDR4 trotz zehnfacher Latenz meilenweit überlegen ist, und die Ryzen-CPUs auch mehr Gesamtleistung für weniger Geld bieten.

Das Preis-Leistungs-Verhältnis bei Intel ist doch keine Frage des Könnens, sondern des Wollens. Intel macht im Quartal in etwa so viel Gewinn wie AMD Umsatz im Jahr. Zumindest fertigungstechnisch sind auch z.B. 24-Kerner aus einem Die ein Klacks. Der Broadwell E7-8890v4 hat eine Die-Größe von 456mm², das liegt noch knapp unter Nvidias GP102 mit 471 mm² - Karten damit gabs schon für unter 700 Euro und auch damit machte Nvidia noch reichlich Gewinn. Warum kostet der E7 dann über 7.000 Euro? Nur durch die höhere Komplexität einer CPU gegenüber einer GPU läßt sich das nicht erklären. Im Wesentlichen ist es reine Preispolitik eines Quasi-Monopolisten, erst danach kommen Entwicklungs- und Fertigungskosten. AMDs One-Die-Fits-All-Taktik ist natürlich clever, da man so die Entwicklungskosten im Zaum hält und auch die Fertigungskosten ein Stück weit drückt, aber letztlich nur aus der Not geboren. Ohne AMDs aggressive Preispolitik würde jeder weiterhin zu Intel greifen, denn die sind in Sachen Leistung (sowohl IPC als auch Taktbarkeit) immer noch eine gute Nasenlänge voraus.
 
Klar kann es ein kleiner Nachteil sein, aber meistens liegen die Daten eh im RAM und da gibt es dann ganz andere latenzen.

Auf dem Niveau der Debatte kann ich auch einsteigen: dir ist schon klar, dass der Unterschied zwischen "Daten im RAM" und direkte Verbindung zum Die und "Daten im RAM" aber anderes Die/anderer Socket schon noch etwas mehr ausmacht, als "ist halt ein RAM-Zugriff"?!

Ansonsten: Die Verbindungen zwischen einzelnen Knoten/Dies sind bei AMD etwas besser ausgebaut, als bei aktuellen Intel-Generationen, wo man das Mesh im Kern hat (das ist per se def. nicht schlechter?!) und dann UPI (mit rund 20 GB/s?, aber 2 davon für Dual-Socket-Systeme?!) zwischen den Sockeln hat – bei AMD ist zwischen den 8er-Dies im Package jew. 40GB/s Transfer und jedes Die hat dann in Mehr-Sockelsystemen noch auf dem zweiten Sockel einen "direkten" Nachbarn (mit jew. 40GB/s Transfer). Und woraus schließen die Experten hier jetzt eigentlich, dass AMD besser sein muss/wird (für jeden Workload) und dass das nicht im Verhalten bisherigen NUMA-Nodes entspricht – weil die Latenzzeit niedriger ist, als bisher und man mehr Nodes hat?

Hinsichtlich des STREAM-Benchmarks: also der "original"-Benchmark wird mit OpenMP parallelisiert. Und wenn ich mir den Quellcode ansehe, sieht das für mich (als C+OpenMP-Laien) doch sehr danach aus, als ob der auch sehr gut über Numa-Nodes skaliert, da der verwendete Speicher auch auf der jeweiligen NUMA-Node alloziert werden kann/wird (vgl. hier: http://prace.it4i.cz/sites/prace.it4i.cz/files/files/advancedopenmptutorial_2.pdf#page=6). D.h. der Benchmark ist eben eine dieser Anwendungen, wo das mit dem NUMA ganz gut funktioniert und ich weiß nicht, was mr.dude damit beweisen will...

EDIT: nochmal weiter gelesen und ja, der STREAM-Benchmark skaliert ganz gut mit NUMA-Cores, da offensichtlich die aggregierte Speicherbandbreite gemessen wird, siehe p13 aus dem obigen Link, aber die Experten sind wieder anderer Meinung:
Die Ergebnisse von EPYC in Speicherbenchmarks wie STREAM bestätigen jedenfalls die enorme Speicherbandbreite. Diese wäre mit nur Dual-Channel DDR4 nicht möglich.
:wall::banana:
EDIT-EDIT: http://iwomp2016.riken.jp/wp-content/uploads/2016/10/OpenMPonNUMAArchitectures.pdf...
 
Zuletzt bearbeitet:
Am Ende bringt die Diskussion über die Umsetzung auch nicht viel, ...

Die Diskusion bringt eine ganze Menge. Das Problem ist eher, dass die "Gegenargumente" auf Wunschvorstellungen und Tellerrand-Denke aufbauen. Was man sich nicht vorstellen oder ausmalen kann, kann so nicht sein. Das ist so ziemlich die Basis der pro Epyc-Argumente. Die Realität ist aber nicht Intel vs. AMD, sondern viel eher: "was bringt mich als Endkunde am weitesten". Der reine Preis ist da nur bedingt ein Indikator. Vor allem im Serverbereich um den es hier gerade geht. Und reine MT-Performance aber auch nicht. ;) Klingt komisch, ist aber so... Am Ende kostet dich warscheinlich ein halbwegs anständiger RAM Ausbau bei einem Hypervisor Faktor 3-6 vom Preis, was dich die CPU kostet. Da kommen Lizenzen in Größenordnung oben drauf. Soll heißen, am Ende dreht sich keiner nach nem 1000er für ne CPU um. Zumal, Listenpreise zahlt sowieso NIEMAND! in diesem Business. 40-60% Nachlass ist eher Regel als Ausnahme. So manches Vertriebsmodell geht soweit da noch weit drüber... Ein anständiges Partner-Level mit Cisco bspw. -> da sparste nicht nur am Netzwerk-Equipment, sondern kannst gleich Compute-Ressourcen mit guten Konditionen kaufen und so dein Umsetzlevel = höhere Nachlässe weiter erhöhen. Win:Win...

Das kann der geneigte Foren-Gamer natürlich nicht wissen. Der ließt nur, 4200$ Epyc vs. 10k+ Xeon = Epic ist P/L Sieger.

Irgendwie kommt mir die AMD Lösung viel durchdachter vor, hohe yield, durch kleine Chips und dadurch günstig zu produzieren. Der gleiche DIE für alles chips... und dafür dann nur eine etwas schlechtere Latenz, so etwas nimmt man doch gerne in kauf, wenn die CPU dafür nur die hälfte kostet.....
Klar wird es Anwendungen geben, in denen diese Latenz evtl zu Problemen führen kann, aber die dürften sehr wenige sein, für die breite Masse zählt eher Bandbreite und Preis, und bei beidem kann Epyc punkten. Oder etwa nicht?

Warum testet ihr das denn nicht einfach mal selbst!?
Multi-NUMA-Gespanne gibts seit Jahren. Kostet heute auch nicht mehr die Welt. Wenn man es wirklich testen will und sich dafür interessiert, anstatt nur immer rumzuquatschen, einfach mal austesten!? Und nein, Cinebench ist ein beschissener Test, denn er representiert alles, aber nicht die Masse in diesen Geschäftsfeldern.

PS: Die AMD Lösung ist klar die bessere für den Hersteller. Daran gibts auch nix zu rütteln. Die Frage ist, was ist die bessere für den Kunden!? Mit bisschen Latenz ist das NUMA Node Problem nämlich nicht gelöst... Mir als Endkunde ist es doch scheiß egal, ob der Hersteller sich da auf den Kopf stellen muss. Funktionieren muss es. Durchdacht ist da für mich schon übertrieben. Es ist die kostengünstigste Lösung. Das max. was geht, wenn man nicht anders kann. Macht sie am Markt aber nicht zur sinnvollsten Alternative. Und nein, P/L aka Preis pro MT-Performance ist da nicht der Indikator, obwohl das gern behauptet wird. :wink:
Und bevor wir uns falsch verstehen, das hat absolut gar nix mit Intel zu tun. Die exakt selbe Argumentation trifft auf einen Ryzen 7 vs. Threadripper 8C ebenso zu!

Für die, die es interessiert, mal eine Beispielrechnung AMD Epyc als Hypervisor:
(diese zieht exakt auf alle Systeme mit 8x NUMA Nodes, also bspw. Quad-Socket G34, Okta-Socket Xeons oder eben Dual Epyc - und skaliert auch nach unten, weniger Nodes)
8x NUMA Nodes bei einem Dual Socket Epyc Gespann bedeutet:
- per VM max. so viel vRAM, wie Gesamt-RAM geteilt durch NUMA Node Anzahl -> 8x hier
- per VM max. so viel vCPUs, wie Gesamt Cores/Threads geteilt durch NUMA Node Anzahl -> 8x hier (ja eigentlich durch 16, weil 2xCCX)
- überbuchung der vCPU/vRAM Counts bedeutet extremer Traffic auf der Fabric
- ungleiche Verteilung zwischen vCPU/vRAM Count bedeutet extremer Traffic in der Fabric (VMs mit viel vRAM aber wenig vCPU Bedarf oder VMs mit viel vCPU Bedarf aber weniger vRAM lassen jeweils den anderen Part brach liegen)
- PCIe Anbindung an die Außenwelt zwangsweise über mehrere Nodes verteilt (10G, FC, Infiniband usw. -> sehr interessant auch beim Thema GPU Virtualisierung. Da greifen dann externe Nodes über die Fabric auf die GPUs zu)

Rechnet das mal selbst durch, nehmt bspw. ein 0816 Dual Epyc 16C/32T Modell im Doppelpack. Paare das Ding mit sagen wir 256GB RAM in Summe.
-> per VM max. 32GB RAM (eher sogar etwas weniger, lass es 30-31 sein, da man nicht ans absolute Limit fährt)
-> per VM max. 4C/8T (eher sogar 2C/4T, wenn man die CCXen berücksichtigt)
-> 4C/8T auf eine VM zugewiesen, aber nur 4GB RAM zugeteilt machen die anderen ~28GB dieses Nodes quasi unnütz. Da je nach CPU-Rechenbedarf alle CPU Ressourcen des Nodes ausgeschöpft sind. Bei VMware gibt es einen Counter dafür (Co-Stop), der signalisiert Wartezeiten bis Ressourcen zuteilbar sind. Umgekehrt gilt das gleiche, schlimmer noch, da RAM zu überbuchen idR extreme Performanceeinbußen bedeutet.
-> die Dual 16G FC Anbindung hängt an Node x, die Dual 10/40G an Node y, Infiniband, GPUs und was noch so alles an Node a, b oder c. Das bedeutet, ein NUMA aware Hypervisor (was idR funktioniert), händelt die CPU-Last für PCIe Devices auf dem Node, wo sie anfällt. FC also Node x, 10/40G also Node y usw. Das kostet, je nach Modell/Ausbau/Device von den 4C/8T bzw. 2C/4T per VM Leistung und geht damit auch noch zulasen der Performance der VM.

AMD hat durchaus Recht, die Masse kauft 1-2P in diesem Bereich. Aber der Grund liegt eben nicht am Socket-Count, eher am NUMA-Node Count. Wie das Beispiel zeigt, kein Mensch kommt auf die Idee, da ein Hypervisor als 4-8P Intel System hinzuzimmern, da die Restriktionen und Vorraussetzungen exakt die gleichen wären... Man baut 1-2P. Macht dann 128-256GB pro VM, also die Hälfte bis volle Menge in eine VM. Macht die hälfte bis volle Menge vCPUs pro VM, lässt, je nach Steckplatz die Belastung der Uplinks durch PCIe Karten sehr gering ausfallen und man ist am Ende sehr flexibel, was vCPU/vRAM Zuteilung angeht.

Und jetzt erkläre man mir bitte, WO ist diese Lösung durchdacht!? Das geht beim 32C Modell gerade so auf, wenn man maximal 8x vCPUs zuweisen wird... Aber auch dort ist das RAM Problem vorhanden. Will ich 32GB+ pro VM, dann habe ich ein reales Problem, was sich nur lösen lässt indem ich unsinnigerweise ALLE NUMA Nodes mit mehr Speicher ausstatte. Oder ich habe eine erhelbliche Belastung der Fabric OHNE!!! das der Hypervisor da Mittel zur Optimierung hat. JEDER RAM Zugriff belastet die Fabric. Jeder Inter-Node Zugriff auf PCIe Devices vom anderen Node belastet die Fabric, jedes verteilen der CPU-Lastthreads über die Nodes hinweg erzeugt Traffic in der Fabric.
Wie gut die Fabric diese Umstände abfedern kann, wird sich vollends zeigen, wenn der Spaß in der Fläche verfügbar ist... Beim G34 lagen die exakt selben Probleme auf dem Tisch (4x NUMA Nodes) und die Anbindung über HyperTransport hat dem Teil massiv Wind aus den Segeln genommen. Epyc erhöht den NUMA-Count um Faktor 2 und erhöht die Bandbreite zwischen den Nodes ebenfalls recht stark. Dem Gegenüber stehen aber auch deutlich gestiegene Bandbreiten-Anforderungen.

Anandtech bringt es da in ihrem Review schon recht gut auf den Punkt, wenn auch zu sehen ist, dass die Jungs und Mädels dort ihr Geschäft nicht im Serverbereich haben.
"In many ways it is basically a "virtual octal socket" solution. For enterprises with a small infrastructure crew and server hardware on premise, spending time on hardware tuning is not an option most of the time. For the cloud vendors, the knowledge will be available and tuning for EPYC will be a one-time investment. Microsoft is already deploying AMD's EPYC in their Azure Cloud Datacenters."
Genau den Part mit Microsoft und anderen Größen im Business, dort kann (und wird warscheinlich) Epyc ansetzen. Denn dort lassen hohe Mengen Absatzen. Dort stört auch nicht, dass spezielle Anwendungsfelder speziellere Hardware nutzen. Da kauft man einfach Epyc für Stuff, dem Epyc besser liegt und Xeons für Stuff, welcher diesen besser liegt.

Was die Zukunft angeht, MCM heist nicht automatisch, Multi-NUMA Node Konstrukte :wink:
Auch so ein Punkt, an dem man einfach mal differenzieren sollte... MCM wird warscheinlich früher oder später kommen. Aber ob es ein xx-fach NUMA Konstrukt wird (G34, Epyc) oder ob es was anderes wird, ist völlig offen. SMP geht auch via MCM (Core2 und die Pentium-D haben es bewiesen). Heute wäre es allerdings notwendig, den MC/den Uncore-Bereich vom Corebereich zu trennen und letzteren als MCM zu skalieren. Das erschlägt alle Vorteile vom MCM und lässt (bis auf die Unbekannte der externen Verbindung und mögliche Leistungseinbußen dadurch) keine Nachteile zurück. Das ist aus meiner Sicht die sinnigere Zukunft. Nimmt man es genau, mit dem Mesh hat Intel sogar die Basis schon geschaffen. Denn das Mesh lässt sich auch extern verdrahten. Technisch könnte ich mir einen Interposer vorstellen, der 2x MCM "einsammelt", welche intern als eine Unit fungieren. Beim Ringbus war das so ohne weiters nicht drin.



@sweetchuck
AMDs Preispolitik ist nicht anders... Der Joker, den AMD im Moment zieht, geht auch nur solange auf, wie man quasi nicht am Markt vertreten ist. Denn wenig verdient ist immernoch mehr wie nix verdient.
Schau dir mal den 32C Epyc "P" aka Single Socket only an und dazu den non "P" 32C Eypc. Da gibts für 5% mehr Takt = 100% Preisaufschlag. Es ist 100% exakt das gleiche Silizium.
In der nächsten Runde wird sich AMD aber nicht nur mit Intel messen müssen, sondern eben auch mit ihren eigenen Produkten und damaligen Preisen... Um so niedriger man rein geht, desto schwerer ist es, da wieder rauszukommen.

PS: Komplexität ist eher genau andersrum, CPUs bestehen zu großen Teilen rein aus Cache. Und Speicherzellen sind sehr einfach zu fertigen. GPUs bestehen zu großen Teilen aus Logik, das macht die Sache eher schwer(er).
 
Zuletzt bearbeitet:
Was die Zukunft angeht, MCM heist nicht automatisch, Multi-NUMA Node Konstrukte
Auch so ein Punkt, an dem man einfach mal differenzieren sollte... MCM wird warscheinlich früher oder später kommen. Aber ob es ein xx-fach NUMA Konstrukt wird (G34, Epyc) oder ob es was anderes wird, ist völlig offen. SMP geht auch via MCM (Core2 und die Pentium-D haben es bewiesen). Heute wäre es allerdings notwendig, den MC/den Uncore-Bereich vom Corebereich zu trennen und letzteren als MCM zu skalieren. Das erschlägt alle Vorteile vom MCM und lässt (bis auf die Unbekannte der externen Verbindung und mögliche Leistungseinbußen dadurch) keine Nachteile zurück. Das ist aus meiner Sicht die sinnigere Zukunft. Nimmt man es genau, mit dem Mesh hat Intel sogar die Basis schon geschaffen. Denn das Mesh lässt sich auch extern verdrahten. Technisch könnte ich mir einen Interposer vorstellen, der 2x MCM "einsammelt", welche intern als eine Unit fungieren. Beim Ringbus war das so ohne weiters nicht drin.

:confused: Epic bzw. Threadripper und Ryzen ist doch genau das, es sind eben keine NUMA Nodes...

Siehe auch:
Q14. Does Windows recognize a single Rijen threaded ripper as two NUMA nodes?
A14. Is not. In Windows, Rizen thread Ripper and Epic are recognized as only one NUMA node.
von: [Bits) - Page 12
 
Zuletzt bearbeitet:
d.h. man macht dann einfach 32 Threads und hat dann keine Möglichkeit, zu beeinflussen, an welchem Die der Speicher hängt? Hört sich nach einem Rezept für "epische" Performance an... Wie Mr.Dude schon in seinem *aber das ist kein NUMA, weil die Speicherbandbreite hoch ist*-Post festgestellt hat, kann das AMD schon mit herkömmlichen Methoden noch ganz gut beeinflussen...

That design also means that there are four NUMA nodes per socket or eight NUMA nodes in a dual socket system. You can see this in Linux (here is a Ubuntu 17.04 lscpu output):
AMD EPYC 7000 Series Architecture Overview for Non-CE or EE Majors
 
Zuletzt bearbeitet:
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh