NEWS

Prozessoren

AMD stellt 3. EPYC-Generation alias 7003-Serie "Milan" vor

Portrait des Authors


AMD stellt 3. EPYC-Generation alias 7003-Serie "Milan" vor
6

Werbung

AMD hat soeben den Startschuss für die dritte EPYC-Generation gegeben. Damit landen die Zen-3-Kerne, wie sie in den aktuellen Ryzen-Prozessoren zum Einsatz kommen, auch in den Serverprozessoren. AMD setzt mit der 7003-Serie den Weg fort, den man mit den ersten beiden Generationen eingeschlagen hat und verbessert die Plattform in Bereichen, die bisher wenig Beachtung gefunden haben.

Schaut man auf die nackten Zahlen, dann bietet AMD mit bis zu 64 Kernen pro Sockel, 128 PCI-Express-4.0-Lanes und acht Speicherkanälen für DDR4-3200 deutlich mehr, als dies bei Intel der Fall ist. Aber trotz dieser technischen Überlegenheit hat es AMD bisher erst geschafft etwa 10 % des Marktanteils für sich zu gewinnen. Das Datacenter-Geschäft ist träge und wenig wechselwillig. Hinzu kommt, dass Intel einige Speziallösungen abdecken kann, welche die Unzulänglichkeiten der Skylake- und Cascade-Lake-Generation gekonnt übertüncht haben. 

Auch wenn AMD heute die 7003-Serie vorstellt und sich mit Intels aktueller Produktlinie vergleicht – diese Situation wird nicht lange Gültigkeit haben, denn auch Intel wird in Kürze seine nächste Generation alias Ice Lake-SP an den Start bringen.

Doch bevor wir auf die Details der einzelnen Modelle eingehen, ein paar Worte zur Zen-3-Architektur, die zentraler Bestandteil AMDs aktueller Mobile-, Desktop- und Serverprozessoren ist. AMD beschreibt Zen 3 als erste vollständige Neuentwicklung nach der ersten Zen-Generation. Zentraler Bestandteil ist ein neuer 8-Kern-Core-Complex (CCX), der sich einen gemeinsamen, 32 MB großen L3-Cache mit weiteren CCX-Ausbaustufen teilt.

Alle Details der Zen-3-Architektur haben wir bereits zum Start der Ryzen-5000-Serie genauer beleuchtet. Zu den EPYC-Prozessoren zeigen sich darin keinerlei Unterschiede, wenngleich die beiden Produktgruppen von den gebotenen Funktionen der Zen-3-Architektur jeweils anders Gebrauch machen.

Die Fertigung ist mit 7 nm identisch geblieben. Das durchschnittliche IPC-Plus kommt ohnehin rein über die Mikroarchitektur zustande und teilt sich auf die verschiedenen Maßnahmen auf. Zu diesen gehören Änderungen der Load/Store-Units, im gesamten Front End, dem Micro-op Cache, der Sprungvorhersage (Branch Predictor), den ausführenden Recheneinheiten und dem nun einheitlichen Cache.

Ein CCD bestand bisher aus zwei CCX-Clustern mit jeweils vier Kernen. Die vier Kerne haben sich jeweils 16 MB an L3-Cache geteilt, sodass wir von 2x 16 MB L3-Cache pro CCD sprechen. Für Zen 3 wechselt AMD auf ein CCX mit acht Kernen, die sich insgesamt 32 MB an L3-Cache teilen. Es gibt vor allem keine Crossbar mehr zwischen den zwei L3-Cache-Clustern, wenn Kerne aus einem anderen CCX auf den Speicher zugreifen wollen.

Dies reduziert die Latenz bei Zugriffen im L3-Cache. Je mehr Kerne auf einen gemeinsamen Cache zugreifen, desto höher werden die Latenzen. Acht Kerne für 32 MB sieht man als derzeitigen Sweet Spot. Alle Kerne im CCX-Complex sind direkt miteinander verbunden. Es gibt acht Slices zu jeweils 4 MB pro Kern. Ein Vorteil dieser Zusammenführung des L3-Caches ist aber auch, dass ein Kern mit Zen 3 maximal 24 MB an exklusivem L3-Cache für sich verwenden kann, während die restlichen 8 MB weiterhin unter allen Kernen geteilt werden.

An der Cache-Hierarchie vom L1- bis zum L3-Cache hat sich nichts getan. Hier werden die Daten jeweils mit 32 Byte pro Takt untereinander ausgetauscht. Die L1-Anbindung setzt sich also in Sachen Bandbreite bis zum L3-Cache fort.

Eine Konstante: 8x CCD + 1x IOD

In den Zen-3-Kernen gibt es also zahlreiche und schon hinlänglicht bekannte Verbesserungen, die neben den Ryzen-Prozessoren nun auch bei den EPYC-Prozessoren Einzug halten.

Den EPYC-SoC mit seinen wichtigsten Daten stellt AMD wie folgt dar:

Es bleibt bei maximal 64 Kernen pro EPYC-Prozessor. Diese können jeweils zwei Threads verarbeiten, was bei 64 Kernen eben 128 Threads bedeutet. Die TDP-Spanne reicht weiterhin von 120 bis 280 W und bereits bestehende SP3-Mainboards und Systeme können die EPYC-Prozessoren der 7003-Serie aufnehmen.

Grundsätzlich bleibt es auch bei den acht Speicherkanälen die, DDR4-3200 (RDIMM, LRDIMM, 3DS und NVDIMM-N) mit einer maximalen Kapazität von 256 GB ansprechen können. Damit ist ein Maximalausbau von 4 TB pro Sockel möglich. Neu ist, dass AMD nun ein Memory Interleaving unterstützt. Was sich genau dahinter verbirgt, schauen wir uns noch an.

Die Plattform als solches bleibt in den weiteren Punkten unangetastet. So stehen weiterhin 128 PCI-Express-Lanes nach dem 4.0-Standard zur Verfügung. Ein Dual-Sockel-System bietet 162 PCI-Express-Lanes. 

Grundsätzlich hat sich beim IOD für die 7003-Serie nichts bis wenig getan. Weiterhin ist der das zentrale Bestandteil für die Anbindung der acht CCDs und stellt nach Außen hin die Speicherkanäle und PCI-Express-Lanes zur Verfügung. Der IOD des Vorgängers kommt auf eine Chipfläche von 416 mm² und besitzt 8,34 Milliarden Transistoren.

Der IOD der 7003-Serie ist nicht identisch, wird aber weiterhin in 14 nm gefertigt. Laut AMD ist die Größe identisch, allerdings hat sich die Anzahl der Transistoren durch das Memory Interleaving leicht erhöht.

Vergleich der Fertigung, Größe und Anzahl der Transistoren
  Die-Größe Transistoren
CCD (Zen) 212 mm² 4,8 Milliarden
CCD (Zen+) 212 mm² 4,8 Milliarden
CCD (Matisse & Rome) 74 mm² 3,9 Milliarden
CCD (Vermeer & Milan) 80,7 mm² 4,15 Milliarden
IOD (Matisse) 125 mm² 2,09 Milliarden
IOD (Vermeer) 125 mm² 2,09 Milliarden
IOD (Rome) 416 mm² 8,34 Milliarden
IOD (Milan)

416 mm²

8,34 Milliarden*
Rome insgesamt: 8x CCD + IOD 1.008 mm² 39,54 Milliarden
Milan insgesamt: 8x CCD + IOD 1.061,6 mm² 39,54 Milliarden*
Intel XCC-Die (Skylake) 694 mm² -
NVIDIA GA100-GPU 826 mm² 54,2 Milliarden

*Genaue Anzahl der Transistoren des Milan IOD bisher nicht bekannt

Mit Veröffentlichung der Ryzen-5000-Prozessoren verkündete AMD die Größe des Zen-3-CCDs mit 80,7 mm². Außerdem soll jedes einzelne dieser Chiplets über 4,15 Milliarden Transistoren verfügen. Die CCDs mit den Kernen sind also etwas größer und komplexer geworden. Laut AMD ist der IOD zwischen Rome und Milan nahezu identisch. Durch die größeren CCDs ergeben sich dennoch Änderungen in der Gesamtgröße und Gesamtkomplexität der Chiplet-Konstruktion.

Rome kommt auf 1.008 mm² bei insgesamt 39,54 Milliarden Transistoren. Bei Milan sind es nun 1.061,6 mm² bei 39,54 Milliarden Transistoren. Am Package tut sich allerdings nichts. Unter dem Heatspreader rücken die einzelnen Chiplets nur marginal enger zusammen. Die Gesamtleistungsaufnahme ist ebenfalls identisch und durch die größeren CCDs sollte es sogar einfacher sein, die Abwärme abzuführen.

Neue CCD-Konfigurationen

Die EPYC-Prozessoren der 7003-Serie bietet mit Modellen mit 56 und 28 Kernen eine neue CCD-Konfiguration, die in dieser Form bisher nicht zur Verfügung stand. Doch wie hat AMD diese 56 bzw. 28 Kerne realisiert bzw. wie viele CCDs kommen zum Einsatz. Auf Nachfrage teilte uns AMD mit, dass der 56-Kerner acht CCDs mit jeweils sieben Kernen verwendet. Der 28-Kerner wird über vier CCDs mit sieben Kernen umgesetzt. In der schematischen Darstellung sieht dies wie folgt aus:

Es gibt also einige neuen Konfigurationen. So gibt es den Achtkerner nur noch mit acht CCDs und jeweils einem aktiven Kern. Zuvor waren auch Konfigurationen aus 4 x 2 und 2 x 4 Kernen verfügbar. In den kleineren Konfigurationen fallen also einige Modelle weg. Dafür kommen die besagten 56- und 28-Kern-Modelle hinzu.

Memory Interleaving für günstigere Speicherkonfigurationen

Mit den EPYC-Prozessoren der 7003-Serie führt AMD das Memory Interleaving für die Nutzung von nur sechs der acht zur Verfügung stehenden Speicherkanälen ein. Bei den vorherigen EPYC-Generationen war es natürlich möglich, auch weniger als acht Speicherkanäle zu verwenden. Während nur mit acht belegten Speicherkanälen die maximale Speicherbandbreite erreicht werden konnte, war es aber auch mit nur vier genutzten Speicherbänken möglich, noch in etwa 50 % der Speicherbandbreite zu erreichen. Dazu musste von den jeweils vier Speichercontrollern mit jeweils zwei Kanälen immer ein Kanal pro Speichercontroller belegt werden. Wurden zwei Speichercontroller mit jeweils zwei Speicherkanälen verwenden, führte dies zu einer Asymmetrie, die sich negativ auf die Leistung auswirkte. Je nach Anwendungen, wenn diese nicht sensitiv auf die Speicheranbindung sind und auch die Kapazität nicht ausgeschöpft werden musste, konnte eine solche Konfiguration (die Bestückung eines Speicherkanals mit einem DIMM) Sinn machen.

Problematisch wurde es bisher aber, wenn sechs der acht Speicherkanäle verwendet werden sollten. Hier kam es zu besagter Asymmetrie, da die Hälfte der Speichercontroller mit einem Kanal arbeiteten und die andere Hälfte auf beiden Kanälen bestückt war. Anstatt also 75 % der theoretischen Leistung konnten hier schlimmstenfalls nur zwischen 40 und 60 % der zu erwarteten Speicherbandbreite realisiert werden.

Das nun neue Memory Interleaving kommt auch mit der unbalancierten Sechskanal-Bestückung zurecht und soll auf das volle Speicherinterface bezogen eine Leistung von bis zu 75 % ermöglichen. Dies soll es Kunden ermöglichen ihre Kosten für den Speicherausbau besser anpassen zu können. Die Interleaving-Technologie hilft zugleich dabei die Auslastung auszugleichen, als auch bietet es nun bei einer Bestückung auf nur sechs Kanälen die möglichst ideale Leistung.

Die EPYC 7003 Produktpalette

Schauen wir uns nun die gesamte Produktpalette der 7003-Serie an:

Gegenüberstellung der Prozessoren

KerneBasisBoost L3-CacheTDPPreis
EPYC 7763 642,45 GHz3,5 GHz 256 MB280 W7.890 USD
EPYC 7713 642,0 GHz3,675 GHz 256 MB225 W7.060 USD
EPYC 7713/P 642,0 GHz3,675 GHz 256 MB225 W5.010 USD
EPYC 7663 562,0 GHz3,5 GHz 256 MB240 W6.366 USD
EPYC 7643 482,3 GHz3,6 GHz 256 MB225 W4.995 USD
EPYC 75F3 322,95 GHz4,0 GHz 256 MB280 W4.860 USD
EPYC 7543 322,8 GHz3,7 GHz 256 MB225 W3.761 USD
EPYC 7543P 322,8 GHz3,7 GHz 256 MB225 W2.730 USD
EPYC 7513 322,6 GHz3,65 GHz 128 MB200 W2.840 USD
EPYC 7453 282,75 GHz3,45 GHz 64 MB225 W1.570 USD
EPYC 74F3 243,2 GHz4,0 GHz 256 MB240 W2.900 USD
EPYC 7443 242,85 GHz4,0 GHz 128 MB200 W2.010 USD
EPYC 7443P 242,85 GHz4,0 GHz 128 MB200 W1.337 USD
EPYC 7413 242,65 GHz3,6 GHz 128 MB180 W1.825 USD
EPYC 73F3 163,5 GHz4,0 GHz 256 MB240 W3.521 USD
EPYC 7343 163,2 GHz3,9 GHz 128 MB190 W1.565 USD
EPYC 7313 163,0 GHz3,7 GHz 128 MB155 W1.083 USD
EPYC 7313P 163,0 GHz3,7 GHz 128 MB155 W913 USD
EPYC 72F3 83,7 GHz4,1 GHz 256 MB180 W2.468 USD

Innerhalb der insgesamt 15 neuen EPYC-Prozessoren gibt es natürlich einige Kategorien, in welche diese Eingeteilt werden können. Die 7xF3-Modelle bieten eine hohe Kernleistung mit einem großen L3-Cache pro Kern. Dann gibt es die Modelle mit 48, 56 und 64 Kernen, die vor allem über die Anzahl an Kerne in den jeweiligen Anwendungen überzeugen sollen. Dann gibt es noch eine breite Palette an Modellen, die von 16 bis 32 Kernen in unterschiedlichen TDP-Bereichen arbeiten und viel Flexibilität hinsichtlich der erforderlichen Rechen- und Kernleistung ermöglichen.

Zu den neuen Prozessoren gesellen sich auch einige EPYC-Modelle der vorherigen Generation, welche die Produktpalette abrunden sollen. Unter anderem deckt man damit die in der 7003-Serie nicht vorhandenen 12-Kerne und günstigen 8-Kerner ab. Dabei handelt es sich um folgende Prozessoren:

Gegenüberstellung der Prozessoren

KerneBasisBoost L3-CacheTDP
EPYC 7532 322,4 GHz3,3 GHz 256 MB200 W
EPYC 7352 242,3 GHz3,2 GHz 128 MB155 W
EPYC 7282 162,8 GHz3,2 GHz 64 MB120 W
EPYC 7272 122,9 GHz3,2 GHz 64 MB120 W
EPYC 7262 83,2 GHz3,4 GHz 128 MB155 W
EPYC 7252 83,1 GHz3,2 GHz 64 MB120 W

Vor allem im unteren Bereich der Produktpalette füllt AMD also mit Prozessoren der vorherigen Generation auf. Dies hat vermutlich vor allem damit zu tun, dass man die heiß begehrten und teuren Zen-3-Chips bzw. kompletten EPYC-7003-Prozessoren nicht auf wenige Kerne beschneiden möchte. Die Vorteile der Zen-3-Architektur spielen für manche Anwendung einfach kaum eine Rolle.

AMDs eigene Benchmarks

Natürlich präsentiert AMD auch gleich einige Benchmarks. Wie immer sind diese mit Vorsicht zu genießen. Hinzu kommt, dass AMD hier mit der aktuellen Cascade-Lake-Generation vergleicht, Intel aber in Kürze seine nächste Generation auf den Markt bringen wird. Natürlich hatte AMD noch nicht die Gelegenheit, seine eigenen Produkte gegen eine noch unveröffentlichte Generation von Intel zu testen. Im Hinterkopf behalten sollte man dies allerdings.

AMD zieht als Intels aktuelle Cascade-Lake-Generation als Vergleich heran und nimmt hier den Xeon Gold 6258R mit 28 Kernen. Alle EPYC-Prozessoren mit 28 Kernen und mehr sind laut AMD schneller als das Konkurrenzmodell. Die Leistungsdaten beziehen sich auf den SPECRATE 2017_INT_Base Test. Im unteren Bereich pickt sich AMD den Xeon Silver 4216 mit 16 Kernen und sieht sich auch hier gut aufgestellt.

Die EPYC-Prozessoren der 7003-Serie sollen ab sofort verfügbar sein. Bis sie einzeln im Handel landen, könnte es aber noch etwas dauern. Serverhardware-Anbieter wie Dell, HPE, Supermicro werden die ersten sein, die entsprechende Systeme anbieten. Aber auch Atos, ASRock, ASUS, Cisco, Foxconn, Gigabyte, H3C, Inventec, Lenovo, MiTAC, MSI, QCT, Tyan, wiwynn und wistron werden Systeme mit diesen Prozessoren anbieten.

Auf Seiten der Cloud-Instanzen hat die Installation neuer Server mit den neuen EPYC-Prozessoren größtenteils bereits begonnen. Anbieter wie AWS, Alibaba, Microsoft, Google, IBM, Oracle und Tencent werden ihren Kunden in Kürze ebenfalls entsprechende Angebote machen können.

Für AMD heißt es nun möglichst viele Prozessoren an seine Kunden auszuliefern. Welche Überraschungen Intel mit der nächsten Xeon-Generation zu bieten hat, wird sicherlich ebenfalls ein wichtiger Punkt sein, denn in der Anzahl der Kerne, der Leistung der einzelnen Kerne aber auch hinsichtlich der Plattform scheint Intel die Lücke zu AMD zumindest geringfügig schließen zu können. Die von AMD veröffentlichten Benchmarks zeigen natürlich einen klaren Vorsprung, aber den konnte man auch schon vor der 7003-Serie für sich beanspruchen. Die jeweilige Anwendungsleistung kann noch einmal ganz anderes aussehen. Genau wie AMD bietet auch Intel seinen Kunden entsprechende Zahlen für hochangepasste Software, die von speziellen Funktionen der Prozessoren Gebrauch machen.

Ob und in welchem Maße AMD seinen Marktanteil steigern kann, hängt nun aber auch davon ab, wie viele Prozessoren man in den Markt liefern kann. In der derzeit angespannten Situation am Markt, in der quasi alle Komponenten knapp sind, dürfte dies für AMD umso schwieriger sein. Für Intel ist dies deutlich einfacher, da man die Produktionskapazitäten in der eigenen Hand hat – AMD hingegen muss hier mit vielen anderen Kunden bei TSMC darum kämpfen.