Neue Horizonte: AMD zeigt Vega in 7 nm und EPYC der 2. Generation

Thread Starter
Mitglied seit
06.03.2017
Beiträge
113.955
amd-newhorizon.jpg
Unter dem Motto "New Horizon" hat AMD in San Francisco über seine Zukunft im Datencenter gesprochen. Nach einem Rückblick zu EPYC und Radeon Instinct ging es dann auch schon an die Neuerungen.Nicht aber eine Radeon Instinct MI25 mit Vega-GPU in 7 nm und im Vollausbau mit 64 Compute Units wurde zunächst vorgestellt, sondern eine Radeon Instinct MI60 als erste "7 nm GPU" - und damit als schnellste GPU-Beschleuniger mit PCI-Express-Interface. Die Karte wird anhand der Namensgebung eine Rechenleistung von 60 TFLOPs für FP16-Berechnungen bieten. Die Radeon Instinct MI25 kommt auf 25 TFLOPs Peak-Rechenleistung für FP16.Die Radeon Instinct MI60 soll auf der...

... weiterlesen
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
- PCIe 4.0
- halbierte Leistungsaufnahme bei gleicher Leistung
- mehr Kerne je CCX

Ich glaube, AMD zeigt der Konkurrenz endlich mal den Auspuff. Gerade für die 8Core-CPUs im Desktop dürfte das Design interessant werden.
 
AMD hatte alles auf 7nm gesetzt und es scheint sich gelohnt zu haben. :)

AMD ist ne ziemlich coole CPU Firma derzeit ...
 
Intel hat eh schon eine Krisensitzung angekündigt!

Ob es mehr Kerne pro CCX sind, ist bis jetzt aber schon noch rein spekulativ;)
 
Wer ist Intel? ^^
 
Intel ist die Hinterhoffirma, die glaubt, die Dice auf einem MCM würde man mit Klebstoff befestigen;)
 
Und was bedeutet das mit Vega 20? Wird man nun bei den GPUs auch Nvida einholen/überholen können, wie schon Intel bei den CPUs?

Ist vielleicht ne doofe Frage, aber ich bin, was so Architekturen betrifft, quasi unwissend :)
 
zu Vega 20

"Anders als die Vega-10-GPUs wird Vega 20 auch FP32- und FP64-Einheiten bieten können."

Da hat der Autor wohl was verwechselt.

FP64 ist mit 7,4 TFLOPS angegeben, FP32 mit 14,7 TFLOPS, bei Int4 werden 118 TOPS erreicht.

zu Zen 2

"Um die Rechenleistung weiter zu erhöhen und dem Datacenter-Fokus gerecht zu werden hat AMD die Zen-2-Architektur etwas ausgebaut. Unter anderem bietet diese nun vier 256 Bit breite FPUs (Floating Point Units). Zudem hat man den Op-Cache vergrößert, den Instructions Cache reorganisiert und die gesamte Pipeline weiter optimiert."

Für die, die es nicht im Kopf haben: Zen hat 4x 128bit FP-Units. Die weiteren Optimierung sind
improved branch predictor
better instruction pre-fetching
doubled load/store bandwidth
increased dispatch/retire

Das ist ein sehr deutliches Update der Zen-Architektur! Mit den aufgebohrten FP/SIMD-Units geht man Intels letzte Bastion heftig an...
 
Zuletzt bearbeitet:
Vega20 überholt alles von NVIDIA, aber diese GPU wird nicht für Gamerkarten genutzt.
 
Hört sich auf alle Fälle sehr interessant an. Mein Warten auf Zen-2 scheint sich zu lohnen :)
 
"Die Karte wird anhand der Namensgebung eine Rechenleistung von 60 TFLOPs für FP16-Berechnungen bieten. Die Radeon Instinct MI25 kommt auf 25 TFLOPs Peak-Rechenleistung für FP16.

Die Radeon Instinct MI60 soll auf der Vega-20-GPU basieren und kommt auf 13,28 Milliarden Transistoren und hat eine Chipfläche von 331 mm². Die Vega-10-GPU kommt auf 12,5 Milliarden Transistoren auf einer Fläche von 484 mm².
"

MI60 riecht stark nach Dual GPU.
Warum? Wie bitte will man mehr als doppelte Performance in FP16 aus nur unwesentlich mehr Transistoren ziehen?
Das geht imho so nicht. Somit würde eine MI60 eine doppelte "MI30" sein.

Möglicherweise bedeutet damit auch, dass der Vega20 doch kein 4096Bit SI hat, sondern man nur 2x2048Bit nutzt auf zwei GPUs verteilt. Möglich wäre aber auch (man hat IF ja explizit erwähnt), dass man einen MCM Ansatz auch für Vega verfolgt. Also man zwei DIEs auf einem Träger unter bringt.


EDIT: OK, wohl kein Dual GPU - aber MI60 steht wahrscheinlich dann nicht mehr für 60 TFlop/s FP16. Auf den Folien sieht man ne Single GPU mit 4x HBM Stacks.
Und man spricht von >1,25x Performance. Was schon eher hinkommt - mit gesteigerten Takt halt.


"Rome wird aus einem I/O-Die bestehen, der in 14 nm gefertigt wird und sämtliche I/O-Aufgaben übernimmt. Realisiert wird dies über den Infinity Fabric in der 2. Generation. An den I/O-Die werden dann die CPU-Chiplets angebunden. In der Präsentation zeigt AMD einen Aufbau mit einem zentralen I/O-Die mit zwei CPU-Chiplets. Wie die Chiplets selbst aufgebaut sind, hat man noch nicht verraten. AMD spricht allerdings von einer höheren "Core Density" – also womöglich verdoppelten Anzahl an Kernen pro CCX."
Auch hier gibt es bewusst?? keine konkreten Infos.
Das Bild suggeriert durch die Schreibweise "Chiplets" eher, dass die 2x Chiplets nur die Andeutung für eine unbekannte Menge sind. Anstatt eben 2x in Summe. Dann müsste dort eher "Chiplet" stehen.
Zähle ich mal die IF Ports, die AMD da in den Controller-DIE einzeichnet, komme ich auf 8x. 8x8 wären 64C -> möglich. Aber dann bleibt kein IF Uplink mehr für nen zweiten Prozessor?

So wie ich das sehe erwähnte man auch nirgends nen zweiten Prozessor? Vielleicht stampft man das auch direkt ein?
Ich komme eigentlich nur deswegen drauf, weil im gezeigten Epyc 32C Schaubild die Hälfte der IF Links "leer" ist - weil dort eben der zweite Prozessor in einer 2P Kombo angebunden ist...

Ergibt für mich drei mögliche! logische Schlüsse:
- entweder mehr Cores pro CCX (vllt 6x, vllt 8x)
- oder gar ein 48C Design für die Anbindung? - Dual IF Uplink pro Controller-DIE könnte schon "reichen" für ein 2P Design
- oder alles halb so wild und das Schaubild ist nicht genau genug
 
Zuletzt bearbeitet:
"Anders als die Vega-10-GPUs wird Vega 20 auch FP32- und FP64-Einheiten bieten können."

Da hat der Autor wohl was verwechselt.

Ja hat er. Ist korrigiert, danke! ;)

MI60 riecht stark nach Dual GPU.

Technische Daten der Radeon Instinct MI60: Radeonâ„¢ Instinctâ„¢ MI60 Accelerator| Deep Learning and HPC | AMD
Technische Daten der Radeon Instinct MI50: Radeonâ„¢ Instinctâ„¢ MI50 Accelerator | Deep Learning and HPC | AMD
 
Intel ist die Hinterhoffirma, die glaubt, die Dice auf einem MCM würde man mit Klebstoff befestigen;)

@Holzmann

Beide ein benehmen wie Hinterhof dullis!
Ich muss echt bei euch wider die Theorie aufgreifen das ihr beide ein die selbe Person seid.
Die Art der Ausdrucksweise und ständiges zusammen auftreten in Threads lässt nur diesen Schluss.
 
64cores/128threads und PCI-E 4.0 wurden soeben bestätigt für Rome. :bigok:
 
Das Bild suggeriert durch die Schreibweise "Chiplets" eher, dass die 2x Chiplets nur die Andeutung für eine unbekannte Menge sind. Anstatt eben 2x in Summe. Dann müsste dort eher "Chiplet" stehen.
Zähle ich mal die IF Ports, die AMD da in den Controller-DIE einzeichnet, komme ich auf 8x. 8x8 wären 64C -> möglich. Aber dann bleibt kein IF Uplink mehr für nen zweiten Prozessor?

Korrekt. Es sind 8 Chiplets + 1 I/O Chip. Bei einem 64C Prozessor ergeben sich damit 8 Kerne pro Chiplet. Wäre dann noch die Frage offen ob es 1x CCX oder wie gehabt 2x CCX sind.

Und 2020 ist AMD (vielleicht) soweit :d
7nm - my ass.

Ist für 2019 angekündigt... Mal sehn ob du oder AMD Recht behält. :d
 
Zuletzt bearbeitet:
"MI60 riecht stark nach Dual GPU.
Warum? Wie bitte will man mehr als doppelte Performance in FP16 aus nur unwesentlich mehr Transistoren ziehen?
Das geht imho so nicht. Somit würde eine MI60 eine doppelte "MI30" sein.

Das hier spräche eher dagegen.
Ja, es ist nur eine Marketingfolie und nein, ich kann mir die FP16-Leistung auch nicht erklären.

Übrigens weisen 14,7 TFLOPS : 12,5 TFLOPS auf einen Takt um 1,75GHz.

Möglich wäre aber auch (man hat IF ja explizit erwähnt), dass man einen MCM Ansatz auch für Vega verfolgt.
Guter Punkt, insbesondere da man ja eine IF mit 100 GB/s verbaut hat.

Update:
@Don
Danke für die Links.
 
Zuletzt bearbeitet:
Lisa hat ja gar nen Prozessor ins Bild gehalten - das Controllerteil ist schon riesig - wird sicher anhand der gebrachten Infos auf den Folien "Hochrechnungen" geben, wie groß die DIE Size da am Ende in etwa sein wird. Mal gucken.
Konsequenterweise dürfte man das Portfolio wohl dann in diese Richtung versuchen auszurichten. Das "geile" an diesem Ding wird aber wohl werden, dass eine Art vNUMA möglich sein könnte. Vllt sogar 64C als Single Node? Dann hätte man mit einem Sprung effektiv den größten Kritikpunkt der alten Epycs über den Haufen geschmissen.
 
Wenn Singlenode, dann profitiert da auch die Threadripper WX Serie von. Man hat dann generell das Problem mit den Kernen ohne direkt Ram Anbindung nicht mehr... Das geht ja alles zentral über den I/O Die. Ansich echt gut ausgeklügelt.
 
Das hier spräche eher dagegen.
Ja, es ist nur eine Marketingfolie und nein, ich kann mir die FP16-Leistung auch nicht erklären.

Schau mal das Edit oben - ich habe mittlerweile die Infos schon gesehen, der Post entstand aber davor ;)
MI60 steht demnach wahrscheinlich eher über INT8 Performance entgegen der bisherigen FP16. Die Frage, wie man 60 FP16-TFlop/s mit nur bisschen mehr Transistoren bringen will stellt sich demnach gar nicht. :wink:
 
OMG das es so schnell geht hätt ich nicht gedacht, was den technischen Vorsprung angeht.
Der Zen-2 Prozessor wird auf dem Markt so ein Erdbeben auslösen.
Ich sehe schon die Intel i7 auf der Resterampe für 150€ :eek:
 
Lisa hat ja gar nen Prozessor ins Bild gehalten - das Controllerteil ist schon riesig - wird sicher anhand der gebrachten Infos auf den Folien "Hochrechnungen" geben, wie groß die DIE Size da am Ende in etwa sein wird. Mal gucken.

In der News findet ihr weitere Bilder. Unter anderen auch vom Prozessor mit den 8+1-Dies. Ist echt riesig der I/O-Chip, allerdings dürfte der für die ganzen IF-Links auch nicht kleiner zu machen sein.
 
Wenn Singlenode, dann profitiert da auch die Threadripper WX Serie von. Man hat dann generell das Problem mit den Kernen ohne direkt Ram Anbindung nicht mehr... Das geht ja alles zentral über den I/O Die. Ansich echt gut ausgeklügelt.

Joa, das wäre die Idee dahinter.
Ob man das natürlich so macht, keine Ahnung. Möglich ist das sicher schon.

Technisch gesehen ist das halt der ideale Baukasten - wenn man es bisschen überspitzt nimmt, geht AMD gerade den Weg zurück VOR den A64. Denn es gab davor auch schon CPUs (meist Xeon MP) mit mehreren Frontside Bussen zur Anbindung mehrerer CPUs an EINEN Chipsatz mit lokalem RAM am Chipsatz - sowie dem ganzen IO Kram.

Aber warten wir mal ab.

- - - Updated - - -

Ist echt riesig der I/O-Chip, allerdings dürfte der für die ganzen IF-Links auch nicht kleiner zu machen sein.

Ist halt die Frage wie man das Teil dann skalieren will.
Mehr als einen aufzulegen wäre ne Option - kleinere CPUs = kleinerer Chip = weniger Ports. Aber ne zweite Fertigung allein dafür? Könnte sich von der Menge vllt nicht ausgehen.
Andererseits, man braucht wahrscheinlich früher oder später eh nen zweiten/dritten Controller. Weil die Desktop Modelle sicher nicht das Riesen Ding unter den Deckel bekommen. Eine Notebook APU sicher auch nicht...
Der Trick das auf nem alten Prozess zu lassen und damit die Kapazitäten ggf. gar auf TSMC und GloFo zu splitten?? ist aber schon ne interessante Idee.
 
Wie Zen2 Rome da gleich zwei Intel CPUs verhauen hat war ja nicht mehr schön anzusehen. Bei Intel gibt es wohl gerade eine Kriesensitzung :d
 
Man splittet ja nicht nur die Kapazitäten zwischen 14nm und 7nm, sondern man senkt auch die Kosten extrem. Der I/O Chip kann in 7nm einfach nicht günstig herzustellen sein.

Ich gehe auch von mehreren I/O Chips aus. Auf AM4 dann vermutlich sogar nur ein einzelnes Chiplet (sind ja dann 8 Kerne) und der I/O. Der I/O fällt dann dank "nur" 2 Ramkanälen, weniger PCIe Lanes und keinen IF Links deutlich kleiner aus. Den kann man dann sogar für die APUs nutzen. Ob ne separate Maske für die APUs kommt wäre dann die Frage. Ne komplett eigene Maske für nen monolythischen 8 Consumer Kerner sehe ich aber irgendwie noch nciht...

@w0mbat
Nunja, stand ja auch 2x28 Kerne gegen 64 Kerne. Mal abwarten wie sich der kommende Intel mit 48 Kernen dann schlägt.
 
OMG das es so schnell geht hätt ich nicht gedacht, was den technischen Vorsprung angeht.
Technologisch hat AMD einen Vorsprung von mehreren Jahren!

Ist echt riesig der I/O-Chip, allerdings dürfte der für die ganzen IF-Links auch nicht kleiner zu machen sein.
Das dürfte eher an den 8 DDR4-PHYs liegen.

Weil die Desktop Modelle sicher nicht das Riesen Ding unter den Deckel bekommen. Eine Notebook APU sicher auch nicht...
Für TR verwendet man sicher die selbe I/O-Die wie für Epyc.

Bei AM4 kann ich mir durchaus vorstellen, daß in Vega12 schon I/O für ein MCM integriert ist.
Vega12 ist mit nur 20 CUs fast so groß wie Polaris mit 36 CUs!
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh