Erste Details zu Vega 10, Vega 11 und Vega 20: Bis zu 4.096 Shadereinheiten und 32 GB HBM2

Selbst Hawaii kann Shader Model 6.0. Vorausgesetzt ist Featurelevel 12_0, also Bonaire, Hawaii, Kaveri, XBox One.
Oha, zeigt das auch GPUz an?

Nicht falsch verstehen, es ist schon spannend für mich wie sich sowas zusammen setzt, aber irgendwie drehen wir uns im Kreis.
Die besten technischen Daten bringen nichts, wenn die Software "stumpf" ist.

Es macht schon fast den Eindruck als wäre einfach Programmieren wichtiger als Bildqualität unter die Leute zu bekommen. ;)
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Da ein V20 kaum über 250mm² haben dürfte und dann der günstige HBM-Speicher mit halber Bandbreite und ohne Basischip verfügbar wird, dürfte V20 dann wie Polaris ein Mainstreamchip werden, der durch Navi nach oben hin ergänzt wird. Die Produktpolitik macht durchaus Sinn.

Die Frage ist, wie groß wird der V10 und was kann er?
Bei angenommenen FP16 und 24TFlop/sec sollte das Verhältnis wohl ähnlich GP100 bei 4:2:1 liegen zwischen FP16/FP32/FP64... Heist also wir sprechen hier wohl (über die schon länger spekulierten) 4096 ALUs bei ~1,45GHz.
Das Ding sollte damit ein Zwitter (wie auch Hawaii und Tahiti) werden und sowohl im Profimarkt als auch im Gamermarkt (wohl sicher wieder teildeaktiviert/eingebremst) ausgehauen werden...
Dieser benannte Shrink dürfte sicher kein Shrink werden... -> allesdings könnte man ihm den Profibalast nehmen und damit Fläche sparen.

Interessant ist die Aussage zum 11er. Wie seinerzeit von mir schonmal angenommen scheint diese "Quelle" ebenso anzunehmen, dass der 11er kleiner dem 10er ist. -> wie bei Polaris auch schon. In der Gerüchteküchte kocht ja immernoch das Gerücht der 11er hätte 6144 ALUs und wäre damit größer als der V10... Halte dies nach wie vor für unwarscheinlich, einen Bruch im Zahlenschema schon mit dem zweiten Modell zu bringen.
 
Es wäre doch kein Bruch, AMD nummeriert nach Reihenfolge der Entwicklung.
Die Entwicklung an P11 hat vor P10 begonnen, mit der Größe hat das nichts zutun.
 
Der V11 wird die Lücke zwischen V10 und P10 schließen, was auch Sinn macht.
Großer als 500mm² wird V10 mMn nicht sein. Fiji hat schon 64CUs bei 600mm², V10 ist entsprechen kleiner + X. Interessant ist deine Aussage, fdsonne, vor allem bezüglich V20. Das stimmt, es könnte durchaus sinnvoll sein, V20 um den ganzen Profikrampf zu erleichtern. Dann würde man für Profigedöns den V10 einfach weiterverwenden und hätte zusätzlich einen grünstigen Mainstreamchip.
FP16 wird allerdings auch im Grafikbereich recht wichtig werden, da man hiermit recht viel Ressourcen einsparen kann und man für viele Compute-Probleme nur FP16 benötigt.
 
Zuletzt bearbeitet:
Wenn die große Vega 64CUs hat, wo soll dann darunter Platz für eine kleinere Vega sein?

Zwischen 36 CUs beim Polaris 10 und 64 CUs beim (fiktiven) Vega 10 sehe ich ne gewaltige Lücke...
Je nach Taktrate kommt so ein 64 CU Vega 10 wohl irgendwo im Bereich GP104 aka 1080 + x raus... Das ist fast Faktor 2 schneller der RX-480 mit dem großen Polaris.

FP16 wird allerdings auch im Grafikbereich recht wichtig werden, da man hiermit recht viel Ressourcen einsparen kann und man für viele Compute-Probleme nur FP16 benötigt.

Bin ich mir noch nicht so ganz im klaren, wohin dort die Reise gehen soll. Eine mögliche Option wäre ja, die Einheiten einfach zu "koppeln" bzw. doppelten Durchsatz für jeweils halbe Genauigkeit zu fabrizieren, wenn die Einheiten es zulassen. Also so ne Art "mixed precision" wie es NV aktuell mit dem GP100 fährt.
Beim reinen Gamerableger könnte man (so wie man es mit der 300er Hawaii Serie ja schon gezeigt hat), DP64 Performance quasi künstlich drosseln und FP32 und FP16 aber voll anliegen lassen. Der Profiableger bekommt dann auch FP64 freigeschalten...
Auf der anderen Seite, wenn wir hier von spätes 2018, vielleicht erst 2019 mit dem Vega 20 sprechen, dann dürfte das Produkt wohl eher im Bereich der Mittelklasse liegen?? -> vielleicht wird dort/ist dort FP16 auch gar nicht auf dem Schirm.
Nimmt man die aktuellen NV Modelle außer dem GP100 als Vergleich (wie auch alle AMD Modelle aktuell?) -> keine davon kann doch FP16 in doppeltem Speed wie FP32. Wenn ich das richtig sehe, kann nur GP100 und der Maxwell Tegra X1 "FP16x2". Sprich das aktuelle Lineup sieht bei NV (und auch AMD) eher keine hohe FP16 Leistung vor... Ob das bei AMD mit dem Vega20 anders wird? Keine Ahnung...
Ein ganz klein wenig riecht das mit dem Vega20 nach Tahiti -> Tonga.
 
Könnte Vega 10 somit um die 50 bis 60% schneller werden als die Fury X Karte wenn die ca. 1,45 Ghz stimmen sollten und Optimierung der Fiji Chip erfahren haben sollte.
 
Lässt sich schwer beurteilen Berni... Fiji krankt in einigen Titeln am etwas ungünstigen Aufbau mit 16 CUs pro Stück FrondEnd... Die Skalierung ist teils (wie bei Tahiti im Vergleich zu PitCairn auch schon damals) wirklich recht mau.
Die Frage ist, wie löst AMD das mit Vega? Polaris hat, wie auch Fiji und Hawaii ein 4x breites FrontEnd. Setzt aber auf 8-9 CUs pro Stück FrondEnd.
Wenn man nun einfach die CUs wieder anzieht, wird die Skalierung wohl sicher nicht so sein, wie bei Polaris, sondern flacher... Alternativ könnte man das FrontEnd nochmals doppeln. Ob das drauf passt oder umsetzbar ist? Keine Ahnung...
 
ich frag mich einfach, wann und wieso denn AMD genau bei den grakas diesen rückstand eingefahren hat.
so wies aktuell aussieht, können Sie 2016 nur im midrange mithalten und 2017 gerade mal die pascal-karten ein- bzw. knapp überholen.
noch vor ein paar jährchen, konnte man von mindestens gleichwertig sprechen...

aber hoffe einfach, dass die Vegas was können, denn auf die freu ich mich schon lange.
 
Lässt sich schwer beurteilen Berni... Fiji krankt in einigen Titeln am etwas ungünstigen Aufbau mit 16 CUs pro Stück FrondEnd... Die Skalierung ist teils (wie bei Tahiti im Vergleich zu PitCairn auch schon damals) wirklich recht mau.
Die Frage ist, wie löst AMD das mit Vega? Polaris hat, wie auch Fiji und Hawaii ein 4x breites FrontEnd. Setzt aber auf 8-9 CUs pro Stück FrondEnd.
Wenn man nun einfach die CUs wieder anzieht, wird die Skalierung wohl sicher nicht so sein, wie bei Polaris, sondern flacher... Alternativ könnte man das FrontEnd nochmals doppeln. Ob das drauf passt oder umsetzbar ist? Keine Ahnung...

Wo liegt eig. das Problem Vega 10 einfach doppelt so groß wie eine 470X aufzubauen? Die scheint ja sehr gut zu skalieren, insbesondere auch in Hinsicht der Bandbreite, wo 2x HBM2 Stacks ja ebenfalls genau doppelt so schnell sind.
 
ich frag mich einfach, wann und wieso denn AMD genau bei den grakas diesen rückstand eingefahren hat.
Lag an 20nm Bulk, Polaris wurde eigentlich dafür entwickelt.
Dann wurde 20nm gestrichen und AMD hatte plötzlich keinen Nachfolger für die 28nm GPUs.
Polaris hätte viel früher kommen sollen, in 20nm!

NVIDIA hat in 20nm auch Geld verbrannt, aber dei konnten das finanziell viel besser wegstecken.
AMD hat auch APUs in 20nm einstampfen dürfen, zu einer Zeit in der es dem Laden finanziell eh nicht so gut gegangen ist.

Vega ist die erste eigentliche für FinFET entwickelte GPU von AMD.

Bleibt zu hoffen, daß bei GF jetzt mit den SOI-Prozessen die sie von IBM haben alles nach Plan klappt.
 
Lag an 20nm Bulk, Polaris wurde eigentlich dafür entwickelt.
Dann wurde 20nm gestrichen und AMD hatte plötzlich keinen Nachfolger für die 28nm GPUs.
Polaris hätte viel früher kommen sollen, in 20nm!

NVIDIA hat in 20nm auch Geld verbrannt, aber dei konnten das finanziell viel besser wegstecken.
AMD hat auch APUs in 20nm einstampfen dürfen, zu einer Zeit in der es dem Laden finanziell eh nicht so gut gegangen ist.

Vega ist die erste eigentliche für FinFET entwickelte GPU von AMD.

Bleibt zu hoffen, daß bei GF jetzt mit den SOI-Prozessen die sie von IBM haben alles nach Plan klappt.

uuuuuhmmm hast du hierfür auch irgend einen Beleg oder eine Quelle??
Denn das was man von AMD am aller häufigsten zu Polaris gelesen hat war das es neu für 14nm FF entwickelt wurde...
 
Und wieder was dazu gelernt.

Top, merkt man doch gleich, wenn ein User richtig Ahnung hat. :)
 
Denn das was man von AMD am aller häufigsten zu Polaris gelesen hat war das es neu für 14nm FF entwickelt wurde...
Naja, Marketing eben.

Genau wie das Märchen, daß bei Polaris fast alles komplett überarbeitet wurde, was eigentlich nicht stimmt.
Erst bei Vega (GFX9) ist das der Fall, GCN4 (GFX8.1) ist eine relativ überschaubare Weiterentwicklung von GCN3 (GFX8).

Carrizo sollte auch ein 20nm Chip werden, das Selbe mit den Cat-APUs, die wurden auch auf 20nm portiert.
 
[...]

Bin ich mir noch nicht so ganz im klaren, wohin dort die Reise gehen soll. Eine mögliche Option wäre ja, die Einheiten einfach zu "koppeln" bzw. doppelten Durchsatz für jeweils halbe Genauigkeit zu fabrizieren, wenn die Einheiten es zulassen. Also so ne Art "mixed precision" wie es NV aktuell mit dem GP100 fährt.
Beim reinen Gamerableger könnte man (so wie man es mit der 300er Hawaii Serie ja schon gezeigt hat), DP64 Performance quasi künstlich drosseln und FP32 und FP16 aber voll anliegen lassen. Der Profiableger bekommt dann auch FP64 freigeschalten...
Auf der anderen Seite, wenn wir hier von spätes 2018, vielleicht erst 2019 mit dem Vega 20 sprechen, dann dürfte das Produkt wohl eher im Bereich der Mittelklasse liegen?? -> vielleicht wird dort/ist dort FP16 auch gar nicht auf dem Schirm.
Nimmt man die aktuellen NV Modelle außer dem GP100 als Vergleich (wie auch alle AMD Modelle aktuell?) -> keine davon kann doch FP16 in doppeltem Speed wie FP32. Wenn ich das richtig sehe, kann nur GP100 und der Maxwell Tegra X1 "FP16x2". Sprich das aktuelle Lineup sieht bei NV (und auch AMD) eher keine hohe FP16 Leistung vor... Ob das bei AMD mit dem Vega20 anders wird? Keine Ahnung...
Ein ganz klein wenig riecht das mit dem Vega20 nach Tahiti -> Tonga.

Mit wachsendem Compute-Anteil (Beleuchtung, PostProcessing o.Ä.) wird wie gesagt auch half-precision immer interessanter, selbst wenn man nicht schneller rechnet (wie GCN IPv8), da es eben Cache und Registerplatz einspart. GCN IPv8 (Tonga, Fiji, Carrizo/BR, Polaris) können FP16, aber nur einfach. Es bringt also in jedem Fall etwas, wenn man es einsetzt, sofern es unterstützt wird. GCN IPv7 (Hawaii usw.) und alle NVs (bis auf GP100) können nur full-precision, schlagen also keine Vorteile daraus, aber erleiden eben auch keinen Nachteil. Bei GCN IPv9 scheinen sich die CUs grundsätzlich zu ändern, hier wird doppelte half-precision-Power offenbar einfach zum Standard (bei V10, 11 und 20). Nur double-precision wird bei den kleineren Vegas sicherlich eingeschränkt sein, hier wird nur V10 als Profivariante 1:2 bieten. V10 Custom wird sicherlich wie Hawaii wieder 1:8 bieten. Das ist für Spiele auch nicht weiter Relevant. Zwar gibt es Anwendungsfälle, bei StarCitizen hab ich da mal was im Zusammenhang mit den prozeduralen Berechnungen und GPU-Compute gelesen, jedoch dürfte dort selbst Maxwell-DP-Leistung ausreichen.
MMn wird auch Volta FP16 doppelt als Standard können, das muss sich aber noch erweisen. Ich rechne eh damit, dass Volta nicht vor Ende 2018 kommt und dann direkt in 7nm TSMC (N7).
 
Zuletzt bearbeitet:
versteh ich das richtig
PCIe 4.0 gibts erst ab V20?
 
Ja. 2017 kommen außerhalb des Serverbereichs wenn überhaupt wahrscheinlich eh keine CPUs und Mainboards mit PCIe 4.0.
 
na dann, danke :)
wird sich zeigen was sich da tut
 
PCIe 4.0 ist für Gamer eh erst mal unwichtig, nichtmal PCI 3.0 x8 bremst wirklich.

Toll wäre es, wenn man mit 4.0 die Slotlängen ändert, für Grafikkarten reicht ein x8 der nach hinten offen ist um mit x16er Karten kompatibel zu bleiben.
Dann den x4 den es oft gibt durch einen offenen x2 oder x3 ersetzen und auch da Lanes zu sparen.
 
Jap x16 4.0 er lanes für eine Karte wären für Gamer eine arge Verschwendung!
 
Ich glaube der x16 Slot ist aber auch für die Stromversorgung notwendig.
 
Gab ja mal die 12-Lane-PEG-Initiative, das wär cool gewesen.
 
Wäre auch gut, aber aus allem wird wohl nichts.
Die Leute wollen immer nur mehr Lanes, eine sinnvolle Verteilung interessiert niemanden:\

Dabei wäre es echt so einfach, die neuen Slots einfach zumindest in der Übergangszeit hinten einfach offen lassen, dann funktionieren auch längere alte Karten.
Eine x12 Karte würde auch in jeden x16 Slot passen.
 
ich frag mich einfach, wann und wieso denn AMD genau bei den grakas diesen rückstand eingefahren hat.
so wies aktuell aussieht, können Sie 2016 nur im midrange mithalten und 2017 gerade mal die pascal-karten ein- bzw. knapp überholen.

Das dürfte viel eher an einer Entscheidung bei AMD gelegen haben und ggf. an einer Fehleinschätzung bzgl. GP102 und GP104 bei NV (seitens AMD)
-> nimmt man es genau, so viel unterschiedlich ist der Ansatz beider Hersteller nun nicht. GP104 hat ein paar mehr ALUs, die Rohleistung ist also etwas höher. Das, was den Unterschied heute ausmacht ist der Takt. Wenn da 1,8-2GHz für GP104 stehen und AMD mit Karten bei ~1,2-1,3GHz rumkrebst, ist da ne gewaltige Lücke.
Man könnte fast meinen, es war zu erwarten, dass NV analog dem GK104 damals mit dem GP104 ähnlich agiert. Kleine GPU, hoher Takt... Einzig der GP102 kam erstaunlich früh, dafür ist der Abstand zur 1080er aber auch erstaunlich klein (default vs. default)

Wo liegt eig. das Problem Vega 10 einfach doppelt so groß wie eine 470X aufzubauen? Die scheint ja sehr gut zu skalieren, insbesondere auch in Hinsicht der Bandbreite, wo 2x HBM2 Stacks ja ebenfalls genau doppelt so schnell sind.

Theoretisch gibt es da eigentlich keins... Die Frage ist, ob AMD ein 8x FrontEnd baut oder nicht? Bis dato gab es das nicht... Bspw. hat man von Tonga auf Fiji (beides die selbe GCN Generation) das FrontEnd nicht verbreitert, die ALU Anzahl aber verdoppelt. Warum und wieso? Keine Ahnung, vielleicht technische Gründe, vielleicht wäre der Aufwand so ein FrontEnd zu betreiben zu hoch? Man weis es nicht genau...

Dabei wäre es echt so einfach, die neuen Slots einfach zumindest in der Übergangszeit hinten einfach offen lassen, dann funktionieren auch längere alte Karten.
Eine x12 Karte würde auch in jeden x16 Slot passen.

Für was soll das gut sein?
Das macht den Spaß doch trotzdem nicht flexibel... Flexibilität erreicht man bspw. durch PLX Brückenchips. Ich kann auf meinem (schweine teuren) WS Asus Brett effektiv stecken was ich will und habe volle Performance. Nur nicht gleichzeitig. Aber das betreibt idR ja auch Niemand gleichzeitig.
Begrenzte Lanes nun umzuverteilen halte ich für unsinn. Lieber die Flexibilität erhöhen. Ähnlich den PLX Chips, von mir aus auch mit dynamischer Lanezuordnung direkt von CPU zu den Slots. Oder eben durch sharing vorhandener Lanes... Im Endeffekt hat da Jeder was von.
Die 32 Lanes, die zwei GPUs heute wegfressen, verpuffen, wenn gerade keine Last anliegt. Mit 2x12 hingegen wird das nicht viel besser... Bei flexibler Verteilung können die GPUs aber mit je 16x, ein Raidcontroller oder SAS PCIe Device außerhalb der GPU Last aber auch mit vollem Speed usw.
 
Von flexibel hab ich ja auch nichts gesagt, trotzdem ist x16 bei 4.0 selbst für eine Titan total überdimensioniert.

PLX ist teuer und somit nicht massentauglich.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh