GTC 2016: Keynote-Präsentation der Tesla P100 mit Pascal-Architektur

Don · 05.04.2016

<p><img src="/images/stories/logos-2016/nvidia-gtc.jpg" alt="nvidia gtc" style="margin: 10px; float: left;" />Die GPU Technology Conference ist typischerweise keine Veranstaltung, auf der NVIDIA neue GPU-Architekturen enthüllt. Vielmehr nutzt NVIDIA die GTC zur Aktualisierung der Roadmaps für GPUs sowie Tegra und gibt einen Ausblick auf neue Technologien. Dieses Mal aber ging NVIDIA einen anderen Weg und präsentierte die Tesla P100. Diese basiert auf einer neuen GPU, die wiederum auf der Pascal-Architektur beruht. Doch bevor es zur eigentlichen Produktpräsentation ging, nannte Jen-Hsun Huang auf der Bühne die Kosten für die Entwicklung der Pascal-Architektur und für die Tesla P100, die bei 2-3 Milliarden US-Dollar gelegen haben sollen. Natürlich nennt NVIDIA hier keine exakten...<br /><br /><a href="/index.php/news/hardware/grafikkarten/38707-gtc-2016-keynote-praesentation-der-tesla-p100-mit-pascal-architektur.html" style="font-weight:bold;">... weiterlesen</a></p>

Don · 05.04.2016

Dann mal viel Spaß bei der Diskussion. Die Keynote ist gleich beendet und dann geht es in eine Q&A-Session, in der vielleicht noch weitere Details veröffentlicht werden.

BrennPolster · 05.04.2016

Pascal für normal sterblich vermutlich auf NVIDIAs game24 event.

Quov · 05.04.2016

Kann mir zufällig jemand diese Änderungen in den Kontext zur letzten Generation bringen?

Ich hab den Artikel zwar mMn relativ gut durchdrungen, allerdings ist das doch sehr technisch für mich - was bedeutet die die Steigerung der TFLOPS für uns Gamer im Bezug auf Leistung?
Die Annahme liegt nahe, dass man hier keine 1:1 Umrechnung in FPS erwarten kann.

Die Umstellung von GDDR5 auf HBM2 erhöht die Bandbreite - aber ist das überhaupt ein limitierender Faktor? Wenn ich eine Datei von HDD nach HDD verschiebe, limitiert ja auch nicht der RAM sondern die HDD.

Don · 05.04.2016

Die Rückschlüsse auf die Gaming-Leistung sind in der Tat schwierig. Dazu mache ich mir noch ein paar Gedanken.

Die Anbindung des Speichers ist derzeit eine limitierender Faktor mit GDDR5, zumal bei den großen und leistungsstarken GPUs.

BrennPolster · 05.04.2016

Mit GDDR5X kann man diesen Flaschenhals unter höheren Auflösungen aber wieder gut machen.
Klar hat man dann immer noch ein Flaschenhals, ist nun mal kein HBM.

fdsonne · 05.04.2016

Mhhh interessant, wie war das noch vor ein paar Wochen? NV hat nichts von Pascal gezeigt, also kann da nix kommen? HBMv2 wäre nicht fertig? Derartiger Transistorcount ist nicht ab Start im neuen Prozess?

Das Teil ist durchaus interessant vor allem bei dem Punkt, dass man hier Zeitnah ausliefern will... wer hätte das gedacht?

Es bestätigt sich damit auch meine Vermutung, dass NV zumindest schnell einen neuen Chip mit ordentlich DP Power bringt um den altbackenen GK210 Kepler endlich abzulösen. Auch das wurde hier nicht für möglich gehalten... na mal schauen was AMD dagegen bringt

mit Polaroid 10 und 11 sollte das nix werden, denn die scheinen zu klein als Gegenspieler. Um die Großen gibt's noch wenig Infos.

Quov schrieb:
Kann mir Ich hab den Artikel zwar mMn relativ gut durchdrungen, allerdings ist das doch sehr technisch für mich - was bedeutet die die Steigerung der TFLOPS für uns Gamer im Bezug auf Leistung?
Die Annahme liegt nahe, dass man hier keine 1:1 Umrechnung in FPS erwarten kann.

Als Vergleich bieten sich die 10,6TFlop/s von FP32 am sinnvollsten an. Das ist eine Steigerung von ca. 50% auf GM200. Das Teil könnte also ~4500 ALUs haben bei leicht höherem Takt zum GM200. Da es hier um einen Tesla Ableger geht und unter der Annahme, dass NV auf Basis der gleichen GPU ein Geforce Modell bringt (und wenn es nur eine neue Titan ist), sollten wohl mindestens mal 60% auf eine 980TI/TitanX drauf kommen, weil bis dato die Gamermodelle höher getaktet waren. Setzt natürlich voraus, dass man so ein Modell überhaupt bringt

der kleine GP104 kommt da aber definitiv nicht hin. Anhand der Tesla Werte kann man da aber wohl sicher mit gut GM200 Leistung rechnen. Vielleicht sogar leicht drüber. -> was dann eine ähnliche Lücke wie GM204 zu GM200 wäre, also im Rahmen des möglichen.
Da der Transistorcount aber grob Faktor 2 gestiegen ist, könnte es auch an die 5000 ALUs sein, dafür geringerer Takt.

MysteriousNap · 05.04.2016

Ich würde ja jetzt zu gerne die Ausreden, der damaligen User hören....kann ja gar nicht sein, was Nvidia da gezeigt hat

Ansonsten wirklich interessant was Nvidia gezeigt hat. Klar nix für den Desktop Bereich, aber die Technologien dahinter sind sehr interessant. Auf 1070/1080 und später dann Ti und X müssen wir uns aber wohl noch etwas gedulden. Auch wenn ich dieses Jahr eigentlich gar nicht upgraden möchte :fresse:

huberei · 05.04.2016

Wann endet denn bei nv das erste quartal?

fdsonne · 05.04.2016

Wenn ich das richtig gesehen habe werden es 3840 ALUs bei über 1,3GHz. Der erste Anlauf bekommt aber wohl nur 56 der möglichen 60 SMs. Aufteilung der ALUs wird weiter verringert, von heute 128 auf nunmehr nur 64, damit zieht man das wieder weiter auseinander. Kepler hatte noch 192. Der GP100 bekommt wohl 6 GPCs, wie auch schon der GM200, hat nun aber 10 SMs pro GPC.

Die hier alles entscheidende Frage ist aber, wird es davon Gamermodelle geben? Es steht ja immer noch der GP102 im Raum.

Mafle21 · 05.04.2016

also im Januar endete bei NV das Geschäftsjahr hm dann jetzt diesen Monat

fdsonne · 05.04.2016

Wenn man der Meldung bei CB traut, sind die Dinger in Produktion und gehen zuerst an Anbieter für Cloud Services. Normales Endkundengeschäft ab Q1/2017. Und den GP104 ggf. im Sommer

Don · 05.04.2016

Ich habe die Pascal-Architektur mal noch etwas genauer zusammengefasst: GTC 2016: Die Pascal-Architektur im Detail - Hardwareluxx

NasaGTR · 06.04.2016

Gibt es Infos zu Async Shader Kompatibilität von Pascal?

Als zukünftiger Käufer einer Vega bin ich sehr interessiert daran das Nvidia Async Nutzen kann, denn ansonsten sorgt Nvidia für die Boykotierung von Async. Shaders... Mir ist es egal wer nun 10% schnelelr ist als der andere Hauptsache man bekommt möglichst viel Leistung. Wenn Nvidia Pascal Async Shaders nutzen kann gewinnen alle Spieler!

Zum GP100 wow was für ein Monster und das direkt beim neuen Prozess? Ob sie sich da nicht die Zukunft verbauen wenn sie jetzt schon sowas bringen? Aber die Leistung wird abgehen, allein 30% mehr Shader, Den Takt kann man schlecht einschätzen da es wohl alle 980 Ti zu 1300MHz Boost schaffen, wenn die Pascal karte dort aber genauso gut höher takten kann kann man davon ausgehen dass die kommende Pascal Titan wohl mindestens so 50-60% Mehrleistung gegenüber der GTX980 Ti hat.

Für 4K Gaming sollte das dann endlich reichen!

Der Preis wird allerdings sicherlich so um die 1500€ - 1700€ sein...

Cibo · 06.04.2016

Meine Einschätzung wenn die Titan und Ti getrennt beibehalten werden.

Titan
3840 shader 16gb HBM2 (+25%Shader) nicht zum Start verfügbar

Ti
3584 shader 8gb/12gb HBM2 (+27%Shader)

Oder wenn man die Ti bzw. Titan aufgibt.

Titan/Ti
3840 shader 16gb HBM2 (+25%Shader)

980
3584 shader 8gb HBM2 (+75%Shader), klingt aber nach zu heftigen Sprung für eine 980 und darf als neue Ti angesehen werden

Was mich eben wundert ist das 3584 Shaderkerne gleich zum Start kommen sollen, die Ti kam damals doch recht spät und der Vollausbau aka Titan ist es eben auch nicht. Gleichzeitig klingen die News als ob 16gb schon mit 3584 Shader Karten kommen, nur dann müsste die Titan aks Verkaufsargument ja noch mehr drauflegen.

majus · 06.04.2016

Cibo schrieb:
Meine Einschätzung wenn die Titan und Ti getrennt beibehalten werden.

Titan
3840 shader 16gb HBM2 (+25%Shader) nicht zum Start verfügbar

Ti
3584 shader 8gb/12gb HBM2 (+27%Shader)

Oder wenn man die Ti bzw. Titan aufgibt.

Titan/Ti
3840 shader 16gb HBM2 (+25%Shader)

980
3584 shader 8gb HBM2 (+75%Shader), klingt aber nach zu heftigen Sprung für eine 980 und darf als neue Ti angesehen werden

Was mich eben wundert ist das 3584 Shaderkerne gleich zum Start kommen sollen, die Ti kam damals doch recht spät und der Vollausbau aka Titan ist es eben auch nicht. Gleichzeitig klingen die News als ob 16gb schon mit 3584 Shader Karten kommen, nur dann müsste die Titan aks Verkaufsargument ja noch mehr drauflegen.

Damit kommt damit auf insgesamt 3.840 Shadereinheiten (6x10x64). Dies gilt allerdings nur für den Vollausbau von GP100, denn auf der Tesla P100 kommen nur 56 SMs zum Einsatz, was wiederum in 3.584 Shadereinheiten resultiert.

Siehe den verlinkten Artikel zur Pascal Architektur =)

fdsonne · 06.04.2016

NasaGTR schrieb:
Als zukünftiger Käufer einer Vega bin ich sehr interessiert daran das Nvidia Async Nutzen kann, denn ansonsten sorgt Nvidia für die Boykotierung von Async. Shaders... Mir ist es egal wer nun 10% schnelelr ist als der andere Hauptsache man bekommt möglichst viel Leistung. Wenn Nvidia Pascal Async Shaders nutzen kann gewinnen alle Spieler!

Das würde ich so nicht sagen, wenn die eine Partei ASync Shader braucht, damit die Leistung auf die Straße kommt (wobei stimmt nicht ganz, eher damit das letzte "i" Tüpfelchen auch auf die Straße kommt, triffts eher), die andere Partei aber nicht, weil die Hardware es so auch gut abfedert, dann spielt das doch keine Rolle, wenn beide Parteien grundsätzlich ASync supporten. Bei NV scheint das aktuell über eine Software Geschichte zu laufen... Jedem Entwickler steht es frei, ASync Shader einzusetzen.

Am Ende entscheidet auch nicht die Fähigkeit von ASync Shader ja/nein, sondern das was am Ende bei rum kommt. Wie die Leistung erreicht wurde, ist dem Endkunden herzlichst egal

NasaGTR · 06.04.2016

Ok das ist ein sinnvoller Denkansatz, jedoch scheint die Grafikkarte sich mit Async Shaders überhaupt erst so richtig effizient auslasten zu können. Ohne das Feature langweilen sich die Compute Einheiten und warten sinnlos und das muss man durch höhere Taktraten oder mehr Einheiten ausgleichen.

Die Art und Weise wie dieses P100 HPC Modul verbunden ist finde ich übrigens sehr interessant, mich würde es nicht wundern wenn sich sowas irgendwann für alle Grafikkarten durchsetzt, sodass man die Grafikkarte wie CPUs (samt HBM) auf das Mainboard setzt und dann Tower Kühler für die Kühlung drauf setzt. Somit lässt sich im Server auf jeden Fall der Luftstrum sehr schön ausnutzen. Im Heim PC könnte man seinen Grafikchip dann sehr einfach Kühler und leiser hin bekommen.

Mutio · 06.04.2016

Ist das dann auch sone GPU, wo wir erst nach 1 Jahr mal wirklich die volle Ausbaustufe kriegen?!

DragonTear · 06.04.2016

Mutio schrieb:
Ist das dann auch sone GPU, wo wir erst nach 1 Jahr mal wirklich die volle Ausbaustufe kriegen?!

Garantiert. Ist doch auch schon agekündigt. Dass Teil kommt Frühjahr 2017.

Aber "natürlich" preist man die 15Mrd Variante sofort an, in der Hoffnung etwas von der Bewunderung würde dann auf die viel billiger zu produzierenden, kleineren Chips abperlen.

fdsonne · 06.04.2016

NasaGTR schrieb:
Ok das ist ein sinnvoller Denkansatz, jedoch scheint die Grafikkarte sich mit Async Shaders überhaupt erst so richtig effizient auslasten zu können. Ohne das Feature langweilen sich die Compute Einheiten und warten sinnlos und das muss man durch höhere Taktraten oder mehr Einheiten ausgleichen.

Also bei Ashes scheint das ca. 10-15% Unterschied zu machen. Selbst wenn man ohne Async bencht, profitieren die AMD Chips massiv, NV quasi gar nicht.
Das lässt doch effektiv nur zwei Schlüsse zu. AMD braucht DX12 bzgl. der DrawCall Performance und NV hat das irgendwie schon in DX11 hingezogen bekommen. ASync ist in Ashes halt nur das "i"-Tüpfelchen.
Wie es bei den anderen Titel ausschaut, kann man aktuell eher schwer beurteilen, da es idR. keine Möglichkeit zum Ein- oder Abschalten gibt. Ich würde das im ersten Step aber nicht überbewerten.
Könnte mir sogar vorstellen, das Pascal das gar nicht notwendig hat. Man geht scheinbar auf sehr hohen Takt und zieht die Einheiten weiter auseinander. Das macht den Part eher flexibler. Denn das Kontextswitching selbst ist nicht das Problem, das Problem ist die Zeit der Ausführung. Wenn aber inkl. Kontextswitch sie Zeit geringer ist, muss man auch kein Mittel nutzen um da nebenbei noch GPGPU Code reinzuschieben.
Muss sich halt am Ende zeigen, wie das aufgeht... Der Part hängt so oder so sehr stark davon ab, was die Entwickler noch für Zeugs neben der 3D Berechnung anlegen. Ohne Bedarf an solchen Sachen natürlich auch kein Vorteil durch das Prinzip.

Vielleicht setzt sich mal wer ran und baut mit der Unreal Engine und ein paar GPU beschleunigten Gameworkseffekten nen Bench, denn das Zeug müsste Prinzip bedingt klar davon profitieren. Und kommt sogar von NV. Wenn man dann die Leistungsskalierung vergleicht, sieht man wohl klar, was davon effektiv zu halten ist. Gerade so was wie Hairworks in DX12 mit/ohne ASync vs. DX11. In TW3 läuft der Effekt recht gleich zwischen beiden. Ob aber AMD am Ende deutlich schneller wegen ASync wäre? Das wäre genau die Frage...

NasaGTR · 06.04.2016

Jop das wäre echt mal ein sehr interessanter Test! Also freiwillige vor!

Aber müsste man für die GameWorkseffekte nicht Spieleentwickler sein?

Don · 06.04.2016

GTC 2016: NVIDIA sieht größere HBM2-Chips vor und zeigt Benchmarks zur Tesla P100 - Hardwareluxx

neuli · 06.04.2016

DragonTear schrieb:
die 15Mrd Variante

Würde mich auch mal interessieren was die kosten hat das schon jemand abgeschätzt?
Der Server DGX-1 kostet 129000$ da sind 8 von den Dingern drin. 512 gb ddr 2133 lrdimm ddr4 2133 lrdimm 4000$? 2 Xeons Intel Xeon E5-2698 v3, 16x 2.30GHz, tray (CM8064401609800) Preisvergleich 6200$ Bleiben noch 118800$ für 8 von den Teilen Mainboard Gehäuse Netzteil(e) Kühler. Sagen wir Gehäuse Mainboard Netzteil 18800. Dann bleiben noch 100000$ für die 8 GPU Acceratoren. 12500$ für so nen Teil?

Edit: Ha hab Festplatten vergessen. mal suchen. Gar nicht mehr so teuer: http://geizhals.de/?fs=Samsung+PM863+1.92TB+SSDs&in= Naja runden wir mal spaßeshalber auf 3800 auf.
Bleiben 115000$ für 8 gpu accelerators Mobo Gehäuse Netzteil(e) Kühler. Sagen wir 20000$ für Gehäuse Netzteil Mobo Netzteil(e) Gekabel usw. 95000$ bleiben übrig also 11875 pro gpu accelerator.

Edit2: Na sowas Quelle vergessen: http://www.anandtech.com/show/10229/nvidia-announces-dgx1-server

Edit3: Seit wann kann denn der Xeon NVLink? Ist doch völliger Schwachsinn eine Gpu mit NVLink einzusetzen, wenn der Prozessor NVLink nicht kann? Ich mein groß über NVLink schwaffeln und dann ein System verkaufen, dass es nicht kann. Nuja Nvidia.

NasaGTR · 07.04.2016

NVLink ist doch dafür das dass die Karten untereinander schnell miteinander arbeiten?

fdsonne · 07.04.2016

NasaGTR schrieb:
Jop das wäre echt mal ein sehr interessanter Test! Also freiwillige vor!

Aber müsste man für die GameWorkseffekte nicht Spieleentwickler sein?

Da ich nach wie vor in der Findungsphase bin beim Thema UE4, kann ich das leider nicht liefern

zumindest aktuell nicht.
Gameworks ist zum Teil aber frei, Hairworks als Teil davon soll folgen, aktuell gibt's aber die UE4 Sourcen inkl. Hairworks Bibliotheken auf Github. Funktioniert, ist aber wohl noch eine 4.7er Version.
Selbst kompilieren muss man das aber schon... dauert bei mir ca. 20min. Bei deutlich weniger MT CPU Power noch viel länger...

Entwickler muss man dafür nicht sein. Es gibt ne Menge Gameworks Stuff schon seit Monaten und Jahren bei NV auf der Dev. Page. Will halt nur Keiner wahrhaben...

neuli schrieb:
Edit3: Seit wann kann denn der Xeon NVLink? Ist doch völliger Schwachsinn eine Gpu mit NVLink einzusetzen, wenn der Prozessor NVLink nicht kann? Ich mein groß über NVLink schwaffeln und dann ein System verkaufen, dass es nicht kann. Nuja Nvidia.

Nein, warum sollte es?
Die Kommunikation zwischen den GPUs ist doch so viel fixer. NVLink heist nicht automatisch, dass man das an den Prozessor klemmen muss...

jdl · 09.04.2016

neuli schrieb:
Würde mich auch mal interessieren was die kosten hat das schon jemand abgeschätzt?

Das RAM ist normalerweise deutlich teurer, da es im Wartungsvertrag kostenlos ersetzt wird 600-800 EUR pro Modul sind da realistischer. Vergiß bitte nicht die Mellanox EDR IB Karten, die Single Port kostet >1kEUR, die DualPort >1,5kEUR und es kann effektiv nur ein Port genutzt werden, weil PCIe nicht die notwendige Bandbreite für zwei Ports hat. Die DualPort Karte ist nur für Failover gedacht. Mal sehen ob nVidia 4xSinglePort oder 2xDualPort verbaut.

GTC 2016: Keynote-Präsentation der Tesla P100 mit Pascal-Architektur

[printed]-Redakteur, Tweety

[printed]-Redakteur, Tweety

Experte

Enthusiast

[printed]-Redakteur, Tweety

Experte

Legende

Legende

Moderator

Legende

Enthusiast

Legende

[printed]-Redakteur, Tweety

Enthusiast

Enthusiast

Experte

Legende

Enthusiast

Urgestein

Legende

Legende

Enthusiast

[printed]-Redakteur, Tweety

Enthusiast

Enthusiast

Legende

Enthusiast