nVidia GK110/Geforce 7xx/Geforce Titan [Speku-, News- & Diskussion] (1. Seite lesen!)

Status
Für weitere Antworten geschlossen.
nVidia GK110/Geforce 7xx/Geforce Titan [Speku-, News- & Diskussion] (1. Seite lesen!)

nVidia GK110/Geforce 7xx [Speku-, News- & Diskussionsthread]

nvidia-kepler-gk110-dmvid9.jpg

Dieshot eines GK110


Nachdem GK104 nun erschienen ist, wird das Themengebiet in den Sammler von Edge verschoben: http://www.hardwareluxx.de/communit...ches-bei-fragen-erste-seite-lesen-880765.html danke, an dieser Stelle für den Thread.

Hier soll es nun um GK110 gehen.


Short Facts:

Release: Tesla im Q4/2012, Geforce im Q1/2013
Zu erwartene Chips: sollte 7xx zutreffen dann 780, 770. Eine Dualversion kann man offiziel wohl ausschließen.

Daten zum Chip gibt es weiter unten.



1.1 Die Architektur

Nvidia hat auf der GTC viele neue Details zum GK110 verraten.

So soll der 7,1 Milliarden (!) Transistoren schwere Chip zuerst auf der Tesla K20 arbeiten, die gegen Ende des Jahres erscheinen soll. Mit dieser Masse an Transistoren stellt er den bis dato größten Chip der Geschichte dar. Desktoplösungen werden erst 2013 folgen, was zum einen niedrigen Yields als auch der bisher guten Position Nvidias in diesem Markt geschuldet sein kann.


Anders als beim GK104 bestizt GK110 pro SMX zusätzlich 64 DP-Einheiten um dort die Leistungsfähigkeit zu steigern (SP : DP = 3:1). Nicht ganz klar ist allerdings wie diese Einheiten aussehen. Bei Fermi arbeiteten einfach zwei Unified-Shader an einer DP-Berechnung, das hat den Vorteil keinen zusätzlichen Platz für DP-Einheiten aufbringen zu müssen. Würde NV bei GK110 nun wieder einen anderen Weg gehen dürfte die Chipfläche ohne massige erhöhung der Transistordichte nicht unter 600mm² bleiben. Immerhin müssten so 960 wietere Einheiten auf dem Chip untergebracht werden.
Auch der restliche Aufbau ist stark HPC orientiert, so kann ein Thread jetzt mehr Register nutzen als bei GK104 und mit Hyper Q sowie Dynamic Parallelism (Cuda 5.0) finden noch zwei weitere Features Einzug die GK104 nicht bot, aber für Desktopanwender keine Rolle spielen dürften. Allgemein ist GK110 stark Richtung HPC entwickelt worden, da in diesem Bereich der GK104 aufgrund mangenlder Fähigkeiten für DP nicht positioniert ist.

die-vergleich60uby.jpg

Die-Vergleich von GK110 und GK104. Achtung, die Größe ist nicht Maßstabsgetreu! (siehe weiter unten)

Für Spieler interessant könnte sein das NV angibt die TMUs nicht nur verdoppelt zu haben, sodern sie auch effizienter arbeiten. Ob man als Vergleich "nur" GF110 heranzieht oder wirklich GK104 ist zwar ungewiss, allerdings sprächen auch in letztem Fall die 240 TMUs für ausreichend Texturierleistung.

tesla_gk110_k20_3qtr_b38n0.jpg

Bild einer Tesla K20 Karte mit GK110





1.2 kleiner Chart

gk110v2nuaxd.jpg

1.3 Aussichten

Leistungsfähigkeit

Da Nvidia vor hat bei der Tesla K20 nur 13 oder 14 SMX zu aktivieren dürfte der Geforce wohl ein ähnliches Schicksal ereilen. Das steigert zum einen die Yields für NV und lässt natürlich auch Spekulationen über eine spätere Version mit allen Einheiten zu.

Ginge man von 13 SMX für die erste Version aus kämen wir bei einem halbwegs realistischen Chiptakt von 900 MHz auf 4,493 TFlops. Das wären immerhin ca. 45% mehr als bei GK104 (ohne Turbo). Dazu kommen noch die 208 verbleiben TMUs, was auch etwas 46% höhere Texturleistung bei 900 MHz entspricht und die um 50% höhere Bandbreite.

Summa Summarum scheinen 50% mehr Leistung also drin zu sein zum GK104, wieviel davon real bleibt muss man natürlich abwarten. Nvidia selbst gibt nur recht schwammige Aussagen über die Leistungsfähigkeit. So soll die DP-Leistung bei >1 TFlops liegen, was bei dem Ratio von 3:1 immerhin 3 TFlops SP bedeiten würde. Für die oben errechneten 4,5 TFlops sollten es dann aber schon 1,5 TFlops DP sein ;)


110104vergleich2w4uf7.jpg

Größenvergleich eines GK110 mit ca. 550mm² und einem GK104 mit ca. 295mm² (real sind es 294mm²)


Möglicher Refresh?

Interessant ist natürlich auch was bei einem Refresh zum GK110 drin wäre.

Ein Chip mit vollen SMX und einem höheren Takt von 950 MHz käme auf 5,472 TFlops, also ca. 21% mehr Leistung gegenüber der Version mit 13 SMX. Gleiche 21% gelten auch bei den Texturleistung.

Beim Speicher wird sich dagegen wohl kaum was ändern, denn GDDR5 scheint so langsam an seine bezahlbaren Grenzen zu kommen. Insgesamt wären also 15%+/- Mehrleistung drin um die Zeit bis Maxwell zu überbrücken.

Ob es so kommt weiß natürlich nur Nvidia selbst.


1.4 Linkliste

Größter Chip der Welt mit 7 Mrd. Transistoren und Hyper-Q (Golem, de)
GTC 2012: GK110-Grafikchip hat bis zu 2880 Shader-Kerne (heise, de)
GTC 2012: Die GK110-Schöpfer über Performance und zukünftige Herausforderungen (heise, de)
Nvidia gibt erste Infos zum großen Kepler GK110 bekannt (computerbase, de)
GK110: Weitere Details zur größten GPU der Welt [Update: Inside Kepler] (pcgh, de)
nVidias GK110-Chip mit 2880 Shader-Einheiten - im Gamer-Bereich aber erst im Jahr 2013 (3DCenter, de)






Thread im Aufbau!

Ich bitte alle User die an diesem Thread teilnehmen sich an eine gewisse Netiquette zu halten. Bitte lasst den Thread auch nicht zu einem Flamewar Rot gegen Grün verkommen sondern spekuliert aufgrund bekannter Fakten über den GK110. Versucht eigene Meinungen so wenig wie möglich in euren Post einfließen zu lassen, ebenso sind eure Wünsche und Kaufpläne evtl für andere User uninteressant.


Über ein Danke würde ich mich natürlich sehr freuen :wink:
 
Zuletzt bearbeitet:
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Meinte ich ja auch:) Naja, sind ja fast 4x soviele wie beim GF110 ->An texturleistung dürfte es GK110 ja sicherlich nicht mangeln

Ja, dann wohl eher nicht ;)
Was mich aber schon etwas stuzig macht, sind die ROPs... Wie vorgerechnet.
AMD ging ja mit Tahiti einen ähnlichen Weg. Die Pixelfüllrate stagniert zwischen Pitcairn und Tahiti, weil die Einheiten gleich blieben. Bei GK104 vs. GK110 wird sie dann wohl fast ebenso stagnieren, weil der Takt für GK110 deutlich runter bleiben wird.

Eventuell mitunter ein Grund, warum Tahiti etwas Boden gegen Pitcairn gewinnt?
Wenn mich nicht alles täuscht, rücken die Karten ja gerade in extrem Settings weiter zusammen. Sprich viel AA, viel Auflösung... Wenn man so will, genau das, was man von der HighEnd Hardware nicht erwartet ;)
 
ROPs sind aber nicht gleich ROPs. Hat AMD nicht den ROP-Durchsatz pro ROP mit Tahiti deutlich gesteigert? Irgendwo hab ich mal was von solchen Verbesserungen gelesen.
Ich meine, die Pixelfüllrate wird ja meist ausgerechnet, aber unter verschiedenen Szenarien misst das doch kaum jemand nach.

hardware.fr hat sich die Mühe gemacht, und hier sieht man durchaus 50% Verbesserung bei der Blending Pixelfüllrate trotz praktisch gleichbleibender theoretischer Füllrate wie sie uns bekannt ist.

Übrigens: Die GTX580 hat ohne MSAA eine viel niedrigere Füllrate als die GTX680 trotz 48 ROPs, weil nur 32 Pixel pro Takt geschrieben werden können:
http://www.hardware.fr/articles/857-9/performances-theoriques-pixels.html
Wenn man hier nachbessern konnte, dürfte das kein Problem sein.
 
Zuletzt bearbeitet:
Deswegen schrieb ich ja im Vergleich Pitcairn zu Tahiti ;)
Übrigens, laut CB sind die ROPs von Cayman und Tahiti ziemlich identisch. Auch die übliche logische Einheitenanzahlabhängigkeit mit dem SI ist schon seit Cayman aufgebrochen.
Laut CB sind auch die Werte identisch. Cayman hat zum Cypress hingegen da eine Verbesserung bekommen ;) Aber das ja nun schon Uralt :fresse:
 
Hat CB nachgemessen? Lies doch mal bei hardware.fr nach, wie erklärst du dir die Ergebnisse?
 
ich kann leider kein Französisch ;)
Google übersetzt es wie folgt:
Although the Radeon 7800 have the same number of ROPs as the Radeon HD 7900, their lower memory bandwidth does not allow them to maximize their use with FP16 blending as well as FP32 and without blending.
Man schiebt es auf die Bandbreite... Sofern die Übersetzung halbwegs passt :fresse:
Was ja nun auch nicht unbedingt 100% von der Hand zu weisen ist.

Aber mal ne dumme Frage, was ist der Unterschied zwischen non blending und blending?
 
Zugegeben, ich hab nur die Bildchen angeschaut :d
Keine Ahnung, das müsste dir jemand anderes sagen.
 
Könnte aber wirklich so sein. Gepaart mit der Ansage von CB, das die ROPs sich nicht wirklich geändert haben zwischen Cayman und Pitcairn/Tahiti erzeugen die Karte ohne "blending" nahezu das theoretische Max. an Pixelfüllrate. Und mit bricht Cayman sowie Pitcairn ein, Cayman aber etwas weniger, weil auch mehr Speicherbandbreite als Pitcairn. ;)
Im Endeffekt zumindest schlüssig...

PS: wiki schreibt übrigens zu blending folgendes:
Blending (Grafik)

Interessant ist auch, das die 680er da auch massiv einknickt. Außer bei 4xINT8... Das müsste nach der Bandbreitentheorie bei GK110 theoretisch anders laufen. Weil eben etwas mehr Pixelfüllrate (bei K20X Takt), aber ~40-50% mehr Speicherbandbreite je nach Speichertakt. Man dürfte sich also auf dem Niveau von Tahiti einfinden. -> denke ich.


Übrigens, was auch interessant ist. CB schreibt beim GK104 hat NV sich etwas von der Hardwarebasierten Aufteilung der Aufgaben für die Einheiten getrennt, was man beim Fermi noch "massiv" in den Vordergrund gerückt hat. Man setzt nun wieder vermehrt auf Softwarebasierte Verteilung
Ich könnte mir vorstellen, das GK110 hier im Vergleich zu GF110 gut was mehr an der CPU nuckelt. ;)
 
Zuletzt bearbeitet:
Wenn die Bandbreite das Problem wäre, warum ist die GTX680 dann in 3 von 5 Bleding-Fillrate Kategorien deutlich schneller als die 580?
 
Na weil Fermi noch anders mit den ROPs umging...
Die Pixelfüllrate von GK104 im Vollausbau ist immerhin gute 40% größer. Bei gleicher Bandbreite.
CB schreibt, sämtliche ROPs können pro Takt mit einem Pixel versorgt werden. Was ja quasi 1:1 mit dem Takt skaliert.
Bei Fermi ist dies wohl nicht so. Heist also, Fermi hat A) weniger Takt, B) noch dazu benötigt Fermi mehrere Takte um die ROPs anzufahren und C) hat er mehr Einheiten.

Soweit die Theorie.
 
Die Pixelfüllrate von GK104 im Vollausbau ist immerhin gute 40% größer. Bei gleicher Bandbreite.

Und jetzt lies nochmal meine Frage, denn auf die Bandbreitenfrage bist du gar nicht eingegangen.
Nimm halt die GTX 560 Ti, die hat 32 ROPs, die wohl ebenso wie bei Kepler alle gut versorgt werden können. Die 680 ist hier teilweise viel schneller, mehr als es die Bandbreite und die Füllrate erlauben sollten.
 
Laut CB laufen die ROPs bei Fermi wie folgt:
Eine ROP kann nach einem Takt ein 32-Bit-Integer-Pixel, ein 16-Bit-Floating-Point-Pixel nach zwei Takten oder ein 32-Bit-FP-Pixel nach vier Takten ausgeben.

Kepler kann dies alles jeweils in einem Takt.
Das erklärt warum die 32Bit Int. Pixel nicht wegbrechen im Bench bei Fermi ;) (dunkelgrün)
Die FP16/32 Messungen stimmen genau mit der Theorie überein... (1x32Bit FP = 1x4, 4x16 FP = 4x2) letzteres somit grob die Hälfte langsamer.
GK104 zeigt dabei Balken, die identisch lang sind.
Laut Aussage dort im Bench, die 4x16Bit FP bzw. 4x32Bit FP Messung bricht dazu dann weger der Bandbreite weg.
Im "blending" scheint dazu die Bandbreite nochmals mehr Einfluss zu haben. -> ob das stimmt, keine Ahnung, macht aber den Eindruck


Was mich halt wundert. CB schreibt in der Techniktabelle 24.704MPix/sec der GF110 GPU zu. Und 26.304 MPix/sec der GF114.
Rein vom logischen Ansatz her sind aber 48 ROPs x 772MHz GPU Takt = 37056MPix/sec.
Komsicherweise passt beim GF114 die Rechnung, denn 32 x 822MHz = 26304MPix/sec.

Auffallend ist nun aber, das GF110 nun in den Benches ~37% unter dem theoretischen Maximum liegt (bei 4xINT8) und GF114 sogar ~53% drunter.

Man könnte nun meinen, durch die weniger Bandbreite von GF114 bricht der Balken dort stärker weg als GF110.
Auch wäre interessant, was der Bench da genau macht...
Ich könnte mir vorstellen, dass zwischen den Messungen je nach Anzahl der Berechnungen der Spaß unterschiedlich in der Praxis skaliert. Einfach weil man maches ggf. mehrfach durch die ROPs jagen kann. Ggf. ohne da groß Takte zu verlieren. Gerde bei Fermi. Wenn eine "1x32Bit FP Berechnung" vier Takte benötigt, diese aber zwei oder vier mal durch muss, wäre die erste Berechnung ja nach vier Takten durch, wärend des zweiten Durchlaufs kann man aber gleichsam in einem anderen ROP Cluster eine weitere Berechnung anstellen. Heist nach acht Takten hast du 2x32Bit fertig.
Oder hab ich nen Denkfehler?
 
Zuletzt bearbeitet:
Das traditionelle Grafikkarten-Info-Spanner TV Programm startet auch dieses Jahr wieder:)

NVIDIA will host a special event on Sunday, January 6 at 8:00 PM, featuring NVIDIA President, CEO and Co-Founder, Jen-Hsun Huang. This event will be webcast live so check back here on that date to watch.

Man darf gespannt sein,ob Kitty Huang,was zum Besten geben wird oder nicht

Allerdings eine "etwas" unkonfortable Zeit

Las Vegas ist 9Stunden hinter uns,das würde bedeuten,das das Event,am Montag früh um 5Uhr zu sehen wäre
 
Zuletzt bearbeitet:
nVidia GK110/Geforce 7xx [Speku-, News- & Diskussionsthread] (1. Seite lesen!)

Also am 7.1. um 5:00 Uhr in der früh?
Kann/Wird das aufgenommen, denn dann sollte ich schlafen :d
Wie lange geht denn das so ca.?
 
Keine Ahnung wie lange Kitty eingeplant hat zu reden,ich vermute zwar das es wieder zu 90% um Tegra geht,aber vielleicht kommen ja doch nun mal ein paar handfeste Infos zur neuen Grafikkartengeneration
 
Ach verdammt, den hatte ich ganz vergessen. Tegra 4 ist wohl interessanter als die neue Geforce :(
 
Gut für mich ;)
Dann schlagt ihr euch wenigstens hier nicht wieder die Köpfe ein... :fresse:
Ich erinnere mich noch an den Stream damals zu Fermi V1 Zeiten vor Release. Da gabs Null Komma keine Infos, aber hier über 300 Posts binnen einer Stunde. Und davon alles Müll :fresse:
 
Die erste GTX680 ist schon bei 330 Euro. Es ist doch kein Preisfehler, jemand hat beim Shop angerufen und sich den Preis bestätigen lassen. Abverkauf beginnt :d
 
Im Geizhals stehen 340€ für die Gainward Phantom... Mal gucken. Komisch ist halt, sind mehrere Shops mit ca. dem Preis. Die nächst teurere kost 420€... Mhhh.

Geht die Preise aber ein gutes Stück runter, stimmt mich das zuversichlicht für ~500€ GK110 zu sehen. Bzw. eben das, was da kommen wird.
Oder sinken die Preise nur, weil AMD noch zu viel auf Lager hat? Und die Preise drückt? Kann auch sein...
 
Zuletzt bearbeitet:
Zumindest zu Release der HD7970 war ja die 580er noch recht hoch im Preis. Ein Aufschlag von ~30-40% für die AMD passt zumindest noch halbwegs in die Leistungsskalierung rein.

Wenn aber natürlich die 680er sagen wir im März rum bei um die 300€ lieferbar liegen sollte. Und die GTX 780 als fiktives neues Dickschiff da mit 550€ um die Ecke kommt, müsste wohl schon was mehr als 20-30% Leistungsaufschlag bei rum kommen um die dann ~83% Aufpreis zu rechtfertigen. Und selbst bei den heutigen 330€ wäre das ein Aufpreis von ~67% (zu 550€)

Klingt schon beinahe zu gut :fresse:
 
Ich denke nach wie vor, dass du viel zu pessimistisch bist bzgl. GK110. 40% werden es auf jeden Fall sein im Schnitt, da leg ich meine Hand hundertprozentig ins Feuer. Soviel schneller ist ja schon die 580 ggü. der 560 Ti bei 50% mehr Bandbreite, ca. 25% mehr Rechenleistung und weniger Füllrate. Die GTX780 wird einen gleich großen oder größeren Vorsprung in den Einzelkategorien haben mMn, das sieht man ja schon an K20X. Im Endeffekt werden wir bei einer Verdopplung von GTX580 rauskommen, +/- ein paar Zerquetschte.

Wollen wir wetten? :)
 
Zuletzt bearbeitet:
lieber pessimistisch und überrascht als zu optimistisch und enttäuscht ;)

Und wie schonmal angesprochen, ich würde da vollkommen mitgehen, wenn GK104 GTX 680 nicht schon ~50% rechnerisch auf den K5000 Ableger draufgepackt hätte. GK110 ist Shadertechnisch bei gleichem Takt da nur 87,5% schneller. Und wie hoch der Takt schlussendlich ausfällt ist aktuell wohl reine Spekulation. 735MHz werden es denke ich mindestens werden. ;) Wie weit man nach oben gehen kann, wird dann der Verbrauch unter Last (auch syntetische Volllastszenarien) entscheiden.

Also ist meine Prognose (ausgehend von K5000, welcher rechnerisch ca. die Leistung der GTX 580 besitzt)
+51% (GTX 680) + ~24% (GK110 Aufschlag) + X (Taktspielraum)

Also um die 30% gemittelt behaupte ich ;) (ggf. was mehr, wenn die Bandbreite zum Problem wird, aber ich meine gemittelt ohne Rosinenpickerei)
Um was wetten wir? :fresse:
 
Du wieder mit deinen Volllastszenarien - dafür gibts jetzt den Turbo, damit du nicht weinen musst :fresse:

Welches Rating überhaupt? Ich würde sagen techpowerup und CB, die liegen sehr nah zusammen.
Um was wir wetten? Hm, ich hätte ja gesagt, wenn es 40% sind, darf ich einen Tag Mod sein, aber das ist mir zuviel Arbeit ;)
Wie üblich, um die Ehre halt. Was ist, wenn es bei 30-40% liegt?
 
Du wieder mit deinen Volllastszenarien - dafür gibts jetzt den Turbo, damit du nicht weinen musst :fresse:

Welches Rating überhaupt? Ich würde sagen techpowerup und CB, die liegen sehr nah zusammen.
Um was wir wetten? Hm, ich hätte ja gesagt, wenn es 40% sind, darf ich einen Tag Mod sein, aber das ist mir zuviel Arbeit ;)
Wie üblich, um die Ehre halt. Was ist, wenn es bei 30-40% liegt?

Neja der Turbo knickt ja dann aber auch bei zu viel Belastung ein... Hilft also dem Verbrauch nicht primär. Aber ist ja auch wurscht, ich bin zum Glück nicht der jenige, der dort die allgemeingültige GTX 780 Kartenkalibrierung im Mittel durchführen muss. Es wird sicher GPUs geben, da die härter am Limit sind als andere. ;)

Ansonsten, klar um die Ehre.
Welches Rating ist auch egal. Da ich vom Mittel ausgehe... Kann also mal was mehr, mal was weniger sein. Ich denke aber wir solten die Auflösung fixen.
FullHD bei 4xMSAA + 16AF dürften gängig sein!?
Bei 2560er Auflösung wirds wohl mehr Vorsprung sein, könnte ich mir vorstellen ;) (da könnten gut und gerne ~5-7% drauf kommen)

Wenns zwischen 30 und 40% liegt, hab natürlich ich gewonnen :p
 
Zuletzt bearbeitet:
FullHD reicht nicht, damit bist du in manchen Spielen schon im CPU-Limit. Gibt ja genug ohne MSAA, da kann GK110 gar nicht die Bandbreite ausspielen. Machen wir 1600p oder höchstens den Durchschnitt aus 1600p und 1080p, gewichtet 2:1 für 1600p, weil es eine Highendkarte ist.

Ja bei 39% hast du gewonnen...doof bin ich nicht :P
 
Dann betrachten wir das eben aus zwei Winkeln. Für CPU Limit gibts OC... CB OCed ja nen 3770K auf 4,5GHz. Das ist zumindest schonmal ein Anfang.
Ich bleibe bei ~30% für FullHD + 4xMSAA/16xAF
Und ~35-37%, OK sagen wir ~37% für 1440/1600p bei 4xMSAA/16xAF
;)

PS: Du hast doch gefragt: "Was ist, wenn es bei 30-40% liegt?"
Die Antwort sollte eher spaßig sein mit dem :p dahinter... :fresse:


EDIT: und wenn du gewinnst...
Dann kauf ich mir so ein Teil.
und wenn ich gewinne -> warscheinlich auch
 
Zuletzt bearbeitet:
Status
Für weitere Antworten geschlossen.
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh