Paper bestätigt AMD Zen-APU mit HBM-Speicher

fanatiXalpha · 02.01.2016

vllt. liegt ja der HBM speicher "zwischen GPU und CPU und kann variable für jedwede Arbeit genutzt werden
beim Spielen dann eher für den Grafikpart
DDR4 dann als Erweiterung

das entspricht deinem letzten Absatz, oder?
aber es stimmt schon, im Moment liegen zu wenig Infos vor als das man da was handfestes daraus basteln kann
noch zu viel Spekulationsraum

oooverclocker · 02.01.2016

Ich wäre auch vorsichtig mit der Euphorie. Intel hat momentan schon die Technik, Mittelklasse- GPUs zu ersetzen und wird die mit dem GT4e bald rausbringen. Aber der Weg war schon länger sichtbar und diese Entwicklung ist auch der Grund, warum in Wirklichkeit unter den drei Prozessorherstellern nicht AMD, sondern NVidia schlecht da steht.
Ich habe vor einigen Monaten mal geäußert, dass ich davon ausgehe, dass in den nächsten 5 Jahren Grafikkarten vollständig durch IGPs ersetzt werden. Und je mehr ich die Entwicklung verfolge, bestärkt sie mich in der Prognose. AMD hat sich mit der Investition in APUs nicht übernommen, sondern einen notwendigen Schritt gemacht, um in Zukunft mit Intel weiter konkurrieren zu können. Vielleicht stünden sie sonst aktuell besser da, hätten aber ohne das Opfer in Zukunft nichts mehr in der Hand, wenn ihre Grafikkarten nutzlos werden. Selbst mit 2 Karten, die besser als IGPs sind, lässt sich schwer Geld verdinenen, wenn die nur 30% FPS mehr bringen.
Ich habe Hoffnung, dass sich AMD über den Gaming- und OpenCL- sektor in Zukunft wieder besser gegenüber Intel positionieren kann. Gleichzeitig befürchte ich aber, dass NVidia das Aussaugen ihrer Marktposition und gleichzeitigem Verschlafen der Entwicklung zum Verhängnis wird, obwohl ein Dreikampf den Konsumenten gut tun würde.

fdsonne · 02.01.2016

Neja, wo der Speicher "hängt" ist ja eigentlich quasi nebensächlich... Da gehts doch sowieso nur um Speicheraddressen, diese sind halt irgendwo gemappt. Ob das nun links oder rechts ist, ist ja eigentlich egal. Wichtig ist bestenfalls, dass A) die Größe passt und B) die Bandbreite sowie C) vielleicht noch so Themen wie Latenzen.

Sicher kann man technisch irgendwie mehrere Speicherbereiche in einen Pool mappen und dann irgendwie da die Zeiger entsprechend umbiegen oder ähnliches. Mir stellt sich nur dabei immer die Aufwandsfrage. Weil irgendwo/irgendwer muss den Part mit dem umschaufeln der Daten ja übernehmen. Wer stellt sicher, dass die Daten im richtigen Pool liegen?
-> wenn jeder Part dediziert ist und sich irgendwie effektiv quasi selbst verwaltet, ist das ja kein wirkliches Problem. Aber in einem ganzheitlichen Konstrukt muss da schon irgendwie mehr Hirnschmalz rein... Ich halte es in dem Zusammenhang für einfacher, wenn der HBM Speicher als quasi weitere Cachestufe dazwischen hängt. Sprich die Daten liegen "effektiv" im DDR4 Speicher, durchlaufen zu diesem aber den Cache und liegen kurzzeitig auch dort. Aus dem Cache fallen diese möglicherweise dann raus -> so könnte ich mir vorstellen, wenn der Platz ausgeht oder man es irgendwie händisch initiert. -> dann wird in den DDR4 geschoben, quasi ausgelagert, wenn man so will.
Das könnte aus meiner Sicht die Vorteile von Bandbreite und Größe durchaus vereinen -> setzt allerdings vorraus, dass der HBM Speicher entsprechend schnell ist. Mit (auf dem Papier) 15% mehr Durchsatz ist das nun nicht unbedingt das, was ich mir unter einem schnellen Cache vorstelle

Ob das völlig an der Realität vorbei ist oder nicht? Kein Plan... Ich kann völlig daneben liegen. Also nicht überbewerten

Pirate85 · 02.01.2016

Ich warte nach wie vor ab bis es was offizielles oder wenigstens entsprechende Leaks gibt die man verifizieren kann. fdsonne hat genau in die Garbe geschlagen die ich auch eben posten wollte, da das einfach nicht so passen kann.

Wie auch immer AMD das löst, ich bin nach wie vor sehr gespannt. :fresse:

unl34shed · 02.01.2016

Kaveri hat doch auch schon trotz HSA seinen eigenen VRAM-Bereich, in dem die iGPU die Berechnungen erledigt, braucht man ja so oder so. Sehe da jetzt nicht das riesen Problem, die CPU kann ja immer noch über Onion mit der GPU/HBM kommunizieren. Der Speicher muss ja nur von beiden adressierbar sein.

AMD arbeitet doch auch schon länger an HSA auf der dGPU.

Bitmaschine · 02.01.2016

unl34shed schrieb:
Vermutung:
Der HBM hängt direkt an der GPU und dient hier wie bei einer dGPU als VRAM, Onion3 wäre dann vergleichbar mit PCIe. Bei den kleineren APUs bleibt HBM halt weg, da sollten die 50GB/s von Onion3 aber noch ausreichen um die 2*~25GB/s vom DualChannel DDR4 zur Verfügung zu stellen.

Glaube ich auch. Für 4K Auflösungen im Desktopbetrieb sicher ausreichend.

Schön wäre es, wenn AMD noch kräftiger an der allgemeinen Leistungsaufnahme werkeln würde.
In Moment ein Kriterium, welches oft gegen AMD spricht. Da haben Intel und Nvidia einfach in Moment die Nase vorn.

Auf jeden Fall freut es mich insgeheim, dass AMD allmählich aus der Schockstarre raus kommt.
Konkurrenz ist schon wichtig. Sonst werden die Preise zu einseitig diktiert.
ZEN wirkt spannend. Ebenso HBM. Wenn es das hält, was so im Netz kursiert, dann Daumen hoch.

Auf geht's AMD, zeigt was eine Harke ist ... :fresse:

.

Morpheus2200 · 02.01.2016

Wie sieht es denn mit den Latenzen von HBM aus? Bei dem relativ geringem Takt werden die vermutlich etwas höher liegen, damit wäre HBM als CPU Cache dann weniger interessant.
Einfach wäre es ja den HBM speicher dem GPU Teil zuzuordnen wird mehr als 1GB VRAM gebraucht nimmt man halt den Hauptspeicher wie bei Turbocache oder Hyper Memory damals.

Wäre natürlich nicht HSA freundlich aber relativ einfach umzusetzen und zumindest zum Zocken vermutlich auch vernünftiger. Allein der Aufwand noch eine Cache Stufe synchron zu halten und prefetch Algorithmen für 1GB Cache sinnvoll anzupassen. Vor allem muss der prefetcher dann ja Daten für CPU und GPU vorhalten wenn man den HBM speicher als Cache Stufe für beides nutzt.

Auf den ersten Blick sieht es deutlich einfacher aus den HBM Speicher einfach an den GPU Teil anzubinden. Aber innovativ und ambitioniert ist AMD ja, ich traue denen zu eine kompliziertere Lösung zu suchen, selbst wenn die in der Praxis nur selten Vorteile bringt.

Cibo · 02.01.2016

Ach würd ich mir wünschen das normaler Speicher einfach mal verschwindet.
Am besten noch ein neuer Standart mit MainBoards welche mehrere Sockel haben für ein Modulares System.
4-6Kern Prozessoren mit integrierten 8GB HBM Speicher und mit jeden CPU verdoppelt sich auch der Speicher.
Das selber für GPUs und...

dann bin ich aufgewacht. :fresse:

Nennt mich einen Ketzer aber den Shice ATX Standart und ähnliches kann ich nicht mehr ab und ist einfach ziemlicher Mist in heutiger Zeit.

Mag sein das nvidia im Bezug auf APUs am schlehctesten darsteht aber vlt. gibs dadurch ne kleine Preisrevolution. Wenn die ganzen Low End Karten aus den Portfolio fallen wirds erheblich schwerer die Preise fürs High End zu halten. Anderseits könnte VR nvidia ein Marktsegment öffnen wo wohl lange Zeit kein APU allein brauchbar ist.

fdsonne · 02.01.2016

oooverclocker schrieb:
Ich habe vor einigen Monaten mal geäußert, dass ich davon ausgehe, dass in den nächsten 5 Jahren Grafikkarten vollständig durch IGPs ersetzt werden. Und je mehr ich die Entwicklung verfolge, bestärkt sie mich in der Prognose.

Wie kommt man denn auf diese These?
Ich weis nicht, aber dGPUs gehen doch erst mit den großen Modellen richtig ab... So eine Intel IGP oder AMD APU der aktuellen Reihe ist sowas von um Welten schlechter als eine Fiji oder GM200 GPU, keine Ahnung wie man auf diese These auch nur kommen kann... Nimmt man es genau, ist der Abstand seit den ersten APUs von AMD sogar noch deutlich größer geworden. Was war denn bei Llano Release im dGPU Markt das Top Modell? Und wie viel schneller ist eine Intel IGP Lösung mit GT3e bzw. eine Kaveri APU Lösung schneller als Llano? -> da kommt nichtmal Faktor 2 zustande. Im dGPU Bereich gehts dabei weit größer Faktor 2 vorran...
Was richtig ist, die CPU Lösung mit einer Grafiklösung werden den dGPU Markt von unten her Produkte abgraben... Solange aber bei CPUs respektive auch APUs eine TDP Grenze von 100-125W zum "guten" Ton gehört, dGPUs aber teils bis 500W von der Leine gelassen werden, wird eine CPU Lösung niemals nie eine dGPU Lösung einholen können.

unl34shed schrieb:
Kaveri hat doch auch schon trotz HSA seinen eigenen VRAM-Bereich, in dem die iGPU die Berechnungen erledigt, braucht man ja so oder so. Sehe da jetzt nicht das riesen Problem, die CPU kann ja immer noch über Onion mit der GPU/HBM kommunizieren. Der Speicher muss ja nur von beiden adressierbar sein.

AMD arbeitet doch auch schon länger an HSA auf der dGPU.

Was heist eigenen Bereich... Es gibt bei Kaveri doch "nur" den DDR3 Pool... Das ist ein und der gleiche Speicher. Ein MC mit zwei 64Bit Controllern hängt da irgendwo. Daraus werden bestenfalls Speicherbereiche an CPU oder GPU Part gemappt. Mit hUMA und Co. lassen sich dann da schön Zeiger hin und her schwenken...
Die Berechnungen der GPU finden doch genau so wie bei einer dGPU oder einer APU vor Kaveri in einem Speicherpool statt, der mit Speicheraddressen angesprochen wird. Bei Kaveri sind das Speicheraddressen, die in den DDR3 RAM Bausteinen liegen. Also gleich der CPU.
Allerdings, wie oben erwähnt, laß ich vorhin, dass Carrizo dort Änderungen mitbringt und nur noch den Onien3 Bus hat -> den dedizierten Zugriff wie bei der PS4 oder XBone gibts da nicht mehr. Also am "CPU Part vorbei" auf den Speicher ist da wohl nicht mehr... Wenn ich das richtig verstehe, hängt der Cache bei der XBox irgendwie mit am Garlic Bus. Bei der PS4, wie gesagt der direkte Access zum Speicher. -> wenn man es nun HBM als Cache davor klemmen würde, müsste die Bandbreite sehr hoch sein. Nur wo ran? Das steht halt nirgends.
Mit einem dGPU Vergleich kommen wir da denke ich nicht weiter... Da ist eine PCIe Verbindung grottiger Bandbreite zwischen. Das hast du ja eben gerade bei einer APU Lösung idealerweise NICHT. Und das mappen der Speicheraddressen selbst sehe ich noch als das geringste Problem an.

Fr@ddy schrieb:
Wäre natürlich nicht HSA freundlich aber relativ einfach umzusetzen und zumindest zum Zocken vermutlich auch vernünftiger. Allein der Aufwand noch eine Cache Stufe synchron zu halten und prefetch Algorithmen für 1GB Cache sinnvoll anzupassen. Vor allem muss der prefetcher dann ja Daten für CPU und GPU vorhalten wenn man den HBM speicher als Cache Stufe für beides nutzt.

Mein Bedenken ist halt, dass es eben genau das nicht wird... Warum? Weil man sich mit jedem neuen Release in dem Bereich immer näher dem Ziel einer ganzheitlichen Lösung annäherd. AMD wird sicher keinen Schritt zurück gehen. Das ist denke ich sicher... Also wie sonst?
Eine Möglichkeit, HBM hängt am Onien3 Bus und fertig. Macht 50GB/sec auf dem Papier -> die GPU wird damit schneller als mit DDR3 only, zumal ja "nur" 2133er DDR Speicher supportet ist aktuell. Also das wäre schon ein Fortschritt, wenn auch ein "kleiner".
Für die Zukunft sehe ich dann einfach weitere Bandbreitensteigerungen und HBM Speichergrößen Steigerungen um die Dinger immer up to date zu halten.

Ich glaube sogar, dass AMD gar nicht die unerreichbare Leistungsklasse im APU Markt bringen will. Warum das Pulver mit einmal verblasen, wenn man es schön Stückweise dem Kunden bringen kann? Intel hat es ja nun mittlerweile geschafft, dort auch mitzumischen... Und die GT4e steht noch aus -> wohl Ende 2016. Eine Zen APU in 2017 könnte genau dort gegen gestellt werden

oooverclocker · 02.01.2016

fdsonne schrieb:
Wie kommt man denn auf diese These?

Wenn man sich mal anschaut, dass der GT3e schon Low Range- Karten schlägt und Intel mit der GT4e so wie ich das abschätzen würde an eine GTX750 rankommt, muss sich die Grafikleistung von iGPUs in 4 Jahren nur noch um so schätzungsweise 400% steigern, weil ich nicht davon ausgehe, dass bei den dGPUs sich in den nächsten Jahren noch Sprünge über 200% machen lassen. Ich habe ja nicht gesagt, dass die iGPUs die dGPUs komplett vom Markt drängen; das wird noch länger dauern(Auch weil sich die Leistung von beiden nutzen lässt und auch manche aus nostalgischen Gründen am alten festhalten werden). Aber dann wird man sich selbst im HighEnd bereich fragen, ob man für nur wenige FPS mehr, beziehungsweise eine Art Crossfire oder SLI, nur halt mit der iGPU, gleich eine zusätzliche Karte braucht, die dann verhältnismäßig teuer sein wird.
Und wenn man sich anschaut, wie rasant Intel die Leistung der iGPUs steigert, ist es sicherlich nachvollziehbar, dass die irgendwann in den nächsten Jahren auch den HighEnd- GPUs gefährlich werden. Einen Die kann man weder unendlich verkleinern, noch unendlich viel Hitze abführen. So macht es dann nicht viel Unterschied ob die GPU auf einer extra- Karte oder zusammen mit der CPU auf einem PCB liegt. Klar wird man mit extra Karten immernoch Taktvorteile haben, weil die Kühlung bei 2 Hotspots einfacher ist, aber die werden so gering sein, dass es einfach nicht mehr wirtschaftlich sein wird, außer für jemanden der wirklich um jeden Preis das beste will(Gibt ja heute auch Leute mit Quad- SLI etc.).

Oromis · 02.01.2016

Ahwas, die Gt3e hängt laut CB-Test noch hinter einer 7750 hinterher (10-15%), und eine 750 ist dann doch noch mal verdammt viel schneller: GPU 2014 Benchmarks - Compare Products on AnandTech

Intel ist/war nur so schnell, weil sie NV Patente lizensieren.
Ab dem Moment, ab dem NVs Hauptgeschäfft droht wegzubrechen wurde da das letzte Patent verkauft.

[alles nur imho, bitte dran denken]

fdsonne · 02.01.2016

Neja, eine Iris Pro GT4e auf Skylake in "14nm" mit einer 28nm alten Fertigung bei dGPU zu vergleichen, noch dazu, wo das Teil erst in ca. einem Jahr kommen soll und bis dahin die nächste Generation dGPU Einsteigerkarten kommen wird, ist aus meiner Sicht nicht zielführend. Klingt nach "schönreden"...

Und auch in Zukunft, wenn eine CPU/APU mit 100-125W eingestuft für CPU und GPU Part auskommen MUSS, eine dGPU aber bis 300W definitiv, bei einigen Sondermodellen (meist Dual GPU) auch deutlich drüber agieren kann, stellt sich mir die Frage nach dem WIE.
Intels bestreben in dem Markt ist sicher nicht ohne... Aber die Leistungsskalierung ist nun auch nichtmal annähernd 1:1 mit den EUs, dazu hohe Taktraten auf der GPU und der Aufwand mit dem Cache -> ohne diesen die IGP wohl auch gnadenlos ins Bandbreitenlimit laufen wird/würde, macht den Vergleich auch nicht besser.

Ebenso muss man gerade bei der 750er mal sehen was das GM206 Modell kann -> das könnte schon schneller werden. Wenn man es genau nimmt, ist das auch "nur" das kleinste Modell in der NV Palette... Ich mein, wenn in einem Jahr eine IGP das seit Monaten kleinste Modell der NV Maxwell Reihe erreicht -> haut mich nicht vom Hocker. Eine heutige Einsteiger Karte ist auch schneller als eine HighEnd Karte mit xxxW Einstufung von Anno dazumal. Ich würde daraus nix dergleichen ablesen...

unl34shed · 02.01.2016

fdsonne schrieb:
Was heist eigenen Bereich... Es gibt bei Kaveri doch "nur" den DDR3 Pool... Das ist ein und der gleiche Speicher. Ein MC mit zwei 64Bit Controllern hängt da irgendwo. Daraus werden bestenfalls Speicherbereiche an CPU oder GPU Part gemappt. Mit hUMA und Co. lassen sich dann da schön Zeiger hin und her schwenken...

Warum stellst du eine Frage und beantwortest sie dann im nächsten Satz selbst? Komm mir gerade etwas verarscht vor...

fdsonne schrieb:
Allerdings, wie oben erwähnt, laß ich vorhin, dass Carrizo dort Änderungen mitbringt und nur noch den Onien3 Bus hat -> den dedizierten Zugriff wie bei der PS4 oder XBone gibts da nicht mehr. Also am "CPU Part vorbei" auf den Speicher ist da wohl nicht mehr... Wenn ich das richtig verstehe, hängt der Cache bei der XBox irgendwie mit am Garlic Bus. Bei der PS4, wie gesagt der direkte Access zum Speicher. -> wenn man es nun HBM als Cache davor klemmen würde, müsste die Bandbreite sehr hoch sein. Nur wo ran? Das steht halt nirgends.

Bilder sagen mehr als tausend Worte:

Genau so wird das dann wohl aufgebaut sein, bloß eben in klein. GMI = Onion3, HBM an der GPU
Also eigentlich schon ein alter Hut.

fdsonne schrieb:
Mit einem dGPU Vergleich kommen wir da denke ich nicht weiter... Da ist eine PCIe Verbindung grottiger Bandbreite zwischen. Das hast du ja eben gerade bei einer APU Lösung idealerweise NICHT. Und das mappen der Speicheraddressen selbst sehe ich noch als das geringste Problem an.

Ich sehe den Vergleich immer noch als passend, Onion wäre das Äquivalent zu dem grottingen PCIe, HBM bleibt GDDR5/HBM. Das einzige was hinzu kommt, die CPU kann direkt eben auch noch über Onion auf den HBM zugreifen. Und wie gesagt, AMD arbeitet ja bereits an einer entsprechenden Lösung HSA bzw. hUMA auch auf die dGPU zu bringen.

fdsonne · 02.01.2016

unl34shed schrieb:
Warum stellst du eine Frage und beantwortest sie dann im nächsten Satz selbst? Komm mir gerade etwas verarscht vor...

??
Vieleicht habe ich mich komisch ausgedrückt, sorry, aber es ist doch ein Unterschied, wenn es einen einzigen physischen Speicherpool gibt, wo einfach virtuelle Speicheraddressen von der GPU und virtuelle Speicheraddressen von der CPU reingemappt werden und "Kaveri hat doch auch schon trotz HSA seinen eigenen VRAM-Bereich". Es ist ja kein eigener Bereich... Es gibt nur einen Bereich. Das wollte ich damit ausdrücken.

unl34shed schrieb:
Bilder sagen mehr als tausend Worte:
http://www.fudzilla.com/media/k2/items/cache/7e42c9447e754167c85105ffe1a1d866_XL.jpg

Genau so wird das dann wohl aufgebaut sein, bloß eben in klein. GMI = Onion3, HBM an der GPU
Also eigentlich schon ein alter Hut.

Ich sehe den Vergleich immer noch als passend, Onion wäre das Äquivalent zu dem grottingen PCIe, HBM bleibt GDDR5/HBM. Das einzige was hinzu kommt, die CPU kann direkt eben auch noch über Onion auf den HBM zugreifen. Und wie gesagt, AMD arbeitet ja bereits an einer entsprechenden Lösung HSA bzw. hUMA auch auf die dGPU zu bringen.

Wie soll das aber mit dem Texturen funktionieren? Wer stellt sicher, dass die Texturen eben im DDR4 Pool physisch liegen und nicht im HBM Pool dort Platz wegfressen? Das Bedarf doch einer Logik. Hier ist wie gesagt wohl das Thema eine Ausrichtungsfrage der Lösung. Bei 100GB/sec würde ich da auch nicht direkt ein Problem sehen. Bei nur 50GB/sec heist das aber, dass entweder der HBM als Cache für die CPU nur unwesentlich schneller als der DDR4 Speicher wäre oder das die GPU eben bei mehr wie 1GB Datenbedarf in der Performance zusammen brechen würde. -> 50GB/sec sind halt nicht viel. Kommen dann noch Datentransfers dazu -> also der Transport von Daten von DDR4 zu HBM und umgekehrt (Stichwort Swapping), wird davon auch noch was gebunden... Haben wir dazu noch deutlich > 512 ALUs auf der GCN GPU, wird der Bandbreitenbedarf nochmals steigen. Die knappen 40GB/sec im DualChannel DDR3-2400 (auf dem Papier) reichen ja heute bei weitem nicht aus.

Das Bild ist im Vergleich in der Tat eher wie dGPU über PCIe. -> wie aber schon erwähnt, dort ist der Falschenhals die Verbindung. Bei 100GB/sec ist das OK. Weswegen ich dieses Konzept selbst für dGPUs ohne dedizierte Programmierung ja nicht als wirklich passend finde. Nur ist der Vergleich IN der APU doch halt anders... Vor allem eben, wenn man damit Games abdecken will sehe ich ungeklärte Fragen wie eben das Texturthema. Die Bandbreite für Texturen muss nicht extrem sein, dafür müssen sie aber eben "richtig" liegen. Umbiegen von Zeigern bringt dich dort nicht weiter -> mit hUMA fällt der Transfer im selben physischen Speicher flach, allerdings ist doch für die Spieletitel der Initiator dort immernoch das Spiel respektive der Treiber -> der Mechanismus, der Texturdaten auf dGPUs in den VRAM der dGPU kopiert, biegt auf der APU Lösung einfach nur die Zeiger um.
Damit das mit zwei physischen Speichern funktioniert, müsste der Mechanismus wissen, dass die Daten eben Texturen sind und damit im DDR4 Pool gehalten werden sollten... Woher weis er das?

Ein Vergleich mit Enterprise Produkten finde ich übrigens aus dem Grund unpassend, da ich nicht glaube, dass wir auf absehbare Zeit eine dedizierte Programmierung für APUs in Games sehen werden -> das würde das aber wohl als Konsequenz haben

Das Spiel bzw. die Engine wird ja nicht FÜR die APU geschrieben, sondern für einen Markt. Viele Abstraktionsschichten dazwischen erzeugen eine Kompatibilität für eigentlich verschiedene Hardware -> mit dem Vorteil, dass es mehr Systeme erreicht und dem Nachteil, dass Systeme mit Lösungen, die Codeanpassungen benötigen, eher schlecht haben.

Morpheus2200 · 02.01.2016

Die Folie bezieht sich soweit ich weis auf die geplante APU für HPC computing. 16 Zen cores + Greenland GPU mit HBM + Quadchannel DDR4 waren die Gerüchte im späten Sommer.
Die Anbindung von HBM würde so schon Sinn machen.

Ob das so den Weg in den Consumer Markt findet bleibt abzuwarten. Vielleicht eher 1/4 davon, passt dann auch eher zu den 128GB/s für HBM.

Mein Tipp basierend auf den Gerüchten: Als Consumer Version Quadcore Zen mit Greenland GPU (evtl. mit HBM) 1TFlop+ für den GPU Teil.
Wäre eine leichte Steigerung im vergleich zur A10-7870K GPU die meine ich bei ca. 880 Gflop/s liegt. Der CPU Teil wird mit Zen wohl auch etwas zulegen.

Klingt ganz nett aber noch nach Evolution statt Revolution und damit irgendwie auch realistisch.

john201050 · 02.01.2016

da werden sowieso nur kleinere grafikchips drin sein.
die kommen mit 1gb vram gut aus.

bricht bei mehr als 1gb vram bedarf dann halt so ein wie jede normale gpu mit nur 1gb vram.
gibt ja auch 7850er mit 1gb.

Oromis · 02.01.2016

@john201050
Puhh, 2 dürftens dann schon sein..
...selbst die IGP des Athlon 5350 profitiert von 1 statt 0,5 Gb Vram: [Lesertest] Athlon 5350 Teil 2, Verspielte Raubkatze - Seite 2 - ComputerBase Forum
[Entgeht leider dem kompletten Kommentarverlauf - einfach mal blättern

]

why_me · 03.01.2016

fdsonne schrieb:
Wie soll das aber mit dem Texturen funktionieren? Wer stellt sicher, dass die Texturen eben im DDR4 Pool physisch liegen und nicht im HBM Pool dort Platz wegfressen? Das Bedarf doch einer Logik. Hier ist wie gesagt wohl das Thema eine Ausrichtungsfrage der Lösung. Bei 100GB/sec würde ich da auch nicht direkt ein Problem sehen. Bei nur 50GB/sec heist das aber, dass entweder der HBM als Cache für die CPU nur unwesentlich schneller als der DDR4 Speicher wäre oder das die GPU eben bei mehr wie 1GB Datenbedarf in der Performance zusammen brechen würde. -> 50GB/sec sind halt nicht viel. Kommen dann noch Datentransfers dazu -> also der Transport von Daten von DDR4 zu HBM und umgekehrt (Stichwort Swapping), wird davon auch noch was gebunden... Haben wir dazu noch deutlich > 512 ALUs auf der GCN GPU, wird der Bandbreitenbedarf nochmals steigen. Die knappen 40GB/sec im DualChannel DDR3-2400 (auf dem Papier) reichen ja heute bei weitem nicht aus.

Ich verstehe dein Problem nicht, bei einer dGPU klappt das doch auch alles, bei deutlich weniger Bandbreite (PCIe) und deutlich mehr GPU Performance.

Das Problem der aktuellen APUs ist die geringe Bandbreite, die sich CPU und GPU auch noch teilen müssen. Mit einem HBM Cache hätte die GPU 128GB/s und die CPU die volle DDR4 Bandbreite (Evtl geteilt mit der GPU zum laden von z.B. Texturen). Das dürfte für 768 bis 1024 ALUs ausreichen.

Was in welchem Speicher liegt, darum kümmert sich, wie jetzt auch, der Treiber.

Also quasi eine dGPU auf der CPU. Verbunden über Onion3 mit der CPU... würde schon Sinn ergeben. Und auch HSA und huma sollte durch Onion3 funktionieren.

fdsonne · 03.01.2016

john201050 schrieb:
da werden sowieso nur kleinere grafikchips drin sein.
die kommen mit 1gb vram gut aus.

Nicht wirklich... A) ist der Speicherverbrauch NICHT primär von der GPU Power abhängig und B) unterschlägst du, dass bspw. ein Windows System mal locker in der Lage ist alleine 500MB und mehr wegzufressen -> die sind einfach weg. Frag mal einen Multitmonitor User, wie hoch sein VRAM Verbrauch im normalen 2D Windows Betrieb ist

-> bei mir stehen da aktuell 630MB auf der Uhr. Stichwort DWM... Also ne, 1GB reicht heutzutage lange nicht mehr... 2GB, besser 3GB dürfen es schon sein. Spezielle Software mag das ggf. noch drastisch erhöhen, bei Spielen ists halt eine Sache, wie alt der Titel ist.

john201050 · 03.01.2016

ja, weil 500mb genutzt werden, sind 500mb auch belegt und für nichts anderes verwendbar.

und wenn ich bei meiner kleinen apu im bios 256mb einstelle, bekomme ich leider nicht mal die windows aero effekte. vram voll.

und ein linux system, welches nach einer weile laufzeit 7,5 von 8gb ram verwendet ist ein ineffizienter ramfresser und einfach nur kacke.

ist doch klar.

gott, wie konnte ich letztens mit einer 512mb karte nur bf4 spielen? sind doch 400mb von nur durch windows schon belegt gewesen.
unglaublich aber wahr.

NasaGTR · 03.01.2016

Ähm "APU aus Zen Kernen mit Greenland GPU Teil"

Soll Greenland nicht der neue und grüße dGPU Chip werden? Also der Chip für die 490(X)? Baffin dann für 480(X) und Ellesmere die Stufen darunter?

Der soll etwa dieser große Chip neben der 490(X) außerdem mit in die Enterprise APU verbaut werden??

oooverclocker · 03.01.2016

@john201050
So hat fdsonne das auch nicht gemeint. Mit 1GB VRAM ist schon desöfteren mit Problemen zu rechnen, es sei denn es ist nur Cache und der Rest kommt vom RAM. Zocken kannst Du Spiele auch teilweise mit gnadenlos überfülltem VRAM. Das bricht ja nicht ab und sagt: "So, jetzt ist er voll, geh ins Bett!"

Ich machs jetzt trotzdem, auch ohne dass er voll ist. :sleep:

unl34shed · 03.01.2016

fdsonne schrieb:
... viel Text

Nicht um sonst hab hab ich darunter "in klein" geschrieben. Also zB. halb so groß, was dann 1024 Shader mit ~2TFlops entsprechen würde, genauso hätte die APU nur noch DC DDR4 anstelle von QC mit ca. 50GB/s, da passt dann auch Onion 3 mit seinen 50GB/s wunderbar ins Bild.

Einzig die 500GB/s des HBM müssten 250GB/s ergeben, wenn man alles halbiert. Da ist halt die Frage wie alt die Folien sind, denn die Zen APUs sollten ja eher 2017 kommen (nach allen anderen News) vllt. sind die auch schon so alt und man hat nicht mit HBM2 gerechnet, damit wären nämlich die 250GB/s mit einem Stack machbar. Naja wer weiß...

So eine R7 370 (bzw. dann GCN2) sollte in 14nm mit <100mm² und <50W herzustellen sein.

@NasaGTR:
Ja das ist die geplante 300W Server APU mit dem 380X Nachfolger onboard und glaub 16 oder sogar 32 Kernen. Diente nur der Illustration.

fdsonne · 03.01.2016

@john201050
was willst du uns nun mit deiner Ausführung sagen?

why_me schrieb:
Ich verstehe dein Problem nicht, bei einer dGPU klappt das doch auch alles, bei deutlich weniger Bandbreite (PCIe) und deutlich mehr GPU Performance.

Welches Problem? Wieso kommst du immer mit Problemen? Ich habe kein Problem, sondern versuche die Lösung technisch zu verstehen anstatt Marketingblabla blindlinks zu vertrauen...
Und wie gut das funktioniert, sehe ich in der Tat wenn der GPU der VRAM überläuft. Dabei ist es völlig egal, ob das nun eine HighEnd GPU oder eine Einsteiger Karte ist -> VRAM Überlauf = unterirdische Performance.
Mit dem Unterschied, welche aktuelle GPU hat heute denn noch 1GB? Und welche dieser GPUs ist im Vergleich deutlich schneller wie eine mögliche Zen APU um die es hier offenbar geht?
Unterm Strich, der Vergleich hinkt...

unl34shed schrieb:
Nicht um sonst hab hab ich darunter "in klein" geschrieben. Also zB. halb so groß, was dann 1024 Shader mit ~2TFlops entsprechen würde, genauso hätte die APU nur noch DC DDR4 anstelle von QC mit ca. 50GB/s, da passt dann auch Onion 3 mit seinen 50GB/s wunderbar ins Bild.

Das habe ich schon verstanden... Ändert doch aber an der Fragestellung nichts, wie das funktionieren soll, vor alle, wenn da schlicht keine Codeanpassungen in Spielen stattfinden wird?
Es nutzt halt keine Folie bzw. kein Ansatz für einen völlig anderen Markt etwas für die Erklärung. Keine Ahnung, ob du jemals mal eine Spieleengine (oder wenigstens etwas, was 3D Objekte auf dem Monitor darstellen soll) Programmiert hast, aber mir stellen sich da Fragen, weil man eben so ohne weiteres keinen wirklichen Einfluss darauf hat. Wenn ich Objekte "über die API lade", welche mit Texturen geschmückt sind, dann gebe ich da keine Speicheraddressen dediziert mit. Das ist doch gerade der Sinn von diesem ganzen Abstraktionsschichten zwischen Hardware und Software. -> was auch klar ein Vorteil ist, den AMD mit hUMA ausgespielt hat bzw. auspielen konnte. Es geht/wirkt ohne dediziertes zutun, weil einfach anstatt ein Copy unter der Decke nur Zeiger umgebogen werden. Das geht aber einfach nicht, wenn es zwei Pools von Daten sind. Denn da müssen die Daten von A nach B UND man muss natürlich auch wissen, welche Daten nun was genau sind.
Vielleicht ändert sich das mit DX12 respektive anderen Lower Level Schnittstellen etwas. Aber selbst da sollte das Level immernoch so derart hoch sein, dass du als Spieleentwickler eigentlich nicht primär darum kümmern willst, ob die Daten nun links oder rechts liegen. -> ganz anders im GPGPU Bereich. Dort macht es durchaus Sinn, so Tief reinzugreifen... Der Unterschied besteht halt einfach darin, dass dort Code fabriziert wird, der schlicht auf eine Hardware hin gebaut wird und nicht für xx viele CPU/GPU Kombos funktionieren muss. -> zumindest dort, wo diese Folie hingehört.

Der Ansatz hier ist ähnlich der NUMA Node Problematik im Multi Prozessorbereich. Programmierst du eine Software, die zwar brachial mit der CPU Coreanzahl skaliert, aber kümmerst dich nicht um die Datenhaltung, hast du ein Problem, weil die Skalierung über mehrere NUMA Nodes hinweg schlicht einbrechen wird... Bei Spielen kümmerst du dich aber genau eben NICHT um die Daten, sondern lädst, was du brauchst. Wohin? Das ist genau die Frage, wer übernimmt die Verteilung?

Aber ich merke schon, wir drehen uns im Kreis, es bringt effektiv nix, in diesem Forum über Technische Details weiter zu spekulieren, wo doch schon wieder der Ton rauer wird... :confused:

Alles was mit AMD nur im entferntesten zu tun hat, scheint hier ein rotes Tuch zu sein. Das war früher definitiv auch mal anders...

Morpheus2200 · 03.01.2016

why_me schrieb:
Ich verstehe dein Problem nicht, bei einer dGPU klappt das doch auch alles, bei deutlich weniger Bandbreite (PCIe) und deutlich mehr GPU Performance.

Das Problem der aktuellen APUs ist die geringe Bandbreite, die sich CPU und GPU auch noch teilen müssen. Mit einem HBM Cache hätte die GPU 128GB/s und die CPU die volle DDR4 Bandbreite (Evtl geteilt mit der GPU zum laden von z.B. Texturen). Das dürfte für 768 bis 1024 ALUs ausreichen.

Was in welchem Speicher liegt, darum kümmert sich, wie jetzt auch, der Treiber.

Also quasi eine dGPU auf der CPU. Verbunden über Onion3 mit der CPU... würde schon Sinn ergeben. Und auch HSA und huma sollte durch Onion3 funktionieren.

Das "Problem" beim nutzen von PCI-E Grafikkarten gibt es eigentlich nur wenn man mit der GPU rechnet. Dann sind die Speicherzugriffe über PCI-E schnell das was die Rechnung langsam macht. AMD will mit HSA wieder in den HPC Markt, mit APUs wie der auf der Grafik dargestellten. 4 TFlop+ für den GPU Teil klingt ja auch super das ist fast eine halbe Fury.
Mit PCI-E Grafikkarten kann man recht flott rechnen, leider ist der Spaß vorbei wenn man mehr als den VRAM benötigt. Dann müssen Daten aus dem Hauptspeicher über PCI-E gelesen werden und das kostet halt viel Zeit. Soviel Zeit, dass der Geschwindigkeitsvorteil durch das berechnen per GPU zu einem großen Teil verpufft. Mit der geplanten APU könnte man mit deutlich geringeren Latenzen und etwas höherer Bandbreite auf den Arbeitsspeicher zugreifen. Natürlich wird es damit noch immer langsamer als wenn alle Daten in den HBM speicher passen, aber eben nicht so viel langsamer wie mit einer dedizierten GPU.

Ob das ganze Erfolg hat wird sich zeigen müssen. Wenn man nicht gerade OpenCL Code hat darf man vermutlich wieder neu entwickeln um die Vorteile dieser Architektur nutzen zu können. Konkurieren muss das dann ja auch noch mit dedizierten GPUs die dank HBM2 bis zu 32GB RAM haben könnten und mit Ansätzen wie beim Xeon Phi.

unl34shed · 03.01.2016

fdsonne schrieb:
Das habe ich schon verstanden... Ändert doch aber an der Fragestellung nichts, wie das funktionieren soll, vor alle, wenn da schlicht keine Codeanpassungen in Spielen stattfinden wird?

Wie funktioniert alte Kamellen -wie Half Life 1- auf Kepler, Maxwell, GCN oder sogar den APUs? Wie kann es sein, dass alte Spiele, die noch nie etwas von der GTX 970 gehört haben keine Probleme mit den 3,5GB bekommen? Ganz einfach der Treiber, den vergisst du in deiner ganzen Herangehensweise. Es wird kein Programierer her gehen und ein Spiel für GCN entwickeln, damit es mit der nächsten Generation nicht mehr funktioniert, dieses Problem hatten wir vor DirectX schon einmal, als jeder Hersteller sein eigenes Süppchen gekocht hat.

Was du als Programmierer machst, ist das werkeln mit Schnittstellen wie DirectX, Mantle, OpenGL oder Vulkan. Diese haben aber keinen direkten Hardwarezugriff, hier werkelt immernoch der Treiber zwischen drin und der kümmert sich entsprechend auch um die Spiercherverwaltung. Mag sein, dass letzteres mit DX12 mehr in in die Verantwortung der Spieleentwickler rückt, aber dass man die volle Speicherkontrolle hat und braucht, halte ich eher für unwahrscheinlich.

fdsonne schrieb:
Es nutzt halt keine Folie bzw. kein Ansatz für einen völlig anderen Markt etwas für die Erklärung. Keine Ahnung, ob du jemals mal eine Spieleengine (oder wenigstens etwas, was 3D Objekte auf dem Monitor darstellen soll) Programmiert hast, aber mir stellen sich da Fragen, weil man eben so ohne weiteres keinen wirklichen Einfluss darauf hat. Wenn ich Objekte "über die API lade", welche mit Texturen geschmückt sind, dann gebe ich da keine Speicheraddressen dediziert mit. Das ist doch gerade der Sinn von diesem ganzen Abstraktionsschichten zwischen Hardware und Software. -> was auch klar ein Vorteil ist, den AMD mit hUMA ausgespielt hat bzw. auspielen konnte. Es geht/wirkt ohne dediziertes zutun, weil einfach anstatt ein Copy unter der Decke nur Zeiger umgebogen werden. Das geht aber einfach nicht, wenn es zwei Pools von Daten sind. Denn da müssen die Daten von A nach B UND man muss natürlich auch wissen, welche Daten nun was genau sind.

Der VRAM dient ja auch nur dazu um 3D Objekte und Texturen zu speichern :rolleyes:

. Bei der Berechnung fallen zB. auch temporären Zwischenergebnisse, Framebuffer und der gleichen an, die vermutlich deutlich mehr Bandbreite "verbrauchen" als das laden einzelner Texturen.

Und bezüglich man gibt beim laden von Objekten keine Speicheradresssen an, dir ist hoffentlich klar, dass dein Objekt nur ein Label für eine Speicheradresse ist. Und du dieses sowohl als Wert als auch als Adresse übergeben kannst (pass by value/reference) und damit bestimmt wird, ob eine Arbeitskopie erstellt wird oder eben nicht. Aber das sollte dir eigentlich bewusst sein, verdienst du meines Wissens nach damit doch dein Geld

fdsonne schrieb:
Vielleicht ändert sich das mit DX12 respektive anderen Lower Level Schnittstellen etwas. Aber selbst da sollte das Level immernoch so derart hoch sein, dass du als Spieleentwickler eigentlich nicht primär darum kümmern willst, ob die Daten nun links oder rechts liegen. -> ganz anders im GPGPU Bereich. Dort macht es durchaus Sinn, so Tief reinzugreifen... Der Unterschied besteht halt einfach darin, dass dort Code fabriziert wird, der schlicht auf eine Hardware hin gebaut wird und nicht für xx viele CPU/GPU Kombos funktionieren muss. -> zumindest dort, wo diese Folie hingehört.

Und auch mit DX12 wirst du immer noch den Treiber haben, der sich darum kümmert.

fdsonne schrieb:
Der Ansatz hier ist ähnlich der NUMA Node Problematik im Multi Prozessorbereich. Programmierst du eine Software, die zwar brachial mit der CPU Coreanzahl skaliert, aber kümmerst dich nicht um die Datenhaltung, hast du ein Problem, weil die Skalierung über mehrere NUMA Nodes hinweg schlicht einbrechen wird... Bei Spielen kümmerst du dich aber genau eben NICHT um die Daten, sondern lädst, was du brauchst. Wohin? Das ist genau die Frage, wer übernimmt die Verteilung?

immer noch der Treiber...

fdsonne schrieb:
Aber ich merke schon, wir drehen uns im Kreis, es bringt effektiv nix, in diesem Forum über Technische Details weiter zu spekulieren, wo doch schon wieder der Ton rauer wird... Alles was mit AMD nur im entferntesten zu tun hat, scheint hier ein rotes Tuch zu sein. Das war früher definitiv auch mal anders...

gehen die Argumente oder das Wissen aus, zückt man schnell die Fanboy-Karte... :sleep:

Phantomias88 · 03.01.2016

Hm, im August gabe es noch die Meldung über ein HPC ARM: MARS Hot Chips: Mars-Prozessor mit ARMv8 für High Performance Computing | heise online

Mitte Oktober das: Neuer VISC-Prozessor von Soft Machines | heise online

Als Benchmark wird der geometrische Mittelwert der beiden SPEC-CPU2006-Suiten herangezogen, 32bittig kompiliert mit gcc 4.6/4.7 ohne Autoparallelisierung. Mit OOO-Width meint Soft Machines offenbar die Maximalzahl der pro Takt an die Funktionseinheiten verteillbaren Instruktionen, besser bekannt als "Issue Width". 2-Wide wäre dann wohl Atom, 3-Wide ein ARM Cortex A15, 5-Wide müsste ein Cortex A53 oder ein Apple A7/8 sein (obwohl letzterer gemeinhin als 6-Wide betrachtet wird). 8-Wide trifft auf den Haswell-Prozessor mit seinen 8 Ports zu.

Wie weit lässt sich das den herunter brechen, 64 Kerne an einem Thread wenn viel Code Mix genutzt wird?

fdsonne · 03.01.2016

unl34shed schrieb:
Wie funktioniert alte Kamellen -wie Half Life 1- auf Kepler, Maxwell, GCN oder sogar den APUs? Wie kann es sein, dass alte Spiele, die noch nie etwas von der GTX 970 gehört haben keine Probleme mit den 3,5GB bekommen? Ganz einfach der Treiber, den vergisst du in deiner ganzen Herangehensweise. Es wird kein Programierer her gehen und ein Spiel für GCN entwickeln, damit es mit der nächsten Generation nicht mehr funktioniert, dieses Problem hatten wir vor DirectX schon einmal, als jeder Hersteller sein eigenes Süppchen gekocht hat.

Was du als Programmierer machst, ist das werkeln mit Schnittstellen wie DirectX, Mantle, OpenGL oder Vulkan. Diese haben aber keinen direkten Hardwarezugriff, hier werkelt immernoch der Treiber zwischen drin und der kümmert sich entsprechend auch um die Spiercherverwaltung. Mag sein, dass letzteres mit DX12 mehr in in die Verantwortung der Spieleentwickler rückt, aber dass man die volle Speicherkontrolle hat und braucht, halte ich eher für unwahrscheinlich.

Aber damit hast du doch den Finger genau auf der Wunde? Weder die alte Kamelle ala HL1 noch aktuelle Spiele sind direkt auf Hardwareebene hin programmiert. Man bedient sich Schnittstellen und Abstraktionsschichten, damit eben genau das NICHT notwendig ist. Hier ergeben sich aber eben doch genau die Herrausforderungen, wenn eine Hardware nun möglicherweise "aus der Reihe" tanzt...

Lass es mich mal vielleicht anhand eines Beispiels erklären. Nimm dir einen Hypervisor als Virtualisierungslösung. Du kannst darin Betriebssysteme von anno dazumal virtualisieren, wie auch heutige neue Versionen. Ein OS von sonstwie alt wird kein HDD Caching im RAM betreiben. Ein neues OS aber wird dies tun. Das hat den positiven Effekt, dass ungenutzte RAM Ressourcen IN der VM für das Caching Storagezugriffe verwendet werden. Hier ergibt sich allerdings eine Problemstellung, wenn du dem Hypervisor den RAM Überbuchst. Wenn du bei zwei VMs sagen wir 1GB Rohkapazität an RAM benötigst, das OS aber von den zugeteilten virtuellen 4GB zusätzlich 3GB fürs HDD Caching nutzt wäre ein Host mit 8GB RAM voll belegt. Nun die Frage: Woher weis diese zusätzliche Abstraktionsschicht in Form des Hypervisors, welche Daten potentiell ausgelagert werden können? -> es würde sich anbieten, Daten des HDD Caches dafür zu nutzen respektive den Cache absolut zu verringern. Es wäre aber Fatal für die Performance, wenn es die Rohdaten der laufenden Software wäre.
-> aktuell sind bspw. die Hypervisorlösungen dazu nur bedingt in der Lage, dies zu können. Somit ergibt sich das Problem, dass bei RAM Knappheit die Performance in den Keller geht.

Im hierigen Fall ist das doch ziemlich ähnlich, weshalb, wie ich denke, das Beispiel durchaus passend ist. Der Treiber WEIS nicht direkt, welche Daten was beinhalten. Es wäre also auch ziemlich fatal die falschen Daten aus dem Cache aka schnellen HBM Speicher zu schieben. Wie löst du nun das Problem? An was machst du fest, was für Daten wo stehen, wenn es dir (also dem Treiber) nicht explizit mitgeteilt wird? -> eine Programmierung direkt auf eine Hardware, so hast du selbst festgestellt, wird nicht stattfinden... Also wie das Thema lösen? Das ist doch genau meine Frage.

unl34shed schrieb:
Der VRAM dient ja auch nur dazu um 3D Objekte und Texturen zu speichern . Bei der Berechnung fallen zB. auch temporären Zwischenergebnisse, Framebuffer und der gleichen an, die vermutlich deutlich mehr Bandbreite "verbrauchen" als das laden einzelner Texturen.

Und bezüglich man gibt beim laden von Objekten keine Speicheradresssen an, dir ist hoffentlich klar, dass dein Objekt nur ein Label für eine Speicheradresse ist. Und du dieses sowohl als Wert als auch als Adresse übergeben kannst (pass by value/reference) und damit bestimmt wird, ob eine Arbeitskopie erstellt wird oder eben nicht. Aber das sollte dir eigentlich bewusst sein, verdienst du meines Wissens nach damit doch dein Geld

Zum ersten, das sagte ich oben bereits. Der Bandbreitenbedarf reiner Texturdaten ist wohl vergleichsweise "gering", wie die Relation aber genau ist, ist aktuell unbekannt... Und dazu von Spiel/Settings und Szene abhängig. Aber wie gesagt, das ist nicht primär die Herrausforderung, sondern eher, wie erkennst du bzw. an was machst du fest, was nun in welchem Speicher stehen muss und was nicht?

Und zum zweiten, natürlich ist mir das klar. Aber wo wird bitte bei "by ref/value" eine Speicheradresse mitgeben? Es geht nicht darum, mit der Speicheradresse oder einer Kopie davon zu arbeiten (sprich dass ein Zeiger unter der Haube auf die Adresse zeigt oder sich eine Kopie davon holt), sondern es geht explizit UM die Adresse. Schnapp dir ein Assembler und lade deine Objekte explizit IN eine definierte Speicheraddresse -> wie machst du das in Hochsprachen, die explizit genau solche tiefen Eingreiffe entweder gar nicht haben oder wo durch Abstraktionsschichten der Eingriff nicht soweit runter möglich ist? Wenn 1GB HBM Speicher und sagen wir xGB DDR4 bereit stehen, dann wird es entweder zwei völlig verschiedene Adresspools geben (physische Speicheradressen) oder man mappt die Speicher in einen virtuellen Pool. Wenn du aber nicht angibst, dass Objekt xyz nun in 0x irgendwas liegt, wie willst du dann steuern, in welchem physischen Speicher das Objekt liegt? Und natürlich wird hier der Treiber involviert sein. Aber genau das WIE ist die Frage, die sich mir stellt. Denn der Treiber kann prinzipbedingt nicht wissen, was ich als nächstes mache, ebenso wenig wie er prinzipbedingt nicht weis, was wirklich wichtig ist und was nicht. Wäre das der Fall, würde ein VRAM Limit auf dGPUs doch gar nicht stattfinden. Denn dann wüsste der Treiber vorher schon, was ich als nächstes mache und kann entsprechend agieren um die richtigen Daten in den VRAM zu blasen...
Meines Wissens nach ist das aktuell in Spielen/Engines eine Kombo zwischen Treiber und Spiel. Sprich wir verwenden mittlerweile Verfahren zum Streamen der oftmals dynamischen Welt. Das heist, das Spiel selbst "streamt" in gewissen Radien um Sichtbereich oder ähnlich definierten Zuständen die Datenmenge, die benötigt werden und "leert" explizit aber auch eben gewisse "Altdaten" wieder durch Flushbefehler oder ähnlichem. Der Treiber ist dahingehen dann involviert um den Spaß umzusetzen. Auffallend ist, Spiele, welche explizit NICHT ins VRAM Limit laufen, zeigen idR entweder eine stetig steigende VRAM Belastung oder ein leichtes hin und her. Näherst du dich dem Limit, dann kommt das System an seine Grenzen. Nämlich weil Daten umgeschaufelt werden müssen, die womöglich schon im nächsten Augenblick wieder notwendig sind. Das gibt Nachladeruckler aufgrund von "falschen" Daten im localen VRAM.
-> Die Herrausforderung hier ist doch nun, wenn man schnellen, dafür kleinen Speicher hat, muss man explizit die Daten richtig konsolidieren. Bei dGPUs wie aktuellen APUs gibts das doch so nicht. Da ist der gemappte Speicher einfach so wie er ist. Schnell und idR gleich über den ganzen Bereich... Eine GTX 970 oder Kepler/Fermi GPUs mit diesem komischen VRAM Anbindung zeigen in Titeln bei zu viel Datenverbrauch komische Verhaltensmuster -> weil es eben dem Treiber NICHT möglich ist, da so richtig sauber zu arbeiten.
Mit zwei unterschiedlichen VRAM Pools bei lokalem HBM wären die Vorzeichen zumindest ähnlich... Es sei denn, man löst es eben anders. Bspw. den HBM als reinen "Cache" vor den eigentlichen VRAM zu schalten und jegliche Daten durchlaufen diesen. Dann müsste aber (sofern ich in der Überlegung keinen Denkfehler habe) eben der HBM nicht an der GPU sondern irgendwo zwischen GPU und CPU (wohl an der integrierten Northbridge) hängen sowie entsprechend Bandbreite bereit stehen (Onion3)

Mir ist durchaus bewusst, dass gewisse "Teile" der GPU dediziert Adressen in Reservierung haben. -> dort kann man auch ein 1:1 mapping auf die physische Adresen vornehmen. Der Bereich variabler Größe, der von Texturen und anderem Sonderkram belegt wird, sieht da aber schon anders aus... Wie oben schon glaube ich 2x erwähnt ist aber genau das Zeug eben das, was den Platz wegfrisst. Der reine Workingbereich ohne jegliche Texturen und Co. ist im Vergleich recht gering. Er skaliert mit der Auflösung, du brauchst bisschen Platz für die Framebuffer usw. Aber "viel" ist das nicht... Mit Texturen kannst du aber spielend GB-große Speicherbereiche füllen. Und es ist einzig und allein die Frage, was davon brauchst du wirklich effektiv und was davon ist nur "Cache" für mögliche nächste Zugriffe und wie machst du das fest. -> eben eine technische Betrachtung. Die Frage mit "der Treiber" abzutun kommt dem irgendwie nicht sonderlich nahe :wink:

unl34shed schrieb:
gehen die Argumente oder das Wissen aus, zückt man schnell die Fanboy-Karte...

Sag das bitte why_me oder John, siehe ihre Beiträge weiter oben... Offensichtlich haben diese beiden Typen ein "Problem" im Versuch einer Erörterung von der möglichen technischen Umsetzung... Ich muss mich bestimmt nicht hier von derartigen Leuten anflaumen lassen, noch dazu sind meine Argumente völlig wertungsfrei ggü. dem Hersteller zu sehen. Da ist nichtmal Kritik enthalten... Aber muss man das explizit dazuschreiben, wenn die bekannten Personen hier es sowieso nicht glauben (wollen und werden)?? Das mein ich damit. Wenn kein Interesse besteht, hier zu debattieren/zu spekulieren, dann muss ich das sicher nicht hier tun. Denn mit irgenwelchen Leuten, die meinen einen PC verstanden zu haben, weil sie offenbar schonmal ein Smartphone eingeschaltet haben über technische Umsetzungen zu debattieren, ist irgendwie sinnfrei und führt zu nix... (das ist/war jetzt nicht primär auf Dich bezogen! Also bitte nicht falsch verstehen, aber mir geht diese Fanboykacke gewaltig auf den Keks...)

john201050 · 03.01.2016

ne, ich hab ein problem mit deinem geschwätz.
"Erörterung von der möglichen technischen Umsetzung" kann man das ja leider nicht mehr nennen...

fdsonne · 03.01.2016

Und welches Problem soll das sein? -> willst du mir hier den "Mund" verbieten oder was?

Paper bestätigt AMD Zen-APU mit HBM-Speicher

Enthusiast

Semiprofi

Legende

A4-SFX Nerd

Enthusiast

Urgestein

Semiprofi

Enthusiast

Legende

Semiprofi

Enthusiast

Legende

Enthusiast

Legende

Semiprofi

Banned

Enthusiast

Enthusiast

Legende

Banned

Enthusiast

Semiprofi

Enthusiast

Legende

Semiprofi

Enthusiast

Banned

Legende

Banned

Legende