[Sammelthread] Grafikkarten - Technikdiskussion

Lord Quas · 12.10.2009

Ja und genau sowas gehört hier nicht rein

Es geht hier um die Architektur von GPU´s, was wie Funktioniert usw.

Ich lese hier auch nur mit und kann leider nichts beitragen, trotzdem sehr interessant.

Zu deiner Frage:

Schafft der "aktuelle Stand der Technik" Crysis mit 60fps in 1680*

Ja CrossfireX aus 3x5870 schafft das! 2x5850 landen bei ~45fps also vllt sogar nur 2x5870!

Castle · 12.10.2009

Hmm... dann kann ich also ruhig bis Battlefield 3 rauskommt warten wenn die Grafikkarten immer noch nicht besser geworden sind und eigentlich immer noch die gleichen sind und nur mehr von allem haben und einfach nur hochgezüchtet sind.

Muß ich wohl noch nen Jahr und auf neue GPU´s warten.

fdsonne · 14.10.2009

Lord schrieb:
Das wäre mir neu, nach meinem Kenntnisstand sind die Transcendentals in jeder Vektor-ALU nicht DP-fähig (d.h. nicht für DP-Berechnungen nutzbar). Oder hab ich das falsch verstanden und die Einheiten sind zwar DP-fähig, aber es gibt nur keine DP für sine/cosine/sqrt/etc (Transcendentals eben)?

Schaust du hier CB...

computerbase.de schrieb:
ATi hat die IPC (Instructions per Clock) beim RV870 angeblich verbessern können. Die theoretische Rechenleistung der Radeon HD 5870 beträgt satte 2,72 TFLOPs bei normaler Single-Precision. Die Double-Precision-Leistung (64 Bit, nach IEEE754-2008) liegt bei 544 GFLOPs. Die 64-Bit-Genauigkeit wird weiterhin durch das Zusammenschalten der vier gewöhnlichen ALUs pro Shaderkern erledigt, was die DP-Leistung fünftelt. Dedizierte Einheiten gibt es nicht.

Und das zugehörige Bild dazu...
http://pics.computerbase.de/2/6/9/3/9/147_m.png

Also es werden 4 der 5 Teile der ALU für die DP Berechnung genutzt, die Special-Function-Unit, also der fünfte Teil der ALU wird außen vor gelassen und liegt im dem Fall brach...

Lord · 14.10.2009

Das ist doch genau das, was ich im Thread geschrieben habe. Die Transcendentals können für DP nicht genutzt werden, nur die slim-ALUs. Aber ich danke für die Bestätigung

fdsonne · 15.10.2009

Ja klar, aber du schriebst doch oben, das dir das neu wäre? :fresse:

Haben wir wohl aneinander vorbei geredet...

Lord · 15.10.2009

Ja, haben wir wohl

Was mir neu ist, ist, dass sich die Leistung da fünftelt. Wie kommen die darauf? Wenn ich 4/5 der SP-Einheiten für DP nutzen kann (was bedeutet, dass immer zwei Einheiten im Verbund für eine DP-Zahl rechnen), komme ich bei 2/5 der Leistung raus. Wieso nur ein Fünftel?

fdsonne · 15.10.2009

So wie ich das verstehe arbeiten 4/5 der ALU an einer DP Operation... Und der fünfte Teil liegt brach und macht gar nix...

Laut dem CB Bild oben steht ja da, 1x64Bit FP MAD per Clock oder 2x64Bit FP MUL or ADD per Clock...

Lord · 15.10.2009

Lord schrieb:
Wenn ich 4/5 der SP-Einheiten für DP nutzen kann

Ja, das ist wohl das, was ich auch geschrieben habe, oder? Und da SP halb so breit ist wie DP, bleiben von den vier Fünfteln die Hälfte übrig - aka 2/5. Wieso also schreiben die von einem Fünftel der SP-Performance für DP?

fdsonne · 15.10.2009

Wie gesagt, das gilt wohl nur bei MUL oder ADD Anweisungen...
Also sozusagen zwei MUL oder zwei ADD Anweisungen können in einem Takt von je zwei der 5 Teile berechnet werden.

Bei MAD werden alle 4 für eine Anweisung gebraucht...

Die Frage ist, auf was beziehen die sich jetzt... Denn in ersterem Fall wäre es ja wirklich 2/5 der SP Leistung und in letzterem nur 1/5...

Oder hab ich nen Denkfehler?
(Brauch man bei MAD zwei Shaderdurchläufe?)

hung00r · 15.10.2009

Hallo Allerseits!

//sry dass meine frage jetzt nicht ganz zum thema passt, mich verwirrt das schon in single precision
ich hab eine (relativ doofe) Frage bezüglich den Funktionen von Shadern, bzw deren ALUs, besonders Vector ALUs verwirren mich da etwas.

Alle Shadereinheiten beschränken sich nun also auf die grundlegenen Rechenoperationen: ADD (Addition), SUB (Subtraktionen), NOT (Negierungen) oder MUL (Multiplikationen) und noch MADD (Kombination aus ADD+MUL).

soweit ich den Startpost verstanden habe, sind ADD, SUB und MUL binäre operatoren, NOT ein unärer und MADD ein ternärer.
also für (1-dim floating point) variablen a,b und c: //Sind alles beliebige Variablen?
ADD: a+b
SUB: a-b
MUL: a*b
NOT: -a
MADD: (a+b)*c oder (a*b)+c //da kenn ich mich schonmal nicht aus..in der schule heißt es ja punkt vor strich, aber kümmert das die shader, bzw ist die reihenfolge festgesetzt?
MADD+MUL: ((a*b)+c)*d das würde andersrum wohl keinen sinn machen, oder?

So und jetzt bei Vector ALUs, speziell denen der momentan aktuellen AMD/ATI Architektur:

The RV770 extends the R600's unified shader architecture by increasing the stream processing unit count to 800 units, which are grouped into 10 SIMD cores composed of 16 shader cores containing 4 FP MADD/DP ALUs and 1 MADD/shift/transcendental ALU.

schamlos von wikipedia kopiert

also kann jede der 5 ALUs in einem Shadercore entweder ein MADD(damit kann man ADD, SUB, MUL, und NOT erzeugen), oder eine spezialfunktion(DP, transcendental) ausführen.
außerdem heißt es die Shader architektur sei SIMD, also Single Instruction Multiple Data, was wohl mit meiner Frage zusammenhängt.

heißt das, ich kann einen 5 dim float vektor(-variablen) nur mit einem skalar multiplizieren, und/oder einen anderen vektor hinzuaddieren, wobei dieser von der form (a,a,a,a,a) ist, also fünfmal den gleichen wert hat? und einen beliebigen 5dim float vektor negieren?

oder kann man noch eins von den folgenden machen:
zwei allgemeine 5dim float vektoren(-variablen) addieren
zwei allgemeine 5dim float vektoren(-variablen) multiplizieren (mit dem standardskalarprodukt, einer beliebigen bilinearform oder mittels einer x-beliebigen matrix)
und,und,und^^

und noch eine "kleine" frage:
wie würde das dann bei MIMD aussehen? fud hat (quellenlos) erwähnt die nächste amd/ati gpu architektur sei MIMD..

Grüße,
Alex

@fdsonne, @Topic (nochmal und schön fett

)
hab mir den Startpost angeschaut, da MADD eine kombination von MUL und ADD ist, ist es 2 Flops wert.
also kann jeder shadercore 2 dp flops pro takt ausführen, da aber jede der 5 ALUs pro takt ein sp MADD ausführen kann hat der shadercore wiederrum 5*2=10 sp flops pro takt, also die fünfache sp rechenleistung.

edit: (das hundertste mittlerweile

)
seh ich das dann richtig, dass der rv870 dann 320 skalare DP-ALUs hat die MADD können, bzw 320 * 2D ALUs für MUL oder ADD, das wäre dann (auch von der programmierbarkeit -> skalar -> einfacher) fast gleichauf mit der spekulierten DP leistung von Fermi (256 DP shader multipliziert mit weit höherem shadertakt)

hung00r · 15.10.2009

heißt das, ich kann einen 5 dim float vektor(-variablen) nur mit einem skalar multiplizieren, und/oder einen anderen vektor hinzuaddieren, wobei dieser von der form (a,a,a,a,a) ist, also fünfmal den gleichen wert hat? und einen beliebigen 5dim float vektor negieren?

kann mir das bitte jemand bestätigen bzw. sagen wies richtig geht, hab da leider nicht so eine ahnung. Das ist das von meinem Riesenpost, was mich am meisten interessiert.

Grüße,
Alex

Neurosphere · 15.10.2009

hung00r schrieb:
kann mir das bitte jemand bestätigen bzw. sagen wies richtig geht, hab da leider nicht so eine ahnung. Das ist das von meinem Riesenpost, was mich am meisten interessiert.

Grüße,
Alex

Warum möchtest du das denn wissen?

Theoretisch dürfte das schwierig werden (mir fehlt da allerdings auch das Wissen) aber bei einer Vektoraddition hast du ja schon mehrere Rechnungen je nach Anzahl der Dimensionen. Von daher würde ich meinen das die Rechnungen zwar mit Variablen element von R Funktionieren aber bei Vektoren wird das wohl schwierig.

hung00r · 15.10.2009

tut mir leid, ich hab mich etwas blöd ausgedrückt, mit einem 5-dim vektor hab ich u.a. auch einfach fünf einzelne variablen gemeint, die eigentlich nichts miteinander zu tun haben müssen.

also z.B. man muss bei einer menge pixel einen wert (gamma?) um einen fixen wert x erhöhen, also kann man fünf pixel a,b,c,d,e in ein Vec5 ALU stopfen und diese führt die addition bei allen dann gleichzeitig aus.
oder man möchte bei diesen fünf pixeln den wert um faktor 7 erhöhen, also rechnet der shadercore dann in einem schritt 7*a,7*b,7*c,7*d,7*e aus (was eine multiplikation eines vektors mit einem skalar wäre)

ich bin mir halt nicht wirklich sicher was ich mir unter den 5d shadern von ati vorstellen soll, weil ich schon ein paar semester mathe hinter mir hab, dachte ich irgendwie dass mehrdimensionale shader was ganz tolles wären, wo man viel mehr interessante sachen machen könnte (ganz viele sachen mit matrizen, koordinatentransformation, spiiegelungen...hmm weiß nicht was)
aber anscheinend können die 5d shader nur eher unspektakuläres zeug, und sie sind nur gut auszulasten wenn man genug werte findet bei denen man die gleiche operation machen muss (einen gewissen wert addieren bzw multiplizieren)

Neurosphere · 15.10.2009

Shadereinheiten arbeiten aber eigentlich mit assembler und verstehen dezimale Zahlen überhaupt nicht. Von daher werden dir da wohl nur Lord oder dude oder evtl noch ein paar andere helfen können.

Allerdings macht eine Maschine (so doof sich das jetzt anhört) ja eh immer nur die einfachsten Berechnungen bzw bricht sie auf die Grundmathematik herunter. Teilweise wird auch auf vorher bekannte Werte zurückgegriffen.

Allerdings ergründet sich ja schon aus deiner Vermutung das 5D Shader das Problem mit de Auslastung mit sich bringen.

fdsonne · 08.11.2009

falscher Thread GreenStorm...

Für Biosseitige Fragen bitte den AMD Flash Thread nutzen oder alternativ einen eigenen Problemthread aufmachen

sooper_mo · 12.02.2010

Kann ich an eine HD5770 eigentlich zwei Monitore per DVI und einen per HDMI anschließen? (Zwei TFT's und ein LCD)

Le_Frog99 · 12.02.2010

^^ Nein du hast nur 2 Ramdacs , es sei den du hast ab dem 3. Monitor einen DisplayPort Anschluss oder du hast einen aktiven DisplayPort Adapter.

Neurosphere · 12.02.2010

Falscher Thread WIGGA. Versuchs mal in einem der Sammel- oder im Treiberthread.

Schade eigentlich, ich dacht schon hier wär mal wieder was los....

---------- Beitrag hinzugefügt um 11:11 ---------- Vorheriger Beitrag war um 11:10 ----------

Le_Frog99 schrieb:
^^ Nein du hast nur 2 Ramdacs , es sei den du hast ab dem 3. Monitor einen DisplayPort Anschluss oder du hast einen aktiven DisplayPort Adapter.

Seit die ganzen sachen Digital ablaufen gibt es doch keinen Ramdac mehr :hmm:

Nighteye · 16.02.2010

hier mal eine kleine anregung zum diskutieren/philosophieren/nachprüfen

http://www.hardwareluxx.de/community/showthread.php?t=679304

fdsonne · 20.02.2010

Bzzz schrieb:
Was daran liegt, dass RAM mit deutlich weniger Layern herstellbar ist. Eine einfache Fabrikhalle ist auch einfacher hinzustellen als ein 20stöckiges Hochhaus mit gleicher Grundfläche. Worans wohl liegt

Wieso?
Von dreidimensionaler Anordnung der Transistoren sind wie noch ne ganze Ecke entfernt

Das liegt alles auf einer Ebene, oder hab ich was verpasst?

EDIT:
Weiterführung der Diskusion aus folgendem Thread:
http://www.hardwareluxx.de/community/showthread.php?t=692326&page=3

Bzzz · 20.02.2010

Ebene? Erzähl mir mal, wie du auch nur zwei einsame DRAM-Zellen verdrahten willst, ohne Wort- und Bitleitung auf unterschiedlichen Ebenen zu führen?
Dass man seine Bauteile noch planar aufs Substrat pappt, okay, aber wenns funktionieren soll, braucht das ganze auch seine Zuleitungen

scully1234 · 20.02.2010

fdsonne schrieb:
Von dreidimensionaler Anordnung der Transistoren sind wie noch ne ganze Ecke entfernt

Nun in den Köpfen existieren solche Pläne jedenfalls schon bei den GPU Herstellern

fdsonne · 20.02.2010

Die Zuleitungen ansich sollten bei der Produktion des DIEs und der hier gerade diskutierten Fehlerquote das geringste Problem darstellen...
Denn wie gesagt, die Transistoren des Chips ansich sind in einer Ebene auf dem Trägermaterial angebracht.

Oder reden wir grad aneinander vorbei?

PCZeus · 20.02.2010

Wenn ich fdsonne richtig verstanden habe, meinte er die Anordnung der Transistoren selber und nicht die Zuleitungen

Diese dreidimensional anzuordnen sprengt den Rahmen des derzeit technisch Machbaren.

fdsonne · 20.02.2010

PCZeus schrieb:
Wenn ich fdsonne richtig verstanden habe, meinte er die Anordnung der Transistoren selber und nicht die Zuleitungen
Diese dreidimensional anzuordnen sprengt den Rahmen des derzeit technisch Machbaren.

Genau so schauts aus...
Was die Zuleitungen überhaupt mit der Fehleranfälligkeit der Chips ansich zu tun hat, versteh ich nur noch nicht so ganz...

scully1234 schrieb:
Nun in den Köpfen existieren solche Pläne jedenfalls schon bei den GPU Herstellern

Da hast du durchaus recht. Das Problem ist aber wohl die Kühlung bei einem derartigen Einsatz...
Zwei Ebenen übereinander mögen vllt noch funktionieren, aber dann wirds sicher recht schwierig. Zumahl man ja mehrere Ebenen übereinander dafür einsetzt um mehr Transistoren auf weniger Fläche zu bekommen... Das Verhältniss zwischen zu Kühlender Fläche und erzeugter Hitze steigt mindestens linear an

scully1234 · 20.02.2010

fdsonne schrieb:
Da hast du durchaus recht. Das Problem ist aber wohl die Kühlung bei einem derartigen Einsatz...
Zwei Ebenen übereinander mögen vllt noch funktionieren, aber dann wirds sicher recht schwierig. Zumahl man ja mehrere Ebenen übereinander dafür einsetzt um mehr Transistoren auf weniger Fläche zu bekommen... Das Verhältniss zwischen zu Kühlender Fläche und erzeugter Hitze steigt mindestens linear an

Ich glaube da gab es auch mal Versuche mit miniaturisierten Peltierelementen zwischen den einzelnen Layern,weiß aber nicht mehr wo ich das damals gelesen hatte

fdsonne · 20.02.2010

scully1234 schrieb:
Ich glaube da gab es auch mal Versuche mit miniaturisierten Peltierelementen zwischen den einzelnen Layern,weiß aber nicht mehr wo ich das damals gelesen hatte

Peltierelemente?
Eher nicht... Da lässt sich zwar gut Kälte auf einer Seite erzeugen, andererseits wird aber mehr als das was an Leistung in Kälte gesetzt wird auf der anderen Seite in Hitze umgesetzt, und das ist genau das, was man in nem DIE nicht brauch...

Achso, ich schlage vor derartige Diskusionen im Technikthread weiterzuführen, hier gehts schließlich nicht um Technik bzw. was noch kommen wird

scully1234 · 20.02.2010

fdsonne schrieb:
Achso, ich schlage vor derartige Diskusionen im Technikthread weiterzuführen, hier gehts schließlich nicht um Technik bzw. was noch kommen wird

Jepp das wäre mal wieder was für den Technikthread da hast du recht :wink:

Bzzz · 20.02.2010

fdsonne schrieb:
Die Zuleitungen ansich sollten bei der Produktion des DIEs und der hier gerade diskutierten Fehlerquote das geringste Problem darstellen...
Denn wie gesagt, die Transistoren des Chips ansich sind in einer Ebene auf dem Trägermaterial angebracht.

Oder reden wir grad aneinander vorbei?

Hoffe nicht

Wenn also die Verbindungen zwischen den einzelnen Transistoren (, Kondensatoren, Dioden, ...) nicht das Problem ist - wo dann?

Eine einzelne Schicht kriegt man wunderbar hin. Wenn das nicht gegeben wäre, dann könnte man auch keine zweite Schicht drüberlegen, die dann eben die Interconnects darstellen. Und auch keine dritte, vierte, ...
Weiß gar nicht, bei welcher Zahl man heute ist. Der AMD K6-III soll ziemlich sparsam gewesen sein, 5 oder 6. Laut http://en.wikipedia.org/wiki/File:Cmos-chip_structure_in_2000s_(en).svg gabs in der gleichen Zeit aber schon wesentlich aufwändigere Designs. Und heute müsstens deutlich über 50 Layer sein, aber ich kann das nicht belegen, habs nur irgendwo mal gelesen.

Also nochmal die Frage: Woran haperts denn, deiner Meinung nach?

@scully1234: Link?

scully1234 · 20.02.2010

Bzzz schrieb:
@scully1234: Link?

Bin schon auf der Suche,aber ich weiß das ichs gelesen hatte irgendwo

[Sammelthread] Grafikkarten - Technikdiskussion

Enthusiast

Enthusiast

Legende

Semiprofi

Legende

Semiprofi

Legende

Semiprofi

Legende

Neuling

Neuling

Enthusiast

Neuling

Enthusiast

Legende

Enthusiast

Forenleitung , Chefsklave , Turbo Froschn !

Enthusiast

Urgestein

Legende

Enthusiast

Banned

Legende

Semiprofi

Legende

Banned

Legende

Banned

Enthusiast

Banned