Bei GPUs ist aber schon die Komplexität pro ALU mit dem drumherum viel schwächer und es gibt vom Grundaufbau fast nur geteilte 64 Bit- FPUs, die im Consumer- Segment zum größten Teil 2x 32bit- Zahlen berechnen dürfen.
Auch das halte ich für völlig aus der Luft gegriffen... Über die Komplexität der Einheiten wurde doch gar nicht gesprochen... Aber wenn du das gern tun möchtest, bitte... Die notwendige Logik, die es eben braucht damit ein FP64 Wert aus zwei Einheiten rauspurzeln kann (AMD Hawaii bspw.) erhöht die Komplexität der Einheiten. Sprich der Transistorcount erhöht sich für diesen Umstand. Hier gilt es wohl eher designtechnisch abzuwegen zwischen Flächeneffizienz einer Mixed Precision Einheit und dem Anbringen von Einheiten für die jeweilige Prezision im Vergleich dazu. GK110/GK210 verwendet dedicated Einheiten für FP64. Auf drei Einheiten für FP32 kommt eine Einheit für FP64. Gilt aber NUR für den GK110/GK210 in diesem Beispiel. Der GK104 verwendet weit weniger dedicated FP64 Einheiten und kommt damit auf ein deutlich niedrigeres Verhältnis. AMDs Hawaii in dem Fall ist anders gestrickt. Im Profiprodukt wird voller FP64 Support freigeschalten. Im Gamerprodukt wird es Softwareseitig eingekürzt. Ggf. weggelasert (Spekulation meinerseits)
Andere GPUs aus dem Portfolio bei AMD können aber auch von Haus aus kein 2/1 Verhältnis. Es liegt die Vermutung also nahe, dass man die oben genannte notwendige Logik erst gar nicht einbaut, was sinnig ist, wo es doch überhaupt kein Endprodukt gibt, die es auf 2/1 schafft abseits der Hawaii GPU, die genau dafür exakt in diesem Maße designt ist/wurde. Polaris bspw. KANN es einfach nicht.
EDIT: kleine Anmerkung dazu, interessant sind bspw. die APUs bei AMD -> wenn mich nicht alles täuscht, der A12-9800 kann glaube ich 2/1
Aber kommen wir zurück zur deiner ursprünglichen Behauptung. Wenn du dir mal die CUs bei AMD ansiehst, wirst du schnell feststellen, dass da pro CU 64 ALUs vorhanden sind, die in jeweils 16er Blocken zusammen gegliedert sind. Und, wenn du aufmerksam weiter das Blockschaltbild anschaust, findest du dort eine Scalar Unit! -> wo taucht die denn in deiner Rechnung auf ALU Anzahl und Takt auf? Und in der Behauptung auf eine Rohleistungsoptmierung?
Die Einheit ist essenziell wichtig! für das Konstrukt. Und die ist dort drin, weil man sie offenbar braucht bzw. das Design so ausgelegt hat, dass diese unter gewissen Umständen eben angesprochen wird. -> in KEINER! Rohleistungsrechnung findet sie sich aber.
PS: Spekulieren wir weiter. Alle Modelle bei AMD skalieren in einem gewissen Verhältnis von SP/DP, außer die auf den Profimarkt ausgelegten Hawaii GPUs und Tahiti, was eine Sonderlocke in dem Fall ist.
Das SP/DP Verhältnis von Polaris ist 16/1, das von Fiji ebenso. -> vllt kommt dir die gleiche Frage mir wie -> was rechnet die FP64 Values?
Sind es die ALUs, die man mit einer Logik versehen MUSS, damit aus 2xALUs ein FP64 Wert rauskommt? Oder hat vllt die Scalar Unit damit was zu tun? Oder gar dedicated Einheiten für FP64? -> rein vom Verhältnis würde es exakt passen... 16/1 lässt sich exakt bis auf den CU runterbrechen!
Nur wieder die Frage, ist das nun Rohleistung-Optimiert? Und wenn ja, warum? Man gibt offenbar wenig bis gar keinen Wert auf Rohleistung für FP64 bei AMD abseits der Modelle, die explizit für diese Form der Prezision ausgelegt sein sollen. Wäre Fiji also Rohleistungsoptimiert, wenn es um FP64 geht? -> definitiv NEIN, wäre es Hawaii? -> möglicherweise ja. Wie passt das dann aber im Vergleich zu GK110? Ist GK110 mit extra dedicated Einheiten Rohleistungsoptmiert?
Vllt fällt dir ja selbst auf, das die Pauschale einer Rohleistungsoptmierten GPU irgendwie völliger Quark ist... Es sind einfach viel zu viele Faktoren, auf die Rohleistung passt und es gibt viel zu viele Möglichkeiten, diese Rohleistung in verschiedenen Produkten zu skalieren. Eins haben sie aber alle gemein, ein gewisses Maß von Designentscheidungen in der Basis gibt vor, wie der Spaß skalierbar ist -> genau das führt die Aussage einer auf Rohleistung optmierten GPU im Vergleich zu einem anderen Produkt aber auch ad absurdum. Denn es fehlen schlicht und einfach Faktoren, die man im Vorfeld festgesetzt hat und an die sich die Ausbauten schlicht richten (müssen).
Wenn du nun mal an Vega oder GP100 denkst... Wo dort 4/2/1 für ein FP16/32/64 Verhältnis stehen sollen... Nunja, gleiches Argument wie oben, Logik, die notwendig ist, damit die Einheiten genau das können... Macht den Spaß komplexer, bläht den Transistorcount auf, hemmt möglicherweise die Fähigkeit, hohe Taktraten zu fahren -> hier zählen auch andere Faktoren rein! spart aber möglicherweise Fläche im Vergleich zu dedicated Einheiten, kostet möglicherweise aber Energieeffizienz (das war mal NVs Argument pro dedicated Units) usw. usf. Auch dort bleibt es aus der Luft gegriffen, dass es eine Rohleistungsoptmierung wäre. Warum haben sie nicht stattdessen einfach 6144 ALUs drauf gezimmert und den Rest so belassen? Oder Polaris mit 3072 ALUs gebracht? -> das wären dann 12 CUs pro Shaderengine und Teil vom Frontend. Ging es nicht? Wollte man es nicht? Gaben andere Einheitencounts es vor ohne günstige Verhältnisse von ALU zu TMU, ALU zu ROP, ALU zu whatever zuweit auseinander zu fahren?? Oder was? Fragen, die sich stellen, wenn man eine Pauschale in den Raum wirfst... Und die diese Pauschale einfach nichtmal im Ansatz bedienen kann.
Nix für ungut, aber ich habe kategorisch eine Abneigung gegen Pauschalen, die sich derart einfach abschmettern lassen und wo es schlicht viel zu viele Einflussfaktoren gibt, die die gebrachten Modelle einfach beeinflussen können/würden.
Ist doch OK, wenn du dich besser fühlst mit einer AMD GPU im Vergleich zu einer ALU-Leistungsärmeren NV GPU. Nur muss man da aus meiner Sicht nix erfinden
Im Prinzip kann man es fast schon darauf beschränken, ob die ALU ihre Daten vom Drumherum rechtzeitig bekommt oder ob sie verhungern gelassen wird. Während man bei der GPU eigentlich pro ALU auch von Kernen spricht, sind bei der CPU schon in einem Kern mehrere. So eine einfache Rechnung wie bei den GPUs ist dadurch überhaupt nicht möglich, besonders nicht, dass in einem Takt auch genau eine Zahl(oder zwei halbe) berechnet werden könnte.
Das ist eigentlich das, worauf ich hinaus wollte - dass eben der Vergleich GPU vs. CPU einfach hinkt, weil so große Ängerungen durch einzelne Parameter da eher nicht möglich sind, wenn es nicht vorher jemand verbockt hat(wie wahrscheinlich bei Fiji).
Nein, weder spricht von bei der GPU von "Kernen" für die ALUs noch ist ein Vergleich dahingehend zur CPU sinnig... Häng dich bitte nicht an dem Prozessoren auf, die dienten doch nur als Mittel zum Zweck dir ein Beispiel zu geben, dass Einheitenanzal und Takt nicht die Rohleistung machen... Aber auch darum ging es ursprünglich nicht