Hm, y33H@ schrieb doch schon, dass es eben nicht geht mit CF.
Was soll nicht mit CF gehen? ZeroCore? Doch, das geht.
Bzgl. CF hast du übrigens vor einer Weile selbst gesagt:
Das war ein anderer Sachverhalt. Dort wollte y33H@ das Thema in Richtung kombinierte Performance beider GPUs lenken. Dazu hatte ich aber nichts gesagt. Das hatte mit ZeroCore nichts zu tun.
Du setzt voraus, dass eine HD 7970 per Crossfire (genauer: Dual Graphics) mit der Trinity-iGPU zusammen arbeitet. Unwahrscheinlich
Nee, nicht unwahrscheinlich. Die Kernarchitektur der GPU ist nicht entscheidend für CF. Wichtig für kombinierte Performance ist die Anbindung. Den Rest macht der Treiber. Aber das ist in dem Fall irrelevant. Für ZeroCore müssen die GPUs nicht miteinander rechnen. Daher ist es auch völlig egal, welche Architektur unter der Haube sitzt. Entweder erzählst du seit Tagen Unsinn oder redest absichtlich am Thema vorbei.
Du kannst das Display-Signal aktuell nicht durchschleifen, d.h. wenn Zero Core greift, müsstest du das Signal auf die iGPU wechseln und wenn die die HD 7970 nutzen willst, dass gleiche rückwärts.
Was denn wechseln? Ein Signal liegt standardmässig an der iGPU an. Da muss nichts gewechselt werden, wenn ZeroCore greift. Worauf wolltest du aber nochmal hinaus? Dass mit iGPU das System nicht mehr läuft mit abgeschalteter diskreter Grafikkarte?
Den klassischen Doppelkern kannst du eben schlecht durch ein einzelnes Modul ersetzen, weil dann die Leistung in 'lightly threaded apps' wie z.B. Sysmark 07 noch schlechter ausfällt.
Doch, kannst du wunderbar ersetzen. Denn unterm Strich geht es den Ingenieuren nicht ausschliesslich um Performance, sondern um Effizienz. Also Sachen wie Performance/Watt oder Performance/mm².
Will man nicht noch mehr Boden verlieren, braucht man bei CMT mindestens zwei Kerne / vier logische Prozessoren.
Diese Problematik hast du aber mit jeder Threading Technologie auf Kernebene. Bei SMT ist das sogar noch gravierender aufgrund der geringeren Skalierung. Sollen wir deswegen solche Threading Technologien komplett über Bord werfen und immer nur die gleichen Sachen von vorgestern neu aufwärmen? Ich denke nicht. Performanceansprüche sind degressiv. Und meiner Ansicht nach wird man mit der Zeit auf ein paar Prozent weniger Skalierung von CMT gegenüber CMP problemlos verzichten können, so wie wir mittlerweile auch nicht mehr das letzte bisschen an Takt brauchen. Aber vielleicht gibt's in Zukunft auch noch was besseres als CMT, was noch näher an CMP herankommt. Am grundsätzlichen Gedanken ändert das nicht viel. So viele Redundanzen wie möglich entsorgen und Performance auf so wenig Platz wie möglich unterbringen mit so wenig Energie wie möglich. Letztendlich ist das auch eine natürliche Entwicklung, die der "Fehlentwicklung" zu Beginn der Multicore Ära entgegenwirkt, wo man einfallslos Kerne einfach dupliziert hat, um mehr Performance zu bekommen.
Egal ob CMT, SMT oder was auch immer, unterm Strich muss man einen sinnvollen Kompromiss fürs Design finden, was die Anzahl der Kerne betrifft. Und ich denke ein 2CU/4T Bulldozer ist da eine sehr gute Lösung für den Massenmarkt. Für "lightly threaded apps" hat man immer noch mindestens die Leistungsfähigkeit eines klassischen 2-Kerners. Für mehr kommt man aber auch nahe an einen klassischen 4-Kerner heran.
Der Vorteil von CMT kommt erst dann zum Tragen, wenn statt zwei vier Threads zur Ausführung bereit stehen
Nein. Irgendwie stehst du immer noch im Wald und hast CMT nicht begriffen.
Rechenleistung in Alltagsapplikationen wird absolut gemessen und Bulldozer liegt ca. auf dem Niveau der Intel Pentium Holzklasse. Und der Pentium hat auch einige Bremsen eingebaut und der Nachfolge-Kern (auf Ivy-Basis) wird schneller rechnen - das entschuldigt nur leider AMDs Fehlentwicklung nicht.
Müssen sie auch gar nicht. Schliesslich gibt es keine Fehlentwicklung. Ich weiss ja nicht, was bei dir Pentium Holzklasse sein soll. Aber der grösste Bulldozer liegt deutlich darüber. Wenn ich mir das Gesamtrating von HT4U anschaue, dann liegt der FX4 10% hinter dem i3. Dafür, dass AMD aufgrund der typischen Windows Setups softwareseitig eh immer benachteiligt ist und gerade Bulldozer, als komplett neue Architektur, Support benötigt, ist das völlig iO. Alles weitere wird man mit zukünftigen Verbesserungen sehen.
Die Thesen zum Aufwand von CMT (Die-Fläche, Energie, Latenz) im Kern teile ich übrigens nicht. Die Cache-Zugriffszeiten und einige Bandbreiten sind eine Katastrophe, insbesondere wenn die Daten zur/von der FPU müssen/kommen. Wer würde schon eine 256 Bit / Takt breite FMAC Einheit in einen Kern einbauen, die nur 128 Bit / Takt /Thread wegschreiben kann.
Es müssen auch nicht in jedem Takt Ergebnisse in den Speicher zurückgeschrieben werden. Meistens wird ja mit Registern gerechnet. Und zum Cache, wie gesagt, das hat nichts mit CMT zu tun, sondern vor allem mit Grösse, Ex-/Inklusivität, Assoziativität und Fertigung. Mal abgesehen davon sind Latenzen zur FPU nicht so dramatisch. Da FP Instruktionen eh in der Minderheit sind, kann man Latenzen gut durch OoO Ausführung kaschieren. Hast du dir mal die Ausführungen von Agner Fog angeschaut? Der teilt deine Ansichten auch in keinster Weise.