Und der Ansatz ist für Allerweltrechner ein Schuss in den Ofen.
Nein, er ist gerade für Allerweltsrechner ein super Ansatz. Weil man eben flächen- und energieeffizient nahe an zwei Kerne herankommt. Man kann damit kostensparend arbeiten, was für die Masse wichtig ist. Und maximale Performance, also die Performance von 2 "echten" Kernen, brauchen Allerweltsrechner auch nicht. Auf ein paar Prozent kann man da problemlos verzichten.
Der 'eine physische Kern' (eigentlich Modul) ist aus Softwaresicht eben kein 'Ein-Kern', sondern braucht zwei Threads.
Er "braucht" keine zwei Threads. Mit einem Thread läuft eine CU genauso. Zwei Threads sind notwendig, um die maximale Performance aus einer CU zu holen. Das ist bei Intel und Hyperthreading allerdings nicht anders.
Mal als hypothetisches Beispiel: In 45 nm hat AMD in der Mittelklasse vier Einzelkerne auf einem Silizium untergebracht (Athlon II X4). Mit CMT könnten sie die Fläche pro Kern noch etwas schrumpfen und es würde vielleicht für sechs Einzelkerne (drei Module) reichen. Cinebench freute sich, aber der normale Nutzer im Büro kann schon die vier nicht auslasten.
Oder man belässt es bei 4 Threads, kann dadurch das gesamte Design verkleinern und die Kosten senken, was wiederum preiswertere CPUs für Endkunden bedeutet.
Ein Bürorechner wird ganz sicher nicht mit einer überdimensionierten CPU ausgestattet. Für einen solchen Rechner reicht dann eine CPU mit lediglich einer CU. Besser als Single-Core, aber auch kompakter als ein klassischer Dual-Core.
Hat man weniger Threads als virtuelle Kerne (was bei einem Quadcore / Dual-Modul fast immer der Fall ist), führt das CMT-Konzept nicht weiter.
Schau mal in deinen Task-Manager. Moderne Systeme haben typischerweise mehrere Hundert Threads am Laufen. Es gibt eben nicht nur Multithreading, sondern auch Multitasking. Ausserdem stellt eine Bulldozer CU maximal zwei Threads zur Verfügung. Das ist momentan eine optimale Grösse. Single-Cores machen heutzutage einfach keinen Sinn mehr. Vielleicht mal abgesehen von Smartphones, Embedded Systemen und dergleichen. Aber wir reden hier ja eh über einen anderen Markt. Bulldozer ist flexibel, du kannst also Designs mit 1-8 CUs (2-16 Threads) je nach Anforderung der angepeilten Marktsegmente entwickeln.
Da ein Modul mit nur einem Thread auch nicht schneller als ein klassischer Kern rechnet (momentan sogar leider noch langsamer), bleibt man bei Allerweltsaufgaben auf dem Geschwindigkeitsniveau klassischer Prozessoren.
Und das Problem dabei ist welches? Klassische Prozessoren sind für Allerweltsrechner doch auch völlig ausreichend. Mal abgesehen davon stimmt deine Behauptung nicht wirklich. Innerhalb des gleichen thermischen Rahmens ist ein Thread auf einer CU nicht langsamer. Im Gegenteil, Piledriver legt da ja nochmal einige Prozent drauf. Und da haben wir auch zum ersten mal einen relativ guten Vergleich zwischen K10.5 und Bulldozer, Llano vs Trinity. Auch wenn es natürlich ein paar zu berücksichtigende Unterschiede aufgrund der iGPU gibt.
Besser wäre es gewesen, einen einzelnen Rechenkern weiter zu entwickeln, ihn z.B. 50 % mehr Silizium zu gönnen und dafür vielleicht 25 % mehr Leistung gegenüber K10.5 heraus zu holen.
Und was soll daran besser sein? Dann hast du am Ende 50% mehr Transistoren für vielleicht 15% mehr Performance gegenüber Bulldozer. Das ist keine Verbesserung.
Statt vier K10.5-Kernen hätte man dann vielleicht nur noch drei davon unter gebracht. Cinebench läuft dann etwas langsamer, die für Unternehmen für Anschaffungen wichtigen Kennzahlen wie Sysmark und Co. fallen aber besser aus.
Wen interessiert Sysmark? Unternehmen sollen Prozessoren für reale Umgebungen entwickeln, nicht für Benchmarks. Es ist schon schlimm genug, dass es Leute gibt, die ihre Kaufentscheidung von solchem synthetischen Gedöns abhängig machen.
Der allgemeine Tenor vor drei vier Jahren war, dass wir bald sowieso alle Vierkern-Prozessoren haben werden, weil die Software dann soweit ist und sehr gut parallelisiert ist. Das hat sich leider als falsch heraus gestellt und kommt inzwischen sogar in den Medien an.
Cache statt Kerne - Die Prozessor-Entwickler rücken von der | Computer und Kommunikation | Deutschlandfunk
Ich könnte 4 Kerne gut gebrauchen. Und ich bin ganz gewiss kein Power User. Das ist aber nicht der Punkt. Es geht nicht um eine bestimmte Anzahl an Kernen. Dass es hier Grenzen des sinnvoll nutzbaren für Konsumenten gibt, sollte den meisten schon länger klar sein. Das ist auch den Herstellern bewusst. Genau deshalb gibt es APUs, wo parallelisierbare Aufgaben von GPUs übernommen werden sollen. Der Artikel enthält daher nichts neues.
Wie auch immer, unterm Strich hat das mit Bulldozers CMT Konzept wenig zu tun. Ich kann dir nur nochmal den Tipp geben, dich wirklich mal mit cluster-basierten Konzepten auseinanderzusetzen. Denn diese wirken der simplen Vervielfachung von Kernen entgegen, Resource Sharing und trotzdem hohe Skalierung. Wie ich vorher schon sagte, du scheinst das Konzept noch nicht wirklich verstanden zu haben. Löse dich einfach mal von dem, was du von Zambezi (Orochi) momentan siehst. Hier geht es erstmal um das generelle Funktionieren eines solchen Konzeptes. Orochi ist nicht das Ende der Entwicklung, sondern lediglich der Anfang.
Für einen Kunden ist das kein Kaufargument, weil es ihm momentan und auf absehbare Zeit keinerlei Vorteil bietet.
Doch, tut es, da man zB keine separate Grafikkarte mehr braucht.
Das lass es deutlich kleiner sein, der Ansatz geht trotzdem an den Wünschen der großen Masse der Nutzer (Unternehmen die für Angestellte PCs kaufen) vorbei.
Nähmen wir an, ein Bulldozer-Modul (zwei Threads) wären so schnell wie zwei K10-Kerne und bräuchte nur die Fläche eines K10-Kerns. Wo liegt bei den üblichen 'Leicht-Parallelen Anwendungen' der Vorteil gegenüber einem K10? Bei halber Fläche pro Kern kann man doppelt soviel in einen Chip verbauen (TDP außen vor).
Typische Programm brauchen zwei Kerne und schon beim K10 hatte man vier Kerne. Mit CMT hat man jetzt acht
Nein, du hast es immer noch nicht verstanden. Mit CMT hat man erstmal lediglich zwei Threads statt einem, so wie Intel mit Hyperthreading. Wer eine CPU mit 8 Threads möchte, wird diese Threads sicherlich auch nutzen können. Für alles darunter gibt es Modelle mit 2, 4 und 6 Threads. Und der Vorteil von CMT ist eben, dass diese Threads mit weniger Transistoren und Energie als mit K10.5 machbar sind.