Benchmarks von AMDs neuer High-End-CPU Vishera

Softwaresupport usw. ist immer das Totschlagargument bei dem Thema... Das Problem ist, man kann weder dagegen, noch dafür was sagen. Denn es liegt nunmal schlicht in der Hand des Entwicklers, wie er seine Software bereit stellt und wohin er optimiert.
Schon klar. Nur reduzieren die meisten Benchmarkergebnisse auf die Hardware. Und das ist eben nur die halbe Wahrheit. Das sollte man immer im Hinterkopf behalten, wenn man über das Thema diskutiert. Es ging doch nicht darum, dir einen Prozessor auszureden, wenn die von dir verwendete Software besser damit zurecht kommt.

Ist auch äußerst schwer zu vergleichen.
Nö, wieso? Du kannst zB mehrere Prozesse starten und schauen, welches System früher fertig ist, eine bessere Energiebilanz aufweist, etc. Klar ist es aufwändiger, als einfach nur eine einzelne Anwendung zu benchen. Wirklich schwierig ist das aber auch nicht.


Das ist falsch. Die maximale Leistung wird mit nur 4 Threads erreicht. HyperThreading dient dazu die CPU besser auszulasten, wenn sie mit suboptimalen Programmcode arbeitet, dieser kann aber ohnehin nicht die maximale Leistung abrufen.
Naja, fdsonne hat schon Recht. Die maximale Performance erhält man nur mit SMT. Ob SMT greift, hängt ja vor allem davon ab, ob EUs frei sind. Selbst mit optimalem Code kann es solche Fälle geben. Das hängt einfach vom Workload ab.

Durch HT müssen die Pipelines weniger häufig geflasht werden
Pipelines müssen gar nicht geflasht werden. :d Du meinst vermutlich geflusht.


Ich behaupte jetzt mal CMT kann über 90% skalieren. :)
Von mir aus. :) Ich hatte noch irgendwas grob von 80% aus einem Testparcours in Erinnerung.
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Es läuft hier wieder genauso ab wie in jedem anderen Thread wo im Titel AMD steht. Jetzt gehts um Kaveri, Haswell, SMT, ob das Modulare Design was taugt, ob in Zukunft Konsolen Ports von 8 "Kernen" profitieren und was weiss ich für einen Sick.
Ich weiss nicht ob einem der Thementitel noch geläufig ist, kann man ja schnell mal vergessen. Es geht um einen "angeblichen" Benchmark einer neuen High End CPU von AMD.
Das interessiert doch mittlerweile nichtmal mehr die Moderation. Wie lächerlich macht man sich eigentlich, wenn man beim dem ganzen Spam hier 2 oder 3 Beiträge löscht und dann ein fettes *Beiträge entfernt* reinklatscht...
 
Die Aussage versteh ich nicht...
Wie misst man die maximale Leistung einer CPU, wenn nicht am Beispiel von Programmen (sprich Programmcode?)
Es geht um praktische Läufe mit Programmcode und nicht um theoretische Betrachtungen. Die Grundproblematik ist, daß in normalen Betrieb das OS preemptives Multitasking unterstützt. D.h. sobald mehrere Programme ausgeführt werden müssen (ist bei modernen OS eigentlich immer der Fall), werden diese wechselseitig angehalten, die Caches geflusht, das neue Programm geladen, Daten gelesen und dann begingt das Spielchen von vorne. Das trifft auch bei den modernen MultiCore CPUs zu. Wenn ein solcher Kontextwechsel stattfindet, kann es sein, daß der Thread nicht mehr auf demselben Core wieder ausgeführt wird. Spätestens jetzt werden auch die readonly Cacheinhalte verworfen. Zum Teil verlagern die OS die Threads absichtlich, um die Cores kühler zu halten und so mehr vom Turbomode zu profitieren. Das ist für den Normalbetrieb das sinnvolle Vorgehen.

Allerdings trifft dies nicht zu, wenn man HPC macht. Mit HPC meine ich, daß der Computer in der Hauptsache nur noch ein Programm ausführt, und dies mehrere Stunden oder Tage. Dann ist es besser, wenn man die Threads fest an Cores bindet. Dann unterbricht das OS die Ausführung nur noch, wenn es ein anderes Programm ausführen muß. Es gibt somit sehr viel weniger Kontextwechsel. Weniger Kontextwechsel bedeutet weniger häufigeres Verwerfen der Cacheinhalte -> höhere Ausführungsgeschwindigkeit.

Hier gibt's ein PP Slide zum Thema: http://www.rz.rwth-aachen.de/global/show_document.asp?id=aaaaaaaaaabsykd
Es sind am Ende Graphen enthalten, die die Problematik visualisieren.
Und in der Praxis ist es doch eher so, das es äußerst selten der Fall ist, das ein Programmcode so "gut" geschrieben ist, das dieser die CPU vollständig auslasten kann und folglich SMT nichts, aber auch gar nichts mehr bringt.
Wenn zwei Threads pro Core laufen, konkurrieren sie um die Caches. Wenn man halbwegs brauchbaren Code hat, dann profitiert dieser vom Cache. Cache Invalidierungen reduzieren somit die Ausführungsgeschwindigkeit. SMT hilft die CPU besser auszulasten, wenn es ohnehin ständig zu Kontextwechsel kommt, weil hier Pipelineinhalte weniger häufig verworfen werden müssen. Allerdings setzt das voraus, daß man überhaupt ständig Kontextwechsel hat. HPC bedeutet eben, daß man kaum Kontextwechsel braucht, somit ist SMT nicht sinnvoll.

Ich lehne mich sogar aus dem Fenster und sage, das es zum Teil sogar so ist, das man unabhängig von SMT sogar mit mehr wie einem Thread auf einem Core, eine höhere Gesamtleistung erzielen kann als im Vergleich zu einem einzigen Thread pro Core.
Das ist nachweislich nicht der Fall. Es gibt dazu eine ganze Reihe wissenschaftlicher Artikel. Ich muß mal nachschauen, welche davon frei erhältlich sind.

Für den oben aufgeführten Vergleich ist das aber alles ziemlich uninteressant. Denn für gewöhnlich hat der User auf die Programme selbst keinen Einflus,
Auch das ist inkorrekt. Zumindest unter Linux kann man Prozesse Coremasken zuweisen (taskset), das geht auch mit jedem x-beliebigen kommerziellen Programm. Bei einem Thread wird dieser somit an einen Core gebunden. Bei Programmen mit OpenMP (oder einen vergleichenbaren MT Lösung) kann man von außen Umgebungsvariablen setzen, die die Threads fest an bestimmte Cores binden. Es ist nahezu bei jedem kommerziellen HPC Programm möglich genau dies zu tun. Weil die Softwareautoren vorher nicht wissen können, wie die Topologie des jeweiligen Systems aussieht.

Dahingehend hat AMD ja grundsätzlich keinen Nachteil.
Die meisten Algorithmen skalieren nicht linear mit der Zahl der Cores, daher ist es schlechter für die gleiche Leistung mehr Cores zu benötigen.

---------- Post added at 09:27 ---------- Previous post was at 09:18 ----------

Deine Erklärung ist ja gut, aber eigentlich überflüssig, weil es in jeder Review Benches von normaler Software gibt wo die i7 mit SMT mehr leisten,
Thread Pinning (Thread Affinity) bringt ca. 20-30% Mehrleistung auf einem System mit einem NUMA Knoten. Hat das System mehrere NUMA-Knoten, sind die Ergebnisse zum Teil dramatisch unterschiedlich, da es hier mehr Möglichkeiten gibt, die Performance zu versauen, wenn die Threads auf dem falschen Core ausgeführt werden.
 
Wenn zwei Threads pro Core laufen, konkurrieren sie um die Caches. Wenn man halbwegs brauchbaren Code hat, dann profitiert dieser vom Cache. Cache Invalidierungen reduzieren somit die Ausführungsgeschwindigkeit. SMT hilft die CPU besser auszulasten, wenn es ohnehin ständig zu Kontextwechsel kommt, weil hier Pipelineinhalte weniger häufig verworfen werden müssen. Allerdings setzt das voraus, daß man überhaupt ständig Kontextwechsel hat. HPC bedeutet eben, daß man kaum Kontextwechsel braucht, somit ist SMT nicht sinnvoll.

Da pauschalisierst du zu stark. Man kann nicht ausschließlich an der Qualität des Codes fest machen, wie stark dieser von Cache profitiert - das hängt nicht zuletzt auch von der Problemstellung ab. Zudem überwiegt die bessere Auslastung der Pipeline durch SMT idR mögliche leistungsmindernde Faktoren. Nur in absoluten Ausnahmefällen wie Linpack, wo ohnehin fast die maximale theoretische Rechenleistung erreicht wird, kehrt sich dies ins Gegenteil.

Da du explizit von Programmen gesprochen hast: Der überwältigende Anteil kommerziell eingesetzter Software mit ausreichender Parallelisierung profitiert von SMT, selbst wenn keine weiteren Programme parallel genutzt werden.
 
Thread Pinning (Thread Affinity) bringt ca. 20-30% Mehrleistung auf einem System mit einem NUMA Knoten. Hat das System mehrere NUMA-Knoten, sind die Ergebnisse zum Teil dramatisch unterschiedlich, da es hier mehr Möglichkeiten gibt, die Performance zu versauen, wenn die Threads auf dem falschen Core ausgeführt werden.

Mag ja alles sein, aber dein absolutes Urteil über SMT ist schlicht falsch in der Praxis, du hast gesagt dass es maximale Leistung nur mit vier Threads geben würde. Wie gesagt genug Beispiele widerlegen dies. Deine These mag in der Theorie stimmen, scheitert aber an der Prxis. Erinnert mich an an Aufwands-Analysen bei mir an der Uni in Algorithmen und Datenstrukturen, das schwebte auch sehr in der perfekten Theorie. :d Draußen auf der Straße ist was zählt. ;)
 
Mag ja alles sein, aber dein absolutes Urteil über SMT ist schlicht falsch in der Praxis, du hast gesagt dass es maximale Leistung nur mit vier Threads geben würde.
Eine CPU hat eine theoretische Rechenleistung, und das Ziel ist es dieser theoretischen Rechenleistung möglichst nah zu kommen. Damit dies gelingt muß die Thread Affinity zum Core aktiviert sein. Ist das der Fall bringt SMT faktisch nichts mehr. Bei den meisten Algorithmen sind mehr Threads bei gleicher Rechenleistung von Nachteil, d.h. man wird mit SMT langsamer.

Wenn schlecht geschrieben Software es noch nicht einmal ermöglicht die Thread Affinity zu beeinflußen, dann ist das ein Problem der Anwendung. Sie bleibt damit unterhalb der möglichen Leistung, die sie ohne eigentliche Codeänderung erzielen könnte zurück.
 
Eine CPU hat eine theoretische Rechenleistung, und das Ziel ist es dieser theoretischen Rechenleistung möglichst nah zu kommen.

Wieviele praktische Anwendung kommen auch nur annähernd in die Nähe dieser theoretischen Maximalleistung? Das wirkliche Ziel ist eine möglichst hohe praktische Rechenleistung, und genau da hilft SMT in fast allen Fällen.
 
Wie schon gesagt, in der Praxis sieht es anders aus. Und diese "schlecht geschriebene" Software ist nun mal gang und gebe.
 
Da pauschalisierst du zu stark. Man kann nicht ausschließlich an der Qualität des Codes fest machen, wie stark dieser von Cache profitiert - das hängt nicht zuletzt auch von der Problemstellung ab.
Man kann bei Beachtung der Cache Lines und des TLBs die Leistungs einer Problemlösung zum Teil drastisch (Faktor 10 ist nicht unrealistisch) verbessern. Das erfordert natürlich angepaßte Algorithmen, und somit ist die Qualität des Codes ganz wesentlich dafür verantwortlich wie gut er die Caches ausnutzt.

---------- Post added at 12:11 ---------- Previous post was at 12:09 ----------

Wie schon gesagt, in der Praxis sieht es anders aus. Und diese "schlecht geschriebene" Software ist nun mal gang und gebe.
Ich nutze ausschließlich Linux, und da ist der auch bei kommerzieller Software Stand der Technik.
 
Ich nutze ausschließlich Linux, und da ist der auch bei kommerzieller Software Stand der Technik.

Genau die ganzen Unix-Derivate sind dem Rest immer Meilen vorraus. :d Das hat nichts mit Stand der Technik zu tun, sondern mit der Implementierung von Schnittstellen und Software im Allgemeinen, da steht geforderte Funktionalität weit vor optimaler Performance in Lastenheft...
 
Man kann bei Beachtung der Cache Lines und des TLBs die Leistungs einer Problemlösung zum Teil drastisch (Faktor 10 ist nicht unrealistisch) verbessern. Das erfordert natürlich angepaßte Algorithmen, und somit ist die Qualität des Codes ganz wesentlich dafür verantwortlich wie gut er die Caches ausnutzt.

Dann machen wohl die Softwareentwickler fast aller großen Unternehmen was falsch. Du kannst Stalls praktisch nicht immer vermeiden und damit auch nicht gelegentlichen Leerlauf der Pipelines - und genau da hilft dir SMT.
 
@jdl
deine Ausführungen sind zwar nachvollziehbar, aber irgendwie rutscht mir das etwas zu sehr in die HPC Welt ab. Es mag durchaus sein, das es in der etwas speziellen HPC Welt weit aus mehr Anpassungsmöglichkeiten gibt, wo auch der User Mittel und Wege hat, seine Recheneffizienz mit eigenen Möglichkeiten zu steigern.
Aber hier gings doch eher um die breite Masse der User, welche Zuhause nen PC stehen haben. Und da läuft idR nichtmal ein Linux/Unix drauf, sondern zu einem Großteil "nur" ein Windows gepaart mit käuflich erworbener closed Source Software.
An der Stelle hat nunmal der User einerseits nahezu keine Möglichkeiten den Sourcecode im speziellen zu optimieren und andererseits hat er fast keinen Einfluss darauf, was das OS mit den Threads schlussendlich macht. Er kann zwar via Taskmanager eine/mehrere Anwendung auf "Cores" pinnen und Prioritäten setzen, aber selbst das sollte dem von dir angesprochenen Effekt bei weitem nicht nahe kommen...

Wie gesagt, in der Theorie stimmt das sicher auch alles, selbst in der HPC Praxis mag man dort weit mit kommen (da kenne ich mich zu wenig mit aus im HPC Bereich), in der Otto Normalo Desktopsicht aber wird es weit weit undurchsichtiger ;)
Undertaker hat es ja schon gesagt, in nahezu allen Fällen bringt dir dort eben SMT einen teils nur kleinen, teils gar größeren Vorteil. Und auch die Modulbauweise mit CMT bei AMD bringt dort Vorteile, sofern die Anwendung die nötigen Lastthreads bereit stellen kann oder man genügend Lastthreads über mehrere Anwendungen aufruft.
Daher hat dort aus meiner Sicht auch AMD eben keinen Nachteil mit dem vier Moduler, da man ebenso mindestens acht Lastthreads braucht, analog zum i7 mit SMT, um eben die CPU mit benannten Softwaremitteln auszufahren. Benante Ausnahmen gibts zwar immer wieder, aber das sollte bei deutlich weniger 1% aller Software am Markt der Fall sein.
 
Und auch die Modulbauweise mit CMT bei AMD bringt dort Vorteile, sofern die Anwendung die nötigen Lastthreads bereit stellen kann oder man genügend Lastthreads über mehrere Anwendungen aufruft.

Wobei die zukünftige Software könnte den "genügend Lastthreads über mehrere Anwendungen" im Heimbereich einen Strich durch die Rechnung machen. Wenn ich mir das Metro-Gelump von Windows 8 angucke, was, wie zu befürchten ist, arg gepusht werden wird - dort läuft nur noch eine App und schaltet man eine App für eine andere in den Hintergrund, wird sie angehalten. Quasi die Rückkehr zu Dos 1.0.

O.k. leicht übertrieben, man kann wohl tatsächlich 2 Apps nebeneinanden laufen lassen und es gibt auch eine Multitasking API, die es bis zu 7 Apps erlaubt, im Hintergrund pro 15min jeweils bis zu maximal 2 Sekunden Rechenzeit der CPU zu belegen... Quelle1 Quelle2
 
Zuletzt bearbeitet:
Warten wir mal ab ob Windoof 8 sich mit dem Metro-Müll überhaupt durchsetzt am PC...

Aber mit Windows 8 sind wir jetzt wirklich seeeeehr weit von Vishera entfernt, der kommt ja vielleicht sogar vorher...
 
Warten wir mal ab ob Windoof 8 sich mit dem Metro-Müll überhaupt durchsetzt am PC...

Aber mit Windows 8 sind wir jetzt wirklich seeeeehr weit von Vishera entfernt, der kommt ja vielleicht sogar vorher...

Windows 8 kommt am 15.8. für die Partner ;) Und wenn ich es richtig verstehe am 20.8. für das MS ActionPack. Da werd ich dann mal nen Blick drauf werfen auf der Arbeit, was sich schlussenldich noch so getan hat.
Wobei aber Windows 8 am Problem so erstmal nix ändert. Zumal ich behaupte, das diese mini Apps alles andere als Lastverschlingend werden. Je nachdem, um was es sich handelt. Gerade in der Übergangszeit werden die bekannten Programme wohl alle samt auf dem klassischen Desktop laufen.
 
Oh ich hatte mitte Oktober vorhin im Kopf. :d Ich werde es ignorieren, hab mal in eine Preview rein geguckt, nicht mein Fall... ;)
 
Man kann bei Beachtung der Cache Lines und des TLBs die Leistungs einer Problemlösung zum Teil drastisch (Faktor 10 ist nicht unrealistisch) verbessern. Das erfordert natürlich angepaßte Algorithmen, und somit ist die Qualität des Codes ganz wesentlich dafür verantwortlich wie gut er die Caches ausnutzt.

Also ich melde mich bei Dir fuer einen Programmierkurs an. Faktor 10 ist ... WOW. Mir bleibt die Spucke weg.
Ich habe Probleme ein voll ausoptimiertes C Programm via Assembler noch um ein paar Prozente zu verbessern.
Wobei beides dann offensichtlich nicht gerade die Spezifikationen fuer den Produktiveinsatz erfuellt.
 
Zuletzt bearbeitet:
In der Praxis ist es leichter Faktor 10 zu verschenken, als Faktor 10 zu gewinnen. Meiner Erfahrung nach sitzt das größte Beschleunigungspotential nicht in der Implementation der Mathematik in Programmiercode, sondern in der Mathematik selbst bzw. der numerischen Umsetzung derselben.


Der 'neue Bulldozer' Vishera soll wohl doch nur ein neues Stepping der ersten Version werden - auf Problemlösung können wir dann mit dem Nachfolger des noch nicht veröffentlichten Produktes rechnen:
Unntiges Rtselraten ber AMD FX2-Samples - Planet 3DNow! - Das Online-Magazin für den AMD-User
 
In der Praxis ist es leichter Faktor 10 zu verschenken, als Faktor 10 zu gewinnen. Meiner Erfahrung nach sitzt das größte Beschleunigungspotential nicht in der Implementation der Mathematik in Programmiercode, sondern in der Mathematik selbst bzw. der numerischen Umsetzung derselben.
[/url]

Ich fuerchte da hast Du Recht. Fuer mein aktuelles Projekt waere der Bulldozer so ziemlich optimal. Auch wenn ich sonst eher Intel bevorzuge. Die Laufzeitstabilitaet fand ich auf Intel einfach besser. Aber mit dem Bulldozer hat AMD die Moeglichkeit eroeffnet fuer den "Normalnutzer/Haushaltprogrammierer" einfach mal 8 Kerne ansprechen zu koennen. Mittlerweilen kriege ich meinen guten alten Intel mit meinem Projekt so klein, dass er sogar Tastatureingaben "vergisst". Da wuenscht man sich ein oder zwei Kernchen mehr.

Zwar spiele ich auch mit SSE2 rum aber einen effektiven Zeitgewinn konnte ich damit noch nicht erzielen. Wobei ich Intel zugute halten muss, dass zumindestens der Wolfdale so ziemlich alles schluckt und kaum Raum zum Optimieren laesst.
Die Integervariante ist nach wie vor die schnellste.

Und ja das Potential sitzt tatsaechlich in den Algorithmen bzw. deren Umsetzung. Ich muss noch einen Algorithmus umstellen auf lineare Berechnung/Paging. Bisher habe ich eine funktionierende Routine "recycled". Die bisherige rekursive Auslegung berechnet jeden Wert neu auch wenn er eigentlich bereits bekannt ist. Dort denke ich kann ich tatsaechlich Faktor 10 rausschinden.
Aber nicht ueber Code Alignment. Data Alignment hat da mehr Chancen. Aber auch da reden wir nur ueber Faktor 2 wenn die Ausgangsdaten sehr suboptimal angeordnet waren.

Am Ende ist das Ganze ohnehin sehr abhaengig davon, was man macht. Ein 500 Zeilen Projekt mit nochmal 500 Zeilen NOP und 500 Zeilen Threadmanagement kann dann ganz schnell den Grossteil seiner Zeit damit verbringen NOPs zu laden und Threads zu managen. Aber sehr effizient dafuer.
 
Zuletzt bearbeitet:
Aber mit dem Bulldozer hat AMD die Moeglichkeit eroeffnet fuer den "Normalnutzer/Haushaltprogrammierer" einfach mal 8 Kerne ansprechen zu koennen.

Auch bei Bulldozer sollte man besser von Threads als von Kernen sprechen - die gibt es für Consumer mit Nehalem aber bereits seit 2008 und mittlerweile auch im Mobilbereich auf breiter Front. Ab 500 Euro gibt es sogar schon Consumer-CPUs mit 12 Threads - eine entsprechende breite Parallelisierung macht, falls denn möglich, also schon Sinn.
 
Der 'neue Bulldozer' Vishera soll wohl doch nur ein neues Stepping der ersten Version werden - auf Problemlösung können wir dann mit dem Nachfolger des noch nicht veröffentlichten Produktes rechnen:
Unntiges Rtselraten ber AMD FX2-Samples - Planet 3DNow! - Das Online-Magazin für den AMD-User

Das steht in der News nicht. Ich zitiere das Fazit:

Kurz und schmerzlos zusammengefasst: Ja die Samples sind Visheras und haben Piledriver-Kerne, daran gibt es nichts zu zweifeln.
 
Es steht halt auch drin:
Abu Dhabi (“Orochi”-Rev C) support is mandatory
(...)
Abu-Dhabi is based on the Piledriver core will be available Q2 2012 and offers drop-in compatible part with 200 MHz performance uplift.
 
Based on Piledriver. Und Piledriver für AM3+ ist Vishera. Das ist entscheidend. Der Rev Name ist belanglos.
 
Auch bei Bulldozer sollte man besser von Threads als von Kernen sprechen - die gibt es für Consumer mit Nehalem aber bereits seit 2008 und mittlerweile auch im Mobilbereich auf breiter Front. Ab 500 Euro gibt es sogar schon Consumer-CPUs mit 12 Threads - eine entsprechende breite Parallelisierung macht, falls denn möglich, also schon Sinn.

SMT macht keine bessere Parallelisierung möglich, CMT allerdings schon, insofern sollte man da unterscheiden.
Bulldozer ist scheinbar nur so langsam, weil man einiges nicht auf die Reihe gebracht hat. Ich würde mich gar nicht wundern, wenn Steamroller Stepping D0 oder D1 od. ähnliches wird.
Stellen wir uns vor Bulldozer hätte ohen diese Probleme gefertigt werden können, also die Steamroller "Kerne" wären ende 2011 mit ca 8x4ghz gekommen.( vieleicht 25-40% schneller als der jetzige Bulldozer)
Wir hätten wohl nen neuen Athlon gehabt, aber es sollte halt nicht sollen sein.
 
Zuletzt bearbeitet:
wenn du mal ehrlich bist, bringt dieses wäre hätte udn wenn nichts. Man muss das beste daraus machen.
Schlimm wirds, wenn ein Produkt für den Einsatszweck für das es entwickelt wurde, nicht das bringt was es soll.
Für Intel oder AMD denke ich das die meisten Gamer da recht uninteressant sind ^^ wir bringen denen nicht das grosse Geld.
 
SMT macht keine bessere Parallelisierung möglich, CMT allerdings schon, insofern sollte man da unterscheiden.
Bulldozer ist scheinbar nur so langsam, weil man einiges nicht auf die Reihe gebracht hat. Ich würde mich gar nicht wundern, wenn Steamroller Stepping D0 oder D1 od. ähnliches wird.
Stellen wir uns vor Bulldozer hätte ohen diese Probleme gefertigt werden können, also die Steamroller "Kerne" wären ende 2011 mit ca 8x4ghz gekommen.( vieleicht 25-40% schneller als der jetzige Bulldozer)
Wir hätten wohl nen neuen Athlon gehabt, aber es sollte halt nicht sollen sein.

Stellen wir uns vor Intel würde Nvidia schlucken und APUs herstellen, wir hätten wohl AMD in schnell... :lol:

Hätte hätte Fahrradkette... :fresse2: Dieses was wäre wenn, ist doch immer Banane. Bulldozer ist genauso auf den Markt gekommen, wie er auf den Markt gekommen ist - mit seinen Fehlern, Schwächen und , ganz böse, ohne für ihn optimierte Software. So ist das nun mal, der Drops ist gelutscht. Wichtig ist was 2012 und 2013 wird, die Börse ist zu letzt nicht mehr sonderlich von AMDs goldener Zukunft überzeugt gewesen. Kriegt man bis einschließlich Steamroller nicht die Kurve, haben die viel Zeit über hätte, wäre, wenn nachzudenken...
 
Nö das bringt nichts, erklärt aber AMD´s Probleme.
Der Prozessor selbst wäre fertig gewesen, er lies sich aber scheinbar nicht gescheit fertigen.
Gibt ja viele Leute die meinen AMD würde aus "Unvermögen" hinterherhinken.
 
Es gehört auch eine gewissen Portion Unvermögen dazu, einen Phenom II und Vishera zu brauchen um dem angestrebten Erst-Produkt nahe zu kommen. AMD nimmt hier nicht einfach nur die Opfer-Rolle ein, das haben die schon schön selbst eingetütet. Die personellen Wechsel und das Freikaufen von GlobalFoundries zeigen doch dass der neue CEO Fehler in der Vergangenheit von AMD sieht.
 
SMT macht keine bessere Parallelisierung möglich, CMT allerdings schon, insofern sollte man da unterscheiden.

Nö. Wenn man mal extrem abstrahiert, lassen sich die die Leistungsgewinne von SMT wie auch CMT mit einer besseren Auslastung der Hardware beschreiben. Bei SMT geschieht das durch einen zweiten Thread in der gleichen Pipeline, bei Bulldozer sind Teile wie die Integer-Einheit doppelt. Dadurch ist der Leistungsgewinn von CMT natürlich höher, prinzipiell erreichen beiden ihre optimale Performance aber nur mit 8 Threads*.

*Linpack ausgenommen, da hier die Pipeline auch ohne SMT schon praktisch perfekt ausgelastet wird - ein praktisch allerdings kaum relevanter Spezialfall.
 
Auch bei Bulldozer sollte man besser von Threads als von Kernen sprechen - die gibt es für Consumer mit Nehalem aber bereits seit 2008 und mittlerweile auch im Mobilbereich auf breiter Front. Ab 500 Euro gibt es sogar schon Consumer-CPUs mit 12 Threads - eine entsprechende breite Parallelisierung macht, falls denn möglich, also schon Sinn.

OK, in meinem Fall mag ich das von Kernen auf Einheiten umbenennen. Da ich mein Problem bisher am schnellsten ueber Integerberechnung loesen lassen kann. Also quasi tatsaechlich auf 8 physikalischen Integerkernen, welche allerdings nur von 4 Schedulern* bestueckt werden.(*stark vereinfacht damit das lesbar bleibt)

Bei CPU Preisen von 500 Euro kann man schonmal davon ausgehen, dass der Consumer eher ein Prosumer sein wird. Wohin gegenueber knapp ueber 100 Euro dank Cashback stellt sich das Ganze schon wieder ganz anders dar.

Leider werde ich mir wohl eher keinen BD zulegen aufgrund der Tatsache, dass er nach getaner Arbeit einfach nicht alltagstauglich ist.
Der Idle-Verbrauch ist weit jenseits von dem was man in einem 24/7 MMC noch sinnvoll weiterverwerten kann.
Dort hat AMD irgendwie voellig den Bus verpasst. Obwohl AMD diese Entwicklung erst eingeleitet hat.
Und da spielt eben auch die Designentscheidung eine wichtige Rolle. Wenn ich einen Kern mit multiplen Einheiten ausstatte und dann die restlichen Kerne abschalte, habe ich immer noch den Overhead der ganzen Einheiten. Was auch loesbar waere, aber eben nunmal nicht getan wurde. Und ich kann mir nicht vorstellen, dass das Abschalten von Einheiten patentrechtlich geschuetzt ist.

Insgesamt kann ich die Anleger verstehen, wenn diese langsam hippelig werden. AMD macht irgendwie den Eindruck nicht zu wissen, wo sie hinwollen. Und das ist mit ganz grosser Sicherheit nicht auf unfaehige Angestellte zurueckzufuehren.
Da ein wenig und dort ein wenig und nirgendwo was Richtiges.

Dort hat man sich ein Riesenpotential zusammengeholt und macht damit ... nichts.
AMD haette das Knowhow um wohnzimmer/spieletaugliche Systemloesungen zu fertigen. Statt dessen wird versucht, Loesungen wie die APU zu finden. Das machen andere schon weit besser. Und sind dort um Jahre voraus. Und gerade AMD hat eigentlich nicht mehr die Resourcen um Intel, Nvidia und saemtliche ARM-Fertiger zusammen mal schnell mal so im Entwicklungsbudged zu ueberholen.
Aber die eigenen Entwicklungen werden einfach vergessen. Fertig. Naechstes.

Immerhin koennen wir davon ausgehen, dass sie den Kopf nicht in den Sand stecken werden, dank Headless-Chicken-Strategie.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh