AMD präsentiert FirePro S10000 mit zwei Tahiti-GPUs

TheBigG · 16.11.2012

Ja genau wir vergleichen jetzt Äpfel, Bananen und Zitronen und messen wer davon am schnellsten ist, besitzen aber nur Kartoffeln und Karotten zum Testen.
Manche haben Hobbys :shot:

Aber viel Spass weiterhin dabei. :haha:

boxleitnerb · 16.11.2012

kann ich mir aber nicht verkneifen bei den Kommentaren der bekannten unsachlichen und realitätsfremden

Kann man so einen Scheiß nicht einfach mal weglassen? Hier geht es sehr sachlich zu, das sollte doch bitte auch so bleiben.

dv2130n · 16.11.2012

mr.dude schrieb:
Das sind doch lediglich TDP Werte. Die sagen herzlich wenig über die reale Leistungsaufnahme. Wir haben schon in der Vergangenheit gesehen, dass Nvidia hier gerne schummelt und real deutlich mehr brauchen kann. Ich bin mir ziemlich sicher, auch der K20X Peak liegt höher als die angegebenen 235 W.

Fakt ist, dass der AMD befeuerte Sanam effizienter arbeitet als der Nvidia befeuerte Titan. Zahlen lügen nicht. ....

ne, Zahlen selbst tun gar nix, noch nicht mal lügen; aber sie können (im schlimmsten Fall) zum lügen benutzt werden, oder sie können falsch verstanden werden, ohne dass irgendwer was dazu kann

nun müssen wir mal nicht alles durcheinanderwerfen,
denn es ist eine ganz andere Frage (die für einen korrekt durchgeführten Vergleich zunächst einmal gar keine Rolle zu spielen hat), ob der Hersteller die (theoretische) Leistung korrekt ermittelt und die TDP korrekt angegeben hat (im übrigen muss die TDP Angabe etwas sehr wesentliches über die tatsächliche Leistungsaufnahme aussagen, tut sie das nicht, wird nämlich der Computer-Designer in die Irre geführt was die erforderliche Kühllösung angeht und die Karte fliegt ihm bei nächster Gelegenheit um die Ohren)
die Verifizierung (oder Falsifizierung) dieser Hersteller-Angaben mag sich vielleicht im dauerhaften und vielfachen praktischen Betrieb einer solchen Karte näherungsweise vollziehen. Aber wer einen aussagekräftigen Test einer solchen Karte auf bestimmte angegebene Eigenschaften hin (die vom Hersteller behauptete Leistung und TDP) durchführen will, der wird dies auf keinen Fall durch einen "Test" der Karte in einer überaus komplizierten Anordnung wie einem ganzen Rechenzentrum erreichen (in dem eine Vielzahl von Variablen eine Rolle spielen wie die Art des laufenden Codes, die Interconnects etc.), sondern der muss einen Test mittels einer möglichst simplen Anordnung durchführen, die genau auf die Messung der infrage stehenden Eigenschaften zugeschnitten ist.
Stellt sich in einer Vielzahl solcher möglichst simplen, kontrollierten und nachvollziehbaren Testanordnungen mit möglichst wenigen Einflußgrößen heraus, daß die Herstellerangaben auch unter Hinzurechnung sämtlicher Overheads unter keinen Umständen auch nur annäherungsweise zu erreichen sind, dann hat der Hersteller ein Problem, das darin besteht, dass er sich geirrt oder geflunkert hat, und das er entweder aussitzen oder in einer neuen Spezifikation mit neuen Angaben korrigieren kann.
Dann müssen neue Produktvergleiche angestellt werden. Aber diese neuen Vergleiche werden wiederum diese neuen "theoretischen" (aber diesmal besser an der Praxis kontrollierten) Angaben des Herstellers heranziehen, und nicht die (Leistungs-/Effizienz-)Ergebnisse, die komplexe Gesamtanlagen produzieren mit einer Unzahl von Einflußgrößen, die für die Leistung einer Einzelkomponente alle unerheblich sind, aber nicht verlässlich herausgerechnet werden können.

Der in Rankings zum Ausdruck kommende Vergleich von Rechenzentren im Ganzen ist in gar keinen Fall eine Aussage über die Leistungsfähigkeit oder die Effizienz von einzelnen Bauteilen dieser Anlagen (Obwohl sich Komponentenhersteller gerne mit den Federn von Gesamtsystemen schmücken). Zwar leistet jede Komponente eines Systems einen Beitrag zum Verhalten des Gesamtssystems (so dass die Leistung/Effizienz des Systems natürlich nicht unabhängig von der Leistung/Effizienz der Komponenten ist), aber von der Leistung/Effizienz eines solchen Gesamtsystems kann nicht (und schon gar nicht zuverlässig) auf die konkrete Leistung/Effizienz einer bestimmten Einzelkomponente geschlossen werden. Und deswegen ist dein Schluss von der Effizienz des Sanam Gesamtsystems auf die Effizienz der darin verwendeten Grafikkarte schon methodisch falsch. Der Schluß ist glatt unzulässig.

Der zunächst einzig zulässige Vergleich beruht auf den sog. "theoretischen" Herstellerangaben. Bis ein solches Produkt in speziell zugeschnittenen und möglichst simplen Testanordnungen durchgeprüft ist. Und das ist bekanntlich schon schwierig genug, wie die notorischen Debatten über angebliche Bevorzugung oder gar Manipulation in solchen Einzeltests von Komponentenzeigen.

scully1234 · 17.11.2012

boxleitnerb schrieb:
Erstens bezieht sich der Verbrauch auf das ganze Rechenzentrum, nicht nur auf die S10000. Zweitens ist sowas bzgl. der Karten gar nicht vergleichbar, da gibt es viel zu viele Variablen, z.B. CPU, Menge RAM/HDDs, Effizienz/Art der Kühlung, Effizienz des Netzteils, Netzwerk usw.

Angesichts das bei Titan Bulldozerkerne werkeln und bei den zwei die noch über ihn stehen in der Green Liste Xeons,ist es schon reichlich naiv,auf der Basis versuchen zu wollen,Rückschlüsse über einzelne Komponenten zu ziehen

Zudem liegen die Rechenleistungen der beiden Steckkarten doch schon vor,sowohl was die theoretische Peak Performance betrifft,als auch im realen Einsatz bei vergleichbaren Berechnungsalgorithmuss

Dort übertrumpft bereits der "kleine" K20 ohne X den Dualcorechip S10000

---------- Post added at 05:47 ---------- Previous post was at 05:39 ----------

mr.dude schrieb:
Das sind doch lediglich TDP Werte. Die sagen herzlich wenig über die reale Leistungsaufnahme. :

3,6KW bei 8 Karten weil du ja immer so auf Quellen stehst,sieht mir nicht so aus,als ob AMD hier auch nur ein Bisschen übertrieben hätte bei den Werten

Kannst den Verbrauch nun gerne wieder auf andere Komponenten umzulegen versuchen,aber jeder der ernsthaft begreift was hier primär den Verbrauch verursacht,weiß was gehauen und gestochen ist

Selbst wenn ich 600Watt für den Rest der Peripherie CPU/Motherboard/Ram/Netzteileffizienz abziehe,was schon reichlich zu deinen Gunsten ausfällt,kommt das Rack hier mit Ach und Krach auf 375Watt pro Steckkarte

8 AMD FirePro S10000s (16 GPUs) achieve 8 TFLOPS real world double precision compute performance | FireUser Blog

Aber das wird sicher noch "besser "mit neueren Treibern gelle?

Schaffe89 · 17.11.2012

scully1234 schrieb:
Bitte bring Klarheit in deinen Kontent^^

Wenn man "günstiger wegkommt",hat man nach Adam Riese am Jahresende,auch mehr in der Hosentasche.Nur zur Erklärung mehr in der Hosentasche = mehr Gewinn

Ich kann dich nur darum beten einfach mal eine Seite zurückzublättern und dir den Sachverhalt mal anzusehen.

Schaffe89 schrieb:
Ich gehe mit dir nicht konform. Aber eines stimmt:

Viele Betriebe erhalten bei einem höheren Stromverbrauch als geplant Rabatte und kommen sogar günstiger weg wenn mehr Strom verbraucht wird als weniger. Ich würde jedenfalls als sinvoll ansehen das Stromargument von scully1234 in Maßen zu relativieren und nicht derart hochzuschaukeln.

scully1234 schrieb:
Da kannst du relativieren was du willst ,ega welches Land nd egal bei welchen Rabatt,kein Unternehmen wird so blöd sein 40Megawatt in Kauf zu nehmen wenn es das gleiche Projekt bereits mit 30Megawatt in selber Zeit bewältigt und bestehende Infrastruktur weiter verwenden kann

Ich habe geschrieben in Maßen relativieren, was auch meinen vorherigen Kommentar mit einbeziehen sollte, nämlich abwarten was die Praxiswerte aussagen.
Sich völlig an TDP´s aufzuhängen war noch nie eine gute Idee.
Dass du nicht fähig bist zu differenzieren war schon immer dein Problem, also das ist wirklich nichts neues.

Wenn man "günstiger wegkommt",hat man nach Adam Riese am Jahresende,auch mehr in der Hosentasche.Nur zur Erklärung mehr in der Hosentasche = mehr Gewinn

Das sind zwei völlig verschiedene Sachverhalte. Wenn ich ein vertragliches Strombudget nicht ausnutze oder unterschreite kostet das einen ordentlichen Aufpreis für Betrieb.
Ich muss also immer schauen dass ich das Strombudget einhalte, oder vielleicht auch überschreite.
Mit Gewinn des Unternehmens hat dies eigentlich nichts zu tun. Aber wenn für dich nach meinem Einwand die Faustregel gilt Mehr Stromverbrauch = mehr Gewinn, dann gratuliere ich schonmal. Du hast nichts kapiert.

scully1234 schrieb:
Hier kommt keiner günstiger weg wenn er nicht auf Perf/Watt achtet.

Das tangiert mein Beispiel überhaupt nicht. Das ist lediglich wieder ein Strohmann den du mir zuschieben willst. Ich habe überhaupt nichts pauschalisiert dass jemand günstiger Wegkommt, wenn er nicht auf Perf/Watt achtet.

boxleitnerb schrieb:
Kann man so einen Scheiß nicht einfach mal weglassen? Hier geht es sehr sachlich zu, das sollte doch bitte auch so bleiben.

Mr. Dudes Vergleich ist Äpfel vs. Birnen, da gebe ich meinen Vorpostern recht.
Allerdings komme mir bitte nicht mit sachlich, ich wäre zum Beispiel schon sachlich, wenn die üblichen Leute hier nicht so eine Stimmungsmache erzeugen würden.
Oder hast du mich erlebt, dass ich Nvidiaprodukte als Fail deklariere? Habe ich selbst beim GK100 nicht getan, weil er durchaus seine Reize hatte.
Nicht umsonst hatte ich über ein Jahr 2x ne GTX 480 als SLI.

scully1234 · 17.11.2012

Schaffe89 schrieb:
Das sind zwei völlig verschiedene Sachverhalte. Wenn ich ein vertragliches Strombudget nicht ausnutze oder unterschreite kostet das einen ordentlichen Aufpreis für Betrieb.
Ich muss also immer schauen dass ich das Strombudget einhalte, oder vielleicht auch überschreite.
Mit Gewinn des Unternehmens hat dies eigentlich nichts zu tun. Aber wenn für dich nach meinem Einwand die Faustregel gilt Mehr Stromverbrauch = mehr Gewinn, dann gratuliere ich schonmal. Du hast nichts kapiert.

Da hast du allerdings recht :haha:

Du schreibst dir ein wirres Zeug zurecht,um dir dein verkorkstes Gerede zurechtfertigen,das keiner dir folgen kann

Sorry schluss jetzt mit dem Kindergarten,ich kommentiere deinen Roman garantiert nicht nochmal,nur um mir dann wieder selben Kaudawelsch anzuhören

fdsonne · 17.11.2012

scully1234 schrieb:
3,6KW bei 8 Karten weil du ja immer so auf Quellen stehst,sieht mir nicht so aus,als ob AMD hier auch nur ein Bisschen übertrieben hätte bei den Werten Kannst den Verbrauch nun gerne wieder auf andere Komponenten umzulegen versuchen,aber jeder der ernsthaft begreift was hier primär den Verbrauch verursacht,weiß was gehauen und gestochen ist

Selbst wenn ich 600Watt für den Rest der Peripherie CPU/Motherboard/Ram/Netzteileffizienz abziehe,was schon reichlich zu deinen Gunsten ausfällt,kommt das Rack hier mit Ach und Krach auf 375Watt pro Steckkarte

scully vergiss bitte nicht den Wirkungsgrad... Sonst macht das Rumreiten auf dem Verbrauch keinen Sinn und wirkt nach reinem bashing...
Reale 3600W hinten rein heißt bei ~80% Wirkungsgrad schonmal "nur" 2880W intern verbrauchend. Ich kenne nun den genauen Wirkungsgrad solcher NTs nicht, behaupte aber, derart dicke NTs dürften auch aufgrund von Redundanzen usw. deutlich unter 90% liegen, daher pauschal einfach mal mit 80% gerechnet.

Teilst du nun diese 2880W durch 8 Karten, kommen schonmal nur noch 360W pro Karte raus. -> gänzlich ohne Betrachtung des Rests.
2880 - deine hochgegriffenen 600W wären 2280W für die Karten, durch acht Stück = 285W pro Karte bzw. 142,5W pro GPU bei einfacher Teilung.

Klingt nun so schlecht nicht

Und weiter gerechnet, theoretische 1,48TFLops/s bei 285W vs. 1,17TFlops/s bei 225W (K20) wären wiederum ~192W pro TFlop/s für S10000 vs. ~192W pro TFlop/s für K20

-> gleichstand

boxleitnerb · 17.11.2012

Bei der Rechnung nimmst du aber an, dass die S10000 viel weniger verbraucht als ihre TDP angibt, die K20 aber exakt an der TDP-Grenze liegt. Das ist doch auch recht unwahrscheinlich.

scully1234 · 17.11.2012

fdsonne schrieb:
scully Ich kenne nun den genauen Wirkungsgrad solcher NTs nicht, behaupte aber, derart dicke NTs dürften auch aufgrund von Redundanzen usw. deutlich unter 90% liegen, daher pauschal einfach mal mit 80% gerechnet.

Aktuelles Dell Netzteil 2U Formfaktor

Aber wenns dir hilft mit 80% zu rechnen von mir aus

fdsonne · 17.11.2012

Unabhängig der genauen Werte sollte diese Rechnung eher verdeutlichen, das das Rumreiten auf den 3,6kW ziemlicher quatsch ist, wenn man damit Rückschlüsse auf den Kartenverbrauch herleitet, ohne dabei den Wirkungsgrad zu betrachten.
Ich denke schon, das K20 sich mehr oder weniger dicht an seinen 225W TDP Limit bewegt. Sonst hätte K20X nicht eine höhere Einstufung bekommen bzw. sonst hätte K20 eine niedrigere bekommen. Die machen die Einstufungen ja nicht zum Spaß

Der Grund warum S10000 hier offenbar gut unter dem TDP Limit agiert könnte beispielsweise die noch dürftige Auslastung sein.

Aber denken wir mal weiter, ggf. hat AMD auch einfach aus ihren Fehlern der Vergangenheit gelernt!?
Ich denke da beispielsweise an eine HD4870X2, welche man via extrem Belastung auf ~370-380W real Verbrauch schieben konnte, obwohl die TDP Einstufungen deutlich unter diesem Wert lag. Soll heißen, ich könnte mir sogar vorstellen, das AMD hier ein Maximum setzt, was in gewissen Situationen auftreten kann. IdR der Verbrauch aber doch gut drunter liegt.

Aber sei es drum, so extrem schlecht, wie man hier über S10000 spricht, scheint das Teil dennoch nicht zu sein. Man schafft über 8TFLops/s quasi aus dem Stand und der Verbrauch wird unter Beachtung des Wirkungsgrades auch nicht so "heiß" "gegessen", wie er hier "gekocht" wird.

@scully, wird nur mit 1200W irgendwie schwierig

Ich könnte mich irren, aber sollte nicht das NT auf den Bildern vom S10000 Rack so ausgelegt sein, das die Kiste auch mit Ausfall eines der drei Module weiter rennt?
Soll heißen, zwei der Kisten zusammen müssen schonmal mindestens besagte Leistung bringen.
Und wie ich oben schon anmerkte, ein gewisser Teil geht dazu noch durch Redundanz drauf...

scully1234 · 17.11.2012

fdsonne schrieb:
Aber sei es drum, so extrem schlecht, wie man hier über S10000 spricht, scheint das Teil dennoch nicht zu sein. Man schafft über 8TFLops/s quasi aus dem Stand und der Verbrauch wird unter Beachtung des Wirkungsgrades auch nicht so "heiß" "gegessen", wie er hier "gekocht" wird.

Es wurde hier ebenso schonmal erwähnt das das K20 ebenso bewältigt mit selben Algorithmus,ohne das da überhaupt der Overhead von zusätzlichen 150Watt TDP für den S10000 zum tragen kommt

---------- Post added at 16:50 ---------- Previous post was at 16:47 ----------

fdsonne schrieb:
@scully, wird nur mit 1200W irgendwie schwierig
Ich könnte mich irren, aber sollte nicht das NT auf den Bildern vom S10000 Rack so ausgelegt sein, das die Kiste auch mit Ausfall eines der drei Module weiter rennt?
Soll heißen, zwei der Kisten zusammen müssen schonmal mindestens besagte Leistung bringen.
...

Schau dir das Rack nochmal genau an,dort sind 3x2U Modelle verbaut,reicht also genau für 3.6KW

Zumal die Kiste sowieso mit der Verlustleistung und dem Kühlsystem niemals dauerlaufgeeignet ist

Würde mich wundern wenn die Karten das ne halbe Stunde mitmachen ohne abzustürzen oder die Kernschmelze einzuleiten :fresse:

boxleitnerb · 18.11.2012

Bei hpcwire macht man sich ein paar Gedanken zu der green500 Liste. Es ist also so, wie ich sagte - die Platzierung an sich sagt ziemlich wenig, da muss man schon etwas weiterdenken:

According to the podcast guys at HPCWire, Tesla K20/K20X is more energy efficient than both Xeon Phi and FirePro 10000 when compared on it's own:

http://www.hpcwire.com/hpcwire/2012-...nd_losers.html

The podcast guys even hint that it would be possible to create a "trick" system to gain top honors on the Green 500 list. They suggest that Beacon (with Xeon Phi) and SANAM (with FirePro 10000) supercomputing systems are propelled to the top of the Green 500 list for two reasons: 1) The ratio of accelerators to CPU's in the system is relatively high. For instance, in the Beacon system with Xeon Phi accelerator, there are four Xeon Phi's for every two Xeon CPU's per node. Since accelerators have relatively high performance/watt compared to CPU's, the Green 500 performance/watt score is significantly boosted. 2) The size and scope of the system is relatively small compared to the Top 10 supercomputing systems. For instance, the Beacon system contains only 144 Xeon Phi accelerators (compared to 18,688 Tesla K20X accelerators in the Titan system and 1,875 Xeon Phi accelerators in the Stampede system). Performance scaling tends to become worse as the number of cores in a supercomputing system increases, so it is much easier to achieve high performance/watt with smaller systems.

http://forum.beyond3d.com/showpost.php?p=1680006&postcount=454

scully1234 · 18.11.2012

Das war doch eigentlich sowie so schon klar,selbst für die Leute die gegenteiliges behauptet haben

Zumal hier auch noch die pure Rechenleistung mit reinspielt

Ein "green IT Rechner" der höher angesiedelt ist im Perf/Watt Verhältniss,mit 2000 Kernen ist zudem leichter zu realisieren,wie das selbe System,mit z.B 18 000Kernen wie es der derzeitige Spitzenreiter trägt.

Ich wäre ja mal neugierig wo das Gflops/Watt Verhältniss der beiden Cluster (Beacon/Sanam) landen würde,wenn sie soweit ausgebaut wären,das sie syncron der Rechenleistung von Titan arbeiten könnten

Und dann noch bei total differierender Einzelsetups,Rückschlüsse auf einzelne Komponenten ziehen zu wollen,macht das Ganze erst recht noch zur Farce

mr.dude · 22.11.2012

sontin schrieb:
Schaut man sich die Green500 Liste an, sieht man doch, dass Opterons eben nicht dafür gemacht wurden sind.
Das erste Opteron-System mit nicht Kepler taucht erst auf Platz 109 mit 718.12 MFLOPs/Watt (AMD Cypress Karten) und 110 mit 715.14 MFLOPs/s (Fermi M2050) auf.

Das ist ein über 2 Jahre alter Supercomputer mit alten Magny-Cours Opterons. Das hat mit Bulldozer gar nichts zu tun und ist auch nicht mit aktueller Hardware vergleichbar. Zumal Cypress ja auch nicht mehr taufrisch ist (VLIW5) und noch in 40 nm gefertigt wurde. Der aktuelle Opteron ist natürlich sehr wohl für Supercomputer geeignet, gerade dort. Und entgegen der landläufigen Meinung ist der auch recht effizient, wenn man es mit den Taktraten nicht übertreibt und aktuelle ISA Erweiterungen wie FMA nutzen kann, was ja bei den Opterons der Fall ist. Es ist also mehr als fraglich, dass der K20x SC mit Xeons effizienter wäre. Aber gut, sich an irgendwelche dünnen Strohhalme zu klammern, soll natürlich erlaubt sein.

sontin schrieb:
Das erste Xeon System mit nicht Phi oder Tahiti ist Bullex 505 mit 2090 Karten auf 35 mit 1,266.26 MFLOPs/Watt (Fermi M2090). Das ist 76% besser als die Supercomputer mit Cypress und 2050...

Sagt uns nur rein gar nichts, da es kein vergleichbares BD Opteron System mit Fermi gibt.

sontin schrieb:
Eine sehr versimpelte Rechnung, wo das Bullex 505 mit Kepler stehen könnte:
Ersetzt man die 256 M2090 Karten durch 256 K20 Karten, erreiche das System ein rPeak von 315,280 TFLOPs/s und bei Effizienz von 69% in Linpack wären es 217,5432 TFLOPs/s. Macht bei einem gleichen Verbrauch von 81,5 kW stolze 2669 MFLOPs/s...

Ist natürlich eine Milchmädchenrechnung, die überhaupt nicht aufgeht, wenn man Systeme mit solch grossen Unterschieden vergleicht. Der Titan braucht praktisch hundert mal so viel Energie und ist dementsprechend üppig ausgestattet. Mal davon abgesehen nutzt der SANAM E5-2650 Xeons. Und Xeon E5-2650 mit Fermi gibt's erst ab #37 mit 1038,29 MFLOPS/W, nicht 1266,26 MFLOPS/W. Da könnte ich jetzt auch behaupten, SANAM wäre mit anderer CPU, zB Bulldozer, noch effizienter.

jdl schrieb:
Beim HPL wird die Effizienz über den kompletten Knoten gemessen, und nicht über die Grafikkarte alleine. Und Titan verwendet ineffizientere AMD Opterons mit speziellen Cray Interconnects.

Es hat auch niemand behauptet, dass die Grafikkarte alleine gemessen wurde. Und dass die Opterons ineffizienter sein sollen, sind nichts als unbelegte Vorurteile. Ich könnte mir sogar vorstellen, dass sie in einem solchen Verbund effizienter als E5-2650 arbeiten. Lustigerweise scheint sogar der ältere Westmere-EP effizienter zu arbeiten, wenn man sich #35 und #36 anschaut. Beides jeweils mit Nvidia 2090.

jdl schrieb:
AMD Software unter Linux ist Schrott, da gibt es nichts positives darüber zu berichten. Der HPL auf AMD ist auch nur Blendwerk, da der Code für DGEMM hochoptimiert ist, aber alles andere für HPC wichtige ist extrem langsam.

Da sagen aber Benchmarks, zB basierend auf OpenCL, was anderes. Zumal solche SC eh speziell optimiert werden. Sry, aber da bekommt man das Gefühl, du denkst dir einfach nur was aus oder willst es nicht wahrhaben.

dv2130n schrieb:
Der in Rankings zum Ausdruck kommende Vergleich von Rechenzentren im Ganzen ist in gar keinen Fall eine Aussage über die Leistungsfähigkeit oder die Effizienz von einzelnen Bauteilen dieser Anlagen (Obwohl sich Komponentenhersteller gerne mit den Federn von Gesamtsystemen schmücken). Zwar leistet jede Komponente eines Systems einen Beitrag zum Verhalten des Gesamtssystems (so dass die Leistung/Effizienz des Systems natürlich nicht unabhängig von der Leistung/Effizienz der Komponenten ist), aber von der Leistung/Effizienz eines solchen Gesamtsystems kann nicht (und schon gar nicht zuverlässig) auf die konkrete Leistung/Effizienz einer bestimmten Einzelkomponente geschlossen werden. Und deswegen ist dein Schluss von der Effizienz des Sanam Gesamtsystems auf die Effizienz der darin verwendeten Grafikkarte schon methodisch falsch.

Nein, du liegst falsch. Ich habe gar nicht auf die Effizienz einer einzelnen Komponente geschlossen. Das haben andere gemacht. Wie man auch an den Milchmädchenrechnungen weiter vorne sehen kann. Es ging hier um Aussagen, dass die Kepler viel effizienter sein sollen, S10000 nicht für HPC und Supercomputer geeignet wäre usw. Genau das habe ich kritisiert und ist eben nicht der Fall, wie man an den Systemen sehen kann. Was eine einzelne Komponente konkret ausmacht, interessiert mich dabei gar nicht und ist aufgrund der angesprochenen Punkte auch nicht eindeutig ermittelbar. Letztendlich funktioniert es nur im Verbund. Und diese sprechen für sich. Klar sollte aber eines sein, was ich schon sagte, die GPUs haben einen nicht zu vernachlässigenden Anteil an Performance und Leistungsaufnahme und damit auch Effizienz. Es wird hier von einigen ja so getan, als würde K20 mit 225 W das schaffen, was S10000 mit 375 W schafft, und damit praktisch 2/3 effizienter wäre. So ist es aber bei weitem nicht.

dv2130n schrieb:
Der zunächst einzig zulässige Vergleich beruht auf den sog. "theoretischen" Herstellerangaben.

Nur sagt uns dieser "zulässige" Vergleich rein gar nichts. Bzw lassen sich damit nur theoretische Effizienzangaben konstruieren, die mit der Praxis meist wenig zu tun haben. Beispiel SANAM. Mit 420 S10000, die je 375 W brauchen sollen, wären es bereits 157,5 kW. Hinzu käme noch der Wirkungsgrad der Stromversorgung. Bei 80-90% hätte man damit schon die Leistungsaufnahme von knapp 180 kW erreicht. Die 3360 Xeon Kerne, Speicher, Interconnects usw brauchen demzufolge nichts. Ist natürlich Quatsch. Auch anhand der Rechnung von fdsonne sollte jedem langsam mal klar werden, dass es mehr als fraglich ist, ob S10000 auch nur ansatzweise die 375 W ausreizt. Selbst wenn es um HPC geht.

boxleitnerb schrieb:
Bei der Rechnung nimmst du aber an, dass die S10000 viel weniger verbraucht als ihre TDP angibt, die K20 aber exakt an der TDP-Grenze liegt. Das ist doch auch recht unwahrscheinlich.

Unwahrscheinlich würde ich nicht sagen. ZB 235 W für K20x klingt schon recht "ausgelotet". Bei Fermi davor mit 238 W sah das schon ähnlich aus. Wobei ich davon ausgehe, dass das unter hohem Peak eben auch noch mehr sein könnte. Wir kennen ja Nvidias Schönrechnerei. 375 W klingt hingegen alles andere als ausgelotet, sondern einfach nach Standardschema, PCIe + 2x 8-Pin PCIe, um in jedem Szenario auf der sicheren Seite zu sein.

boxleitnerb schrieb:
Bei hpcwire macht man sich ein paar Gedanken zu der green500 Liste. Es ist also so, wie ich sagte - die Platzierung an sich sagt ziemlich wenig, da muss man schon etwas weiterdenken

Richtig, je höher der GPU Anteil ist, umso besser wird die Effizienz bei solchen Vergleichen. Nur, das macht SANAM ja nicht schlechter im Vergleich gegenüber Titan. Auf eine S10000 Grafikkarte kommen 8 CPU Kerne (16 Threads). Titan kommt auf das gleiche CPU-GPU-Verhältnis. Auf eine K20 Grafikkarte kommen 8 BD CUs (16 Threads).

jdl schrieb:
Du kennst AMD GPGPUs aus dem HPC Alltag? -- Nein? -- Dann maß dir besser kein Urteil an!

Das gebe ich mal unkommentiert an die ganzen AMD Basher hier zurück.

boxleitnerb schrieb:
Kann man so einen Scheiß nicht einfach mal weglassen? Hier geht es sehr sachlich zu, das sollte doch bitte auch so bleiben.

Du bist wie immer an der falschen Adresse. "Scheiss" ist, wenn irgendwelche Kleinkinder wieder mal ihre "Fail"-Hasstiraden hier ablassen. Das sollte man einfach mal weglassen. Also richte deine Beschwerde an diese Leute. Wirst du natürlich nie machen, da du genauso gerne Nvidia schönredest. Man beschmutzt ja nicht das eigene Nest, gell?

jdl · 23.11.2012

mr.dude schrieb:
Da sagen aber Benchmarks, zB basierend auf OpenCL, was anderes. Zumal solche SC eh speziell optimiert werden. Sry, aber da bekommt man das Gefühl, du denkst dir einfach nur was aus oder willst es nicht wahrhaben.

Ich spielte auf die Tatsache an, daß es zwar eine hochoptimierte DGEMM Routine gibt, aber der Rest (heißt die restliche BLAS, LAPACK und FFT) nicht optimiert wird. Als Wissenschaftler erfindet man das Rad nicht ständig neu und schreibt sich Routinen der BLAS, LAPACK und FFT neu. D.h. man hat von der theoretisch erreichbaren Rechenleistung, wenn man denn die Routinen selbst implementieren würde, rein gar nichts, denn man nutzt die vorhandenen Bibliotheken. Und an diesem Punkt ist nVidia AMD absolut überlegen.
AMD liefert schlechte Software aus, die im Dauerbetrieb (wir haben AMD Karten im HPC Dauerbetrieb) beständig in irgend einer Form herumzicken: extreme Laufzeitschwankungen, abstürzende Karten, Treiberprobleme die ein Reboot nach bestimmten Jobs erzwingen, etc. pp.
Die nVidia Teslas sind im Dauerbetrieb sehr viel stabiler.

mr.dude schrieb:
375 W klingt hingegen alles andere als ausgelotet, sondern einfach nach Standardschema, PCIe + 2x 8-Pin PCIe, um in jedem Szenario auf der sicheren Seite zu sein.

Eine S9000 hat 225W, die GPGPUs auf der S10000 mußten gegenüber der S9000 gedrosselt werden, damit die TDP nicht über 375W ansteigt, und dann gibt's nur 3GB RAM statt 6GB pro GPGPU.

mr.dude · 25.11.2012

jdl schrieb:
Ich spielte auf die Tatsache an, daß es zwar eine hochoptimierte DGEMM Routine gibt, aber der Rest (heißt die restliche BLAS, LAPACK und FFT) nicht optimiert wird. Als Wissenschaftler erfindet man das Rad nicht ständig neu und schreibt sich Routinen der BLAS, LAPACK und FFT neu. D.h. man hat von der theoretisch erreichbaren Rechenleistung, wenn man denn die Routinen selbst implementieren würde, rein gar nichts, denn man nutzt die vorhandenen Bibliotheken. Und an diesem Punkt ist nVidia AMD absolut überlegen.
AMD liefert schlechte Software aus, die im Dauerbetrieb (wir haben AMD Karten im HPC Dauerbetrieb) beständig in irgend einer Form herumzicken: extreme Laufzeitschwankungen, abstürzende Karten, Treiberprobleme die ein Reboot nach bestimmten Jobs erzwingen, etc. pp.
Die nVidia Teslas sind im Dauerbetrieb sehr viel stabiler.

Und was sagt uns das über SC wie SANAM? Überhaupt nichts. Was dort für Software oder für Bibliotheken zum Einsatz kommen, weisst du gar nicht. Es ist ausserdem nicht AMDs Aufgabe, solche Sachen wie BLAS oder LAPACK zu implementieren. AMDs Aufgabe ist erstmal nur, die GPU SDK (APP/OpenCL/CAL) bereitzustellen. Der Rest liegt in der Verantwortung der Autoren der jeweiligen Bibliothek.

jdl schrieb:
Eine S9000 hat 225W, die GPGPUs auf der S10000 mußten gegenüber der S9000 gedrosselt werden, damit die TDP nicht über 375W ansteigt, und dann gibt's nur 3GB RAM statt 6GB pro GPGPU.

Und weiter? Auch das sagt uns nichts darüber, ob die 375 W in der Praxis erreicht werden. Es sagt uns ja nicht mal, ob die S9000 ihre 225 W in der Praxis erreicht. Auch das darf stark bezweifelt werden.

jdl · 26.11.2012

mr.dude schrieb:
Was dort für Software oder für Bibliotheken zum Einsatz kommen, weisst du gar nicht.

Es ist immer der gleiche Satz an Basissoftware, der auf einem HPC Cluster vorhanden ist, und durch spezielle Software für die jeweiligen Problemstellung ergänzt wird. Clusterverwaltung, Job Scheduler, MPI Bibliotheken, diverse Compiler, BLAS, LAPACK, ScaLAPACK, PBLAS, FFT finden sich immer auf den Systemen.

mr.dude schrieb:
Es ist ausserdem nicht AMDs Aufgabe, solche Sachen wie BLAS oder LAPACK zu implementieren.

Doch ist es, weil sie die CPUs bzw. GPUs verkaufen wollen. Wenn AMD daran kein Interesse hat, können sie darauf verzichten.

mr.dude schrieb:
AMDs Aufgabe ist erstmal nur, die GPU SDK (APP/OpenCL/CAL) bereitzustellen.

Wenn dies alle anderen Mitbewerber anders handhaben hat AMD keine Wahl, sie müssen das tun. IBM, Oracle(SUN), Intel, nVidia tun es. AMD hat somit ein großes Problem, und dies ist ein wesentlicher Grund weshalb AMD im HPC Bereich große Probleme hat.

mr.dude schrieb:
Der Rest liegt in der Verantwortung der Autoren der jeweiligen Bibliothek.

Netlib.org stellt nur eine Referenzimplementation für CPUs zur Verfügung.

mr.dude schrieb:
Und weiter? Auch das sagt uns nichts darüber, ob die 375 W in der Praxis erreicht werden.

In die Knoten würden 4 Karten passen, es werden nur zwei eingebaut. Dreimal darfst Du raten warum.

scully1234 · 28.11.2012

fdsonne schrieb:
scully, ja ein einziges Beispiel
Laut der News soll es das AMD Produkt ja ab sofort zu kaufen geben. Sprich ab zum Distri und kaufen. Beim GK110 wird das schwieriger bis unmöglich aktuell.

scully1234 schrieb:
Ich sehe als aktuelles Gegenstück gar nichts,denn eine Folie mit der Absicht auf Verfügbarkeit,mündet nicht zwangsläufig augenblicklich in ein real existierendes Produkt,das zeigte die Vergangenheit zur Genüge

S9000 S10000 ?

K20

Sieht fast so aus als käme K20 sogar noch vor der Dualcorekarte in den freien Handel

fdsonne · 28.11.2012

Hast du Zugriff auf diverse Konfiguratoren der großen Hersteller?
Weil sie nicht im Preisvergleich gelistet ist, heist das nicht, das es sie nicht gibt :fresse:

Aber mir solls wurscht sein, ich werd mir so oder so wohl so ein Teil nie einbauen müssen, weil ichs nicht brauch...

scully1234 · 28.11.2012

fdsonne schrieb:
Hast du Zugriff auf diverse Konfiguratoren der großen Hersteller?
Weil sie nicht im Preisvergleich gelistet ist, heist das nicht, das es sie nicht gibt
Aber mir solls wurscht sein, ich werd mir so oder so wohl so ein Teil nie einbauen müssen, weil ichs nicht brauch...

Also bei den großen Konfiguration stehts 19 000 K20 zu ?????
Und im Endkundenmarkt zeichnet sich nun das gleiche Bild
Ne Tedenz Zwecks der Verfügbarkeit,lässt sich da schon erkennen

Phantomias88 · 28.11.2012

scully1234 schrieb:
Schau dir das Rack nochmal genau an,dort sind 3x2U Modelle verbaut,reicht also genau für 3.6KW

Zumal die Kiste sowieso mit der Verlustleistung und dem Kühlsystem niemals dauerlaufgeeignet ist

Würde mich wundern wenn die Karten das ne halbe Stunde mitmachen ohne abzustürzen oder die Kernschmelze einzuleiten

Hi scully, in welcher Einheit wird den der Strom abgerechnet?
Im Link steht "a total of 3.6 kilowatts" also gehe ich davon aus das ist der Wert für die gesamte Benchdauer.
Mit ZerCorePower und dem PowerLimit lassen sich die Karten bestimmt schön auf jede bestehende Infrastruktur anpassen.

Bei dem Boinc Projekt DistrRTgen werden meine 2x HD7970 zu 99% ausgelastet.
Dabei braucht das System insgesamt weniger als 2x 250W TDP. (ok die 3GiB werden nicht komplet genutzt)

scully1234 · 28.11.2012

Phantomias88 schrieb:
Hi scully, in welcher Einheit wird den der Strom abgerechnet?
Im Link steht "a total of 3.6 kilowatts" also gehe ich davon aus das ist der Wert für die gesamte Benchdauer.

In welcher Einheit gibt man die Dauer an? Da fehlt noch was

Das ist schon mindestens der Peak Verbrauch diese 3,6KW

Phantomias88 · 28.11.2012

@scully
Na in Stunden (h) natürlich, ist halt echt die Frage wie lang der Bench lief.
3.6kWh wären schon eine Hausnummer. :fresse:

fdsonne · 28.11.2012

scully1234 schrieb:
Also bei den großen Konfiguration stehts 19 000 K20 zu ?????
Und im Endkundenmarkt zeichnet sich nun das gleiche Bild
Ne Tedenz Zwecks der Verfügbarkeit,lässt sich da schon erkennen

Nochmal die Frage, was interessiert dieser eine SuperComputer mit scheinbar exklusivrecht zur Abnahme der Karten!?
Ich spreche von Konfiguratoren, die jede Firma nutzen kann, um sich Hardware diverser Hersteller zu konfigurieren. Nur weil die Karte im Endkundenmarkt nicht verfügbar ist, weil es ggf. keinen Shop gibt, der diese an Endkunden verkauft (was laut jdl ja bei FirePro Karten durchaus sein kann) heist das wie schon gesagt lange nicht, das diese nicht verfügbar ist.
Warum kann man es nicht einfach mal nüchtern betrachten... Es wird niemand dran sterben einzugestehen

Aber wenn du unbedingt recht haben willst. Bitte... DU HAST RECHT, AMD ist scheiße, AMD ist zu langsam, und K20 ist die beste Karte die es jemals gab und jemals geben wird. AMD wird weil sie so scheiße sind, untergehen bla bla bla... Falls du Ironie findest, darfst du sie gern behalten.

Diese Herstellerverbundenheit, die du Tag täglich für NV hier kund tust, finde ich übrigens extrem scheiße... Aber das ist nur meine persönliche Meinung...

scully1234 · 28.11.2012

fdsonne schrieb:
Nochmal die Frage, was interessiert dieser eine SuperComputer mit scheinbar exklusivrecht zur Abnahme der Karten!?
Ich spreche von Konfiguratoren, die jede Firma nutzen kann, um sich Hardware diverser Hersteller zu konfigurieren...

Und auch da siehst genau so aus,wenn K20 schon im Endusersegment auftaucht,wird erst recht die Versorgungssicherheit von Großkunden gewährleistet sein

Einerseits sprichst du davon das FirePro ja durchaus exklusiv den Großkunden angeboten wird,aber "vergisst" dabei das das für den K20 ebenso gilt

Oder meinst du nvidia legt hier andere Maßstäbe an?

Also sollte dir auch klar sein,wie weit das Ganze schon fortgeschritten sein muss,wenn man jetzt bereits die "kleinen" beliefert/beliefern kann

Aber wenn du unbedingt recht haben willst. Bitte... DU HAST RECHT, AMD ist scheiße, AMD ist zu langsam, und K20 ist die beste Karte die es jemals gab und jemals geben wird. AMD wird weil sie so scheiße sind, untergehen

wenn du das Bedürfniss hast auf dem Level weiter zu reden bitte

sontin · 28.11.2012

fdsonne schrieb:
Nochmal die Frage, was interessiert dieser eine SuperComputer mit scheinbar exklusivrecht zur Abnahme der Karten!?
Ich spreche von Konfiguratoren, die jede Firma nutzen kann, um sich Hardware diverser Hersteller zu konfigurieren. Nur weil die Karte im Endkundenmarkt nicht verfügbar ist, weil es ggf. keinen Shop gibt, der diese an Endkunden verkauft (was laut jdl ja bei FirePro Karten durchaus sein kann) heist das wie schon gesagt lange nicht, das diese nicht verfügbar ist.
Warum kann man es nicht einfach mal nüchtern betrachten... Es wird niemand dran sterben einzugestehen

Und das kommt von jemanden, der hier behauptet, dass AMD ihre Karten angeblich schon ausliefern würde. :fresse:

Schaffe89 · 28.11.2012

fdsonne schrieb:
Diese Herstellerverbundenheit, die du Tag täglich für NV hier kund tust, finde ich übrigens extrem scheiße... Aber das ist nur meine persönliche Meinung...

Vorsicht, fdsonne, wenn du weiter so machst, dann wirst du egal wie minimalistisch und sachlich die Kritik ( Muss ja nichtmal Kritik sein^^)gegen Nvidia ist, als Fanboy und Basher beschimpft und mit Zusammenhangloser Polemik zugespammt.

Das ist der Stil den jene User vertreten.

boxleitnerb · 28.11.2012

Der Punkt ist hier doch, dass mit zweierlei Maß gemessen wird. Wenn S10000 schon über Distris erhältlich sein soll, wieso wird diese Möglichkeit K20 abgesprochen? Und wenn man das kritisiert, wird man als Fanboy abgestempelt - das ist doch unter aller Sau! Denn das ist eine "Herstellerverbundenheit", das was scully sagt, ist nur eine logische Schlussfolgerung und hat mit Bias doch gar nichts zu tun.

Fakt ist:
K20(X) sitzt schon zu Tausenden in Supercomputern - S10000 nicht, sonst hätte man davon werbeträchtig gehört
K20(X) ist bei geizhals schon gelistet - S10000 nicht
K20(X) ist möglicherweise genauso wie S10000 in Systemkonfiguratoren auswählbar. Genau weiß das niemand.

fdsonne · 28.11.2012

boxleitnerb schrieb:
Der Punkt ist hier doch, dass mit zweierlei Maß gemessen wird. Wenn S10000 schon über Distris erhältlich sein soll, wieso wird diese Möglichkeit K20 abgesprochen? Und wenn man das kritisiert, wird man als Fanboy abgestempelt - das ist doch unter aller Sau! Denn das ist eine "Herstellerverbundenheit", das was scully sagt, ist nur eine logische Schlussfolgerung und hat mit Bias doch gar nichts zu tun.

Fakt ist:
K20(X) sitzt schon zu Tausenden in Supercomputern - S10000 nicht, sonst hätte man davon werbeträchtig gehört
K20(X) ist bei geizhals schon gelistet - S10000 nicht
K20(X) ist möglicherweise genauso wie S10000 in Systemkonfiguratoren auswählbar. Genau weiß das niemand.

Wer spricht denn die Möglicheit ab?
Bis vor paar Tagen war doch auch nicht die Rede davon, das K20 alsbald auch erhältlich sein soll. Das es nun doch so schnell geht, ist doch OK, zweifelt niemand an und ist auch gut so. Dennoch besagt die News, das S10000 seit damals eben verfügbar sein soll!!!
Nicht mehr und nicht weniger...
Seit Anführung dieses Arguments gibts diese Diskusion hier. Warum ist es nicht möglich, dieses Argument einzugestehen?
Ob da nun K20 im SuperComputer läuft oder nicht, ist ein ganz anderer Schuh, da wohl dediziertes Abnahmerecht mit fixer Deadline zur Auslieferung (klingt zumindest so)

Der Vergleich beginnt also erst nach Abschluss der Auslieferung für Titan...
Und da steht es bestenfalls gleichstand. Nur weil man eine Karte nicht im Enduser Preisvergleich findet, heist das nicht, das es diese gibt. Das gilt natürlich auch für beide Seiten!

sontin schrieb:
Und das kommt von jemanden, der hier behauptet, dass AMD ihre Karten angeblich schon ausliefern würde.

Nur zu deiner Information. Die Karten sollen!!! verfügbar sein. Nicht mehr und nicht weniger habe ich gesagt. Noch dazu stammt diese Info aus der News, in der du hier soeben ein Kommentar geschrieben hast und die du wohl dann bis heute nicht gelesen hast. Denn sonst wäre dir das auch aufgefallen, das die Info nicht von mir kam...
Aber GK104 ist ja 60%+ schneller als GF110, näh?

Y0sHi · 28.11.2012

scully1234 schrieb:
wenn du das Bedürfniss hast auf dem Level weiter zu reden bitte

du treibst es ja jedesmal so weit das es den anderen zuviel wird mit deinem hochjubeln von nV

AMD präsentiert FirePro S10000 mit zwei Tahiti-GPUs

Enthusiast

Enthusiast

Neuling

Banned

Banned

Banned

Legende

Enthusiast

Banned

Legende

Banned

Enthusiast

Banned

Urgestein

Enthusiast

Urgestein

Enthusiast

Banned

Legende

Banned

Banned

Banned

Banned

Legende

Banned

Enthusiast

Banned

Enthusiast

Legende

Enthusiast