Cuda Extrem Supercomputer mit Grafikkarten ohne Worte

was mit quadro geht, geht (meist) auch mit normalen karten.
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Hi,im medizinischen Bereich braucht man solche Karten auch nicht da wird in der Regel mit Quadro Karten gearbeiteit wie bei CAD Anwendungen auch. :wink:

Und du meinst die quadro fx karten unterscheiden sich im aufbau von den "normalen" G200 ern;)

Der einzige unterschied ist der treibersupport u der meistens etwas höhere vram,die karten selbst aber sind nahezu identisch
 
Zuletzt bearbeitet:
Das stimmt so nicht unbedingt. Des öfteren sind bei den "normalen" Karten bestimmte Logikteile innerhalb des Chips absichtlich zerstört worden, um manche Funktionen nicht mehr in Hardware gewährleisten zu können.
 
Das stimmt so nicht unbedingt. Des öfteren sind bei den "normalen" Karten bestimmte Logikteile innerhalb des Chips absichtlich zerstört worden, um manche Funktionen nicht mehr in Hardware gewährleisten zu können.
Stimmt nvidia siehts nicht so gerne wenn manche leute mit normalen karten auf quadro niveau arbeiten wollen;)

Früher war das einfacher u auch der treiber logg war einfach zu überwinden:fresse:


Aber lieber wieder:btt: das wird zu illegal hier:d
 
Zuletzt bearbeitet:
Hallo,

in dem Video hat man die "DOS-Fenster" der Folding@Home-Clienten gesehen und im verlinkten Thread schreibt er ja selbst, das F@H läuft.
Das läuft ohne Probs unter Windows.
Theoretisch könnten die Clients zwar über Ethernet kommunizieren, in Großrechner-Clustern läufts auch so ab (z.B. numerische Strömungssimulation), bei F@H läuft aber auf jeder GPU jeweils ein eigener Client, der mit den anderen nichts zu tun hat. Teilweise (z.B. beim G200) kann man noch etwas rausholen, wenn man zwei Clients pro GPU laufen lässt.

Auch bei F@H kann eine CPU bei weitem nicht mit einer GPU mithalten.

@all
faltet doch auch ein bisschen im Luxx-Team mit:Klick
Anleitung zum Falten auf der GPU:Klick

ciao Tom
 
Zuletzt bearbeitet:
Ist schon Krass was mann mit Cuda so alles anstellen sehen die Rechenleistung muss ja enorm sein im Vergleich zu CPU lastigen Servern.

Würde gerne mal so einen Test sehen im vergleich zu einer Herkömmlichen Serverfarm in der gleichen Preisklasse.
 
Gar nicht mal soooo schlecht das leckere stückchen

41.424 single-precision TeraFLOPS Leistung:fresse:

Jetzt fehlt nur noch die double precision Leistung um ihn mal effektiv mit den cell clustern zu vergleichen (Preis/Leistung);)

Ich frag mich ob die grafikkarten im double precision wirklich so stark abbauen an leistung:hmm:


Wäre interessant ob er mit seiner rechenleistung unter die top 100 kommen würde:d

http://www.top500.org/list/2008/11/100
 
Zuletzt bearbeitet:
@neurosphere

Stand in der news die du gesehen hast im Inet,auch was von der rechenleistung des maschinchens?

Naja, wenn man für solche Rechenanwendungen nur die Flops ranzieht kommt man (FLOPS laut Wiki) auf 2× 894,2 GFlops pro Karte...

Das ganze mal 17 ergibt ne Gesamtleistung ohne CPUs von 30402,8 GFlops.

Zum Vergleich, der schnellste Hochleistungsrechner in Europa, JUGENE im Forschungszentrum Jülich kommt auf 180TFlops und ist im Moment auf Platz 11 der Weltweiten Rangliste.
 
Leute bitte spekuliert doch nicht soviel Mist lest doch einfach mal, das ihr nicht umbedingt wisst was F@H ist ist ja noch okay, aber dann hier nur dumm mist zu schreiben und nicht eine Sekunden zulesen ist ja echt schrecklich.....

Er sagt doch extra das er alle GPU´s per CUDA F@H Rechnen lässt........

Warum er das macht steht dort auch.
 
Beim begriff cuda in der überschrift des threads müsste es ja eigentlich schon "klick" machen das es sich nicht um den spielerechner von "tante emma aus der nachbarschaft" handelt.


Ich habe ja nichts von sli extrem geschrieben in der Überschrift;)

Edit

Hab die Überschrift des threads angepasst,vielleicht wirds jetzt besser;)

Naja, wenn man für solche Rechenanwendungen nur die Flops ranzieht kommt man (FLOPS laut Wiki) auf 2× 894,2 GFlops pro Karte...

Das ganze mal 17 ergibt ne Gesamtleistung ohne CPUs von 30402,8 GFlops.

Zum Vergleich, der schnellste Hochleistungsrechner in Europa, JUGENE im Forschungszentrum Jülich kommt auf 180TFlops und ist im Moment auf Platz 11 der Weltweiten Rangliste.

Rechenleistung ist bekannt ca 41 teraflops in singel precision;)

Ein paar von den dingern gekoppelt könnten schon ganz schön mitrocken:banana: in den top hundert der supercomputer vermute ich:bigok:

http://www.top500.org/list/2008/11/100

Und das zum bruchteil des preises u der stromkosten eines cpu clusters
 
Zuletzt bearbeitet:
Hallo,

bevor man so ein Graka-Rechenfarm gegen ein übliches Rechnercluster antreten lassen kann, muss Nvidia erst noch implementieren, dass die Grakas auch effizient miteinander kommunzieren und somit am gleichen "Problem" rechnen können.
Es ist ja nicht immer so, dass man viele kleine Arbeitspakete hat, deren Ergebnisse nicht direkt etwas miteinander zu tun haben.
In der Strömungssimulation ist es üblich, den Rechenraum (das Volumen, in dem der Strömungsverlauf berechnet wird), je nach Kernanzahl in mehrere Bereiche aufzuteilen. Da so ein Luftteilchen aber durch alle Bereiche strömt, müssen sich die Kerne jeweils an den Grenzen abgleichen.
Dank Cuda und der Graka-Power braucht man ja eventuell ohnehin deutlich weniger "Rechenkerne" und somit reicht ja vielleicht eine Graka.
Bei Consumer-Karten sehe ich aber momentan noch einen Speichermangel. Da sind ja pro GPU maximal 1,7 GB verbaut.
Zurück zur Strömungssimulation:
mit 8 Dual-Core-Rechnern, die jeweils 8 GB RAM haben, sollte man halbwegs vernünftig arbeiten können (Aussage von einem Experten aus der Industrie).
Da haben wir also eine Anwendung die 64 GB RAM braucht. Da sind die Grakas aber noch weit entfernt von.
Es gibt aber bereits auf Cuda-basierende Programme, die mit Hilfe des Lattice-Boltzmann-Ansatzes Strömungssimulationen auf der Graka rechnen (die oben genannte Anwendung arbeitet ebenfalls nach Lattice-Boltzmann).
Und da wäre noch die Sache mit der doppelten Genauigkeit. Da hat z.B. der G200 zwar schon 100 Gflops, aber eben deutlich weniger als bei einfacher Genauigkeit.
Ich bin gespannt, wann die ersten größeren industriellen Anwendungen ebenfalls auf der Graka rechnen.
Von kommenden Großrechnern, die neben einer Unmenge von CPUs auch Grakas nutzen, konnte man ja bereits lesen.

ciao Tom
 
Wenn der systemram den grafikkarten zur seite stehen würde wäre doch ein engpass schon beseitigt auf guten motherboards kann man doch ohne probleme 24gb ram oder mehr verbauen im extremfall bis zu 128gb (wenn entsprechende module vorhanden);)

Ist dann halt nur wieder der flaschenhals,der grafikkarten bus zum systemram

Und vielleicht geht man das problem des leistungsverlust in double precision mit cuda3.0 und dem g300 ja effektiv an:bigok:

Es wird auf jedenfall spannend in wie weit grafikcluster wenn man es so nennen will den normalen cpu clustern in nächster zeit konkurenz machen werden
 
Zuletzt bearbeitet:
warum geht man denn nicht den weg, dass die Cluster mit einander verbunden sind, aber nicht wie bei SLI mit einer Brücke, sondern auch über einen extra dafür vorgesehenen Bus? Das würde dann eher Sinn machen
 
nicht nur in dem Bereich sondern generell, davon ging ich aus

Die Sli-Brücke wird dazu eingesetzt die Datenmenge über PCIe zu begrenzen. Es gab auch mal Lösungen von NV ohne Brücke, allerdings ist das Langsamer als wenn man sie mit der Brücke verbindet.

Wenn man sich einen solchen Rechenknecht zur medizinischen Berechnung aufbaut ist das allerdings wohl unnötig da die Karten alle mit eigenen Daten zur Berechnung versorgt werden. Ich glaube Tesla bietet auch nicht die Möglichkeit die Karten über SLI-Brücken zu verbinden.

Rechenleistung ist bekannt ca 41 teraflops in singel precision

Ziemlich hoch. Wundert mich das das Gesamtsystem auf eine solch hohe Leistung kommt wenn die einfach 295er mit den von mir angegebenen Flop-Werten kommen?!
 
schon klar, nur könnte man wenn sich diese Cluster super verbinden lassen den selben Ansatz wie IBM mit seinem Roadrunner verfolgen
Das wird auch passieren eines guten tages,nur spielt in dem falle die cpu nur noch ne untergeordnete rolle.Als diener für die grafikkarten wenn mans so sagen will;)


Ziemlich hoch. Wundert mich das das Gesamtsystem auf eine solch hohe Leistung kommt wenn die einfach 295er mit den von mir angegebenen Flop-Werten kommen?!

Ist "nur" singel precision was bei dual hängen bleibt wäre mal interessant.

Aber stimmt schon selbst für singel äusserst beeindruckend,was das monster da abliefert in einem rack:bigok:
 
Zuletzt bearbeitet:
Hab mal ein wenig durchgefegt...

Bleibt doch bitte beim Thema, Fragen über Sinn und Unsinn gehören hier genau so wenig rein, wie irgendwelche Spekulationen, wie gut oder schlecht Crysis damit laufen würde...

Also dann, fröhliches weiter diskutieren...
 
Ich werde es mal im anfangspost etwas genauer reinschreiben um was es sich handelt;)

Hoffentlich versteht es jetzt jeder:d
 
Zuletzt bearbeitet:
Gibts dazu schon irgendwo tests im Inet?

Zwischen Tesla Systemen u IBM clustern

Wäre mal interessant sowas zu lesen:bigok:

Die shader alus sollten doch eigentlich ein vorteil sein für die gpus,bei solchen berechnungen oder etwa doch nicht?

Direkte vergleiche wird es nicht geben. Für sowas haben die menschen, die mit der teuren rechenzeit von supercomputern arbeiten doch keinen bedarf für - da wirst du dich auf relativ wenig sagende FLOP/s zahlen stützen müssen (Top500 liste), die sagen aber auch nicht alles über die reale performance eines rechners unter allen möglichen bedingungen aus.

GPGPU ist ja schön und gut für, vergleichsweise "amateur-aufgaben", aber für hochkomplexe berechnungen, die sich vielleicht nicht so schnieke einfach parallelisieren bzw. streamen lassen, wo CUDA bzw. GPGPU so glänzt, sind die aktuell einfach nicht wirklich interessant. Da sehen altbackende CPU maschinen besser aus weil sie flexibler programmierbar sind. Roadrunner ist da mit seinen CELL + Opteron knoten wohl eine halbe ausnahme, obwohl CELL sicher auch sehr viel flexibler ist als einfach streamprozessoren.

Was den einbruch bei double precision berechnungen angeht, da kannst du nach googlen. Da bleibt bei nvidia hardware tatsächlich weniger als 50% der theoretischen SP performance übrig, weil sies einfach nicht kann ohne umständliche zwischenschritte. Die ersten CELL können das auch nicht, deshalb kommt von IBM ja die nächste ausbaustufe welche mit voller geschwindigkeit DP operationen ausführen kann (wird man aber nicht in einer playstation sehen ;))
 
Was den einbruch bei double precision berechnungen angeht, da kannst du nach googlen. Da bleibt bei nvidia hardware tatsächlich weniger als 50% der theoretischen SP performance übrig,;))

Nun wie ich schon sagte vielleicht arbeitet nvidia dieser problematik ja schon entgegen,sei es bei der architektur des g300 oder in form von cuda3.0;)

Auch könnte sich die programmierung eventuell flexibler darstellen mit kommenden generationen u die grafikarten auch für weitaus komplexere aufgaben fit machen.

Es bleibt auf jedenfall spannend auf dem sektor
 
Zuletzt bearbeitet:
Nun wie ich schon sagte vielleicht arbeitet nvidia dieser problematik ja schon entgegen,sei es bei der architektur des g300 oder in form von cuda3.0

Auch könnte sich die programmierung eventuell flexibler darstellen mit der neuen schnittstelle

Die Frage bleibt aber nach dem Sinn und Unsinn. Solange NV die Chips als Grafikchips auslegt sollten sie genau das gut können, denn genau deswegen werden sie sich verkaufen. Wenn sie nacher alles andere auch beherschen sollen, bleibt am Ende nichts weiter als ein Chip der alles, aber nichts richtig kann. Sollen die Aufgaben die sich für GPGPU eignen doch auf dem Grafikchip ausführen lassen. Es wäre dumm den Chip an Anwendungen anzupassen die von GPGPU nicht profitieren.
 
Wer sagt das sie es nicht vorhaben einen allround chip zu entwickeln,denkt nur an die bemühungen in letzter zeit sich mit via näher einzulassen;)

Auch wenn es sich allen anschein nach erstmal nur um eine simple integration von x86 architektur in die grafikeinheit handelt,kann dies doch ein sprungbrett zu etwas weitaus effizienteren werden auch im cluster bereich:bigok:

Und profitabel ist der bereich sicherlich auch für nvidia wenn sie dort ein festes standbein in der tür hätten:d
 
Zuletzt bearbeitet:
Bringt doch alles nix, sollen sie sich darauf konzentrieren schnelle Grafikkarten zu entwickeln auf denen man zusätzlich Anwendungen laufen lassen kann die von der Architektur und ihren Vorteilen profitiert. Und dich die Nachteile entfernen was aber für den eigentlichen Einsatz nichts bringen wird, ich aber als Anwender für bezahlen muss.
 
Wer sagt das sie es nicht vorhaben einen allround chip zu entwickeln,denkt nur an die bemühungen in letzter zeit sich mit via näher einzulassen;)

Der wohl "beste" allroud Chip den es im PC Bereich gibt, die eine x86 CPU vom Schlag Core2/i7 bzw. Phenom II...
Diese Einheit kann quasi alles, aber eben nix richtig...

Eine GPU drastisch zu verändern, nur damit ein paar Super Computer ihre Daten schneller berechnen können bringt dem wirklichen Endkunden Markt wie Neurosphere schon sagte eigentlich gar nix...

Das Einsatzgebiet von GPUs bleibt nun mal die Grafikberechnung. Sie wird hier und da vllt noch zu anderen Dingen missbraucht werden, aber spezielle Anpassung für einen Teil von Berechnungen, die eigentlich gänzlich vom Thema abweichen, wird es wohl nicht geben... (weil es einfach wenig Sinn macht da Entwicklungskosten rein zu stecken...)
 
Eine GPU drastisch zu verändern, nur damit ein paar Super Computer ihre Daten schneller berechnen können bringt dem wirklichen Endkunden Markt wie Neurosphere schon sagte eigentlich gar nix...

Sicherlich wird es uns "normalo" usern nix bringen,aber hier geht es ja nunmal um den clusterbereich.

Und ob wirklich erheblichere veränderungen nötig wären um den grafikchip im clusterbereich flexibler u attraktiver zu machen bleibt abzuwarten.

Ich denke cuda optimierung im bereich GPGPU sind gerade erst im anfangsstadium u brauchen auch erst eine gewisse akzeptanz in diesem markt um dort auch schnellere fortschritte zu sehen;)
 
Zuletzt bearbeitet:
Hab da gerade was gefunden zum thema double precision

Es scheint sich doch was zu tun auf den gebiet (6 bis 15fache leistungssteigerung im double precision),offensichtlich nimmt sich nvidia des problems im cluster sektor an u wer weiss was cuda 3.0 noch so bringt an flexibilität;)

Nvidia scheint es also doch ein bisschen ernster zu meinen im supercomputerbereich



http://www.heise.de/newsticker/Graf...ias-DirectX-11-Chip-3-TFlops--/meldung/136687
 
Zuletzt bearbeitet:
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh