Workstation für Prozesssimulation bis 15000 €

jurke · 24.02.2012

Hallo und Guten Abend,

ein Kollege von mir beschäftigt sich fast ausschließlich mit komplexer Prozesssimulation und hat die Gelegenheit für uns für max. 15.000 € netto eine Workstation zu beschaffen. Das Ganze wird nicht sofort passieren, sondern eher in der 2. Jahreshälfte 2012.
Genutzt werden meist die Programme LS Dyna und Comsol, seltener Abaqus und Ansys.
Eingebaut wird das Ganze in unseren klimatisierten Serverraum in Standard 19" Racks.

Ich wende mich an euch, weil ich auf kompetente Hilfe hoffe. Ich konnte vor gut einem Jahr ebenso eine Workstation für 5000 € kaufen, die wir bis dato für die Simulationen nutzen. Verbaut sind 2 Xeon irgendwas 5680 mit 48 GB RAM auf einem Supermicro Board. Grafikkarten nutzen wir aktuell nicht.
Das Angebot unseres Hauslieferanten war gelinde geschrieben, "mäßig" und so wollte ich ein wenig externen Input einholen.

In den 15.000 muss alles mit drin sein, was man so braucht.
Reicht das Geld für ein Quad-Sockel-System? Macht das überhaupt Sinn? Habe bei Supermicro auch sowas wie Blades gesehen, nur glaube ich nicht, dass in den nächsten 3-5 Jahren nochmal Geld für Rechner da ist. (Aber wer weiß... je nach Kunde...). Also vielleicht auch sowas?

Ihr seht, ich stochere ein wenig im Dunkeln. Wichtig sind vor allem CPU-Power und RAM. Wie wichtig schnelle HDD sind weiß ich nicht. Es kommen pro Job schnell mal ein paar GB zusammen.
Über Vorschläge würde ich mich freuen. Fragen werde ich versuchen so gut es geht zu beantworten.

Ach und ist es möglich die Maschinen im Netzwerk so zu verbinden, das Jobs effektiv auf alle Kerne verteilt werden? Für LS Dyna nutzen wir HP-MPI.

Beste Grüße
Klaus

fdsonne · 25.02.2012

Gibt mal ein paar Infos, was mit der Software überhaupt möglich ist... Muss es zwingend eine Maschine sein, oder bietet es sich an, das ganze geclustert im LAN auf mehrere Nodes berechnen zu lassen?

Aber ich sag mal so, mit X5680 Xeons auf nem Dual Brett mit 48GB RAM bist du heute immernoch ganz oben mit dabei.
Anbieten könnte man aktuell ein Quad Sockel S1567 System von Intel, die Frage ist, skaliert das ganze so brachial über die Cores, das sich die Anschaffung lohnen würde? Mit 15k€ bist du für Quadsockel zwar erstmal ganz brauchbar aufgestellt, nur kostet sich das Quadsockel System im Vergleich zu nem guten Dual Sockel System ungleich mehr, für ein paar Rechenoperationen mehr pro Sekunde...

Ansonsten bei AMD könnte man nochmal vorbei schnuppern. Bulldozer 16 Kern (8 Modul CPUs) mal vier auf ein Quadsockel brett, 4x32GB RAM in 4GB Modulen und man bekommt ne solide Basis für denke ich unter 15k€. Es bleibt nur die Frage, kann die Software was mit AMD anfangen? So manche Software skaliert äußerst mau auf den NUMA Nodes von AMD... Ein paar Prozentpunkte für die doppelte Coreanzahl halte ich persönlich für sinnfrei.

Welches OS soll auf der Kiste laufen?

Da ihr ja offensichtlich sowieso noch etwas warten könnt, Intel wird demnächst (wohl gegen April) die Sandy-E Dual CPU Platform auf den Markt bringen. Da gibts die Möglichkeit auf 2x8 Kern + SMT 32nm CPUs mit je Quadchannel Interface und somit bezahlbaren 2x8x4GB RAM. Mehr wären mit etwas teureren 8GB Modulen auch realisierbar.
Ich gehe weiterhin davon aus, das Intel wohl gegen Jahres Ende bzw. Anfang nächsten Jahres langsam mit den 22nm Ivy-E CPUs rausrückt. Eventuell gibts dann 10 Kern + SMT CPUs.

Mit den Sandy-E CPUs bekommst du bei ähnlicher Taktung zu deinem jetzigen System in der Theorie wohl im Schnitt 30-50% Mehrleistung raus...
Dafür kost die biggest 8 Kern Xeon CPU für Dual Sockel 2011 aber locker auch 2500€

Macht in Summe wohl ca. 7-8k€ für Board, CPUs und RAM... Bleibt also reichlich Luft für den Rest. Wenn Storage eher uninteressant ist, sowie Grafikkarten nicht von nöten baust du das System für 9k€ zusammen inkl. aller Hardware die nötig ist. (ohne Supportvertrag!!!)
Bei den großen Herstellern von Servertechnik legst da denke ich inkl. Support wohl an die 12-13k hin.

jdl · 25.02.2012

jurke schrieb:
Reicht das Geld für ein Quad-Sockel-System? Macht das überhaupt Sinn? Habe bei Supermicro auch sowas wie Blades gesehen, nur glaube ich nicht, dass in den nächsten 3-5 Jahren nochmal Geld für Rechner da ist. (Aber wer weiß... je nach Kunde...). Also vielleicht auch sowas?

Welchen Rechner man sinnvoll einsetzen kann, hängt maßgeblich von der verwendeten Software ab. Da ich die Software nicht kenne etwas Grundsätzliches zu HPC Software: Die maximal erzielbare Rechenleistung hängt direkt von der Latenz der Kommunikation ab. Niedrige Latenz bedeutet eine hohe Rechenleistung für alle Problemklassen. Ist die Latenz hoch, kann man nur Probleme gut rechnen, die eine hohe Lokalität der Daten aufweisen. Desweiteren ist zu beachten, daß bei NUMA-Systemen (d.h. alle aktuellen Multisockel Systeme) man pro NUMA-Knoten ausreichend Speicher benötigt, d.h. das Problem muß in den Speicher des jeweiligen NUMA-Knotens passen. Andernfalls bremst man die Software massiv aus.

Zur Zeit gibt es von Intel nur Xeon E7 Quad Socket Systeme (8 Socket ist auch möglich), mit dem Xeon E5 werden auch für die mittlere Xeon Plattform Quad Socket Systeme angeboten werden. Die höchste Rechenleistung fürs Geld bekommt man bei Intel zweifelsfrei mit dem Xeon E3, die größere Xeon 5600 (bald Xeon E5) Plattform ist deutlich teurer unterstützt aber auch deutlich mehr RAM, der Xeon E7 ist in diesem Punkt am schlechtesten. Wenn es die Problemklasse erlaubt sollte man möglichst auf einen Xeon E7 verzichten und zu einer der beiden anderen Xeon Produktgruppen greifen.

Bei den AMD Opteron 6100 und 6200 sind die CPUs selbst schon je zwei NUMA-Knoten, d.h. man muß hier mehr RAM verbauen um das Optimum an Performance zu erreichen. Allerdings bekommt man bei AMD recht günstig an Computer, die viel RAM verwalten können. Das ist bei Intel deutlich teurer. Dafür stimmt bei Intel die Rechenleistung.

Was die Vernetzung betrifft, da ist das Optimum für MPI Programme Infiniband (IB) QDR und bald IB FDR (in Zusammenarbeit mit den neuen Xeon E5 - PCIe 3.0 notwendig!). IB besticht vor allem durch die geringe Latenz und nicht nur durch die hohe Transferrate.

Ein Beispiel für einen IB basierten HPC Knoten:
Super Micro Computer, Inc. - Products | Motherboards | Xeon Boards | X8DTT-IBXF
Allerdings lohnt sich IB im Grunde nicht für 2 Knoten, da ist der Overhead bei der Anschaffung einfach viel zu groß. Wenn müßtet ihr schon einige System kaufen, damit sich das lohnt.

Wenn es günstiger sein soll, nimmt man im Grunde das gleiche Design ohne IB. Wenn man extrem günstig sein will und das RAM ausreicht (max. 32GB/CPU) kann man zu so einem System greifen:
Supermicro | Products | SuperServer | MicroCloud | 5037MC-H8TRF
Das würde man dann per GbE vernetzen.

---------- Post added at 22:09 ---------- Previous post was at 22:03 ----------

fdsonne schrieb:
So manche Software skaliert äußerst mau auf den NUMA Nodes von AMD...

Die AMD Cores sind extrem leichtungsschwach. Bei HPC Code hat ein Opteron 6200 effektiv nur 2x4Cores, und man muß damit die Software brauchbar auf den Opterons läuft sie zwingend an NUMA anpassen, und das schon bei EINER CPU. Bei Intel fallen die Grenzen des NUMA Knotens mit denen des Sockels zusammen. D.h. man bekommt eine sehr viel höhere Rechenleistung pro NUMA-Knoten wie bei AMD. Das ist insbesondere für Standardsoftwarepakete von Interesse, weil diese meist nur auf einem NUMA-Knoten skalieren. Wird die Grenze zu einem anderen NUMA-Knoten überschritten, gibt es effektiv keinerlei Zugewinn mehr bzw. die Rechenleistung sinkt ab.

Kullberg · 26.02.2012

Entscheidend ist erstmal Informationen über die Software zu haben. Wichtige Fragen sind:
Wie viele Kerne werden unterstützt?
Wie skaliert die Software mit der Anzahl der Kerne? Wenn sie nicht besonders gut skaliert, ist ein 2x X5680 kaum zu schlagen.
Nutzt die Software mehr integer oder mehr floating point math?
Bei viel FP könnte ein AMD Opteron 61xx eine gute Wahl sein.
Läuft die Software auf Linux und ist sie für Bulldozer optimiert? Wenn ja dann ist AMD Bulldozer die erste Wahl - falls die Software gut skaliert.

jdl · 26.02.2012

Kullberg schrieb:
Nutzt die Software mehr integer oder mehr floating point math?

Das sind alles FEM-Pakete. FEM=Finite-Elemente-Methode Ein Verfahren für die numerische Approximation von partiellen Differentialgleichungen, ein typisches Anwendungsfeld von HPC.

Kullberg schrieb:
Bei viel FP könnte ein AMD Opteron 61xx eine gute Wahl sein.

Nur wenn man sehr viel RAM braucht, sonst ist ein Opteron 6100 eine sehr schlechte Wahl. Ein Xeon E3 ist genauso schnell wie ein Opteron 6100 bei HPC Anwendungen(*), und kostet sehr viel weniger und man hat weniger Probleme mit der Skalierung der Software.

* Und das nur, wenn die Software für den Opteron 6100 perfekt für NUMA optimiert wurde, sonst ist der Xeon E3 doppelt so schnell!

fdsonne · 26.02.2012

@jdl, ich kenn zwar die Programme nun so gar nicht, aber wenn ich google auf LS Dyna in Verbindung mit 4P AMD Opteron ansetze, dann kommen mir haufenweise Ergebnise das der Spaß 1A auf den AMD Kisten skaliert. 12 Core Magny Cours als Dual CPU Maschine vs. Nehalem Dual CPU mit zwei Hexacores geht im Schnitt leicht an AMD, 4P AMD Magny Cours geht folgerichtig klar an AMD, weil Intel hier nix bezahlbares hat... S1567 ist zwar auch 4P, aber eben schweine teuer... Hier macht man zuungunsten der reinen CPU Geschwindigkeit wieder deutliche Abzüge damit die vier CPUs aufs Brett passen.

Vllt kann sich der TE dazu mal genauer äußern, wie gesagt, für mich macht das nicht den Anschein, das AMD hier massiv Fädern lässt, ganz im Gegenteil

jurke · 26.02.2012

Namd allerseits,

vielen Dank schon mal für eure rege Anteilnahme.

Die vorhandenen Workstation mit den 2 Xeon DP5680 lief anfangs mit Windows 7 Enterprise 64 bit. Ohne MPI-Software lassen sich Aufgaben in LS Dyna nur auf 8 Threads verteilen. U.a. aus diesem Grund haben wir auf Suse Linux 11.4 umgestellt. Der neue Rechner wird ebenso mit Linux laufen.
Nun können alle 24 möglichen Kerne (bei Nutzung von HT) genutzt werden. Dabei zeigte sich an einer Beispielsimulation, dass die Rechenzeit ziemlich genau 1/3 beträgt, d.h. LS Dyna in diesem Fall also sehr linear skaliert.
Im Netz lassen sich auch einge freie Dokumente zur Skalierung finden ( http://www.hpcadvisorycouncil.com/pdf/LSDYNA_Analysis_AMD_Magny.pdf , oder http://www.dynalook.com/international-conf-2000/session17-4.pdf).
Wir bemerkten allerdings auch, dass eine Mindestgröße der Aufgaben nötig ist, um vom "Mehr" an nutzbaren Kernen zu profitieren.

Die jetzige Workstation hat kein Infiniband.

Auf dieser Seite sind einige Benchmarks zu finden. Der Großteil lief auf Intel-Systemen. Ob das jetzt der Marktmacht oder der besseren Optmierung zuzurechnen ist, weiß ich nicht.
Ich persönlich bin da komplett offen, mein Kollege hat noch weniger Ahnung als ich und tendiert auf Grund der allgemeinen Meinung eher zu Intel.

Aktuelle Simulationen dauern schon mal einen halben Arbeitstag (teilweise auch ein paar Tage, aber das sehr selten.) und dementsprechend lange müssen wir warten, wenn wir eine Parameterstudie laufen lassen.

Edit: Auf dieser Seite http://www.topcrunch.org/benchmark_results_search.sfe können einige Benchmarkergebnisse zu verschiedensten Systemkonfigurationen angesehen werden.
Vielleicht ist das eine kleine Hilfe.

underclocker2k4 · 26.02.2012

Habt ihr denn die Möglichkeit die Software auf einem einigermaßen aktuellen System zu testen? So könnte man in etwa vergleichen, wo welche Technik was bringt. (mit dem gleichen Job, um das vergleichbar zu halten)

Ob es denn Sinn macht ggf wirklich ein 64 Core Opteronsystem zu nutzen.

fdsonne · 26.02.2012

Diese ganze Infiniband Geschichte interessiert dich erst, wenn du physisch von einander getrennte Clusterknoten zusammen an einer einzigen Aufgabensammlung rechnen lassen willst. Im Moment machst du das mit deiner Intel Workstation nicht... Mit der neuen, sofern es eine S2011 Dual CPU Workstation, oder Quad Sockel AMD Workstation wird, brauchst du das ebenso nicht.

Du könntest aber beispielsweise auch mehrere Single Sockel S1155 Rechenknechte zusammen schalten... Und um hier die Bandbreiten hoch und die Latenzen niedrig zu halten, bietet sich Infiniband an

Ansonsten, in so einem Aufgabengebiet ne klare Empfehlung auszusprechen ist sehr sehr schwer. jdl hat wohl zumindest im HPC Umfeld einiges an Erfahrung. Zeigt aber auch gern mal die Schwächen von AMD in dem Bereich auf.
Wie angesprochen, du solltest dich in erster Linie wohl damit beschäftigen, ob die Software bei eurem Aufgabenfeld mit ner AMD Quad Sockel Maschine gut zurecht kommt. Angeblich, so spuckt es zumindest google in Verbindung mit dem genannten Programm aus, so soll AMD als Dual/Quad CPU Platform sehr gut laufen. Im Dual CPU Umfeld ähnlich Intel, und im Quad CPU Umfeld dann deutlich vorbei ziehend durch mehr absolute Performance... Im Preisrahmen wäre so ne Quad CPU AMD Magny Cours oder Bulldozer Maschine sicher machbar. Bei Intel wirds aber auf Dual S2011 hinaus laufen. In der dicksten Ausführung legst du da locker 8-10k€ für auf den Tisch. Und kommst wohl auf etwas unter Quad Sockel AMD Performance. Aber in Summe eben nur ca. 35-50% über die aktuelle Maschine. DIe Frage bleibt, ist es den Aufwand wert?

Wenn die Aufgabe heute schon einen halben Tag dauert, dann wärst du so vllt bei nem viertel oder drittel Tag.
Viel mehr Performance geht dann nur durch Clustering von physisch getrennter Hardware über eine Netzinfrastruktur wie eben Infiniband. Das dürfte aber dann den Preisrahmen sprengen

underclocker2k4 · 26.02.2012

Ne andere Frage ist auch, ob denn an einem Projekt gerechnet werden muß, oder ob eben mehrere Projekte anstehen, wo man eben mehrere drauf rechnen lassen kann, die aber an sich nix miteinander zu tun haben.
Das würde günstige Maschinen erlauben, dafür aber eben mehrere Systeme ohne combined Power.

Colttt · 27.02.2012

eine weiter frage zu der software wäre ob diese auch auf der GraKa ausgelagert werden kann also das die Grafikkarte die berechnungen mitübernimmt..

ansonsten hast du ja ne mail bekommen

fdsonne · 27.02.2012

Steht doch oben, im Moment sind Grafikkarten nicht in Nutzung

jdl · 27.02.2012

fdsonne schrieb:
Vllt kann sich der TE dazu mal genauer äußern, wie gesagt, für mich macht das nicht den Anschein, das AMD hier massiv Federn lässt, ganz im Gegenteil

Bei uns auf dem Cluster (Opteron 6172) sieht das so aus, daß die Opterons in Relation zu Intel Cores deutlich langsamer sind. Allerdings wurde bei diesen Vergleichen auch immer die neuste Software mit dem neusten Compiler mit der neusten Library benutzt und frisch übersetzt. D.h. der Programmcode ist immer auf die jeweils verwendete CPU optimiert - so auch bei Vergleichssystemen. Wenn man den Code nicht direkt auf die CPU optimiert ergibt sich natürlich ein anders Bild. Wenn man belastbare Zahlen haben will, muß man das betreffende Programm mit den üblichen Problemgrößen benchen. Alles andere bringt nichts.

Backbone · 27.02.2012

Generell kam ja schonmal die Frage auf, ob es eine einzelne "Monstermaschine" sein soll, die immer den Nachteil hat, dass man die letzten 20% Leistung mit 80% Mehrpreis zahlt. Oder ob nicht vielleicht auch ein Rechencluster geht. Letzterer will freilich auch überlegt sein, weil Rackspace auf Dauer auch Geld kostet...

Ich nehm im HPC-Bereich, wenn es um vergleichsweise simple Numbercruncher geht und X86-Architektur passt ganz gern das HP SL System.
HP ProLiant Scalable Systems At a glance - HP Small & Medium Business products

Eigentlich ganz stinknormale Server, dabei aber extrem kompakt gebaut. Ich meine mich auch zu entsinnen, dass die eigentlich von Supermicro stammen und nur gelabelt werden. In jedem Fall erreicht man dadurch sehr hohe Packungsdichten. Und weil die Chassis nur dummes Blech mit NULL-Intelligenz sind, kosten die auch nicht sehr viel.
Baut man davon ein paar mehr will natürlich das Thema Kühlung richtig bedacht sein. 25kW pro Schrank (und teilweise auch mehr) wollen erstmal abtransportiert werden...

jdl · 27.02.2012

jurke schrieb:
Nun können alle 24 möglichen Kerne (bei Nutzung von HT) genutzt werden. Dabei zeigte sich an einer Beispielsimulation, dass die Rechenzeit ziemlich genau 1/3 beträgt, d.h. LS Dyna in diesem Fall also sehr linear skaliert.

Das wundert mich nun aber sehr. Da die Intel CPUs nur 12 echte Kerne haben, werden diese mit optimalen Code auch vollständig ausgelastet. Wenn man zusätzlich die Threads bzw. die MPI Ranks an die Kerne fest bindet (thread pinning genannt) ist mit HT nichts mehr herauszuholen.

jurke schrieb:
Wir bemerkten allerdings auch, dass eine Mindestgröße der Aufgaben nötig ist, um vom "Mehr" an nutzbaren Kernen zu profitieren.

Ja, das ist vollkommen normal. Der Aufwand die Daten zu verteilen lohnt sich erst ab einer bestimmten Mindestgröße.

jurke schrieb:
Die jetzige Workstation hat kein Infiniband.

Das ist bei nur einem Knoten auch sinnfrei! Die Daten zwischen den MPI Ranks müssen nun einmal ausgetauscht werden. Wie ich bereits beschrieben habe, erreicht man die beste Performance, wenn die Verbindung möglichst latenzarm und schnell ist.

Momentan läuft das bei Euch auf der Workstation über den Speicher der CPU bzw. dem QPI Link zwischen den CPUs ab. Wenn man mehrere Knoten (Computer im einem Cluster) miteinander verbinden will, kommt das nicht mehr in Frage. Momentan ist für solche Verbindungen IB das Maß der Dinge. Wenn es das Problem erlaubt, kann man unter Umständen auch GbE verwenden. Ein typischer Effekt wäre es, wenn man GbE statt IB QDR nimmt, daß man der Job (für ein bestimmtes Problem) nicht mehr so gut skaliert, und man auf einem Cluster mit GbE nur mit deutlich weniger Kernen rechnen kann. (In Relation zu einem Cluster mit IB)

jurke schrieb:
Aktuelle Simulationen dauern schon mal einen halben Arbeitstag (teilweise auch ein paar Tage, aber das sehr selten.) und dementsprechend lange müssen wir warten, wenn wir eine Parameterstudie laufen lassen.

Das ist sicherlich für Euren Arbeitsablauf nicht so gut. Wenn die Probleme skalieren, kann man die Laufzeit mit der passenden Hardware deutlich herunterdrücken, ist alles nur eine Frage des Preises. Es gibt sowohl AMD wie auch Intel Dual Socket Knoten mit IB QDR Chip onboard, d.h. der Preis für IB ist deutlich geringer. Meist sind Dual Socket Knoten deutlich Preisgünstiger pro Rechenleistung als Quad Socketsysteme. Der Pferdefuß dabei - man braucht dann einen schnellen Switch (IB Switch).

---------- Post added at 21:23 ---------- Previous post was at 20:50 ----------

jurke schrieb:
Edit: Auf dieser Seite Top Crunch: track the aggregate performance trends of high performance computer systems and engineering software können einige Benchmarkergebnisse zu verschiedensten Systemkonfigurationen angesehen werden.

Wenn man sich das so durchliest, dann skaliert die Software bei hinreichend großen Probleme sehr gut. Allerdings sehe ich nur Ergebnisse für Systeme mit proprietärer Switch Fabric oder IB Fabric. IB Produkte sind meist von Mellanox, der kleinste QDR Switch (IS5022) ist alles andere als günstig.

jurke · 27.02.2012

underclocker2k4 schrieb:
Ne andere Frage ist auch, ob denn an einem Projekt gerechnet werden muß, oder ob eben mehrere Projekte anstehen, wo man eben mehrere drauf rechnen lassen kann, die aber an sich nix miteinander zu tun haben.

Maximal arbeiten aktuell 3 Leute parallel. In der Regel jedoch nur einer.

Backbone schrieb:
Generell kam ja schonmal die Frage auf, ob es eine einzelne "Monstermaschine" sein soll, die immer den Nachteil hat, dass man die letzten 20% Leistung mit 80% Mehrpreis zahlt. Oder ob nicht vielleicht auch ein Rechencluster geht. Letzterer will freilich auch überlegt sein, weil Rackspace auf Dauer auch Geld kostet...
Baut man davon ein paar mehr will natürlich das Thema Kühlung richtig bedacht sein. 25kW pro Schrank (und teilweise auch mehr) wollen erstmal abtransportiert werden...

Laut Aussage von unserem Admin ist noch reichlich Platz im Rack. Und ob von dem Geld einer oder mehrere Rechner angeschafft werden, ist mir persönlich egal. Das P/L-Verhältnis zählt. Ich dachte zwar, dass man bei Quad-Sockelsystemen durch den verringerten Bedarf an Gehäuse, NT, Motherboard,.. Geld spart, aber wenn dem nicht so ist, ja gut, dann nehme ich das so hin.
Zum Thema Kühlung: Der Serverraum ist selbstverständlich klimatisiert und soweit ich informiert bin, hängt die Klimaanlage am Kaltwasserkreislauf der Universität. Immer wenn ich in dem Raum war, wars gut frisch da drin.

jdl schrieb:
Das wundert mich nun aber sehr. Da die Intel CPUs nur 12 echte Kerne haben, werden diese mit optimalen Code auch vollständig ausgelastet. Wenn man zusätzlich die Threads bzw. die MPI Ranks an die Kerne fest bindet (thread pinning genannt) ist mit HT nichts mehr herauszuholen.

Das ist sicherlich für Euren Arbeitsablauf nicht so gut. Wenn die Probleme skalieren, kann man die Laufzeit mit der passenden Hardware deutlich herunterdrücken, ist alles nur eine Frage des Preises. Es gibt sowohl AMD wie auch Intel Dual Socket Knoten mit IB QDR Chip onboard, d.h. der Preis für IB ist deutlich geringer. Meist sind Dual Socket Knoten deutlich Preisgünstiger pro Rechenleistung als Quad Socketsysteme. Der Pferdefuß dabei - man braucht dann einen schnellen Switch (IB Switch).

Wenn man sich das so durchliest, dann skaliert die Software bei hinreichend großen Probleme sehr gut. Allerdings sehe ich nur Ergebnisse für Systeme mit proprietärer Switch Fabric oder IB Fabric. IB Produkte sind meist von Mellanox, der kleinste QDR Switch (IS5022) ist alles andere als günstig.

Zu dem Skalierungstest ist zu sagen, dass in der Win 7 Umgebung kein MPI-Programm genutzt wurde, sondern die LS-Dyna interne Aufteilung, die bei 8 Kernen endet. Beide Male war HT aktiviert.
In dem Fall erscheinen mir ein oder mehrere Dual Socket Knoten als die beste Variante?!

Zu der Benchmarkseite. Ich weiß nicht, was genau hinter den Benchmarks steckt, aber viele der Systeme sind für meine Verhältnisse schon größere Cluster. Auf einem LS Dyna Forum hab ich kürzlich gehört, dass die Automobiler Gesamtfahrzeugcrashs mit ca. 6 Millionen Elementen rechnen. Das ist bedeutend größer, als die Dinge die bei uns laufen. Bei uns sind es meist unter 10E5 Elementen. Von der Warte betrachtet sind manchmal wenige schnelle Kerne sicher besser.
Da jedoch selten solche Geldbeträge für einzelne Rechner bereit stehen und das Teil einige Jahre so laufen wird und Simulationen meist immer komplexer werden, darfs ruhig was ordentliches sein. Wenn dabei das Budget nicht voll ausgeschöpft wird, weil die letzten 5 k€ nur 5 % Leistung bringen, dann weist mich bitte darauf hin.

jdl · 29.02.2012

jurke schrieb:
Das P/L-Verhältnis zählt. Ich dachte zwar, dass man bei Quad-Sockelsystemen durch den verringerten Bedarf an Gehäuse, NT, Motherboard,.. Geld spart, aber wenn dem nicht so ist, ja gut, dann nehme ich das so hin.

Bei einem Quadsocket kann man die IB Fabric einsparen, da liegt der eigentliche Kostenvorteil. Allerdings ist man dann auf genau diese 4 Sockel beschränkt. Sobald man mehr als 4 Sockel braucht muß man ohnehin die IB Fabric kaufen; oder ein Xeon E7 System kaufen, das unverhältnismäßig teuer ist. Daher holt Euch Angebote für eine Quadsockel und für Dual-Socket-HPC-Knoten mit IB onboard Lösung ein. IB sollte unbedingt onboard sein, weil die IB HBAs recht teuer sind.

Als Beispiel für so einen Server:
Supermicro | Products | SuperServers | 1U | 6016TT-IBQF
Jeder andere Anbieter tut es aber auch.

jurke schrieb:
In dem Fall erscheinen mir ein oder mehrere Dual Socket Knoten als die beste Variante?!

Lohnen tut sich die IB Lösung dadurch, daß sie skaliert und man bei Bedarf weitere Knoten hinzufügen kann. Von der Software ist es aber am sinnvollsten möglichst homogene Knoten zu haben. Ihr solltet auf die Xeon E5 warten, oder ein Opteron 6200 System nehmen, da diese CPUs auch noch länger angeboten werden, und man hier ggf. Knoten noch nachkaufen kann. Aber realistisch wird das System einmal gekauft und ggf. später mit anderen Knoten aufgerüstet.

jurke schrieb:
Zu der Benchmarkseite. Ich weiß nicht, was genau hinter den Benchmarks steckt, aber viele der Systeme sind für meine Verhältnisse schon größere Cluster.

"Größer" ist relativ zu sehen; mit 1500 Cores schafft man es definitiv nicht in die Top500.

Fall Ihr Euch zu mehr als einem Knoten durchringen könnt, solltet Ihr darüber nachdenken einen JobScheduler zu betreiben, damit kann man die Knoten effektiver auslasten und mehrere Personen können ihre Jobs leicht nacheinander oder parallel abarbeiten lassen. Je besser ausgelastet die Knoten sind, desto sinnvoller war die Investition.

jurke schrieb:
Bei uns sind es meist unter 10E5 Elementen. Von der Warte betrachtet sind manchmal wenige schnelle Kerne sicher besser.

Jein, solange das Problem gut skaliert sollte man lieber billigere CPUs nehmen, und dafür mehr. Dazu kommt, daß die schnellen CPUs den Mehrtakt nicht 1:1 in Mehrleistung umsetzen können.

jurke · 29.02.2012

jdl schrieb:
Bei einem Quadsocket kann man die IB Fabric einsparen, da liegt der eigentliche Kostenvorteil. Allerdings ist man dann auf genau diese 4 Sockel beschränkt. Sobald man mehr als 4 Sockel braucht muß man ohnehin die IB Fabric kaufen; oder ein Xeon E7 System kaufen, das unverhältnismäßig teuer ist. Daher holt Euch Angebote für eine Quadsockel und für Dual-Socket-HPC-Knoten mit IB onboard Lösung ein. IB sollte unbedingt onboard sein, weil die IB HBAs recht teuer sind.

Lohnen tut sich die IB Lösung dadurch, daß sie skaliert und man bei Bedarf weitere Knoten hinzufügen kann. Von der Software ist es aber am sinnvollsten möglichst homogene Knoten zu haben. Ihr solltet auf die Xeon E5 warten, oder ein Opteron 6200 System nehmen, da diese CPUs auch noch länger angeboten werden, und man hier ggf. Knoten noch nachkaufen kann. Aber realistisch wird das System einmal gekauft und ggf. später mit anderen Knoten aufgerüstet.

Jein, solange das Problem gut skaliert sollte man lieber billigere CPUs nehmen, und dafür mehr. Dazu kommt, daß die schnellen CPUs den Mehrtakt nicht 1:1 in Mehrleistung umsetzen können.

Vielen Dank jdl für den detaillierten Input, das hilft doch ungemein. Der Dank geht natürlich auch an alle anderen, deren Kommentare selbstverständlich mit aufgenommen werden.

Der nächste Schritt wird sein entsprechende Angebote einzuholen. Nach dem Kauf und der Installation, werde ich hier ein Feedback geben. Wie geschrieben, wird es jedoch noch ein paar Monate dauern.

Mit besten Grüßen
Klaus

Suche

Workstation für Prozesssimulation bis 15000 €

jurke

Enthusiast

fdsonne

Legende

jdl

Enthusiast

Kullberg

Computer Schach Freak

jdl

Enthusiast

fdsonne

Legende

jurke

Enthusiast

underclocker2k4

Mr. Alzheimer

fdsonne

Legende

underclocker2k4

Mr. Alzheimer

Colttt

Enthusiast

fdsonne

Legende

jdl

Enthusiast

Backbone

Neuling

jdl

Enthusiast

jurke

Enthusiast

jdl

Enthusiast

jurke

Enthusiast