[Sammelthread] offizieller Nehalem-EP Thread

Wie funktioniert denn der Infiniband-Spaß zur Verbindung von 2 Supermicro-Servern softwareseitig? kann man dann ne Maschine mit 4 CPUs draus machen (quasi auf OS Ebene, für die Anwendungen transparent) oder muss die Anwendung die man drauf laufen lässt selber eine Unterstützung für Infiniband bieten um dann mit dem entsprechenden Gegenstück auf der anderen Maschine kommunizieren zu können?
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Du braucht entweder einen scheduler, der zerlegte Aufgaben verteilt, oder Anwendungen, wie die etwas eigenes mitbringen um solche Infrastrukturen zu nutzen.
MPI basierte Anwendungen zum Beispiel können das. Ist aber auch über Infiniband langsamer als wenn alle CPUs in einer Maschine sind. Direkt über HT oder QPI ist halt auch schneller als über infiniband, auch wenn man direkte links mit einigen wenigen Mikrosekunden (einstellig) Latenzzeit hinbekommt.

Aber einfach Betriebssystem drauf und dann siehts aus wie eine 16 Core Maschine bei 2 dual Quads so einfach ist es leider nicht.

Allzuviel kann ich dir dazu leider auch nicht erzählen, sammel gerade auch erste Erfahrungen mit massiv parallelen Anwendungen.
 
Ich kenn jemanden, der hat nen Cluster mit Infiniband. Der sagt, das sieht einfach aus wie 10 Gigabit Netzwerk.
 
Thx für die Infos, ist ein interessantes Thema.
Ich vermute mal der Hauptvorteil von Infiniband gegenüber sehr schnellen Netzwerkverbindungen liegt dann in erster Linie in der niedrigen Latenz, oder?
 
Zitat von Fr@ddy
Schonmal daran gedacht Rechner zu vernetzen und gemeinsam für MPI zu nutzen?
Von Supermicro gibt es preiswerte 1HE Dual Dual Opteron Lösungen mit Infiniband.
Ja klar, auf den richtig dicken Kisten auf denen der Code läuft, wird es ja zwangsläufig so gemacht.
Wenn man MPI braucht man natürlich keine shared memory Maschine aber laufen tut es da natürlich auch nicht langsamer. Der "Quickpath" ist ja doch ein bisschen schneller als infiniband.
Das Hauptargument war für mich aber der Preis.
So eine Nehalemworkstation könnte ich doch mit 2x e5520 (2.25 GHz Quad 8MB cache) für deutlich unter 2000€ bauen.
Was kostet denn ein (zumindest für MPI Anwendungen) gleich performantes dual Operton Rackserversystem?
Das wären doch mindestens 2 Boards oder?

@Kullberg
Bei FP würde ich eventuell auf ein AMD 4-Sockel System setzen
Meinst Du ein 4 Sockel Board oder auch zwei dualboards übers Netzwerk verbunden?
Ein vier Sockelboard war vor den nehalems mein Favorit.
Da braucht man aber Opterons mit einer 8 vorne (wegen der zusätzlichen HT links)
Die sind sooo teuer; über 2000€ pro Stück für einen shanghai quadcore auf 2.7 Ghz. Nix für mich.
Aber du sagst, dass die Opterons bei FP gar nichts so schlecht aussehen.
Hast Du da ein konkretes benchmarkergebnis vor Augen? Würde mich sehr interessieren.
Ich habe nur specfp angesehen.
Die Specfp Benchmarks messen glaube ich die Inversion einer voll besetzen Matrix. Das hat auch viel mit schnellen Core2Core Verbindungen und Cache zu tun, da viel Kommunikation zwischen den Threads nötig ist.
Wäre für unsere sparse matrix Gechichten also etwas weniger wichtig.
In specfp machen die nehalems alle opterons platt.
2 Nehalem x5550 (2.67 Ghz) 35.4 base (Dellkiste)
1 Nehalem i920-> 27.7 base (Asus p6deluxe)
2 Opteron 2384 (2,7 shanghai) ->17,7 base (Hp pro liant)
Man braucht also ein 4 Sockel Opterönchen um bei gleichem Takt and ein dual Socket Nehalem System heranzukommen.

Da ich nur diesen Benchmark als Orientierung hatte ist klar, warum ich eine dual Nehalem Workstation wollte, aber eben eine übertaktete , schluchts..

---------- Beitrag hinzugefügt um 11:47 ---------- Vorheriger Beitrag war um 11:25 ----------

@fdsonne
schau dir mal systools an, ist sowas wie setFSB, sollte unter XP64Bit problemlos laufen und unterstützt vllt sogar den Taktgenerator deiner Boards.
Vorteil an dem Tool ist, der behält auch beim Reboot die eingestellten Werte
Einzig Bios defaults darfst nicht laden, da sind se auch weg...
Hast Du das schonmal bei so einem Szenario ausprobiert:
Windows bclk einstellen.
Windows runterfahren
Linux hochfahren
über hohen bclk freuen.

Könnte ja sein, dass das Tool nicht alle eingestellten Werte ins cmos kippt, sondern ein paar auf der Platte und die dann nach dem hochfahren wieder aktiviert.
Habe leider keinen Rechner an dem ich es ausprobieren könnte, außer meinem notebook.
 
Ja klar, auf den richtig dicken Kisten auf denen der Code läuft, wird es ja zwangsläufig so gemacht.
Wenn man MPI braucht man natürlich keine shared memory Maschine aber laufen tut es da natürlich auch nicht langsamer. Der "Quickpath" ist ja doch ein bisschen schneller als infiniband.
Das Hauptargument war für mich aber der Preis.
So eine Nehalemworkstation könnte ich doch mit 2x e5520 (2.25 GHz Quad 8MB cache) für deutlich unter 2000€ bauen.
Was kostet denn ein (zumindest für MPI Anwendungen) gleich performantes dual Operton Rackserversystem?
Das wären doch mindestens 2 Boards oder?

Naja mit kleinen CPUs ist so eine Lösung nicht so viel teurer. Z.B. TwinRack A-144-INF 2199,- +MWst und Infinibandkabel bei Pyramid für 4*2,3GHz Opteron Shanghai mit 8GB RAM (je node nur 4GB). Mit 3 Jahren Garantie und das sind Listenpreise, geht meist noch was runter.
Die 5520 mit 2,25GHz sind was die FP-Performance angeht sicher auch nicht so ganz der Bringer.
Ich denke Preis/Performance mäßig sollte man das zumindest mal nachrechnen.
Was am Takt schrauben angeht, sollte man sich einfach mal schlaumachen, die Opterons gibts js schon was länger, vielleicht gehts da einfacher.

QPI oder HT ist natürlich noch etwas flotter als Infiniband, aber du solltest bedenken das du mit den Nehalems zwar 2 Threads pro Core bearbeiten kannst, diese aber dann nicht gleichschnell sind.
Einige MPI Applikationen sollen da recht empfindlich sein, weil die Threads ständig aufeinander warten.
Es gibt fälle in denen die Nehalems ohne HT flotter sind als mit. Der Leistungszuwachs bei Software die von HT profitiert ist grob geschätzt 20% und keine 100%.

Du kannst ja mal 2 rechner nehmen und testen wie eure Software verteilt läuft. Einfach direkt über nen Patchkabel verbinden und über nen SSH Tunnel rechnen lassen. Kaum konfigurationsaufwand, dafür auch wesentlich langsamer als eine ordentliche Konfiguration, aber damit kannst du dann vielleicht schon sehen, ob und was für Einbußen du durch die höheren Latenzen hast.
Ist stark von der Software abhängig die du einsetzt.

(keys für SSH verbindung im home hinterlegen, das der login ohne passworteingabe funktioniert und dann machines.Linux editieren und mpirun mit *-machinefile <machine-file name>* "Program" starten)

ordentlich konfiguriert und mit Infiniband z.B. sollte es noch eine ganze ecke schneller laufen durch wesentlich geringere Latenzen, aber vielleicht reicht so ein Test um abschätzen zu können wie sich die eigene Software verhält.
 
@fdsonne

Hast Du das schonmal bei so einem Szenario ausprobiert:
Windows bclk einstellen.
Windows runterfahren
Linux hochfahren
über hohen bclk freuen.

Könnte ja sein, dass das Tool nicht alle eingestellten Werte ins cmos kippt, sondern ein paar auf der Platte und die dann nach dem hochfahren wieder aktiviert.
Habe leider keinen Rechner an dem ich es ausprobieren könnte, außer meinem notebook.

Mit Linux hab ich es nicht getestet, aber da das Tool bei mir damals nicht unter Vista 64Bit lief, hab ich immer in 64Bit XP (auf ner zweiten Platte installiert) die Taktrate eingestellt und dann Vista gebootet und mit hohem Takt gearbeitet...
Klappt aber nicht immer 100% sauber, zum Beispiel wenn Windows Updates fährt sind die Einstellungen weg.
 
Ich bin auch an einer Neuanschaffung dran, sprich 2x Nehalem E5520 @ Supermicro X8DAH+ mit vorläufigen 16GB RAM, danach @ 32GB... meine eigentliche Frage wäre aber, ob man das Board auch mit nur einer CPU betreiben kann? Falls ja, dann wäre das ideal für mich, weil dann könnte ich die Koste ein wenig verteilen und mich würde nicht alles auf einmal erschlagen :d
 
Eine CPU geht schon, allerdings musst du beachten dass du dann auch nur die Hälfte der RAM Slots nutzen kannst (also nur die wo auch die zugehörige CPU vorhanden ist).
 
Wenig spektakuläre Erkenntnis. Das ASUS Z8PE-D12X rennt auch mit zwei unterschiedlich schnellen Xeon 55er DP. Der Finale Takt ist dann bei beiden der des niedriger getakteten.

Naja, kann ja nicht immer eine Hammererkenntnis hier werden. Immerhin, es funktioniert. :)

@ Kullberg

Könntest du mal die neuste Version von SiSoftware Sandra testen? CPU,RAM, Multimedia. Wenn der Multi bei meinen ES auf Auto steht, crashed das System bei diesen Tests, gehe ich einen Multi runter (2,53GHz) gibt es keine Probleme. Prime 95 hingegen rennt ohne Zicken stundenlang bei 2,66GHz. Die ersten Tests hatte ich mit einer älteren Version von SiSoftware Sandra gemacht, da funktionierte das hingegen auch bei 2,66GHz einwandfrei.
Wie sieht jetzt genau der Turbo bei deinen W5580ern aus?
 
Wenig spektakuläre Erkenntnis. Das ASUS Z8PE-D12X rennt auch mit zwei unterschiedlich schnellen Xeon 55er DP. Der Finale Takt ist dann bei beiden der des niedriger getakteten.

Naja, kann ja nicht immer eine Hammererkenntnis hier werden. Immerhin, es funktioniert. :)

@ Kullberg

Könntest du mal die neuste Version von SiSoftware Sandra testen? CPU,RAM, Multimedia. Wenn der Multi bei meinen ES auf Auto steht, crashed das System bei diesen Tests, gehe ich einen Multi runter (2,53GHz) gibt es keine Probleme. Prime 95 hingegen rennt ohne Zicken stundenlang bei 2,66GHz. Die ersten Tests hatte ich mit einer älteren Version von SiSoftware Sandra gemacht, da funktionierte das hingegen auch bei 2,66GHz einwandfrei.
Wie sieht jetzt genau der Turbo bei deinen W5580ern aus?

Versuch mal, die beiden unterschiedlichen CPUs zu vertauschen - dann kann es sein, dass beide mit maximalem Takt laufen. Ich hatte das mal mit nem Asus Board. Da war es so, wenn der E5420 im ersten Sockel war, wurde der E5430 runtergebremst, wenn es andersrum war, nicht.
Sandra läuft bei mir einwandfrei. Ich hatte es aber mal, dass ein i7-920 mit ner älteren Version crashte.
Den Turbo kann ich schlecht beurteilen, CPU-Z zeigt halt 3,33 GHz an. Kennst Du dafür ein besseres Tool?
 
@Kullberg
CPU-Z sollte eigentlich Punktgenau den Takt anzeigen, sprich wenn der Turbomodus greift und der Multi erhöht wird, solltest du das sofort in CPU-Z sehen können...

Interessant wäre aber zu wissen, was passiert, wenn nur ein Core ausgelastet wird, dann sollte ja der Multi um mehr als 1 hoch gehen. Aber was dann CPU-Z Anzeigt, weil ich nicht.
Alternativ mal Coretemp probieren, das zeigt glaub den Takt aller Cores an...
 
CPU-Z zeigt irgendeinen obskuren Duchschnitt der Takte an - glaube ich. Ohne Last 3306 MHz, bei Last 3333 MHz. Core Temp (neueste Beta) zeigt 3333.32 MHz unter Last, 1599,99 im Idle. Also kann man daraus keine klare Information beziehen.
 
Könntest du mal die neuste Version von SiSoftware Sandra testen? CPU,RAM, Multimedia. Wenn der Multi bei meinen ES auf Auto steht, crashed das System bei diesen Tests, gehe ich einen Multi runter (2,53GHz) gibt es keine Probleme. Prime 95 hingegen rennt ohne Zicken stundenlang bei 2,66GHz. Die ersten Tests hatte ich mit einer älteren Version von SiSoftware Sandra gemacht, da funktionierte das hingegen auch bei 2,66GHz einwandfrei.

Ich hab da jetzt eine Idee, woran das liegen könnte. Vielleicht ist der Turbo Schuld - wenn nur 1 Thread läuft, wird ja der eine Core dann weiter übertaktet. Vielleicht bringt ihn das zum Crash.
 
@ Kullberg

Vielleicht ist der Turbo Schuld

Daran hatte ich auch schon gedacht, aber der Fehler tritt leider auch dann auf, wenn ich den Multi fest auf 20 einstelle. Ist dies der Fall, hat der Turbomodus keine Bedeutung. Der Turbomodus funktioniert ja immer nur dann, wenn der Multi auf Auto steht. Zudem bekomme ich keine Fehlermeldung, wenn ich nur einen Thread + Turbomodus Prime 95 teste und dort rennt ein Kern dann immerhin mit 3,2GHz ohne Probleme.

Versuch mal, die beiden unterschiedlichen CPUs zu vertauschen

Hab übrigens mal die CPUs in den Sockel getauscht, hat leider nix gebracht. :(
 
Schade :(

Hat eigentlich schon jemand das ASUS Z8NA-D6 oder das Intel S5520SC ausprobiert?
Würde mich ja reizen, aber nach dem Supermicro Fehlkauf hab ich nicht soo die große Lust, noch mehr Kohle zu versenken.
 
mein intel S5520SC kommt morgen - am Donnerstag war ich leider nicht zu Hause als der Postman da war :motz:- sonst hätte ich es dieses WE schon einbaun können

mfg
 
Naja, vielleicht ist ja da der Taktgenerator etwas freundlicher ;)
 
@Kullberg
wie viele Boards hast du denn jetzt schon probiert?
 
@ Kullberg

Könntest du bitte mal kurz für mich checken, ob der maximale Multi deiner CPUs auch analog zur Spannung verläuft?

Spaßiger weise ziehen sich meine beiden X5580 ES (3,06GHz) auf dem Asus nur 1,19V, was für die B0 ES CPUs wohl ein ganz leichter Hauch zu wenig ist, damit sie dauerhaft stabil funktionieren. Reduziere ich nun den Multi auf z.B. 21 um sie als X5560 laufen zu lassen, verringert das Board die Spannung auf 1,08v. :fresse:

Dass das wieder grade so nicht zum Überleben ausreicht ist da ärgerlich. Die Welt wäre ja so einfach würden sie weiterhin 1,19v ziehen. :stupid:

Für Benchmarks reicht es zwar, aber für einen längeren Prime 95 Run eben nicht. Nun hab ich in weiteren technischen Dokumenten von Intel die Tabelle für die Spannungen bei Gainestown CPUs gefunden, allerdings ist mir überhaupt nicht ersichtlich, welche Pins das betrifft, ansonsten würden 1,25v sicherlich ausreichen, damit die Teile hier dauerhaft stabil funktionieren.

Load 2,8GHz bei 1,08v oder Load bei 3,06GHz bei 1,19v ergibt übrigens einen Unterschied von 70W. :fresse:
 
@Agent500
wo bekommst du eigentlich die ganzen ES CPUs her!?
Sowas will ich auch haben... ;) Hardwaretestet ftw :fresse:
 
@ fdsonne

;)

@ Kullberg

Ok, Fehler gefunden, lag doch nicht an der Spannung.
Schlussendlich hattest du doch irgendwie Recht mit dem Turbomodus. :) Jetzt laufen alle 4 CPUs ohne Probleme. Die Sache war am Anfang nur nicht so leicht zu durchschauen.
Stelle ich den Multi auf Auto kann ich den Turbo im Bios aktivieren oder nicht. Stelle ich nun einen festen Multi ein verschwindet diese Option, der Turbomodus findet in Windows keine Verwendung, somit dachte ich, stellt dieser auch kein Problem dar.

Allerdings wird wohl trotzdem darauf zurückgegriffen, somit ist ein disable beim B0 Stepping anzuraten. Wird die CPU einzeln betrieben, fällt der Fehler weitaus seltener auf.

Somit rennt das System jetzt endlich völlig fehlerfrei und 3175MHz kann sich denke ich auch ohne Turbo sehen lassen. ;)
 
falls du mal irgendwann wieder welche in die Hand bekommst und diese gaaanz zufälligerweise nicht brauchen solltest, dann weist ja wo du sie los bekommst :fresse:
:wink:
 
@ Kullberg

Ok, Fehler gefunden, lag doch nicht an der Spannung.
Schlussendlich hattest du doch irgendwie Recht mit dem Turbomodus. :) Jetzt laufen alle 4 CPUs ohne Probleme. Die Sache war am Anfang nur nicht so leicht zu durchschauen.
Stelle ich den Multi auf Auto kann ich den Turbo im Bios aktivieren oder nicht. Stelle ich nun einen festen Multi ein verschwindet diese Option, der Turbomodus findet in Windows keine Verwendung, somit dachte ich, stellt dieser auch kein Problem dar.

Allerdings wird wohl trotzdem darauf zurückgegriffen, somit ist ein disable beim B0 Stepping anzuraten. Wird die CPU einzeln betrieben, fällt der Fehler weitaus seltener auf.

Somit rennt das System jetzt endlich völlig fehlerfrei und 3175MHz kann sich denke ich auch ohne Turbo sehen lassen. ;)

Ja, das ist dann wohl auch die Erklärung, weshalb meine neuen D0 W3520 Prime mit 4,2 GHz locker schaffen, aber beim Schach spielen (da ist bei der Übertragung der Züge immer ne kleine Pause von vielleicht 50 ms) abstürzen. :( Sehr frustrierend.

Das mit den Spannungen werde ich heute mal checken.
 
@Agent500
hab mal den Multi auf 20 gesenkt - jetzt laufen die CPUs mit 1,096 und 1,052V.
Also wird tatsächlich die VCore in Abhängigkeit vom Multi eingestellt.
Bei dieser Einstellung läuft die eine CPU doch glatt unter Raumtemperatur :fresse:
 
@ fdsonne

Geht klar. ;)

@ Kullberg

Also wird tatsächlich die VCore in Abhängigkeit vom Multi eingestellt.
Das bringt ganz neue Herausforderungen mit sich, sollte man irgendwann mal den BCLK verändern können und aus irgendeinem Grund einen niedrigeren Multi fahren wollen. :fresse:

Joe, die Spannungen sind bei mir ca. die gleichen, einzig bei 23 liegen 1.2V an, da sind deine D0er natürlich mit 1,11 und 1,17v etwas sparsamer trotz 24er Multi. Wenn du zum Spaß mal 12 anlegst, solltest du bei 0,78V oder so etwas rauskommen. Da sind die Teile im idle wahrscheinlich schon fast ohne Kühler zu betreiben. :d
 
Naja, bei Multi 12 hab ich jetzt 0.94 V VCore bei beiden. CPU1 ist 1° unter Raumtemperatur, CPU 2 2°:fresse:
Echt coole CPUs ;)
 
Zuletzt bearbeitet:
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh