Opteron System mit 8 CPUs ?

gemm · 10.07.2006

hat jemand erfahrung mit einem 8x dualcore opteron system ? tyan bietet das modul m4481 an (http://www.tyan.com/products/html/m4881.html), welches auf zwei platinenmodelle passt (s4881/s4885) und vier weitere cpus nebst speicher aufnehmen kann. damit lassen sich also systeme mit 16 cores realisieren.

fragen:
-gibts weitere möglichkeiten/hersteller fuer 8-dualcore-cpu-boards ?

-wie ist das m4881 organisiert - tauchen im os dann 16 gleichberechtigte cpus auf, oder werden die zusätzlichen 8 cores dann intern über eine art netzwerkschnittstelle (treiber ?) angebunden ?

-kann das zusatzboard auf den speicher des mainboards zugreifen, oder muss das (!) extra bestückt werden ?

-hat jemand erfahrung mit dem aufsetzen eines linux systems auf einem 16-core system ? gibts dabei besonderheiten (z.b. irgendwelche esoterischen treiber), oder läuft das alles ohne weitere probleme durch ?

thx

Rimini · 10.07.2006

Schau mal bei Iwill rein:

http://www.iwill.net/product_hpc.asp

Gruß

Rimini

Osiris-Storage · 10.07.2006

wer brauch sowas? lol - sollte man da nich lieber zu maßgeschneiderten Lösungen greifen?

bracusht das für zuhaus?

gemm · 10.07.2006

thx; fuer das iwill-teil habe ich bisher keinen haendler und preis gefunden.

die maschine ist nich fuer zuhause; die stromrechnung möchte ich nicht bezahlen ;-)
ich brauche eine logisch einzelne maschine mit möglichst viel rechenleistung , da ich dann vorläufig um teure cluster-hardware+software herumkomme (myrinet und linda).

Rimini · 10.07.2006

Iwill Produkte bekommt man leider auch weiterhin nicht in DE, haben das zur CeBit sehr ausgiebig mit Iwill diskutiert, aber Iwill findet keinen namhaften Distributor, der sich darauf einlässt, die gesamte Iwill Produktpalette mit festen Einkaufsmengen und festen Einkaufspreisen für De zu übernehmen. Eine eigene Vertriebs-Vertretung will Iwill aber auch nicht in DE bilden. Offensichtlich reicht Iwill der US-Markt und wer was braucht, muss eben dort auch einkaufen. Wirklich schade bei den wirklich guten Iwill Produkten.

walljumper · 10.07.2006

hier gibts angeblich iwill produkte auf anfrage. Habs aber noch nie ausprobiert.

Pimok · 10.07.2006

jo gibt es. und nciht nur angeblich

gemm · 11.07.2006

danke für die info. ich werde mal eine anfrage starten. hat jemand einen groben preisrahmen für sowas ?

Pimok · 11.07.2006

iwill ist leider nen gutes stückchen teurer als hier ansässige hersteller wie tyan, daher stell dich schonmal auf gesalzene preise ein

gemm · 11.07.2006

nunja; die preise für maschinen mit >2 CPUs sind sowieso nicht ganz unerheblich. solange sie aus "standard"-teilen bestehen und von kleineren oder mittleren firmen massgeschneidert werden, ists meist noch ok. sobald aber der name eines "grossen" draufsteht, heben die preise ab. hat sich schonmal jemand bei hp, sun oder siemens-fujitsu nach dual-opteron workstations umgesehen ? da fällt man echt vom glauben ab, wenn man die preise hört.
mal sehen, was iwill sagt. ist ja schliesslich ein spezielles gehäuse+lüftungssystem was die da haben.

Rimini · 11.07.2006

Pimok schrieb:
iwill ist leider nen gutes stückchen teurer als hier ansässige hersteller wie tyan, daher stell dich schonmal auf gesalzene preise ein

Die Produktauswahl, Innovationen (z.B. digitale Schaltregler ohne fehleranfällige Elkos für CPU-Core-Spannung), die Qualität und der Support sind um einiges besser bei den (Quad-/Octal-CPU) Servern als bei anderen Herstellern. Insbesondere der Support ist erstklassig, Anfragen werden meist innerhalb eines Tages beantwortet und "Unmögliches" (z.B. BIOS-Anpassungen) wird möglich gemacht.

Pimok · 11.07.2006

jo sag ich ja auch nix gegen, aber iwill ist nunmal tuerer als andre hersteller. wieso das so ist hast du gerade ja aufgeführt.

xxmartin · 11.07.2006

gemm schrieb:
-wie ist das m4881 organisiert - tauchen im os dann 16 gleichberechtigte cpus auf, oder werden die zusätzlichen 8 cores dann intern über eine art netzwerkschnittstelle (treiber ?) angebunden ?

Wenn Du 8 Dual-Core CPU's einsetzt sind im OS dann 16 logische Cores vorhanden. Die Verbindung erfolgt über Hypertransport, also genauso wie auch die Sockel auf jedem 2P oder 4P Board miteinander kommunizieren.

gemm schrieb:
-kann das zusatzboard auf den speicher des mainboards zugreifen, oder muss das (!) extra bestückt werden ?

Du solltest ohnehin jedem Prozessor mindestens ein Modul spendieren, im Normalfall natürlich jedem zwei Module, damit jeder Dual-Channel hat. Der Gesamtspeicherausbau ist natürlich die Summe aller Module; der Zugriff auf andere Speichermodule erfolgt dank NUMA mit einer deutlich erhöhten Bandbreite.

gemm schrieb:
-hat jemand erfahrung mit dem aufsetzen eines linux systems auf einem 16-core system ? gibts dabei besonderheiten (z.b. irgendwelche esoterischen treiber), oder läuft das alles ohne weitere probleme durch ?

Funktioniert genauso problemlos wie auf jedem anderen System. Das schöne am Opteron ist ja eben seine Skalierbarkeit.

Was mit 2 Cores funktioniert, geht genauso mit 4, 8, 16 oder sonstwievielen.

uOpt · 12.07.2006

Supermicro's H8QC8 board hat auch die sockel fuer so ein Tocherboard um auf 8 CPUs zu kommen. Ich hab nicht letztens geguckt ob sie tatsaechlich das Tocherboard rausgebracht haben.

Softwareseitig in Linux is das kein Problem, die meisten Distributionen compilieren die Kernel fuer mehr als 16 CPUs und selbst wenn nicht kannst Du selbst recompilieren.

Es gibt keinen Unterschied zwischen den ersten und den zweiten 4 Prozessoren, es sind keinen OS-sichtbaren devices vorhanden um die anderen 4 einzubinden.

Kosten fuer das Tochterbrett bei Tyan sind ungefaehr das gleich wie fuer das Board, dazu kommen CPUs und RAM und natuerlich ein richtig fettes Netzteil. PCP&C 1KW im gegenwaertigen Modell wird's nicht tun wegen dem Railsplit aber gibt andere die Du nehmen kannst.

Lueftung wird auch nerven weil Du mit dem Tochterbrett keinen hohen HSFs mehr nehmen kannst.

m0ep · 12.07.2006

enermax 1kw mit 5 12V rials

uOpt · 12.07.2006

Neh da wuerd ich mich mal nicht drauf verlassen.

Von den 5 rails sind einige an Stellen wo Du sie nicht gebrauchen kannst, z.B. Molexes, 6-pin PCIe, 24-pin und was nicht noch.

Generell sind die Chancen so eine Kiste hochzubekommen besser je weniger Rails Du hast. Das PCP&C 1KW konnte z.B. nicht das H8QC8 starten.

gemm · 17.07.2006

Du solltest ohnehin jedem Prozessor mindestens ein Modul spendieren, im Normalfall natürlich jedem zwei Module, damit jeder Dual-Channel hat.

Das hoert sich ueberzeugend an. ich haette mich hier vermutlich eher weniger auf NUMA verlassen.

Funktioniert genauso problemlos wie auf jedem anderen System. Das schöne am Opteron ist ja eben seine Skalierbarkeit. Was mit 2 Cores funktioniert, geht genauso mit 4, 8, 16 oder sonstwievielen.

nun, "funktionieren" und "gut funktionieren" sind zwei paar stiefel. ich habe von tests gehoert, bei welchen manchmal unerfreuliche leistungseinbrueche zu verzeichnen waren (z.b. open mp mit mehr als 8 cores). scheint sich aber um softwareprobleme zu handeln. andererseits scheint auch NUMA bei 16 cores an die grenzen zu kommen, da die NUMA bandbreite bei den opterons urspruenglich nur fuer 8x single core dimensioniert war. ich muss jetzt mal sehen, in wieweit das auf mein rechenproblem zutrifft.

...und natuerlich ein richtig fettes Netzteil.

da sind derzeit 3x 950W redundante NT geplant.

p.s. habe hier ein angebot fuer eine maschine mit 4 dualcore opterons auf 1HE. wenn ich das auf einen schrank mit 34HE hochrechne, komme ich auf eine nette CPU-anzahl (und auf eine recht unerfreuliche thermische belastung).

Rimini · 17.07.2006

Naje, mit Blades bekommt vielmehr CPUs/Cores in einen Schrank, dafür kann man dann das Heizwerk abschaffen.

uOpt · 18.07.2006

NUMA bringt meist nicht viel. Die Betriebsysteme scheinen da echt Schwierigkeiten zu haben. Linux hat neuen page migration code aber ich hab noch keine benchmarks gesehen die da was rausholen.

Ich wette wenn man nicht genug RAM module hat, dass es ist fuer die meisten Anwendungen schneller ist die haelfte der CPUs mit dual-channel zu bestuecken als single-channel an jeder CPU.

Spezialanwendungen wie "nur Oracle und sonst nix auf der Kiste" ausgenommen.

Waer interessant das in meine Benchmarks aufzunehmen. Hm...

Kullberg · 21.07.2006

Ja, es ist mit Sicherheit besser, den Speicher nur DC laufen zu lassen, weil im Zweifelsfall über einen anderen Prozessor auf dessen lokalen Speicher zugegriffen wird, und das ist im DC schneller, als ein lokaler Zugriff auf single channel. Am besten ist es natürlich, jeder CPU 2 Speichermodule zu spendieren. Das nutzt aber nur, wenn die Software mit NUMA umgehen kann, ansonsten bringt das nix.

gemm · 24.07.2006

numa ist aus meiner sicht nicht sache der software, sondern des os. ist aber in meinem fall nicht wichtig, da die 16 ram-sockel sowieso alle mit den (einigermassen) bezahlbaren 1gb modulen vollgeschichtet werden. interessant waere das erst, wenn die zweiten vier cpus anstehen. aber evtl. waere es dann sinvoll, nochmal über speicheraufruestung nachzudenken.

thx @ all

Kullberg · 24.07.2006

OS und Software müssen NUMA unterstützen - sonst hat es keinen Vorteil

uOpt · 27.07.2006

Kullberg schrieb:
OS und Software müssen NUMA unterstützen - sonst hat es keinen Vorteil

Neh, im Gegenteil. Es gibt fuer die meisten Anwendungen noch nicht mal Interfaces um ueberhaupt manuell NUMA zu beeinflussen. Das "beste" was Du machen kannst ist dass Du Applikationen an processoren bindest und dann Speicher an denselben Processor bindest. Aber wie immer wenn Du mit dem scheduling oder dem VM-System manuell rumhantierst wirst Du meistens feststellen, dass Du die Dinge nur schlimmer machst.

Was im Moment am ehesten in Mode zu sein ist page migration wie es vom Linux-kernel in 2.6.26 gemacht wird. Du laesst das OS immer noch die CPU waehlen und die Speicherallokation normal machen. Das OS versucht natuerlich immer, Prozesse auf einer CPU zu lassen und pagefaults die physicalischen Speicher fuellen sind natuerlich in der lokalen RAM-Bank bedient. Wenn Der Scheduler dann feststellt, dass eine Migration des Prozesses auf einen anderen Prozessor trotz des Auswandes das richtige zu tun ist, dann copierst Du Pages auf dessen RAM-Bank waehrend die Pages angefordert werden. Da Du die TLB's sowieso getrasht hast kannst Du das relativ einfach festellen.

Der Gesamtgewinn scheint immer noch sehr niedrig zu sein. Fakt ist eben dass 1024 KB Cache fuer die meisten Applicationen ausreichen. Das ein nicht-lokaler Speicherzugriff die CPU der der Speicher gehoert nicht blockiert, sondern diese CPU im Cache weiterarbeiten kann, ist der gesamt Performanceverlust nicht weltbewegend auch wenn Du voellig ignorant bezueglich NUMA Speicher allokierst.

Der wesentliche Grund warum AMD NUMA fuer Socker 940 verwendet ist eben nicht Performance sondern lediglich dass es bei DDR1 registered 16 GB fuer 2-Prozessor Systems ermoeglicht und entsprechend 8 GB pro CPU mehr.

%%

Fuer einige Spezialaufgaben kommt NUMA natuerlich zum tragen, aber niemals in normalen gemischten Server oder Workstation--Aktivitaeten. Ein einzelner grosser Datenbankserver und sobst nix auf der Machine kann, wenn die Software complett handgetunt wird, doch schneller sein. Aber sobald da auf Webserver, Java und sonstwas drauf laufen ist alles wieder normal.

Opteron System mit 8 CPUs ?

Enthusiast

Semiprofi

Semiprofi

Enthusiast

Semiprofi

Neuling

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Semiprofi

Enthusiast

Semiprofi

Neuling

@ddicted

Neuling

Enthusiast

Semiprofi

Neuling

Computer Schach Freak

Enthusiast

Computer Schach Freak

Neuling

Ähnliche Themen