IDF 2014: Intel stellt Xeon-E5-v3-Familie vor

Andi [HWLUXX]

Chefredakteur
Thread Starter
Mitglied seit
07.10.2003
Beiträge
2.251
Ort
Franken
<p><img src="/images/stories/logos-2013/idf2014.jpg" alt="idf2014" style="margin: 10px; float: left;" height="100" width="100" />Zum Start des IDF hat Intel heute seine neue Xeon E5-v3-Produktfamilie angekündigt. Die neuen Prozessoren Xeon E5-2600/1600 v3 sind für den Einsatz in rechenintensiven Umfeldern und Datacentern gedacht und sollen gegenüber der Vorgänger-Generation eine bis um den Faktor 3 gesteigerte Leistung bieten. Darüber hinaus hat Intel weiter die Effizienz verbessert und die Sicherheitsfeatures optimiert – so sollen den immer weiter steigenden Ansprüchen in der Cloud Rechnung getragen werden. </p>
<p>Die verschiedenen „pools" der IT verschieben sich deutlich durch die Zugang zur Cloud. Entsprechend setz Intel bei der neuen Plattform auf Software Defined...<br /><br /><a href="/index.php/news/hardware/prozessoren/32599-idf-2014-intel-stellt-xeon-e5-v3-familie-vor.html" style="font-weight:bold;">... weiterlesen</a></p>
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Ich glaube nicht dass wir Xeons mit freien Multis sehen werden und ich hab auch noch nicht von einem Xeon mit nem freiem Multiplikator gehört.

Das wird in diesem Bereich von den Cpu´s eh nicht gefordert und wer solche Cpu´s hochschrauben will, der muss da halt dann auf eine andere Weise ran als nur über den Multi.
 
Ich glaube nicht dass wir Xeons mit freien Multis sehen werden und ich hab auch noch nicht von einem Xeon mit nem freiem Multiplikator gehört.

Das wird in diesem Bereich von den Cpu´s eh nicht gefordert und wer solche Cpu´s hochschrauben will, der muss da halt dann auf eine andere Weise ran als nur über den Multi.

Hast Du dich je mit Xeon CPUs beschäftigt? Die E5-2xxxW v1 hatten einen offenen Multi und die "meisten" E5-v2 auch (weiss nicht ob es auch Modelle ohne gibt.)
 
Hast Du dich je mit Xeon CPUs beschäftigt? Die E5-2xxxW v1 hatten einen offenen Multi und die "meisten" E5-v2 auch (weiss nicht ob es auch Modelle ohne gibt.)
Das bezweifle ich ganz stark! Sonst wäre das EVGA SR-X nicht so ein Flop geworden, wenn es Dual-Socket fähigen ungelockte Xeons gegeben hätte.
Die einzige Sandy Bridge-EP/Ive-Bridge-EP Xeons mit offenen Multis waren die E5-1650/E5-1650v2/E5-1660/E5-1660v2.
 
Zuletzt bearbeitet:
Ich sage nur Skulltrail, das waren noch Zeiten ;)
 
Hast Du dich je mit Xeon CPUs beschäftigt? Die E5-2xxxW v1 hatten einen offenen Multi und die "meisten" E5-v2 auch (weiss nicht ob es auch Modelle ohne gibt.)

Ich denke die Frage sollte man eher dir stellen?
Ich hatte einige Xeons unter den Fingern und die letzten mir bekannten Xeons für Dual CPU Anwendungen mit offenem Multi liefen noch auf Sockel 1366/ EVGA SR-2 (von E-Samples abgesehen!)
Wie emperator schon schreibt: Das EVGA SR-x wäre wohl kaum so gefloppt wenn es auch nur einen E5 2xxw mit offenem Multi gegeben hätte :hmm:
 
Zuletzt bearbeitet:
Sind ja eine ganze Menge unterschiedlicher Modelle.
Ist nicht ganz einfach sich da zu entscheiden. Ich denke was da real an performance herumkommt wird auch ein bisschen vom turbo verhalten abhängen.
Das die bei AVX Workloads den Takt teilweise erheblich senken macht mir ein bisschen Sorgen. Ist das der TDP geschuldet?
Abzuschätzen was man da je nach Anwendung an performance zwischen den einzelnen Modellen gewinnt wird glaube ich deutlich schwieriger als bei der Vorgängergeneration. Zumindest für hpc Anwendungen.
 
Zuletzt bearbeitet:
Das die bei AVX Workloads den Takt teilweise erheblich senken macht mir ein bisschen Sorgen. Ist das der TDP geschuldet?
Wenn die Xeon E5 bzw. E5v2 AVX Code verarbeiten steigt der Stromverbrauch stark an. Wenn man dazu noch den AllCore Turbo dauerhaft aktiviert steigt der Stromverbrauch drastisch an und die Systeme werden sehr warm. Insofern kann ich nachvollziehen, daß Intel die Turbostufen für den AVX2 Mode etwas verringert hat. Viel ist es ja nicht.

Wann welche CPU die optimale Performance herausholt, hängt nun noch mehr vom Programmcode ab. Eine generelle Aussage läßt sich nicht treffen. Ziemlich wahrscheinlich wird der 18Core nicht das Preisoptimum sein.
 
Laut Heise.de sind nicht nur die turbostufen verringert. Der E5-2699 v3 soll bei AVX code nur noch mit 1.9GHz anstelle von 2.3GHz getaktet sein. Das sind mal eben 20% unter base clock. Ich finde das ist schon ein erheblicher Unterschied. Das bei code der die AVX einheiten benutzt deutlich mehr Wärme entsteht ist ja nicht wirklich neu, aber einerseits so viele Cores auf ein die zu klatschen und das dann unter laste nicht mehr Kühlen oder versorgen zu können und daher den Takt zu drosseln finde ich schon ein bisschen daneben.
Bei manchen codes gewinne ich mit AVX flags keine 20% Leistung weil ein großer Teil eben nicht Vektoroperationen sind. Sehen Entwickler und Tester dann, dass solcher code ohne vektorisierung auf der Hardware schneller läuft? Oder ist das vielleicht noch von der Temperatur abhängig? Da spielen auf einmal mehr Faktoren mit, das wird gerade bei parallelisierter Software irgendwann unübersichtlich und schlechter vergleichbar.
 
Ich denke die Frage sollte man eher dir stellen?
Ich hatte einige Xeons unter den Fingern und die letzten mir bekannten Xeons für Dual CPU Anwendungen mit offenem Multi liefen noch auf Sockel 1366/ EVGA SR-2 (von E-Samples abgesehen!)
Wie emperator schon schreibt: Das EVGA SR-x wäre wohl kaum so gefloppt wenn es auch nur einen E5 2xxw mit offenem Multi gegeben hätte :hmm:

Du hast recht, ich widerrufe die Aussage. Hab mich da mit dem E5 26xxW v1/v2 von den hwbot.org Ergebnissen verwirren lassen. Hatte den "all core turbo" nicht mehr auf dem Schirm und hab aus dem erhöten Multi die falschen Schlüsse gezogen.
 
Ich bin mal gespannt, wie Asus das mit dem Z10PE-D8 WS macht mit dem übertakten. Die schreiben was von 10%.
Naja in den News steht auch nix von dem Board....
Aber mir persönlich gefällt es schonmal gut.

BTW ich glaube was gelesen zu haben, dass die den Takt nur bei diesen AVX dingend anpassen und sonst die normalen Specs laufen. Kann mich aber auch irren.....
 
Zuletzt bearbeitet:
Laut Heise.de sind nicht nur die turbostufen verringert. Der E5-2699 v3 soll bei AVX code nur noch mit 1.9GHz anstelle von 2.3GHz getaktet sein.
Das ist richtig. Allerdings im Allcore Turbomode taktet der E5-2699v3 mit nonAVX 2.8GHz und mit AVX 2.6GHz. D.h. der Unterschied wird durch den Einsatz des Turbos geringer.

Bei manchen codes gewinne ich mit AVX flags keine 20% Leistung weil ein großer Teil eben nicht Vektoroperationen sind.
Die Compiler vektorisieren von selbst, wenn der Programmcode das erlaubt. Bei typischen HPC Code braucht man im Grunde gar nichts zu machen, da ohnehin auf Vektoren und Matrizen gearbeitet wird und die Einzeloperationen echt parallel ausgeführt werden können. In Fortran gibt es extra elemental Funktions, die anzeigen, daß sie parallel auf Vektoren, Matrizen angewandt werden können.

Sehen Entwickler und Tester dann, dass solcher code ohne vektorisierung auf der Hardware schneller läuft?
Es gibt für solche Fälle extra Werkzeuge z.B. Intels VTune Amplifier.
 
Naja man muss dem compiler schon die richtigen flags mitgeben damit der neuere Vektoreinheiten auch benutzt.

Ich hab bisher mit älteren VTune Versionen gearbeitet, hab mich damals immer gern an die walltime gehalten. Kann man in der neuen Version dann clock cycle count irgendwie mit dem zu dem Zeitpunkt aktuellen Takt verknüpfen? Da hatten wir aber auch nur eine Hardwareplattform zum rechnen zur Verfügung jetzt sinds schon ohne Haswell EP drei.

Wenn mal alle HPC codes in fortran geschrieben wären und nur Vektoren und Matrizen als Datenstrukturen kennen würden... Wir haben teilweise abartige Konstrukte in C/C++ die in speziellen Anwendungen auch bis zu 90% Speicher sparen können. Punkte gleichen Zustands in einem 3D System werden da mit pointern ersetzt. In der nächsten Subroutine kann es aber auch mal wieder eine gut vektoeisierbare Aufgabe geben. Das ganze ist dann auch noch von den Eingabedaten abhängig.
Soll aber am ende von einer Zentralen Installation auf 3 Hardwareplattformen für Probleme unterschiedlicher Größenordnungen benutzt werden.
Und da probiert nicht jeder nochmal aus ob für seine Rechnung jetzt die version mit oder ohne AVX flotter läuft. Vielleicht mal für einzelne Fälle die wochen oder Monate laufen.
Fast genauso schlimm wird es bei Komerziellen Programmen mit Nutzer subroutinen oder fast allem wo man irgendwelche fremden Bibliotheken hantiert, die nicht im Quelltext vorliegen sondern in irgend einer vor 5 Jahren vorkompilierten Version.
Ja auch solche Software landet auf dem ein oder anderen hpc cluster. Je mehr da kooperiert und vor allem zugekauft wird, destso schlimmer manchmal die flickschusterei.
Das alles ist auch so schon schlimm genug ohne schwankenden Takt.

Vor allem was soll die Absenkung, wenn man allcore turbo mit AVX ja scheinbar deutlich mehr fahren kann.
 
Wenn mal alle HPC codes in fortran geschrieben wären und nur Vektoren und Matrizen als Datenstrukturen kennen würden... Wir haben teilweise abartige Konstrukte in C/C++ die in speziellen Anwendungen auch bis zu 90% Speicher sparen können. Punkte gleichen Zustands in einem 3D System werden da mit pointern ersetzt. In der nächsten Subroutine kann es aber auch mal wieder eine gut vektoeisierbare Aufgabe geben. Das ganze ist dann auch noch von den Eingabedaten abhängig.
Das ist immer das Problem, daß man Datenstrukturen suchen muß, die optimal fürs Problem sind. Kompakte Datenstrukturen sind meist schlecht fürs Rechnen. Mir ist bisher auch keine Quadratur des Kreises bekannt, und man muß es einfach ausprobieren. Unter Umständen ist es sinnvoller vollständige Matrizen zu nutzen, obwohl man weiß das sie nur dünnbesetzt sind. Mit Zeiger herum zu hantieren ist bei den modernen CPUs reines Gift, weil die Zahl der Cache Hits in den Keller geht.

Vor allem was soll die Absenkung, wenn man allcore turbo mit AVX ja scheinbar deutlich mehr fahren kann.
Es gibt in den Slides Hinweise darauf, daß die Taktrate mit AVX sehr stark von der Wärmeentwicklung abhängt. Solange die Boards die Stromversorgung gewährleisten können, muß "nur" eine ausreichende Kühlung verbaut haben. Die Doku der Xeon E5 spricht von >200W Leistungsaufnahme unter Spitzenlast. Mal sehen wieviel Strom die E5v3 ziehen, die Doku ist noch nicht öffentlich verfügbar.
 
Ja ich halte von der pfuscherei mit pointern auch nichts. Aber bei extrem dünn besetzten Matrizen und hohem speicherbedarf kann man sich halt teilweise an ~8 fache Systemgröße wagen. Dauert zwar was länger aber irgendwann sind auch die Ergebnisse da.

Ja kühlbar solls ja auch bleiben, schon bei den E5-2670 erreiche ich mit AVX codes knapp über 80°CPU temperatur bei 22°C Lufttemperatur an der Server front. Die Schattenseite dicht gepackter Systeme.
Ohne AVX sinds locker 10° weniger.
Ich denke mal für solche workloads sind die Xeon EPs mit weniger Cores interessanter, die werden nicht so schnell ans limit kommen. Dann nimmt man halt nen paar kisten Mehr pro Simulation.
Bis 8 cores hängen die Caches ja scheinbar noch an einem Ringbus ohne Switches dazwischen. Trozdem mit 4 Kanal Speicheranbindung.
Aber da kommt man ja auch auf den Gedanken, dass man eben so gut single Socket Systeme mit 16 Cores nehmen könnte. Wobei da wohl wieder die TDP pro socket limmitiert.
Echt nicht so einfach diese Generation.
 
Aber da kommt man ja auch auf den Gedanken, dass man eben so gut single Socket Systeme mit 16 Cores nehmen könnte. Wobei da wohl wieder die TDP pro socket limmitiert.
Echt nicht so einfach diese Generation.
Die üblichen HPC Knoten sind ohnehin DualSocket Systeme, und man sollte das Preisoptimum heraussuchen, d.h. über den kompletten Knotenpreis das Maximum an Leistung/Preis. Notfalls startet man weniger MPI Ranks pro Knoten, durch den Turbomode taktet dann die CPU ohnehin schneller.
 
Naja genau da lohnt es meist eher die CPU mit weniger cores zu kaufen, weil die auch so schon höher takten und eben deutlich günstiger angeboten werden.
Sobald man halt mehr als 1 Knoten nutzt muss man auch wieder das Kommunikations- und Skalierungsverhalten der codes ein bisschen kennen und eine Sinvolle Topologie für die Anzahl der Knoten wählen.
Aber da sollte man schon wissen was man ausgeben kann um sinvoll zu Planen. Infiniband Hardware kann recht schnell ein großer Kostenfaktor werden. Nonblocking Architekturen werden ab eine gewissen größe richtig teuer, da kann man echt froh sein, wenn man darauf verzichten kann.

Ich persönlich bin ja eher ein Fan davon die Anzahl der Knoten geringer zu halten indem man die einzelnen Knoten gut ausstattet.
Bedeutet weniger Geld für Infrastruktur, Monitoring, Wartung, eine bessere Auslastung des zur verfügung stehenden Speichers und kleinere Netzwerke :-)
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh