Intel zeigt Wafer und Die zu Xeon Phi Knights Landing (Update)

Don · 17.11.2015

<p><img src="/images/stories/logos-2015/intel3.jpg" alt="intel3" style="margin: 10px; float: left;" />Intel nutzt die Gunst der Stunde und zeigt im Vorfeld der Supercomputing 2015, die morgen beginnen wird, erstmals einen Die-Shot sowie einen dazugehörigen Wafer zu Intels Beschleunigerchip Xeon Phi mit dem Codenamen Knights Landing. <a href="index.php/news/hardware/prozessoren/36408-intel-knights-landing-mit-76-rechenkernen-vier-auf-reserve.html" target="_self">Zuletzt wurde Ende August auf dem IDF bekannt</a>, dass die stärkste Xeon-Phi-Variante über 76 Rechenkerne verfügen wird, vier davon aber auf Reserve gehalten werden. Zu den 76 Rechenkernen gesellen sich noch sechs DDR4-Speichercontroller, ein PCI-Express-3.4-Interface und der DMI-Controller. Weiterhin vorhanden sind acht...<br /><br /><a href="/index.php/news/hardware/prozessoren/37217-intel-zeigt-wafer-und-die-zu-xeon-phi-knights-landing.html" style="font-weight:bold;">... weiterlesen</a></p>

ELKINATOR · 17.11.2015

die Yield liegt sicher weit unter 50%!

im vergleich zu den 28nm GPUs von AMD/NVIDIA ist die rechenleistung für ca. 700mm² in 14nm FinFET echt erbärmlich.
wahrscheinlich ist die effizienz auch wieder mal deutlich schlechter, wie das wohl aussieht wenn auch AMD/NVIDIA auf FinFET gewechselt haben...

Marteng · 17.11.2015

Ganz genau, die können ja garnichts!

ELKINATOR · 17.11.2015

nichtmal bei der halben größe würde es für den Phi gut aussehen!

Intel Xeon Phi 14nm Bulk FinFET 700mm² 3TFLOPS

AMD FirePro W9100 (Hawaii) 28nm Bulk Planar 438mm² 2,62 TFLOPS

NVIDIA Tesla K80 (2×GK210) 28nm Bulk Planar 2×561mm² 2,91TFLOPS

strexy · 17.11.2015

Schlechter als AMD, sicherlich nicht.Was haben knapp 3% im HPC Markt. Da hat der frische Einsteiger Intel für Rechnenbeschleuniger mit 25% seit 2012 wohl gut Arbeit geleistet. Die Jungs welches die aufbauen sind ja nicht dumm.

Was ELKINATOR mal wieder außer acht lässt weil er es nicht weiß oder einfach verschweigt ist:

1) KNL besitzt 6x DDR4 Channels für weitere 384GB RAM. Die müssen auch versorgt werden. -> Weder bei W9100 und K80 zu finden. Laden also schön über den langsamen PCIe und dann bricht schnell die Performance ein. Da bringt mir theoretische Peak Performance nichts.

2) Für W9100 oder K80 brauche ich noch einen Server. Also locker 200 bis 300W wenn nicht gar bis 500W zusätzlich, um mit Daten versorgt zu werden. Bei Phi reichen mal locker 50 bis 100W für die komplette Kiste, Host CPU ist ja bereits da. Dumm wenn man nicht weiß das KNL auch als Host CPU agiert.

3) Es heißt 3+ TFOP/s, wir werden beim Top Modell weit mehr als 3 TFLOP/S DP sehen. Beide anderen haben noch nicht einmal 3 TFLOP/s geknackt.

4) Die GPUs kriegen meist die Peak Performance nicht voll hin. Da bringt mir die Angabe von ~3 TFLOP/s im Peak nichts, wenn für mein Problem die Matrix-Größe so unpassend ist oder die Daten nicht schnell genug geliefert werden, dass die GPU auf <1 TFLOP/s einbricht. Das hat ja schon sehr schön der Test der letzten Phi Generation gezeigt etwa von heise mit unterschiedlichen Matrixgrößen.

5) Die Phi hat in der Host Ausführung ein max. TDP von 215 Watt bei >3 TFLOP/S. Macht 72W pro TFLOP. W9100 105W pro TFLOP und K80 mit 103W pro TFLOP. Und bedenken GPUs brauchen dann noch einen ganzen Server nur damit sie laufen.

Auf einmal sieht die KNL doch nicht mehr so schlecht aus, wenn man mal die realistische Performance betrachtet die raus kommt unabhängig der Specs auf dem Papier. Da muss NVIDIA und AMD (gut die können es eh sein lassen, kauft eh keiner im HPC Bereich) erst einmal dagegen halten. Wenn man dann noch bedenkt, ich kann auf der Phi sämtliche x86 Software betreiben und leicht für hohe Performance anpassen haben hier die anderen Hersteller ein echtes Problem. Nicht umsonst konnte Intel die Verbreitung von 0 auf 100 extrem steigern.

Aber was will man denn vom ELKINATOR halten, was nicht von AMD kommt ist eh scheiße. Kann keinem Produkt von AMD das Wasser reichen, ach und ist einfach scheiße. Ich denke er hatte noch nie eine Phi in der Hand geschweige denn mal damit gearbeitet.

ELKINATOR · 17.11.2015

ausser flamen kannst du wohl nichts?
wenn man den fertigungsvorteil berücksichtigt schaut der Phi eben erbärmlich auch, nicht meine schuld...

"(gut die können es eh sein lassen, kauft eh keiner im HPC Bereich"

da soetwas nicht meine meinugn ist würde ich soetwas auch nie behaupten.
echt arg was einen hier immer unterstellt wird, du bist ein weiterer troll den ich ab jetzt ignoriere, leute wie du machen foren echt kaputt!

"was nicht von AMD kommt ist eh scheiße."

strexy · 17.11.2015

Wenn man keine Ahnung sollte man halt nicht so Geschwafel verbreiten. Sonst kann es passieren das man zurecht gestutzt wird.

-> wenn man den fertigungsvorteil berücksichtigt schaut der Phi eben erbärmlich auch, nicht meine schuld...

Das stimmt eben nicht, zieh mal DDR4 Controller, DMI Interface und co. ab dass die GPU eben nicht hat aber die Phi, damit die reinen Recheneinheiten übrig bleiben. Dann haben wir zwar immer noch 40% der Fläche die nur mit 36MB L2 Cache bestückt ist, aber gut. K80 hat 2x 7,1 Millia. Transistoren, Phi schafft das mit 50% der Anzahl der Transistoren inklusive DMI, DDR4 Controller,.. und das obwohl CPU Strukturen immer mehr Platz brauchen als reine GPU-Einheiten.

AMD will doppelt so Effizient werden (siehe Artikel), schafft man also die Leistung einer KNL mit der nächsten Generation. Dumm das ich die Karte dann immer noch einen ganzen Server braucht. Das hat die Phi bereits verbaut.

Eher macht die Phi beide anderen nass, ganze Plattform mit <300W im Host Mode gegen die kommende Generation von AMD oder NVIDIA.

WoIstDerAmiga · 17.11.2015

strexy,ich mg Dich.Endlich mal ein "Fachmann" der aufzeigt,das die Zeiten wo ein Österreicher ausschliesslich dummquatscht und die Deutschen klatschen mit offenem Mund Beifall laaaaange vorbei sind.

Bitmaschine · 18.11.2015

Interessante Entwicklung. Bin gespannt, wann das externe RAM auf dem DIE/Chip wandert. So quasi in 3D das Ganze aufgebaut wird. Das thermische Problem ist sicher noch ein Hindernis, aber ich denke im Chip kann sicher die Busbreite der Speicheranbindung enorm gesteigert werden.

strexy · 18.11.2015

@WoIstDerAmiga

Danke, aber mir ging es nur darum falsche Aussagen von ELKINATOR zu korrigieren.

@Bitmaschine

Was man so hört wird Gen3 der Phi QPI also mehrere Phis auf einem Board unterstützen und 3D XPoint als vierte Cache-Stufe zu unterstützen. Dann gibt es mit Core/Tile-Cache, MCDRAM, DDR4 auch 3D XPoint in TB Größe. MCDRAM ist bereit mit Gen2 per on-package Interposer angebunden.

Bitmaschine · 18.11.2015

@strexy
Ja, wirklich schön zu lesen. Da hat sich in den letzten Jahren doch einiges getan. Ich verfolge die Entwicklung schon mehr als 30 Jahre und bin schon beeindruckt.

Ich vermute mal, bei zukünftigen weiteren stabilen Verkleinerung der Strukturgröße auf den Chips, der Platzbedarf auf den Boards deutlich verkleinern wird. Im Umkehrschluss mehr Cores untergebracht werden können. Für die Wissenschaft usw. genial. Ein Tianhe-2 auf ein ITX-Board (kleiner Scherz, sind natürlich noch Welten dazwischen

).

@WoIstDerAmiga
Hab noch einen 1200 mit 68030 + CoPro Erweiterung Zuhause. Hab lang damit gearbeitet. Irgendwie schade, dass ich meine Freundin einmotten musste

... aber ich bin ihr treu, hat einen Ehrenplatz bei mir

WoIstDerAmiga · 18.11.2015

strexy
Da hast Du dir aber was vorgenommen,sooft wie Spaminator danebenliegt.

NasaGTR · 20.11.2015

Ich könnte mir sehr gut vorstellen das so die Zukunft der Grafikkarten aussieht.

Mainboards mit mindestens zwei Sockeln (hoffentlich Grafikteil wenigstens Standardisiert)

CPU auf einem Sockel, GPU auf einem anderem Sockel durch die Nähe sind diese dann extrem Schnell miteinander verbunden und beide Teilen sich einen Speicher.
Um die Stromversorgung und die Monitoranschlüsse kümmert sich komplett das Mainboard.

Buffo · 20.11.2015

Darauf warte ich schon lange, aber ich befürchte, im Consumerbereich bleibt ATX mit 1-2 gesockelten CPUS und Grafikartenkarten im PEG für die nächsten 20 Jahre...

fdsonne · 20.11.2015

strexy schrieb:
Das stimmt eben nicht, zieh mal DDR4 Controller, DMI Interface und co. ab dass die GPU eben nicht hat aber die Phi, damit die reinen Recheneinheiten übrig bleiben. Dann haben wir zwar immer noch 40% der Fläche die nur mit 36MB L2 Cache bestückt ist, aber gut. K80 hat 2x 7,1 Millia. Transistoren, Phi schafft das mit 50% der Anzahl der Transistoren inklusive DMI, DDR4 Controller,.. und das obwohl CPU Strukturen immer mehr Platz brauchen als reine GPU-Einheiten.

So ganz unrecht hat er mit der Aussage aber auch nicht... Zieh doch mal das ab, was du aufgezählt hast. Wenn ich mir das Bild des DIEs ansehe, da bleibt trotzdem noch ein riesen Chip über, dazu im deutlich kleineren Prozess gefertigt. Also Flächeneffizienz geht da wohl klar an die GPU. Zumal es bei den GPUs ebenso viele Teile gibt, die abseits der reinen ALUs und dem bisschen Front/Backend dafür verbaut sind, damit eben der Gamingbereich abgedeckt wird... Da geht nochmal ein Teil der Fläche drauf. Wie viel genau, müsste man sich mal angucken. 1 oder 2% werden das aber sicher nicht nur sein... Zumal eben die Einheiten neben den ALUs idR auch in einem gewissen Verhältnis zur ALU Anzahl/dessen Leistung stehen. Breitere ALU Anzahl = idR auch breiterer Rest. (zumindest innerhalb einer Generation)
Allerdings stimme ich dir dahingehend definitiv zu, der Vergleich hinkt unter dem Gesichtspunkt, dass dort x86 kompatible Cores drauf sind. Das ganze Zeugs, was die Phi kann, und die GPUs nunmal nicht, kosten halt Fläche... Von daher hinkt der Vergleich eigentlich und die Aussage ist wenig wert bzw. hat wenig Relevanz.

Wenn diese Teile nicht so schweine teuer wären, würde ich mir sowas definitiv besorgen. Die Kärtchen dürften ziemlich perfekt für Videoencoding sein. Das was eben auf den "normalen" i7 Mainstream CPUs, selbst mit massivem OC eigentlich immernoch lange davon entfernt ist, schnell zu laufen. Und was die GPUs bspw. so gar nicht gut können und die Bildqualität dazu noch von der verwendeten Hardware und dessen Fähigkeiten abhängt. Mit ner fetten Dual Xeon Kiste kann man dem Speedproblem zwar heute schon entgegen kommen, aber das ist für privat eben immernoch viel viel viel zu teuer.

Na mal gucken, vielleicht fällt ja so ein Ding mal irgendwo ab... Bin auf die Listenpreise gespannt. Es muss ja für den Anfang nicht das Dickschiff sein. Ggf. wirds wieder auch ne kleinere abgespecktere Version geben?? Wenn da keine Ahnung, 2500€ stehen. 70-80% Nachlass und das könnte durchaus was werden mit mir und der Phi :fresse:

NasaGTR schrieb:
Ich könnte mir sehr gut vorstellen das so die Zukunft der Grafikkarten aussieht.

Mainboards mit mindestens zwei Sockeln (hoffentlich Grafikteil wenigstens Standardisiert)

Eher nicht in absehbarer Zukunft

Intel hat doch den Versuch gestartet und festgestellt, dass es nicht funktioniert... Stichwort LRB. Das war doch der eigentliche Hintergrund der Xeon Phi Karten... Und sollte eben auch als GPU fungieren. Nur scheint es zumindest in diesem Bereich, wo die 3D Berechnung offenbar durchaus mit den Fähigkeiten der Hardware dicke auskommt, kein Bedarf an x86 kompatibler Beschleunigerhardware zu geben. Warum sollte sich das in Zukunft ändern?

Wenn man so will ist die Phi doch die Version mit der Brechstange... Die GPUs von AMD und NV hingegen sind eher die speziell auf gewisse Bereiche zugeschnittenen Produkte. Nur kann so ein Produkt eben dann nicht alles. Mit x86 kannst du so ziemlich alles berechnen. Auf der GPU hingegen wird das zu einem Großteil einfach schwer bis unmöglich. Dafür können diese GPUs halt ihren Part gut. Und das eben auch idR sauschnell...

Wenn man sich das bspw. mal ansieht, beim Mining wurde zu Anfang auch die GPU rangezogen. Später dann war es eher unsinnig, weil kostenineffizient das mit GPUs zu machen. Da waren spezielle Chips/ASICs viel Besser unterwegs. Fürs Gaming schaut das ähnlich aus. Da ist eher die GPU das spezielle Produkt und so eine x86 based Allrounder CPU wäre im Vergleich die GPU beim Mining. Zumal das reine Berechnen des Shadercodes ja nicht alles ist. Ne GPU besteht ja noch aus vielen anderen Teilen. TMUs, TAUs, ROPs, usw. -> das fällt bei x86 alles raus. Entweder man baut solche speziellen Einheiten mit dran oder "emuliert" das ganze wieder in Software -> mit dem gleichen Nachteil der idR höheren Ineffizienz.

Morpheus2200 · 21.11.2015

Die Vorgängerversion als Steckkarte gab es mal eine weile für unter 200 Euro. Da wurden Reste irgendwo in den USA abverkauft.

Ob man da allerdings wirklich ohne angepasste Software glücklich mit wird wage ich zu bezweifeln.
Habe von einigen Entwicklern gelesen, dass sie Schwierigkeiten hatten die erwartete Performance auch wirklich zu erreichen.

Hier mal ein Benchmark mit dem Vorgänger, CPU und GPU.
Benchmarks: Intel Xeon Phi vs. NVIDIA Tesla GPU

Angekündigt sind ja 3TFlop DP peak. Das wäre in etwa das dreifache im Vergleich zum Vorgänger. Das wäre schon ein beeindruckender Schritt.

jdl · 21.11.2015

fdsonne schrieb:
Also Flächeneffizienz geht da wohl klar an die GPU.

Auch Du vergißt, daß eine GPGPU nicht allein funktioniert und im HPC Bereich üblicherweise ein Dual Xeon E5 Server mit 4, 6 oder 8 GPGPUs betrieben wird. Für Latenzkritische Aufgaben werden maximal 4 GPGPUs pro Dualsocket Server verbaut, d.h. für einen echten Vergleich darfst Du gleich einen halben Xeon E5 dazu addieren und dann sieht die Sache anders aus. Zudem soll Omnipath direkt in die neuen Phis integriert werden, d.h. den Omnipath bzw. Infiniband Controller kannst Du auch gleich mitrechnen. Bei den Teslas gibt es seit einiger Zeit einen Modus, bei dem man die Daten direkt vom Infiniband Controller in die GPGPU kopieren kann, um die Performance zu verbessern.

fdsonne · 21.11.2015

jdl schrieb:
Auch Du vergißt, daß eine GPGPU nicht allein funktioniert und im HPC Bereich üblicherweise ein Dual Xeon E5 Server mit 4, 6 oder 8 GPGPUs betrieben wird.

Das steht doch überhaupt nicht zur Debatte... Welchen Sinn hat diese Aussage?
Auch die Xeon Phi geht nicht ohne Netzteil. Auch das Netzteil geht nicht ohne Strom usw.
Es gibt einfach Abhängigkeiten und die müssen schlicht und ergreifend beachtet werden. Weswegen allerdings Vergleiche zwischen Flächeneffizienz und Performance oder Verbrauch keineswegs unsinnig sind. Denn es geht doch um die Unit und nicht um das gesamte Produkt.
Wer ganze Racks vergleichen will, kann das ja tun. Spricht auch nix dagegen, genaus wenig spricht aber gegen Vergleiche genau solcher Einzeleinheiten.

Die Xeon Phi als Steckkarte läuft wohl ebenso nicht allein. Oder kann das Ding auch ohne CPU betrieben werden? Ich denke nicht... Bei der OnBoard Version schaut das anders aus. Aber diese ist eben auch wieder nur ein Teil. Gekoppelt über was auch immer mit anderen solcher Units. Willst du vergleichen, dann doch bitte Äpfel mit Äpfel und Birnen mit Birnen. Ist zwar am Ende alles Obst, macht den Vergleich aber nicht sinniger.

Auch kann ich meinen eigenen Code mit ner Single Tesla, Single FirePro oder Single Xeon Phi nur dann nutzen, wenn ich nen PC habe, wo dich die Dinger unterbringe... Das muss keineswegs ein Xeon DP System sein. Die Karten laufen prinziel auf "jeder" Schmette und können dort auch Leistung liefern. Die Frage ist dann viel eher, was will man überhaupt vergleichen? Wie gesagt, die Phi hat Alleinstellungsmerkmale, was klar Vorteile sind. Deswegen auch mehr Fläche, ggf. weniger Performance oder als Karte betrachtet, schlechtere Energieeffizienz unter dem Gesichtspunkt der Fertigung.

TARDIS · 21.11.2015

strexy schrieb:
Aber was will man denn vom ELKINATOR halten, was nicht von AMD kommt ist eh scheiße. Kann keinem Produkt von AMD das Wasser reichen, ach und ist einfach scheiße. Ich denke er hatte noch nie eine Phi in der Hand geschweige denn mal damit gearbeitet.

Lass dich von Elkinator nicht provozieren. Er ist halt ein AMD Troll und sülzt jeden Intel/Nvidia Thread mit seinen Troll Posts voll. Einfach ignorieren und gut ist es.

jdl · 21.11.2015

fdsonne schrieb:
Das steht doch überhaupt nicht zur Debatte... Welchen Sinn hat diese Aussage?

Du vergleichst Äpfel mit Birnen. Der neue Xeon Phi Chip ist Host fähig, d.h. er kann komplett ohne andere CPU im System betrieben werden, die Integration geht soweit, daß es eine Version mit integriertem Omnipath Controller geben wird. D.h. es wird HPC Knoten geben, die nur einen Xeon Phi drauf haben und über Omnipath gekoppelt werden. Dazu verfügt der neue Xeon Phi über einen Sechskanalspeichercontroller, der maximal 6x64GB LRDIMMs unterstützt. Das ganze frißt natürlich Chipfläche, nur bei Teslas oder FirePros wird diese Funktionalität durch die Host CPU realisiert, so daß man für einen ehrlichen Vergleich die Xeon E5s in den Vergleich miteinbeziehen müßte.

fdsonne schrieb:
Oder kann das Ding auch ohne CPU betrieben werden?

Exakt das geht mit den neuen Xeon Phi!

senbei · 21.11.2015

Die neuen Xoen Phi kommen als Coprozessoren und als Prozessoren:
http://www.nextplatform.com/wp-content/uploads/2015/03/intel-knights-landing-skus.jpg
Hier die offizielle Roadmap:
http://www.nextplatform.com/wp-content/uploads/2015/05/intel-kdm-roadmap-1.jpg
Die Prozessoren für die Groveport Plattform kommen sogar mit 36 pcie 3.0-Lanes -> mit den richtigen Boards kann man dann noch weitere Phis/Teslas/Firepros dazustecken oder in der Workstation daheim ne 980ti und zocken^^

---------------------------
Edit

Vielleicht könnte HWLuxx ja mal so eine Plattform testen?

fdsonne · 21.11.2015

jdl schrieb:
Du vergleichst Äpfel mit Birnen. Der neue Xeon Phi Chip ist Host fähig, d.h. er kann komplett ohne andere CPU im System betrieben werden, die Integration geht soweit, daß es eine Version mit integriertem Omnipath Controller geben wird. D.h. es wird HPC Knoten geben, die nur einen Xeon Phi drauf haben und über Omnipath gekoppelt werden. Dazu verfügt der neue Xeon Phi über einen Sechskanalspeichercontroller, der maximal 6x64GB LRDIMMs unterstützt. Das ganze frißt natürlich Chipfläche, nur bei Teslas oder FirePros wird diese Funktionalität durch die Host CPU realisiert, so daß man für einen ehrlichen Vergleich die Xeon E5s in den Vergleich miteinbeziehen müßte.

Wieso? Wenn die Berechnung von der GPU kommt, interessiert mich der Unterbau genau so wenig bei der Flächeneffizienzbetrachtung. Wieso sollte das bei Xeon Phi nun anders sein? Weil das Modell es auch anders kann? Ja, möglich... Aber da es keine Alternative dafür gibt, hinkt so ein Vergleich halt gewaltig. Dennoch ist er eben möglich.
PS: schau dir mal die DIE Shots an, der DDR4 Controller ist winzig... Genau so wie das andere aufgezählte Zeugs. Die Ursprungsaussage war doch von oben, dass die Flächeneffizienz für die gebotene Leistung nunmal schlechter ist, schon alleine aufgrund der deutlich schmaleren Fertigung im Vergleich zur GPU. -> und das ist halt einfach auch so, wenn man es auf so einen Vergleich beschränkt.
Wie Praxisrelevant ein solcher Vergleich ist, ist nicht Thema, entsprechend auch nicht, was noch alles notwendig ist, damit eine GPU oder auch die Phi läuft...

jdl schrieb:
Exakt das geht mit den neuen Xeon Phi!

Du hast mich nicht verstanden... Es ging mir um die Steckkarte. Läuft diese alleine? Wenn ja, Asche auf mein Haupt. Aber irgendwie denke ich nicht, dass die Steckkarte alleien läuft. Das es diese andere Unit gibt, steht außer Frage. Ein Vergleich so einer Unit ggü. einer GPGPU fähigen Tesla/FirePro hinkt allerdings aus den genannten Gründen. Mir ging es eher darum, dass das Abwinken der Aussage von oben zur Flächeneffizienz durch das Argument, die GPU braucht noch viel mehr damit sie läuft, nicht relevant ist für den Einzelvergleich. Diese nicht vorhandene Relevanz hat aber auch überhaupt nichts mit einem Vergleich von ganzen Racks oder Systemen zu tun. -> dort kann das Ergebnis möglicherweise ganz anders ausfallen. Bei Vergleichen ganzer Systeme interessiert aber auch niemanden mehr, wie groß der Chip unter dem Deckel ist. Sondern wieder ganz andere Faktoren ala Energieeffizienz, Rackbedarf usw. und wenn der eine da 100mm² Chips bringt und der andere mit 700mm² Chips kommt, wurscht, solange die relevanten Themen passen...

jdl · 22.11.2015

fdsonne schrieb:
Wieso? Wenn die Berechnung von der GPU kommt, interessiert mich der Unterbau genau so wenig bei der Flächeneffizienzbetrachtung.

Natürlich muß einem der Unterbau interessieren, denn davon hängt ab wie man Probleme darauf lösen kann. Dabei ist es ein gigantischer Unterschied, ob man nur 16GB RAM hat oder einem 384GB RAM. Momentan ist das so, daß man viele reale Physikprobleme nicht auf GPGPUs rechnen kann, weil einfach das RAM viel zu klein ist. Ergo, ist muß man sich sehr viel Gedanken machen, wie man solche Probleme lösen kann. Meiner Erfahrung nach lohnt es sich nämlich nicht, Daten ständig zwischen Host und GPU hin und her zu kopieren, weil der Kopiervorgang das eigentlich zeitraubende ist.

Morpheus2200 · 23.11.2015

@jdl Für viele Probleme die nicht in den Arbeitsspeicher einer Grafikkarte passen deckt sich das mit meinen aktuellen Erfahrungen. Der Performancevorteil von GPGPU bricht ein sobald man mit dem Datenschaufeln anfängt.
Bis zu 384 GB RAM pro PHI können da schon helfen. Inteligente aufteilung von parallelen Rechnungen sind auch ein Weg um dem Problem entgegenzuwirken. Also Domains berechnen, die in den Speicher einzelner Karten passen und vielleicht alle 10 oder 100 und nicht jeden timestep daten synchronisieren. Geht bei vielen codes nur minimal zu lasten der Genauigkeit hilft aber deutlich bei der performance. Ist aber auch nicht für jedes Problem eine option.
Ich gehe aber auch davon aus, das wir im nächsten Jahr GPUs mit bis zu 32GB RAM fürs HPC Umfeld sehen köntnen. Ist zwar immer noch knapp aber deutlich besser als 4,6,8 oder 12GB die man heute bekommen kann. Das sollte auch etwas helfen zeitraubende Kopiervorgänge zu reduzieren.

Aber ich sehe da auch nicht zwingend einen Grund die 2 Techniken miteinander zu vergleichen. GPGPU ist ein abfallprodukt. Das ist nicht abwertend gemeint. Aber es bleiben Grafikkarten die sich zufällig auch zum rechnen eignen. Deutlisch schwächere DP performance und der knappe Speicher machen es für viele HPC Anwendungen halt nicht sooo interessant wie die peak performance es vermuten lassen würde.
GPU als Rechenbeschleuniger sind was tolles für Workstations wenn die Software damit umgehen kann. Kleinere Probleme die man direkt am Arbeitsplatzrechner bearbeiten kann profitieren oft enorm.
Der Xeon Phi zielt auf HPC Anwendungen. Also Rechnungen an denen typischerweise mehr als 1 Rechner beteiligt ist. Da zählt neben der performance und performance/watt auch verfügbarer Speicher, interconnect und packungsdichte.

Natürlich könnte man solche Karten auch auf einer anderen Architektur als x86 bauen. Möglicherweise auch effizienter. Aber das steht dank mangel an Alternativen meiner Meinung nach nicht zur Diskussion. GPUs sind für triviale Rechnungen wie brute force passwort knacken oder hash berechnen toll, aber für viele HPC anwendungen halt doch nur mit viel Aufwand vernünftig zu gebrauchen. Der Xeon Phi zielt immerhin auf HPC, wurde dafür entwickelt und muss jetzt nur noch beweisen das er dafür auch taugt.

Eigentlich muss jede lösung nur deutlich besser sein als 2 aktuelle Xeons auf einer halben HE. Also 16-36 (meist vermutlich 24-32) Kerne und bis zu 768GB RAM mit infiniband interface.

Intel zeigt Wafer und Die zu Xeon Phi Knights Landing (Update)

[printed]-Redakteur, Tweety

Banned

Enthusiast

Banned

Experte

Banned

Experte

Enthusiast

Urgestein

Experte

Urgestein

Enthusiast

Enthusiast

Enthusiast

Legende

Semiprofi

Enthusiast

Legende

Enthusiast

Enthusiast

Enthusiast

Legende

Enthusiast

Semiprofi

Ähnliche Themen