IDF16: Knights Mill für Xeon Phi soll Deep-Learning-Netzwerke beschleunigen

Don · 18.08.2016

<img src="/images/stories/idf2016.jpg" style="margin: 10px; float: left;" />In einer Technical Session des Intel Developer Forums in San Francisco hat Intel seine Pläne für weitere und zukünftige Xeon-Phi-Produkte und die dazugehörigen GPU-Beschleuniger der Knights-Generationen veröffentlicht. Demnach soll der immer stärker wachsende Bedarf an Hardware für Deep-Learning-Netzwerke im kommenden Jahr mit Knights Mill bedient werden.
Die Ankündigung von Knights Mill ist aber gleichzeitig auch ein Umdenken bei Intel. Denn ursprünglich war nach der aktuellen Knights-Landing-Generation, <a href="index.php/news/hardware/prozessoren/39576-hpc-prozessor-xeon-phi-knights-landing-final-vorgestellt.html" target="_self">die bis auf die High-End-Variante bereits ausgeliefert... <a href="/index.php/news/hardware/prozessoren/40080-idf16-knights-mill-fuer-xeon-phi-soll-deep-learning-netzwerke-beschleunigen.html" style="font-weight:bold;">... weiterlesen</a>

naibaf7 · 19.08.2016

Interessanterweise hat Intel sich Nervanasys gekauft, ein Startup, welches effiziente Kernel für Deep Learning schreibt, für nVidias CUDA. Ich denke Intel ist daran für ihr Knights Mill interessiert.

Dazu ist aber anzumerken, dass bisherige Deep Learning Anwendungen extrem schlecht auf den Xeon Phi laufen, Meilenweit hinter AMD und nVidia Chips. Nimmt mich wunder ob sich das jetzt ändern wird.
Etwas speziell daran ist ja, dass die Xeon Phi besser als CPU denn als GPU angesprochen wird: Die Unterstützung von OpenCL ist zum Beispiel sehr schlecht, und ansonsten ist es auch schwer, dafür zu programmieren.

Keines der häufig verwendeten Deep Learning Frameworks hat den entsprechenden Untersatz für Xeon Phi (das betrifft TensorFlow, Caffe, Theano und Torch).

Auch lustig, wie nVidia und Intel behaupten INT8 sei jetzt "das wichtigste" bei deep learning. Wir erinnern uns: INT8 sind werte von 0 bis 255, also nur so viele Abstufungen wie bei 8bit-graustufe-Pixeln. Oder gar nur -127 bis 127 falls man den ganzen signierten Umfang braucht.

Nunja, in manchen Fällen stimmt die Notwendigkeit von INT8-Leistung, aber gute FP-Leistung ist immer noch (besonders bei grossen Netzwerken) extrem wichtig. FP16 oder FP32 werden hier gebraucht, FP64 ist zu genau und bringt keine Vorteile gegenüber dem höheren Stromverbrauch bei (mindestens halbierter) Leistung.
Aber ich vermute ja, dass nVidia und Intel das vor allem so auslegen, da sie in ihren Geräten auf FP16 verzichtet haben. nVidia hat das geschickt bei allen Pascal-Geräten bis auf den exorbitant teuren Pascal P100 weggelassen.

Suche

IDF16: Knights Mill für Xeon Phi soll Deep-Learning-Netzwerke beschleunigen

Don

[printed]-Redakteur, Tweety

naibaf7

Enthusiast

Ähnliche Themen