Werbung
Auf der AI DevCon hat Intel weitere Details zu Spring Crest, bzw. dem Neural Network Processor (NNP) veröffentlicht. Bisher stammen die letzten offizielle Informationen aus dem Herbst 2017 und sprachen von 32 GB HBM2, der über eine Speicherbandbreite von 1 TB/s verfügen sollte. Außerdem sollten eigene Processing Cluster zum Einsatz kommen, deren Entwicklung das Unternehmen Nervana bereits vor dem Kauf durch Intel begonnen hatte.
Nun aber gibt es weitere Informationen zum Nervana NNP-L1000. Dieser besteht aus zwölf Processing Cluster, die alle modernen Matrix-Multiplikationen und Datentypen verarbeiten können, die im Bereich Machine Learning wichtig sind. Dazu gehört auch bfloat16. Bei bfloat16 handelt es sich um einen neuen Datentyp, der so in dieser Form bisher nur von Google verwendet, bzw. dessen Verwendung angekündigt wurde. Er soll den Umfang von FP32 bieten, ohne aber die Genauigkeit übernehmen zu müssen, die in diesem Fall unnötig ist. Google verwendet diesen Datentyp unter anderem für seine Tensor Processing Units. Zudem gibt Intel bekannt, dass man die Unterstützung für bfloat16 auf weitere Produkte ausweiten wird. Dazu gehören die FPGAs, aber auch Xeon-Prozessoren.
Datenschutzhinweis für Twitter
An dieser Stelle möchten wir Ihnen einen Twitter Feed zeigen. Ihre Daten zu schützen, liegt uns aber am Herzen: Twitter setzt durch das Einbinden des Applets Cookies auf ihrem Rechner, mit welchen sie eventuell getracked werden können. Wenn Sie dies zulassen möchten, klicken Sie einfach auf diesen Feed. Der Inhalt wird anschließend geladen und Ihnen angezeigt.Ihr Hardwareluxx-Team
Tweets ab jetzt direkt anzeigen
Jeweils drei Processing Cluster verfügen über einen Speichercontroller, der wiederum 8 GB HBM2 ansteuert. Eine aufwändige Cache-Hierarchie soll es bis auf 2 MB pro Processing Cluster nicht geben, stattdessen steuert die Software den On-Chip-Speicher direkt an und verwendet diesen auch als Cache. Dazu verfügt der NNP-L1000 über zwölf Inter-Chip Links (ICL), die eine bi-direktionale Bandbreite von jeweils 100 GB/s aufweisen. Zur externen Anbindung mehrerer Chips sieht Intel einen Interconnect mit 300 GB/s vor und will darauf Latenzen von 790 ns und weniger erreichen. Die Thermal Design Power soll bei 210 W liegen.
Bei der Einschätzung der Rechenleistung müssen wir etwas ausholen. Intel spricht für das Test Vehicle Lake Crest von etwa 36 TFLOPS. Zum Vergleich: NVIDIAs Tesla V100 kommt auf 120 TFLOPS für INT8-Berechnungen, die beim Machine Learning entscheidend sind. Allerdings soll Lake Crest diese 40 TFLOPS bei einer Auslastung von 96 % auch wirklich erreichen, während die Tesla V100 je nach Anwendung auf nur 30 TFOPS und damit eine Auslastung von 25 % kommen soll. Als Vergleichsbasis verwendet Intel hier General Matrix to Matrix Multiplication (GEMM), bei denen Matrizen der Größenordnung A(1536, 2048) und B(2048, 1536) miteinander multipliziert werden. Die Auslastung soll auch für Matrizen A(6144, 2048) und B(2048, 1536) skalieren.
Spring Crest alias Nervana NNP-L1000 soll theoretisch bis zu 120 TFLOPS erreichen, in der Praxis eher im Bereich von 85 TFLOPS liegen und wäre damit auf Niveau der Tesla V100. Aufgrund der Auslastung rechnet Intel mit der Verfügbarkeit im Jahre 2019 damit, dass man drei bis viermal so schnell wie die dann verfügbaren GPU-Beschleuniger sein wird.
Gefertigt werden Lake Crest und Spring Crest übrigens nicht von Intel selbst, sondern TSMC. Lake Crest wird noch in 28 nm gefertigt, Spring Crest soll bereits in 16 nm gefertigt werden. Im Vergleich zu den Prozessoren, vor allem aber den GPU-Beschleunigern ist man hinsichtlich der Fertigung also deutlich im Nachteil. Wann genau im Jahre 2019 der Nervana NNP-L1000 nun erscheinen und was er kosten wird, darüber schweigt sich Intel noch aus.