NEWS

432 RISC-V-Kerne

Effizienter Number-Cruncher aus Europa

Portrait des Authors


Effizienter Number-Cruncher aus Europa
3

Werbung

Auf der DATE-Konferenz (Design, Automation and Test in Europe) haben die Entwickler von der ETH Zürich sowie der Universität von Bologna zusammen mit den beteiligten Unternehmen, bzw. Plattform-Entwicklern wie PULP (Parallel Ultra-Low Power), GlobalFoundries, Rambus, Micron, Synopsys und Avery den Occamy vorgestellt, einen HPC-Chip mit Chiplet-Design und insgesamt 432 RISC-V-Kernen.

Der Occamy besteht aus zwei Compute-Chiplets, welche jeweils 217 Kerne enthalten. Ein Kern steht als Management-Einheit bereit, während die weiteren 2x 216 Kerne die eigentlichen Berechnungen übernehmen. Bei einem Takt von 1 GHz wird eine Rechenleistung von 768 GFLOPS bei doppelter Genauigkeit (FP64) angegeben. Dies wäre nicht sonderlich viel, denn beispielsweise kommt NVIDIAs H100 kommt ohne die Tensor Cores bereits auf 34 TFLOPS, mit den Spezieleinheiten auf 67 TFLOPS. Die Rechenleistung liegt hier also um den Faktor 90 höher.

Allerdings verbraucht der H100-Beschleuniger auch bis zu 700 W, während es beim Occamy nur 20 W (2x 10 W für das Occamy-Chiplet) sein sollen, also um den Faktor 35 geringer. Der Chip soll sich damit auch passiv kühlen lassen.

Interessant ist die Art und Weise wie das gesamte Package gefertigt wird. Mit der Entwicklung gestartet wurde im April 2021. Das Tape Out des ersten Chiplets erfolgt im Juli 2022. Der dazugehörige Interpose wurde am 15. Oktober 2022 erstmals durch die Fertigung geschickt, welche erfolgreich war.

Das Carrier-PCB kommt auf 52,5 x 45 mm. Der Interposer, der die zwei Occamy sowie den HBM2E zusammenbringt, hört auf den Namen Hedwig – wieder ein Hinweis auf das Harry-Potter-Universum. Der passive Interposer wird in 65 nm bei GlobalFoundries gefertigt und kommt auf Abmessungen von 26,3 x 23,05 mm.

Die Fertigung des Occamy-Chiplets findet ebenfalls bei GlobalFoundries statt. GF12LPP, sprich eine auf eine niedrige Leistungsaufnahme optimierte Fertigung in 12 nm, entspricht der modernsten Fertigung, die GlobalFoundries anbieten kann. Jedem Occamy-Chiplet steht ein HBM2E-Speicherchip mit 16 GB zur Seite. Die 2.5-Integration zwischen Chiplet und HBM2E findet über den passiven Interposer statt. Für die Kommunikation zwischen Chiplet und HBM2E kommen 850 Verbindungen zum Einsatz. Zwei Occamy-Chiplets sind über 600 Verbindungen miteinander verbunden.

Der Occamy ist ein HPC-Chip, der mit einer hohen Genauigkeit mit möglichst geringer Leistungsaufnahme rechnet. Es geht weniger um Spitzenleistung als vielmehr um Effizienz und eine gute Skalierung. Zunächst einmal wird es darum gehen ein Software- und Plattform-Ökosystem aufzubauen. PULP ist eben diese Plattform und bereits seit zehn Jahren in der Entwicklung. Ab wann wir solche Prozessoren im kommerziellen Einsatz sehen, ist noch nicht bekannt.

Quellen und weitere Links KOMMENTARE (3) VGWort