NEWS

Google TPU Trillium

Auslegung für größere KI-Modelle

Portrait des Authors


Auslegung für größere KI-Modelle
0

Werbung

Auf der gestrigen Google I/O stand alles im Fokus der Gemini-KI-Modelle, die auf den Android-Geräten ausgeführt werden sollen, die aber auch ein gewisses Rückgrat in den Rechenzentren benötigen. Dazu nutzt Google in weiten Teilen die eigens entwickelten TPUs. Nun hat man mit dem Trillium die nächste Generation vorgestellt. Sie soll die aktuellen TPU v5e ersetzen bzw. erweitert die Hardware um die aktuellen Herausforderungen.

Konkret geht es darum, dass die KI-Modelle immer größer und komplexer werden. So führt es Google in seinem Blog-Beitrag zu Trillium aus. Viele technische Details nennt Google nicht. Trillium soll aber um  den Faktor 5,7 schneller als der TPU v5e sein und dabei 67 % effizienter arbeiten. Ein höherer Takt und größere Matrix-Recheneinheiten sollen bei der Steigerung der Leistung die wichtigste Rolle spielen. Details dazu fehlen wie gesagt.

Allerdings skaliert Google die Trillium-Chips in größeren Systemen nicht in dem Umgang, wie dies mit dem TPUs v5p der Fall ist. Anstatt mehreren tausend TPUs in einem Pod sind es bei Trillium nur 256. Innerhalb des Package gibt es eine leichte Verschiebung bei der Speicherkapazität und Speicherbandbreite. Hier dürfte deutlich werden, dass Google seine Hardware vom Training von KI-Modellen in Richtung des Inferencing auslegt – v5p für das Training, v5e für das Inferencing und Trillium ist eben ein Inferencing-Chip.

Google wird den Trillium-Chip zunächst hauptsächlich selbst nutzen. Über die Cloud-Services werden die entsprechenden Instanzen aber auch Kunden zur Verfügung gestellt. Für eine Vorschau kann man sich bewerben, in den kommenden Monaten wird dann eine generelle Verfügbarkeit erfolgen.

Gegenüberstellung der TPUs von Google

TPU v4TPU v5e TPU v5pTrillium
TPUs pro Pod 4.096256 8.960256
Speicherkapazität 32 GB16 GB 95 GB32 GB
Speicherbandbreite 1.128 GB/s820 GB/s 2.765 GB/s1.40 GB/s
C2C-Verbindung 2,4 TB/s1,6 TB/s 4,8 TB/s3,2 TB/s
BF16-Rechenleistung 275 TFLOPS197 TFLOPS 459 TFLOPS?
INT8-Rechenleistung -394 TOPS 918 TOPS1.852 TOPS
Quellen und weitere Links KOMMENTARE (0)