Google TPU Trillium

Auslegung für größere KI-Modelle

Von Andreas Schilling
Mittwoch, 15.05.2024 um 09:59 Uhr

Auslegung für größere KI-Modelle

Auf der gestrigen Google I/O stand alles im Fokus der Gemini-KI-Modelle, die auf den Android-Geräten ausgeführt werden sollen, die aber auch ein gewisses Rückgrat in den Rechenzentren benötigen. Dazu nutzt Google in weiten Teilen die eigens entwickelten TPUs. Nun hat man mit dem Trillium die nächste Generation vorgestellt. Sie soll die aktuellen TPU v5e ersetzen bzw. erweitert die Hardware um die aktuellen Herausforderungen.

Konkret geht es darum, dass die KI-Modelle immer größer und komplexer werden. So führt es Google in seinem Blog-Beitrag zu Trillium aus. Viele technische Details nennt Google nicht. Trillium soll aber um den Faktor 5,7 schneller als der TPU v5e sein und dabei 67 % effizienter arbeiten. Ein höherer Takt und größere Matrix-Recheneinheiten sollen bei der Steigerung der Leistung die wichtigste Rolle spielen. Details dazu fehlen wie gesagt.

Allerdings skaliert Google die Trillium-Chips in größeren Systemen nicht in dem Umgang, wie dies mit dem TPUs v5p der Fall ist. Anstatt mehreren tausend TPUs in einem Pod sind es bei Trillium nur 256. Innerhalb des Package gibt es eine leichte Verschiebung bei der Speicherkapazität und Speicherbandbreite. Hier dürfte deutlich werden, dass Google seine Hardware vom Training von KI-Modellen in Richtung des Inferencing auslegt – v5p für das Training, v5e für das Inferencing und Trillium ist eben ein Inferencing-Chip.

Google wird den Trillium-Chip zunächst hauptsächlich selbst nutzen. Über die Cloud-Services werden die entsprechenden Instanzen aber auch Kunden zur Verfügung gestellt. Für eine Vorschau kann man sich bewerben, in den kommenden Monaten wird dann eine generelle Verfügbarkeit erfolgen.

Gegenüberstellung der TPUs von Google
	TPU v4	TPU v5e	TPU v5p	Trillium
TPUs pro Pod	4.096	256	8.960	256
Speicherkapazität	32 GB	16 GB	95 GB	32 GB
Speicherbandbreite	1.128 GB/s	820 GB/s	2.765 GB/s	1.40 GB/s
C2C-Verbindung	2,4 TB/s	1,6 TB/s	4,8 TB/s	3,2 TB/s
BF16-Rechenleistung	275 TFLOPS	197 TFLOPS	459 TFLOPS	?
INT8-Rechenleistung	-	394 TOPS	918 TOPS	1.852 TOPS