NEWS

MLPerf Training v4.0

H200 und TPUv5p im Benchmark und Messung der Leistungsaufnahme

Portrait des Authors


H200 und TPUv5p im Benchmark und Messung der Leistungsaufnahme
2

Werbung

Die aktuellste Runde der MLPerf-Ergebnisse gibt Einblicke in die Leistung moderner Datacenter-Hardware im Hinblick auf die Trainings-Leistung. Häufig sind wir hier von den Daten abhängig, die uns AMD, NVIDIA, Intel und andere präsentieren. Eine Verifikation dieser Leistungswerte durch Dritte ist aber nur schwer möglich.

Bereits zum Start sei allerdings gesagt, dass AMD auch an dieser Runde nicht offiziell teilgenommen hat und somit die Beschleuniger Instinct MI300X und Instinct MI300A wieder nicht enthalten sind – uns also noch immer gut vergleichbare Werte zur Konkurrenz fehlen. Auch Intels Gaudi 3 spielt in dieser Rund noch keine Rolle. Die Hardware soll hier aber auch erst am dritten Quartal auf den Markt kommen. Dafür haben wir erstmals Ergebnisse mit NVIDIAs aktualisiertem Hopper-Beschleuniger H200 mit 141 GB HBM3e anstatt wie bisher 80 GB HBM3. Allerdings sind die bisher ermittelten Werte auf einem DGX-System mit acht H200-Beschleunigern entstanden. Größere Cluster sind noch nicht enthalten.

Erstmals vertreten ist auch Googles TPU-v5p und hier bekommen wir gute Zahlen zur Skalierung der TPUs. Wir haben die folgenden Werte aus den offiziellen Ergebnissen zu MLPerf Training v4.0 entnommen.

Skalierung der Google TPU-v5p Beschleuniger
Beschleuniger Anzahl der BeschleunigerGPT3 (Minuten)
Google TPU-v5p 512144,791
Google TPU-v5p 1.02456,948
Google TPU-v5p 1.53639,745
Google TPU-v5p 6.14412,477
Intel Gaudi 2 1.02466,906
NVIDIA H100 51250,728
NVIDIA H100 11.6063,444

Die Größe der Cluster ist natürlich sehr unterschiedlich und dazu gehört auch, welche Infrastruktur und Host-Systeme notwendig sind, um beispielsweise ein Cluster mit 512 Beschleunigern zur Verfügung zu stellen. Man kann hier aber aus mindestens zwei Blickrichtungen auf die Ergebnisse schauen.

Da wäre der direkte Vergleich der Ergebnisse bei gleicher Anzahl an Beschleunigern. 512 Google TPU v5p gegen ebenso 512 NVIDIA H100 und hier zeigt sich deutlich, dass NVIDIA einen Vorteil hat und das Training von GPT3 um den Faktor drei schneller abschließen kann. Damit ist man sogar schneller als 1.024 Gaudi-2-Beschleuniger, wohingegen diese gegen Google TPU v5p gar nicht so schlecht dastehen. Intel kann zudem sagen, ein System mit acht Gaudi 2 nur etwa 80.000 US-Dollar kostet, während es bei NVIDIA schnell mal 300.000 Euro und mehr sind.

Erstaunlich ist zudem, wie weit NVIDIA seine Systeme inzwischen skalieren kann. Dies zeigt das Ergebnis des eigenen Supercomputers EOS, der auf Platz 10 der Top500 liegt und satte 11.606 H100-Beschleuniger beisteuern kann. Mit dieser Rechenleistung kann GPT3 in 3,444 Minuten trainiert werden. Vor nicht allzu langer Zeit dauerte dieser Vorgang noch Wochen, wenn nicht gar Monate.

Vergleich H100 vs. H200
Benchmark (in Minuten) 8x NVIDIA H1008x NVIDIA H200Verbesserung
Bert (Suche, Übersetzung, Chatbot) 5,4695,212+4,9 %
DLRM DCNV2 (Suche, Übersetzung, Chatbot) 3,8713,522+9,9 %
ResNet (Bildklassifizierung) 13,32612,078+10,3 %
SSD (Objekterkennung) 35,47634,259+3,6 %
Unet3D (Medizinische Analyse) 12,14411,506+5,5 %
Stable Diffusion (Bilderzeugung) 42,23341,348+2,1 %
LLama2 70b Lora (LLM Fine-Tuning) 28,16324,689
+14,1 %
GNN (Betrugserkennung, Arztneimittelforschung) 11,3407,734+46,6 %

Über viele der Benchmarks hinweg bieten die H200-Beschleuniger keinerlei großen Vorteil, den sie ohnehin nur aus dem größeren Speicher (141 gegenüber 80 GB) beziehen. Es gibt allerdings auch einige Anwendungen, in denen die Sprünge etwas größer sind. Für diese wird sich dann ein Anbieter dieser speziellen Software oder des speziellen Anwendungsbereichs dann sicherlich die H200-Beschleuniger suchen.

Wir haben uns an dieser Stelle ein paar der wichtigsten Ergebnisse herausgesucht. Alle weiteren findet ihr in den offiziellen Ergebnissen zu MLPerf Training v4.0.

Time-to-Train (TTT) und Energy- to-Train (ETT)

Erstmals integriert die MLCommons auch Daten zur Leistungsaufnahme bzw. neue Metriken zur Effizienz. Beigesteuert wurden diese von Sustainable Metal Cloud (SMC). Time-to-Train (TTT) und Energy- to-Train (ETT) sind für viele Nutzer wichtige Indikatoren, denn die reine Leistung ist nicht immer ausschlaggebend. Neben der eigentlichen Beschleuniger-Hardware wird dazu auch die Leistungsaufnahme der Infrastruktur wie der Interconnects mit aufgenommen.

Skalierung in Zeit und Energie für LLama2 70b Lora
Beschleuniger Anzahl der BeschleunigerZeit (Minuten)Energie (Joule)
NVIDIA H100 829,10112.127.904,43
NVIDIA H100 645,48846.574.812,84
NVIDIA H100 5122,01520.644.274,64

Für das Fine-Tuning eines LLMs (Llama2 mit 70 Milliarden Parametern) benötigten acht H200 etwa 30 Minuten, mit 64 kann diese Zeit auf sein Sechstel reduziert werden, wobei der Energieverbrauch um den Faktor vier steigt. Auf 512 H100-Beschleunigern kann das Fine-Tuning aber auch in zwei Minuten stattfinden und benötigt entsprechend weniger Energie als mit 64 Beschleunigern.

Wie überall im Computing gilt es eine Abwägung zu treffen: Für bestimmte Nutzer ist ein möglichst schnelles Training entscheidend, Anbieter solcher Compute-Instanzen legen aber auch besonderen Wert auf die Effizienz und es gibt auch hier eine Sweet-Spot, der beide Punkte erfüllen kann. Viele gleichzeitig arbeitende Beschleuniger können effizienter sein, als wenige, die zudem auch noch deutlich länger benötigen für die Aufgabe. Allerdings müssen die Anbieter dann auch darauf achten, dass die Ressourcen möglichst gut ausgelastet werden. Ein Rechencluster im Idle-Zustand ist am wenigsten effizient.

In jedem Fall bieten die Ergebnissen zu MLPerf Training v4.0 einen interessanten Einblick in die Leistungsaufnahme und möglichen Implikationen zur Energieeffizienz.