Werbung
Die MLCommons veröffentlicht heute die Ergebnisse zu den Inference-Ergebnissen der MLPerf-3.1-Runde. In diesen Ergebnissen gibt es soweit keinerlei Überraschungen, aber eine interessante Vielfalt an Hardware: Intel, AMD, NVIDIA, Qualcomm und Google. Zudem zeigt sich immer wieder, dass bei gleicher Hardware auch die Optimierung der Software eine wichtige Rolle spielt.
Erstmals in den Benchmarks enthalten sind Ergebnisse zu Grace Hopper. Grace Hopper (GH200) besteht aus einer Hopper-GPU im gleichen Ausbau wie im H100-Beschleuniger und einer Grace-CPU. Wegen des gleichen GPU-Ausbaus bietet GH200 auch die gleiche GPU-Leistung wie H100, aber es gibt dennoch Unterschiede.
Grace Hopper soll um 17 % schneller als ein H100-Beschleuniger sein. NVIDIA führt hier vor allem an, dass GH200 den größeren und schnelleren Speicher an dieser Stelle ausspielen kann.
GH200 | GH200 (2024) | H100 SXM | |
FP64-Rechenleistung (GPU) | 34 TFLOPS | 34 TFLOPS | 34 TFLOPS |
FP32-Rechenleistung (GPU) | 67 TFLOPS | 67 TFLOPS | 67 TFLOPS |
FP8-Rechenleistung (GPU) | 3,958 TFLOPS | 3,958 TFLOPS | 3,958 TFLOPS |
INT8-Rechenleistung (GPU) | 3,958 TOPS | 3,958 TOPS | 3,958 TOPS |
Speicher | 96 GB (HBM 3) | 144 GB (HBM3E) | 80 GB (HBM2E) |
Speicherbandbreite | 4 TB/s | 4,9 TB/s | 3,35 TB/s |
TDP | 450 bis 1.000 W | 450 bis 1.000 W | bis zu 700 W |
H100 in der SXM-Version und GH200 in der aktuellen Fassung unterscheiden sich im Speicherausbau (80 zu 96 GB) sowie in der Speicherbandbreite (3,35 zu 4 TB/s). Daneben aber spielt auch die TDP eine Rolle. Laut NVIDIA hatte man für den Vergleich den H100-Beschleunigern in der SXM-Version mit 700 W betrieben. GH200 kann zwischen 450 und 1.000 W konfiguriert werden. Auch hier griff man zur höchsten Konfiguration von 1.000 W, was das Leistungsplus von 17 % schon in einem anderen Licht dastehen lässt.
Natürlich aber muss man hier auch sehen, dass GH200 den CPU-Part bereits enthält und die TDP von 1.000 W dynamisch zwischen der Hopper-GPU und Grace-CPU verschoben werden kann. Für die 700 W des Ergebnisses des H100-Beschleunigers muss also noch ein Verbrauch der Host-CPU mit einberechnet werden. Aber dennoch wirkt das Ergebnis nicht besonders beeindruckend.
Natürlich verweist NVIDIA an dieser Stelle darauf, dass für die Beschleuniger immer verschiedene TDP-Profile angeboten werden. Neben der Nutzung des kompletten TDP-Budgets ist es auch noch möglich, ein Max-Q-Profil zu nutzen, bei dem die Hardware in einem besseren Effizienzfenster betrieben wird. Für den Vergleich hier aber zog man eben die leistungsstärkste Konfiguration heran.
Mit in die Tabelle aufgenommen, haben wir GH200 auch in einer Speicherkonfiguration, wie sie dann ab dem kommenden Jahr angeboten werden wird. Durch den Einsatz von HBM3E vergrößert sich die Kapazität auf 144 GB und die Speicherbandbreite steigt auf 4,9 TB/s. So manche Anwendung im AI- und HPC-Bereich wird auch davon wieder profitieren.
Update: Werte zum Verbrauch
NVIDIA liefert noch ein paar Werte zur besseren Einordnung der Leistungsaufnahme der Systeme. Für GH200 ist wie gesagt ein Maximalverbrauch von 1.000 W angenommen worden. Die beinhaltet die GPU, CPU und den Speicher. Eine typische Volllast auf einem GH200-Modul bezieht aber meist nur zwischen 750 und 800 W.
Für ein System mit dem H100-Beschleuniger müssen wie gesagt noch eine Host-CPU samt Speicher mit hinzugenommen werden. NVIDIA geht hier von 700 W (H100), 350 W (CPU) und 100 W (Speicher), insgesamt also 1.150 W aus.
MLPerf 3.1 Inference: Neues LLM und ein Storage-Benchmark
Für die Ergebnisse des MLPerf Inference 3.1 wurde der Benchmark-Parcours etwas abgeändert. Der LLM-Benchmarks (Large Language Model) basiert nun GPT-J mit 6 Milliarden Parametern und verwendet konkret die CNN-DailyMail News Textzusammenfassung als Funktion, aus der ausgewertet wird.
Während die Datacenter-Ergebnisse über die unterschiedliche Hardware hinweg gar nicht besonders auffallend besser geworden sind (auch weil es wenig bis keine neue Harware gab), hat sich bei der Leistungsaufnahme und Effizienz einiges getan. Besonders im Edge Inferencing, d.h. außerhalb des Datacenters und damit weit näher am eigentlichen Anwendungsgebiet, konnten größere Verbesserungen erzielt werden.
MLPerf Storage v0.5
Darüber hinaus gibt es mit dem MLPerf Storage v0.5 nun auch eine Metrik, um die Speicherleistung der Systeme zu messen. Immer größere Datenmengen, die an die immer schnelleren Beschleuniger herangeführt werden müssen, werden zunehmen zu einem limitierenden Faktor.
Dem soll ich der MLPerf Storage annehmen. Die ersten Ergebnisse sind allerdings nur eine Vorschau und wie die Versionierung bereits vorgibt, wird sich an der Test-Software bis zur finalen Version noch etwas tun.