NEWS

MLPerf Inference 4.1

Erste Benchmarks zu Granite Rapids, B200, TPU v6e, Instinct MI300X und Turin

Portrait des Authors


Erste Benchmarks zu Granite Rapids, B200, TPU v6e, Instinct MI300X und Turin
0

Die MLCommons hat eine neue Runde an Benchmarks aus dem Inferencing-Bereich veröffentlicht. Die MLCommons sieht sich als unabhängige Organisation, die einen besseren Vergleich von Datacenter-Hardware ermöglichen will. Die Testbedingungen werden vorgegeben und mit den notwendigen Schranken versehen. Die Teilnehmer testen auf Basis dieser Vorgaben, allerdings können alle weiteren Teilnehmer diese Ergebnisse in einer Review-Phase verifizieren, so dass hier keinerlei Manipulation stattfinden kann.

Im Vergleich zu den direkten Herstellerbenchmarks sollen die Ergebnisse der MLCommons besser vergleichbar sein, da sie im Closed-Bereich (strengere Vorgaben für die Benchmarks) auf herstellerspezifische Optimierungen weitestgehend verzichten – beispielsweise in Form eines Pre-Trainings der verwendeten Daten. Im Open-Bereich können die Hard- und Softwarehersteller dann weitere Optimierungen vornehmen.

Bevor wir uns die Ergebnisse im Detail anschauen und hier vor allem auf neue Hardware eingehen, noch der Link zu den MLPerf-Inference-4.1-Ergebnissen.

Über alle Ergebnisse hinweg zeigt sich einmal mehr, dass selbst bei identischer Hardware die Rechenleistung im zweistelligen Prozentbereich gesteigert werden konnte. Am besten vergleichbar ist dies bei den Einreichungen von NVIDIA, da diese über die verschiedenen Hopper-Iterationen hinweg beständig Ergebnisse geliefert haben. Bis zu 30 % an Leistungsplus lassen sich über wenige Monate hinweg allein durch die Softwareverbesserungen erreichen.

Ein weiterer Aspekt der MLPerf-Inference-4.1-Ergebnisse ist eine Erweiterung der Benchmarks um das MoE-Modell (Mixture of Experts) Mixtral 8x7B. MoEs sind Modelle, die mehrere KIs verwenden und durch ein sogenanntes "Gating-Netzwerk" wird entschieden, welche KI für die Benutzereingabe am besten geeignet ist. Über MoEs werden die Stärken der einzelnen Kis kombiniert.

Mixtral 8x7B - Offline/Server

TensorRT 9.3.0, CUDA 12.2

59022.30XX
57177.20XX
51269.00XX
50099.50XX
8063.02XX
7450.72XX
Tokens/s
Mehr ist besser

Werbung

Viele Einreichungen für den MoE-Benchmark gibt es nicht. Man konzentriert sich auf die Hardware von NVIDIA in Form der H100-, H200- und GH200-Beschleuniger – letztgenannter nur in einfacher Ausführung. Etwas schade ist, dass wir keinerlei Vergleichsdaten zum Beispiel von AMD oder Intel bekommen haben.

Der Unterschied in der Leistung zwischen acht H100- und H200-Beschleuniger ist nicht ganz so groß, wie man ihn vielleicht erwarten würde. Allerdings sind MoEs noch in einer recht frühen Phase der Entwicklung. Vor allem die Software muss an den Herausforderungen noch wachsen, aber natürlich steigen auch die Hardware-Anforderungen. Mit der Blackwell-GPU wird NVIDIA die MoEs sicherlich noch einmal stärker adressieren.

Instinct MI300X gegen H200

Erstmals hat AMD einige Ergebnisse für den Beschleuniger Instinct MI300X eingereicht. Bisher hat man sich mit NVIDIA in aller Öffentlichkeit über die hauseigenen Benchmarks gestritten. Nun haben wir neue Daten, welche die Instinct MI300X gegen NVIDIA aktuelle Lösungen H100 und H200 vergleichen lässt.

Llama2 70B - Offline/Server

vLLM 0.4.3+rocm614, PyTorch 2.3.0, ROCm 6.1.2 (AMD), TensorRT 10.2.0, CUDA 12.4 (NVIDIA)

Tokens/s
Mehr ist besser

Die Vergleichsdaten geben für NVIDIA allerdings nur eine Custom Thermal Solution (CTS) her, die eine TDP von 1.000 W erreicht, während AMDs Instinct MI300X eine Total Board Power (TBP) von 750 W vorzuweisen hat. Auch dies gilt es im Hinterkopf zu haben, wenn man die Daten vergleicht. Letztendlich bietet ein H200-Beschleuniger bei 1.000 W eine um etwa 50 % höhere Leistung für ein Inferencing von Llama2 mit 70 Milliarden Parametern im Vergleich zum Instinct MI300X. Zwar bietet AMDs Lösung 192 GB an HBM3-Speicher, diese spielen im Vergleich zu den 141 GB auf dem H200-Beschleuniger aber offenbar kaum eine Rolle.

Beide Beschleuniger skalieren im erwarteten Rahmen in der Stückzahl eins auf acht in der Leistung, den Vorsprung kann NVIDIA hier allerdings mitnehmen.

B200 gegen H200, GH200 und Instinct MI300X

In Form einer Preview hat NVIDIA erste Ergebnisse des B200-Beschleunigers auf Basis der Blackwell-Architektur eingereicht. Damit bekommen wir abseits der Herstellerbenchmarks erstmals einen unabhängigen Blick auf die Rechenleistung der nächsten Beschleuniger-Generation von NVIDIA.

Llama2 70B - Offline/Server

vLLM 0.4.3+rocm614, PyTorch 2.3.0, ROCm 6.1.2 (AMD), TensorRT 10.2.0, CUDA 12.4 (NVIDIA)

Tokens/s
Mehr ist besser

Hier können wir für den Vergleich ebenfalls nur den Vorgänger H200 CTS heranziehen. Leider macht NVIDIA an dieser Stelle keinerlei Angaben zur TDP der B200-Variante. Möglich wären 700 bis 1.000 W. Das Benchmark-Ergebnis macht deutlich, dass NVIDIAs B200-Beschleuniger nicht nur der Konkurrenz, sondern auch dem eigenen Vorgänger um Lichtjahre voraus ist. Eingereicht wurden allerdings nur Ergebnisse zum Inferencing in Llama2 mit 70 Milliarden Parametern. Insofern können wir nur die Leistung für diesen Anwendungsfall vergleichen. Gleiches gilt für die Ergebnisse der Instinct MI300X, wo sich AMD ebenfalls ausschließlich auf das Inferencing von Llama2 konzentriert hat.

CPU-Inferencing: Emerald Rapids gegen Granite Rapids

Im kommenden Quartal wird Intel seine Xeon-6-Produktpalette um die reinen Performance-Kern-Modelle alias Granite Rapids erweitern. In den Benchmarks finden sich erste Ergebnisse dieser neuen Prozessoren, wenngleich Intel keinerlei Angaben zum genauen Modell macht. An dieser Stelle können wir die Ergebnisse des Vorgängers Emerald Rapids für ein Inferencing auf der CPU vergleichen.

GPT-J - Offline/Server

PyTorch

Tokens/s
Mehr ist besser

3D-Unet - Offline

PyTorch

Tokens/s
Mehr ist besser

Der von Intel aus der vorherigen Generation verwendete Xeon Platinum 8592+ kommt mit 64 Kernen daher. Wie viele Kerne die Xeon-Variante auf Basis von Granite Ridge verwendete, ist nicht bekannt. Ein mögliches Topmodell aus der Xeon-6700P-Serie hätte bis zu 86 Kerne im Angebot, in der Xeon-6900P-Serie wären es sogar bis zu 128. Da die Xeon 6900P-Serie ab dem dritten Quartal angeboten werden sollte, dürfte es sich um ein eben solches Modell mit bis zu 128 Kernen handeln.

Zieht man dann wiederum in Betracht, dass sich zwischen Emerald Rapids und Granite Rapids die Anzahl der Kerne verdoppeln, ist eine Verdopplung der Leistung gar nicht mehr so imposant. In das Diagramm haben wir ebenfalls für einen besseren Vergleich einmal das Ergebnis eines Grace-Hopper-Beschleunigers von NVIDIA (GH200) hinzugefügt, damit besser ersichtlich wird, von welchen Leistungsunterschieden wir zwischen einem CPU-Inferencing und einem dedizierten KI-Beschleuniger sprechen. Allerdings sei an dieser Stelle angemerkt, dass die Intel-CPUs andere Workloads gut beherrschen, während wir für GH200 bereits von HPC- und KI-Spezialanwendungen sprechen. Dennoch wird an dieser Stelle klar: Wessen Anwendungsbereich auf ein Inferencing festgelegt ist, der fährt natürlich mit einem reinen KI-Beschleuniger besser.

Google TPU v6e

Erste Daten gibt es auch zum TPU v6e von Google. Vorgestellt wurde dieser auf der Google I/O im Frühjahr. Der TPU v6e alias Trillium soll um den Faktor 5,7 schneller als der TPU v5e sein und dabei 67 % effizienter arbeiten. 

Stable Diffusion XL - Offline/Server

Flax

5.44XX
4.49XX
2.31XX
2.02XX
1.75XX
1.55XX
Tokens/s
Mehr ist besser

In der Preview-Einreichung in Form von Stable Diffusion XL kommt der TPU v6e auf eine dreimal so hohe Leistung wie der Vorgänger TPU v5e. Auf dem Papier steigt die INT8-Rechenleistung allerdings von 394 TOPS auf 1.852 TOPS an. Google hat hier also noch viel Potential auszuschöpfen, allerdings handelt es sich wie gesagt nur um eine Preview-Einreichung auf Basis noch nicht erhältlicher oder in der Cloud verfügbarer Hardware.

Aktuell scheint es tatsächlich einen größeren Bedarf für das Inferencing der Modelle zu geben. Da es aber auch stetig neue Modelle gibt und diese weiterentwickelt werden, bleibt der Bedarf nach Trainings-Hardware und den entsprechenden Kapazitäten hoch. Mit Blackwell konzentriert sich NVIDIA vorrangig auf das Inferencing. Die ersten Ergebnisse des B200-Beschleunigers sind vielversprechend. AMD kann zumindest in den MLPerf-Benchmarks kaum mithalten und muss dann ab dem ersten Quartal 2025 verstärkt gegen Blackwell antreten. Google hat mit den TPUs eine Insellösung geschaffen, die nur in den eigenen Rechenzentren zum Einsatz kommt, von dort aus aber auch Kunden angeboten wird. Die jeweilige Anwendung ist jedoch entscheidend, ob TPUs für den Einsatz überhaupt in Frage kommen.

Die kompletten Ergebnisse für MLPerf Inference 4.1 finden sich direkt bei der MLCommons.