NEWS

MLPerf Inference 5.0

Neue Daten zu B200, TPU v6e sowie Granite Rapids und GB200 & MI325X erstmals dabei

Portrait des Authors


Neue Daten zu B200, TPU v6e sowie Granite Rapids und GB200 & MI325X erstmals dabei
0

Die MLCommons hat heute die nächste Runde für das Inferencing-Benchmarking und damit einige interessante Datenpunkt für die Leistung der aktuellen KI-Beschleuniger veröffentlicht. Als unabhängige Organisation kann die MLCommons in Zusammenarbeit mit den Herstellern belastbarere Daten liefern, als dies die Hersteller selbst meist tun.

In der letzten Runde, MLPerf Inference 4.1, waren die ersten Preview-Ergebnisse zum B200-Beschleuniger von NVIDIA zu finden sowie dem TPU v6e von Google und auch das CPU-Inferencing auf Basis des Xeon 6 6980P alias Granite Rapids lieferte die ersten Datenpunkte. Zudem nahm damals AMD erstmals für das Inferencing teil und lieferte Ergebnisse für den Instinct MI300X. Für die Ergebnisse des MLPerf Inference 5.0 kommen nun erste Benchmarks zu dessen Nachfolger Instinct MI325X sowie zum GB200 vom Konkurrenten NVIDIA. Außerdem können wir einige Ergebnisse mit der vorherigen Runde vergleichen, was Rückschlüsse auf die Weiterentwicklung beim Software-Ökosystem zulässt.

Schlussendlich liefert ein Benchmark auf Basis von Llama 3.1 405B auch Einblicke auf die Leistung in den aktuell größten LLMs. Die aktuellen Ergebnisse sind in der vollständigen Form auf der Webseite der MLCommons zu finden.

Ein Blick in die Daten

In unserer Analyse haben wir uns die nach unserer Meinung wichtigsten Datenpunkte herausgepickt und konzentrieren uns dabei auf den Vergleich der verschiedenen KI-Beschleuniger der verschiedenen Hersteller. Die folgenden Ergebnisse zeigen immer den Offline- und Server-Betrieb – die Auswertung bzw. das Inferencing findet also einmal lokal statt und einmal wird der Server-Betrieb mit entsprechenden Latenzen für ein Online-System mit bewertet.

3D-Unet - Offline

PyTorch

Tokens/s
Mehr ist besser

Werbung

GPT-J - Offline/Server

PyTorch

Tokens/s
Mehr ist besser

Aufgrund der enormen Anforderungen rückt das Inferencing von KI-Modellen auf CPUs aktuell in den Hintergrund. Die KI-Beschleuniger bieten oft ein Vielfaches der Leistung. Bereits mit der 4.1-Runde lieferte Intel Ergebnisse zu zwei Xeon 6 6980P mit 128 Kernen und wiederholt diese. Im Vergleich zu einem Xeon Platinum 8592+ (Emerald Rapids) kann Intel die Leistung verdoppeln und zwischen den Runden 4.1 und 5.0 gibt es auch eine gewisse Weiterentwicklung. Der Vergleich zum GH200-Beschleuniger von NVIDIA zeigt aber, welchen Leistungsunterschied es zwischen dem Inferencing auf einer CPU und einem dedizierten Beschleuniger gibt.

Stable Diffusion XL - Offline/Server

Flax

Tokens/s
Mehr ist besser

Während die Verbesserungen in der Software bei Intel kaum ins Gewicht fallen, zeigt Google ein neues Ergebnis für den TPU v6e und macht darin einen deutlichen Sprung von 11 % bzw. 22 % für die Offline- und Server-Ergebnisse. In den Dimensionen in denen Google solche Hardware in seinen eigenen Rechenzentren betreibt, ist ein solches Leistungsplus mehr als beachtlich.

Besonders imposant ist der Sprung, den Google vom TPU v5e zum v6e gemacht. Solche Schritte rechtfertigen für einen Hyperscaler wie Google auch die Entwicklung eigener Hardware.

Llama2 70B - Offline/Server

vLLM 0.6.5, PyTorch 2.7.0, ROCm 6.3.1 (AMD), TensorRT 10.8, CUDA 12.8 (NVIDIA)

Tokens/s
Mehr ist besser

Bisher nur in einer Preview, nun in der finalen Form, bekommen wir Benchmarks zum B200-Beschleuniger von NVIDIA. Der Sprung von 141 auf 180 GB HBM3E spielt hier sicherlich eine Rolle, NVIDIA hat die Blackwell-Architektur nach eigenen Angaben auch verstärkt auf das Inferencing ausgelegt. Zudem kann sich ein B200-Beschleuniger nun 1.000 W genehmigen, für den H200 waren es bisher in der normalen Version "nur" 700 W, ein Ergebnis einer CTS-Version (Custom Thermal Solution) haben wir aber ebenfalls hinzugefügt und hier zeigt sich dann schon recht deutlich, dass es eine alleinige Erhöhung der Leistungsaufnahme nicht ausmacht.

Für ein Inferencing eines Llama2-70B-Modells ist der B200-Beschleuniger um den Faktor 3 schneller als sein Vorgänger. Damit bewegen wir uns hier in dem Bereich, den NVIDIA seinen potentiellen Kunden auch für die neue Hardware versprochen hat.

An dieser Stelle ebenfalls verfügbar ist ein Vergleich zwischen AMD und NVIDIA und deren aktueller Hardware. Der Instinct MI300X ist selbst den Hopper-Beschleunigern (H200) unterlegen, der Nachfolger Instinct MI325X bewegt sich mit 256 GB HBM3E und 1.000 W auf Augenhöhe. Gegen NVIDIAs B200-Beschleuniger hat AMD an dieser Stelle aber keine Chance.

An dieser Stelle kommen wir aber wieder auf die Hersteller-eigenen Benchmarks zurück, denn natürlich zeigte AMD mit der Präsentation des Instinct MI325X bessere Ergebnisse, konnte sich zu diesem Zeitpunkt aber auch nur gegen die Hopper-Generation stellen. Software-Optimierungen spielen in solchen Vergleichen eine große Rolle. Analog dazu spricht NVIDIA auch gerne von deutlich höheren Verbesserungen in der Leistung, bezieht sich dabei aber meist auf Extremfälle, die so in der Praxis kaum auftreten. Die Inference-5.0-Ergebnisse sind unabhängig entstanden, können aber auch nur ein kleines Fenster in die weite Welt der KI-Anwendungen sein.

Mixtral 8x7B - Offline/Server

TensorRT 10.8, CUDA 12.8

62629.60XX
61802.00XX
52724.40XX
53299.30XX
Tokens/s
Mehr ist besser

Ein weiterer Aspekt der MLPerf-Inference-5.0-Ergebnisse ist eine Erweiterung der Benchmarks um das MoE-Modell (Mixture of Experts) Mixtral 8x7B. Der Schritt erfolgte erstmals mit Infernce 4.1. MoEs sind Modelle, die mehrere KIs verwenden und durch ein sogenanntes "Gating-Netzwerk" wird entschieden, welche KI für die Benutzereingabe am besten geeignet ist. Über MoEs werden die Stärken der einzelnen Kis kombiniert.

Viele Einreichungen für den MoE-Benchmark gibt es nicht. Man konzentriert sich auf die Hardware von NVIDIA in Form der H100-, H200- und B200-Beschleuniger. Etwas schade ist, dass wir weiterhin keinerlei Vergleichsdaten zum Beispiel von AMD oder Intel bekommen haben.

Llama 3.1 405B - Offline/Server

TensorRT 10.8, CUDA 12.8

Tokens/s
Mehr ist besser

Der Faktor in der Skalierung der Systeme wird für ein großes Llama-3.1-Modell mit 405 Milliarden Parametern deutlich. Zwischen der Beschleuniger-Generationen H100, H200 und B200 gibt es natürlich eine gewisse Weiterentwicklung in der Leistung zu beobachten. In der Auslieferung der Tokens pro Sekunde für die großen KI-Anbieter wichtig aber ist die für einen gewissen Output notwendige Hardware. Hier zeigt ein GB200-NVL72-System seine Stärken. Einen Vergleich mit einem System mit Instinct-Hardware von AMD gibt es aber leider auch hier nicht.

Aktuell gibt es überall einen größeren Bedarf für das Inferencing der Modelle. Da es aber auch stetig neue Modelle gibt und diese weiterentwickelt werden, bleibt der Bedarf nach Trainings-Hardware und den entsprechenden Kapazitäten hoch. Mit Blackwell konzentriert sich NVIDIA vorrangig auf das Inferencing. Die weiteren Ergebnisse des B200-Beschleunigers sind vielversprechend. AMD kann zumindest in den MLPerf-Benchmarks kaum mithalten und muss an dieser Jahreshälfte verstärkt gegen die Blackwell-Beschleuniger antreten. Google hat mit den TPUs eine Insellösung geschaffen, die nur in den eigenen Rechenzentren zum Einsatz kommt, von dort aus aber auch Kunden angeboten wird. Die jeweilige Anwendung ist jedoch entscheidend, ob TPUs für den Einsatz überhaupt in Frage kommen.

Die kompletten Ergebnisse für MLPerf Inference 5.0 finden sich direkt bei der MLCommons.

Back to top