Werbung
Bereits auf der diesjährigen Computex präsentierte AMD den GPU-Beschleuniger Instinct MI325X als Update der aktuellen Produktpalette, der es mit NVIDIAs H200 und womöglich dem Nachfolger B200 aufnehmen soll und muss. Auf dem "Advancing AI 2024"-Event präsentierte AMD nun weitere Details.
Mit dieser Ankündigung gab es aber auch gleich ein Downgrade dessen, was vor wenigen Monaten noch vollmundig verkündet wurde: Anstatt mit 288 GB an HBM3E wird der Instinct MI325X mit 256 GB erscheinen. AMD begründete diese Änderungen mit einem besseren Verhältnis aus Rechenleistung und Seicherkapazität. Ein Ausbau mit 256 GB mit acht HBM-Stacks ist im Grunde aber nicht möglich, ohne das AMD den Speicher künstlich beschneidet.
Anstatt HBM3E-Chips mit 36 GB pro Chip kommen also solche zum Einsatz, die 32 GB an Kapazität aufweisen können. Die Speicherbandbreite bleibt bei 6 TB/s bestehen. Damit bietet der Instinct MI325X noch immer 33 % mehr Speicherkapazität, aber eben nicht wie bisher angekündigt ein Plus von 50 %. Die leicht gestiegene Speicherbandbreite (+13 %) soll auch mit einer ebenso höheren Rechenleistung ergänzt werden. Da der Instinct MI325X aber auf das gleiche Package wie MI300X setzt, geht dies nur über einen höheren Takt. AMD nennt allerdings eine identische Rechenleistung von 1,3 PFLOPS.
Eine höhere Rechenleistung ermöglicht AMD mit einem höheren Takt des Instinct MI325X. Für den Instinct MI300X nennt AMD bis zu 750 W, für den Instinct MI325X sollen mehr als diese 750 W möglich sein. Wie viel genau, wollte AMD nicht sagen.
Die Fertigung des Instinct MI325X soll im vierten Quartal dieses Jahres starten. Die Auslieferung in größeren Stückzahlen soll dann im ersten Quartal 2025 beginnen. Damit kommen wir schon zu den von AMD präsentierten Benchmarks, in denen AMD den Instinct MI325X gegen NVIDIAs H200-Beschleuniger vergleicht. Gezeigt wurden Leistungswerte im Inferencing für verschiedene Modellgrößen, in denen sich AMD zwischen 20 und 40 % vor seinem Konkurrenten sieht.
Der erste Auftritt des Instinct MI300X im Rahmen der MLPerf-Inference-4.1-Benchmarks offenbarte beispielsweise einen Rückstand von etwa 50 % gegenüber NVIDIAs H200-Lösung. Der mit dem Instinct MI325X größere Speicher spielt sicherlich eine Rolle und welche Software-Basis verwendet wurde, hat auf die Leistung ebenfalls Auswirkungen. Unabhängige Benchmarks werden also zeigen müssen, wer nun die Nase vorne hat. Hinzu kommt, dass der Instinct MI325X sich nicht nur mit dem H200-Beschleuniger am Markt duellieren muss, sondern ab Anfang 2025 schon mit B200 auf Basis der Blackwell-Architektur.
Auch wenn wir mit den von AMD präsentierten Benchmarks immer recht vorsichtig sind, so scheint AMD tatsächlich dem Konkurrenten NVIDIA das Leben schwer machen zu können. Dies zeigt sich aber vielmehr im Produktiveinsatz bei den großen Partnern. So verwendet Meta inzwischen 1,5 Millionen EPYC-Prozessoren in den eigenen Datacentern und der komplette Live Traffic für Llama 405B läuft auf Instinct MI300X.
Die Azura Cloud-Infrastruktur verwendet ebenfalls viel Hardware von AMD – mehr als so mancher glauben wird. In einem Gespräch von Microsoft CEO Satya Nadella und AMD CEO Lisa Su offenbarte dieser, dass die Azure Infrastruktur zu mehr als 50 % mit Hardware von AMD bestückt ist.
Details zu Instinct MI355X
Für die zweite Jahreshälfte 2025 plant AMD dann mit dem Instinct MI355X einen Nachfolger der aktuellen Serie. Das dazugehörige Package wird sich von der aktuellen Instinct-MI300X-Serie unterscheiden, denn die Accelerator Complex Dies (XDCs) sollen in 3 nm gefertigt werden. Diese werden die CDNA-4-Architektur verwenden, zu der AMD aktuell noch keine weiteren Angaben macht – einzig die Unterstützung von FP4 und FP6 wird genannt. In einem Nebensatz erwähnt wurde, dass für den Instinct MI355X zehn Compute-Chiplets verwendet werden. Damit dürften die XDCs gemeint sein.
Instinct MI300X | Instinct MI325X | Instinct MI355X | |
Architektur | CDNA 3 | CDNA 3 | CDNA 4 |
IODs | 4 | 4 | - |
Fertigung der IODs | 6 nm | 6 nm | - |
XCDs | 8 | 8 | 10 * |
Fertigung der XCDs | 5 nm | 5 nm | 3 nm |
Anzahl der Transistoren | 153 Milliarden | 153 Milliarden | - |
Stream-Prozessoren | 19.456 | 19.456 | - |
Matrix-Kerne | 1.216 | 1.216 | - |
Infinity Cache | 256 MB | 256 MB | - |
HBM3 | 192 GB | 256 GB | 288 GB |
Speicherbandbreite | 5,3 TB/s | 6 TB/s | 8 TB/s |
TDP | bis zu 750 W | 750+ W | bis zu 1.000 W |
* erwähnte dies in einer Fragerunde, bestätigte dies auf Nachfrage aber nicht
Ohne die entsprechenden Details zu den XDCs, der Architektur und vielem mehr haben wir also nur recht wenige Daten zum Instinct MI355X. AMD nennt jedoch bereits 288 GB an HBM3E sowie eine Rechenleitung von 18,5 PFLOPS in FP16 für acht Instinct MI355X, was dann pro Beschleuniger auf etwa 2,3 PFLOPS hinausläuft. Zum Vergleich: Der Instinct MI300X/325X kommt auf 1,3 PFLOPS. Hinsichtlich der Speicherbandbreite plant AMD offenbar ebenfalls einen Schritt nach vorne, wenn die 288 GB 8 TB/s erreichen – bisher sind es 6 TB/s für den Instinct MI300X/325X.
Die höhere Rechenleistung geht aber auch mit einer höheren Leistungsaufnahme einher. Bis zu 1.000 W sollen es beim Instinct MI355X sein.
Echte Benchmarks lieferte AMD zum Instinct MI355X noch nicht. Stattdessen beschränkt man sich auf den Vergleich von technischen Daten sowie theoretischer Rechenleistung. Ein Grund dafür dürfte sein, dass AMD vermutlich noch keine finale Hardware des Instinct MI355X in den Laboren laufen hat. Zudem ändern sich gerade bei der Software die Voraussetzungen für die Hardware beinahe täglich. Optimierungen in der Verarbeitung der Daten sorgen bei gleicher Hardware für Leistungssprünge im zweistelligen Prozentbereich. Jetzt bereits eine echte Leistungsvorhersage für Instinct MI355X zu machen, ist beinahe unmöglich.
Vor der Markteinführung in der zweiten Jahreshälfte 2025 erwarten wir weitere Details zur Instinct-MI350-Serie und im Speziellen des Instinct MI355X. Hier besonders interessant ist die CDNA-4-Architektur sowie der Aufbau des Package. Das Advanced Packaging mit einem Silicon Interposer, darauf platzierten IODs und wiederum darauf gesetzten XDCs in der Instinct-MI300-Serie ist aus technischer Sicht beeindruckend und dürfte auch beim Instinct MI355X in ähnlicher Form zur Anwendung kommen.
Kein Nachfolger für den Instinct MI300A
Die Kombination aus XDCs und CCDs mit Zen-Kernen wie beim Instinct MI300A wird es in der Instinct-MI350-Serie nicht mehr geben. AMD hat den Instinct MI300A als HPC-Lösung vermarktet, aber offenbar nicht den richtigen Markt gefunden, bzw. konnte die Lösung potentiellen Kunden nicht schmackhaft machen, so dass es nun keinerlei Nachfolger geben wird.