Werbung
Schaut man sich bei der Hardware für Endkunden bei den aktuellen Smartphones und Tablets um, führt wohl kein Weg an einem ARM-Design vorbei. Eigene Weiterentwicklungen wie sie bei Apple stattfinden oder auch für den Snapdragon X Elite und Plus verwenden als Basis weiterhin eine ARM-Lizenz und so könnte man durchaus davon sprechen, dass der Markt der Chips zweigeteilt ist – x86 für Desktop und Server und die ARM-Designs vor allem in den mobileren Anwendungsbereichen.
Gleichwohl ist kaum zu verneinen, dass ARM-basierte Chips auch einen gewissen Einfluss bei den Custom-Chips für Server-Prozessoren oder KI-Beschleuniger haben. Die Neoverse-Plattform sowie ebenfalls entsprechende Eigenentwicklungen zum Beispiel von Ampere Computing sind Ausdruck einer gewissen Differenzierung die hier stattfinden, wenngleich am x86-Thron noch lange nicht wirklich gerüttelt wird.
Besagte Snapdragon-X-Plattform kann nun als Schnittstelle zwischen dem Smartphone- und Tablet-Markt hin zu den Notebooks gesehen werden. Ob Qualcomm hier spürbare Marktanteile wird erreichen können, bleibt abzuwarten. Mit seinen M-Chips sowie der isolierten Hard- und Softwareplattform ist Apple einmal mehr außen vor.
Analog zur CSS-Plattform für die Neoverse-Designs stellte ARM heute das Compute Subsystem (CSS) für Client-Chips vor. Mit dem ARM CSS will es ARM den SoC-Herstellern erleichtern entsprechende Designs auf den Markt zu bringen. In Form von fertigen Bausteinen wählen die Hersteller die gewünschten CPU-Kerne oder die GPU bzw. geben einen gewissen Preis- oder Leistungspunkt vor. Über die entsprechende Zusammenarbeit mit TSMC und bald auch Intel soll es den SoC-Herstellern dann auch im Hinblick auf die Fertigung einfacher denn je gemacht werden zu einem fertigen Chip zu kommen. Konkret spricht ARM hinsichtlich der Fertigung über Prozesse der 3-nm-Klasse. Für die zweite Hälfte des Jahrzehnts wird man dann mit Intel auch in Intel 18A die entsprechenden PDKs anbieten.
Das wichtigste Thema der vergangenen Monate ist aber auch an ARM natürlich nicht vorbeigegangen: KI. Das erste soll dank ARMv9 bereits seit 2022 darauf vorbereitet sein.
Das nun neue CSS basiert auf der ARMv9.2-Architektur, kommt mit den entsprechenden CPU-Kernen in drei Klassen sowie der Möglichkeit der modernen Fertigung daher. CSS für Client-Chips wird sich aber nicht nur auf den Smartphone- und Tablet-Markt beschränken, sondern ARM sieht hier auch eine weitere Möglichkeit im PC-Markt Fuß zu fassen. Dies gestaltete sich in der Vergangenheit vor allem durch die eher mäßige Softwareunterstützung eher schwierig. Nun aber sieht ARM dank der Initiative von Microsoft einen neuen Angriffspunkt.
Neue CPU-Kerne: Cortex-X925
Die bisher größte Steigerung in der IPC-Leistung hat ARM nach eigenen Angaben bewogen die bisher übliche Cortex-X-Namensgebung der High-End-Kerne abzuändern. Der neuen High-Performance-Kern hört nun auch den Namen Cortex-X925 und soll eine um 36 % höhere Single-Threaded-Leistung im Geekbench zu bieten haben. Die KI-Leistung steigt um 41 % – verglichen wird hier mit dem Cortex-X4 und mittels Tiny Llama.
Hinsichtlich der Architektur hat der Cortex-X925 vor allem ein breiteres Decode- und Vektor-Design zu bieten, als dies bei den bisherigen Kernen der Fall war. Damit einher geht auch ein bis zu 3 MB fassender L2-Cache. Die höhere Leistung kommt aber auch durch einen gesteigerten Takt zustande. ARM arbeitet hier wie gesagt vor allem mit TSMC und später auch Intel zusammen, damit die physikalische Umsetzung auch mit den architektonischen Änderungen mithalten kann.
Zum aktuellen Zeitpunkt nennt ARM noch keine weiteren Details zum Cortex-X925. So fehlen uns Angaben zur Architektur: Breite der Funktionseinheiten, private Caches, Angaben zur Sprungvorhersage etc. Die Standardkonfiguration für das CSS für Client-SoCs mit Cortex-X925 scheinen zwei der schnellen Kerne, vier der mittleren und zwei der besonders sparsamen Kerne zu sein.
Abgesehen vom Cortex-X925 hat auch der Mittelklasse-Kern Cortex-A725 Verbesserungen in der Architektur erfahren. Zusammen mit Optimierungen im physikalischen Design und der Fertigung ergibt sich daraus im Vergleich zum Cortex-A720 eine um 35 % höhere Leistungs-Effizienz wie ARM dies nennt. Die kleinen Cortex-A520-Kerne werden um 15 % schneller, profitieren ausschließlich von Verbesserungen im physikalischen Design sowie der Fertigung.
Die Immortalis-G925-GPU
Die neue GPU namens Immortalis-G925 wurde ebenfalls komplett überarbeitet. Sie soll um 37 % schneller als die Immortalis-G720 sein. Die KI-Rechenleistung soll um 34 % höher ausfallen und die Raytracing-Leistung um 52 % höher ausfallen. Bei gleicher Leistung soll die neue GPU um 30 % weniger Strom verbrauchen als ihr Vorgänger.
Die KI-Leistung spielt hier eine wesentliche Rolle, denn je nach KI-Anwendung macht es durchaus Sinn, diese auf der GPU auszuführen. CPU-Kerne, die GPU und eine eventuell vorhandene NPU werden gemeinsam arbeiten, was aber auch für andere Hardware für KI-PCs der Fall ist.
Eine weitere Ankündigung im Hinblick auf die Unterstützung neuer Funktionen in der GPU ist die Zusammenarbeit mit Epic Games. Immortalis-GPUs sollen zukünftig auch den Unreal Engine Desktop Renderer mit Lumen-Raytracing unterstützen.
ARM Kleidi
Bei ARM sieht man keine zwangsläufige Notwendigkeit nach einer dedizierten NPU. KI-Anwendungen können auf den speziell dafür optimierten ARMv9-Kernen ausgeführt werden und bleiben dies zu einem Großteil auch. 70 % aller KI-Workloads unter Android laufen auf den CPU-Kernen. Mit der Kleide-API stellt ARM den Entwicklern nun eine Schnittstelle zur Verfügung, welche schlank ist und ausreichend performant Kernel bietet. Den Anfang machen KleidiAI für KI-Anwendungen und KleidiCV für Computer Vision Frameworks wie sie in VR/AR-Brillen zum Einsatz kommen.
Für den Entwickler soll es dabei keinerlei Rolle spielen, welche ARM-Kerne letztendlich für seine Workloads zum Einsatz kommen. Wer für Kleidi entwickelt, bekommt immer den besten Funktionsumfang und die höchste Leistung zur Verfügung gestellt – auch über ARMv9.2-Designs hinaus. Unterstützt werden dabei auch die NEON-Deigns auf Basis von ARMv8.
KleidiAI ist auf Frameworks wie TensorFlow, PyTorch, aber auch für konkrete Anwendungen wie Llama 3 ausgelegt.
Das erste CSS für Client-SoCs soll nur der Anfang sein. Sowohl bei den CPU-Kernen wie auch der GPU arbeitet ARM bereits an weiteren Generationen. Ab wann die ersten Chips auf Basis des CSS für Client-SoCs erscheinen werde, ist nicht bekannt. Kunden von ARM können wie gesagt entweder ein komplettes Referenzdesign lizensieren oder die Bausteine selbst zusammenstellen. Am schnellsten zum fertigen Chip kommt man über das Referenzdesign, denn ARM arbeitet wie gesagt mit den Auftragsfertigern zusammen, hat bereits fertigen physikalische Designs und somit spart der Kunde viel Zeit.