Werbung
Für Desktop- und Serveranwendungen hat sich das gleichzeitige Ausführen von zwei Threads pro Kern etabliert, um die Hardwareressourcen bestmöglich auszunutzen. Für einer besser vorhersehbare Leistung und auch aus Sicherheitsgründen verzichten einige Hardware- und Cloud-Anbieter aber auch auf ein Hyper-Threading bzw. SMT (Simultaneous Multithreading). Für Spezialanwendungen gibt es aber auch Hardware, die vier oder gar acht Threads gleichzeitig ausführen kann. IBM hat solche Prozessoren im Programm, aber es gibt auch andere Beispiele.
Auf der HotChips-Konferenz präsentierte Intel einen Testchip, bei dem es weniger um die Anzahl der Threads pro Kern ging, der aber dennoch in dieser Hinsicht etwas besonderes darstellt. Bereits seit Jahren hat Intel einen Chip namens Puma in der Entwicklung, bei dem man sich auf die Mesh-Infrastruktur innerhalb eines Chips konzentriert, denn es wird zunehmen schwieriger, die Daten an die einzelnen Kerne zu führen. Immer schnellere I/O-Standards bzw. ein breiter aufgestelltes I/O-Angebot sorgt ebenfalls für einen immer größeren Bedarf an schnellen Interconnect.
Beim Puma handelt es sich um einen Achtkern-Prozessor, der allerdings keine x86-Kerne verwendet, sondern solche auf Basis der RISC-Architektur. Auf seinen acht Kernen kann der Prozessor 528 Threads gleichzeitig ausführen – 66 Threads pro Kern.
Ein Ansatz dieses Prozessors ist der Aufbau eines möglichst leistungsstarken und effizienten Mesh-Interconnects im Chips selbst. Zum Einsatz kommen für die acht Kerne und Anbindung der Speichercontroller sowie AIBs (Advanced Interface Bus) für die PHYs der optischen Verbindungen insgesamt 16 Mesh-Router. Diese kennen wir von Mesh-Netzwerken in Chips bereits und so oder so ähnlich werden sie auch in den kommenden Xeon-Prozessoren zum Einsatz kommen.
Warum eine möglichst hohe Mesh-Leistung notwendig wird, zeigt sich, wenn man sich überlegt, in welcher Form Intel die Daten an den Chip heranführt. An den zentralen Chip angeschlossen sind vier Silicon-Photonics-Chips. Per EMIB sind die Chips miteinander verbunden. Die Bandbreite der viermal acht Silicon-Photonics-Links liegt bei 1 TB/s – und hier wird auch klar, warum Intel an schnellen und effizienten Mesh-Interconnects arbeitet, denn diese Daten müssen natürlich auch an die verarbeitenden Kerne herangeführt werden können.
Intel lässt den Puma-Testchips in 7 nm bei TSMC fertigen. Er besitzt 27 Milliarden Transistoren und kommt auf eine Fläche von 316 mm².
Optische Verbindungen, die direkt an den Chip herangeführt werden, werden in Zukunft eine wichtigere Rolle bekommen. Intel forscht seit mehr als einem Jahrzehnt auf diesem Gebiet. Auf der Innovation im vergangenen Jahr präsentierte man einen Prozessor, an dem sich optische Verbindungen anschließen ließen.
Die Essenz der Präsentation von Intel ist einmal mehr: Schnelle I/O-Verbindungen mit hoher Bandbeite und niedrigen Latenzen sind wichtig, aber diese Daten müssen auch an die IP-Blöcke innerhalb des Prozessors gebracht werden und dazu ist ein schneller Mesh-Interconnect unabdingbar. Ein Achtkern-Prozessor, der mehr als zwei Threads pro Kern verarbeiten kann, dient hier nur als Testwerkzeug.