VISC-Architektur soll Single-Thread-Performance deutlich verbessern

Don

[printed]-Redakteur, Tweety
Thread Starter
Mitglied seit
15.11.2002
Beiträge
27.220
<p><img src="/images/stories/logos-2016/soft-machines.jpg" alt="soft machines" style="margin: 10px; float: left;" />Die Leistung für Single-Thread-Anwendungen zu erhöhen, ist eine der größten Herausforderungen aktueller CPU-Architekturen. Während Intel hier in den vergangenen Jahren nur noch kleine Schritte machen konnte, soll die <a href="index.php/news/hardware/prozessoren/38096-forschungszentrum-cern-bestaetigt-zen-serverprozessoren-mit-32-kernen.html" target="_self">Zen-Architektur für AMD einen größeren Sprung machen</a> und mit Intel zumindest aufschließen. Die Single-Thread-Performance ist durch die immer größere Parallelität und immer größere Anzahl an Kernen in den Hintergrund gerückt, spielt bei vielen Anwendungen aber noch immer eine wichtige Rolle.</p>
<p>Soft...<br /><br /><a href="/index.php/artikel/hardware/prozessoren/38149-visc-architektur-soll-single-thread-performance-deutlich-verbessern.html" style="font-weight:bold;">... weiterlesen</a></p>
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
@ Andi:

Ich möchte hierzu auf den Sammler aus 2014 aufmerksam machen ;) http://www.hardwareluxx.de/community/f11/visc-cpu-architektur-news-thread-zu-amd-arm-samsungs-start-up-1044178.html
 
Intel hat sich bei der Skylake-Architektur für eine 6-Wide-Out-of-Order-Architektur entschieden. NVIDIA bei den eigenen Denver-ARM-Kernen sogar zu einer 7-Wide.
Das ist für beide Architekturen eine eher ungenaue Angabe.
So hat Skylake nur 4 Decoder, kann von Allocation-Buffer über Reorder-Buffer zur Unified-Reservation-Station auch nur je 4 µOps weitergeben und auch die Retirement-Unit kann nur je 4µOps verarbeiten. Da hilft es auch nicht auf Dauer, wenn aus der Reservation-Station von den 8 Excecution-Slots mehr als je 4 gefüttert werden können, es hilft nur Bubbles in der Pipeline zu vermeiden.

Denver hat zwar 7 Excecution-Slots, davon sind aber nur 2 Integer-ALUs (bei Skylake sind es 4) und es gibt im Frontend nur 2 Decoder.
Dafür hat Denver einen besonderen Trick parat:

Hier werden Denver-Kerne im SoC verwendet, vermutlich weil eine 7-Wide-Out-of-Order-Pipeline-Architektur hier besonders sinnvoll ist.

Denver kann schon decodierte µOps aus dem Hauptspeicher einlesen und bei Umgehung der Decodereinheiten direkt verarbeiten, was auch deswegen von Vorteil ist, weil die µOps schon voroptimiert sein können, denn Denvers Backend kann nur in-Order-Excecution!
Diese CPU ist also besonders effizient bei kleinen, voroptimierten, ständig wiederholt zu verarbeitenden Codeschnipseln - wie bspw. die Berarbeitung der Sensordaten, mit denen das autonome Auto seine Umwelt erkennt. (Aus einem Benchmark lassen sich damit auch ganz prima hohe Ergebnisse rauskitzeln.)

Für den anderen Kram, der Denver so gar nicht liegt, sind dann wohl die A57-Cores zuständig...

Bisher einzig offizielle Unterstützung besteht zu ARMv8
Was Wunder, mit frisch entschlackter ISA und knackig kurzer Decoderstufe :d
 
Zuletzt bearbeitet:
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh