NEWS

Grafikkarten

Intel veröffentlicht Whitepaper zur Gen11-Grafik

Portrait des Authors


Intel veröffentlicht Whitepaper zur Gen11-Grafik
2

Werbung

In Vorbereitung auf die baldige Veröffentlichung der entsprechenden Prozessoren hat Intel das Whitepaper (PDF) zur Gen11-Grafikeinheit veröffentlicht. Die Gen11-Grafikeinheit wird in zahlreichen kommenden SoCs, wie dem Lakefield und auch den Ice-Lake-Prozessoren, zum Einsatz kommen.

Alle Prozessoren mit Gen11-Grafikeinheit werden in 10 nm gefertigt. Im Maximalausbau sieht die Architektur 64 Execution Units (EUs) vor. Neben den Änderungen in der Architektur bietet die Gen11-Grafikeinheit noch Funktionen wie das Coarse Pixel Shading (CPS) und Position Only Shading Tile Based Rendering (PTBR).

Die Gen11-Grafikeinheit wird per SoC Ring Interconnect an die restlichen Komponenten des Prozessors bzw. des SoCs angebunden. Dabei ist es wichtig zu wissen, dass es mehrere Takt-Domains gibt, mit denen die einzelnen Komponenten arbeiten. Da wäre die des einzelnen CPU-Kerns bzw. der Kerne (wenn mehrere vorhanden), eine Processor Graphics Clock Domain und eine Ring Interconnect Clock Domain. 

Der SoC Ring Interconnect verbindet die Gen11-Grafikeinheit mit den CPU-Kernen, dem Last Level Cache (LLC) und dem System Agent (Speichercontroller, PCI-Express-Controller, Display-Controller, etc.).

Die Gen11-Grafikeinheit besteht aus einem sogenannten Slice und dieses wiederum aus maximal acht Subslices. Die Sublices teilen sich den L3-Cache, das Pixel Backend, den Pixel Dispatcher sowie den Rasterizer und die Einheiten für den Z-Buffer und das Culling. Die meisten Prozessoren mit Gen11-Grafikeinheit werden laut Intel die Ausbaustufe mit acht Subslices und folglich 64 EUs verwenden. Denkbar sind jedoch auch kleinere Ausbaustufen der Gen11-Grafikeinheit.

Jedes Subslice beinhaltet eine Local Thread Dispatcher Unit und ihren eigenen Instruction Cache. Hinzu kommen eine 3D Texture Sampler Unit, eine Media Sampler Unit und eine Dataport Unit.

Kernbestandteil ist natürlich die einzelne Execution Unit. Diese ist im Grunde genommen eine Kombination aus Simultaneous Multi-Threading (SMT) und Fine-Grained Interleaved Multi-Threading (IMT). Der IMT-Anteil der Architektur sorgt dafür, dass die diversen Compute-Einheiten der EU ständig mit neuen Instruktionen gefüttert werden.

Jede EU besitzt zwei SIMD Floating-Point Units (ALUs). Obwohl sie ALUs genannt werden, können sie auch Integer-Berechnungen ausführen. Jede dieser ALUs kann bis zu vier 32 Bit Floating-Point-(oder Integer)-Operationen, oder bis zu acht 16-Bit-Floating-Point-Operationen ausführen. Effektiv kann jede EU 16 FP32-Berechnungen pro Takt (2 ALUs x SIMD-4 x 2 Ops (Add + Mul)) und 32 FP16-Berechnungen pro Tak (2 ALUs x SIMD-8 x 2 Ops (Add + Mul)) ausführen. Die EUs arbeiten Multi-Threaded und haben dazu ein 28 kB großes Register File (GRF) mit 32 Bytes pro Register.

Gegenüberstellung der Gen9- und Gen11-Grafikeinheit

Gen9 Gen11
Slices 1 1
Sublices 3 8
Execution Units 24 (3x 8) 64 (8x 8)
FLOPS pro Takt (FP32) 384 1.024
FLOPS pro Takt (FP64) 768 2.048
Register 672 kB (3x 224 kB) 1.792 kB (8x 224 kB)
Shared Local Memory 192 kB (3x 64 kB) 512 kB (8x 64 kB)
Pixel pro Takt 8 16
L3-Cache 768 kB 3.072 kB
GTI-Bandbreite 64 / 32 Byte pro Takt 64 / 64 Byte pro Takt
Last Level Cache 2 bis 8 MB TBD
DRAM-Unterstützung 2x 64 LPDDR3/DDR4 4x 32 LPDDR4/DDR4

Im Vergleich zur Gen9-Grafikeinheit befindet sich der Shared Local Memory (SLM) in der Gen11-Grafikeinheit im Subslice. Die acht EUs eines Subslice können daher direkt auf den 64 kB großen SLM zugreifen und müssen nicht über den Dataport an den SLM, der zudem Bestandteil des L3-Caches ist, gehen. Die höhere Bandbreite und die geringeren Latenzen sollen der Gen11-Grafikeinheit in diesem Fall helfen.

Dem Dataport kommt eine besondere Bedeutung zu, da über diesen Zugriffe zum L3-Cache erfolgen. Intel hat den L3-Cache auf 3 MB vergrößert. Der Dataport kann 64 Bytes pro Cycle aus dem L3-Cache lesen oder in ihn schreiben. Um den Datentransfer möglichst effektiv zu gestalten, ist es möglich, zwei 32 Byte große Zugriffe in einen 64 Byte großen Cache zusammenzufassen. Zudem implementiert Intel neue Losless-Komprimierungsverfahren, die auch in der Kommunikation mit dem Systemspeicher eine Rolle spielen, denn auch wenn der L3-Cache auf 3 MB angewachsen ist, so müssen dennoch Daten aus dem Arbeitsspeicher des Prozessors gelesen und darin geschrieben werden.

Das gesamte Speichersystem der Gen11-Grafikeinheit ist auf niedrige Latenzen und hohe Bandbreiten hin optimiert worden. Unterstützt wird die Architektur durch die Unterstützung von LPDDR4.

Um die Leistung steigern zu können, hat sich Intel ein paar Tricks einfallen lassen: So kommt bei der Gen11-GPU das Coarse Pixel Shading zum Einsatz. Ähnlich wie beim Variable Rate Shading von NVIDIA wird der Rendering-Aufwand durch eine Komprimierung der Rendering-Details reduziert und damit die Framerate gesteigert. Wie das Variable Rate Shading muss das jeweilige Spiel das Coarse Pixel Shading von Intel unterstützen und offen ist die Frage, für wie viele Spiele dies der Fall sein wird. Das Coarse Pixel Shading wird als Variable Rate Shading ein Bestandteil von DirectX 12 werden.

Es gibt noch zahlreiche weitere Stellschrauben, an denen Intel gedreht hat. Der Display-Controller unterstützt alle modernen Standards, inklusive der Möglichkeit, einen Typ-C-Anschluss zu verwenden. Auch Adaptive Sync wird unterstützt. Insgesamt hebt Intel seine integrierte Grafikeinheit in vielen Bereichen auf das Niveau aktueller GPU-Architekturen. Damit bereitet man sich in weiten Teilen auf neue Hardware vor, in der wir viele der Neuerungen sicherlich wiedersehen werden. 2020 soll es erste Details zur Xe-Architektur geben.

Mit der Gen11-Grafik wird Intel also noch keine High-End-Lösung anbieten. Die Gen11-GPU wird als integrierte Grafik in Prozessoren zum Einsatz kommen und dürfte anhand der genannten Leistungsdaten (1 TFLOPS) in etwa so schnell wie eine Vega-8-GPU von AMD sein.

Quellen und weitere Links KOMMENTARE (2) VGWort