Anders als beim Wechsel von Maxwell zu Pascal gibt es dieses mal auch einige Änderungen innerhalb des Streaming Multiprocessors. Geringe Instructions- und Cache-Latenzen waren Ziel des Umbaus und wurden durch verschiedene Maßnahmen auch erreicht.
Die wichtigsten Neuerungen des Volt SM sind:
- Mixed-Precision FP16/FP32 Tensor Cores (dazu kommen wir noch einmal etwas genauer)
- verbesserter L1-Data-Cache für geringe Latenzen und höhere Bandbreite
- schlankeres Instruction-Set für ein einfacheres Decoding und reduzierte Latenzen
- höherer Takt und verbesserte Energieeffizienz
Genau wie bei der GP100-GPU befinden sich im Volta SM 64 FP32 Cores und 32 FP64 Cores. Die Volta-Architektur verwendet allerdings eine neuere Methode zur Partitionierung der zur Verfügung stehenden Cores, was die Auslastung und damit die Leistung insgesamt verbessert. Während die SMs in der GP100-GPU in zwei Processing Blocks mit jeweils 32 FP32 Cores, 16 FP64 Cores, einem Instruction Buffer, einem Warp Scheduler, zwei Dispatch Units und einem 128 KB großen Register File ausgestattet sind, hat sich der Aufbau in der Volta-Architektur etwas geändert.
Der SM in der GV100-GPU ist ist in vier Processing Blocks aufgeteilt. Diese wiederum bestehen aus 16 FP32 Cores, 8 FP64 Cores, 16 INT32 Cores, zwei neuen Mixed-Precision Tensor Cores, einem neuen L0 Instruction Cache, einem Warp Scheduler, einer Dispatch Unit und einem 64 KB großen Register File.