NEWS

A10 und A30

Weitere Datacenter-GPUs auf Ampere-Basis vorgestellt

Portrait des Authors


Weitere Datacenter-GPUs auf Ampere-Basis vorgestellt
0

Werbung

Ebenfalls auf der GPU Technology Conference vorgestellt werden neue Datacenter-GPUs auf Basis der Ampere-Architektur. Diese ergänzen die A100 als High-End-Variante sowie die A40, die bereits im Oktober 2020 zusammen mit der RTX A6000 vorgestellt wurde.

Der Blick auf die Ampere-Architektur zeigt: Große Zuwachsraten für die FP32- und INT32-Rechenleistung zahlen sich im Rendering aus. Davon profitieren die professionellen RTX-Karten (ehemals Quadro) ebenso wie die GPU-Beschleuniger für das Datacenter. Neu sind die  A30, A16 und A10. Während zur A30 und A10 bereits einige technische Details bekannt sind, wissen wir von der A16 aktuell nur, dass sich hier gleich vier GPUs auf einem PCB befinden. Die A10 und A16 sind vor allem für virtuelle Workstations vorgesehen, während die A30 dank GA100-GPU auch noch eine ausreichende Rechenleistung über alle Genauigkeit zu bieten hat.

Gegenüberstellung der Karten
  A100A40A30A10
GPU GA100GA102GA100GA102
Transistoren 54 Milliarden28 Milliarden54 Milliarden28 Milliarden
Fertigung 7 nm8 nm7 nm8 nm
Chipgröße 826 mm²628,4 mm²826 mm²628,4 mm²
FP32-ALUs 13.82410.752-9.216
INT32-ALUs 6.9125.376-4.608
SMs 10884-72
Tensor Cores 432336-288
RT Cores -84-72
INT4-Leistung 1.248/2.496 TOPS-661/1.321 TOPS500/1000 TOPS
INT8-Leistung 624/1.248 TOPS-330/661 TOPS250/500 TOPS
FP16-Leistung 312/624 TFLOPS-165/330 TFLOPS125/250 TFLOPS
Bfloat16-Leistung 312/624 TFLOPS-165/330 TFLOPS125/250 TFLOPS
FP32-Leistung 19,5 TFLOPS-10,3 TFLOPS31,2 TFLOPS
FP64-Leistung 9,7/19,5 TFLOPS-5,2/10,3 TFLOPS-
Speicherkapazität 40/80 GB48 GB24 GB24 GB
Speichertyp HBM2GDDR6HBM2GDDR6
Speicherinterface 5.120 Bit384 Bit3.072 Bit384 Bit
Speicherbandbreite 2.039/1.555 GB/s969 GB/s933 GB/s600 GB/s
TDP 400/250 W300 W165 W150 W

*Bei den Leistungsdaten sind die mit getrennten Werte Angaben zur nativen Leistung der Shader sowie der mit Sparsity-Unterstützung der Tensor Cores. Beim Speicher und der TDP muss man für die A100 zwischen der SMX4- und PCIe-Variante unterscheiden, was wir hier getan haben, in dem wir zwei Werte angeben, wobei der letztgenannte der für die PCIe-Karte ist.

Zur im vergangenen Herbst vorgestellten A40 hat NVIDIA noch immer keine Leistungsdaten veröffentlicht. Wir wissen aber, dass diese auf der GA102-GPU basiert, genau wie die nun neue A10. Fangen wir auch bei dieser an. Da NVIDIA 72 RT Cores nennt, wissen wir, dass hier 288 Tensor Cores und ebenso 72 SMs zum Einsatz kommen. Daraus lässt sich auf 4.608 INT32- und 9.216 FP32-Recheneinheiten schließen. Auf die Rohleistung bezogen dürfte die A10 also etwa 15 % langer als die A40 sein. Allerdings darf sich die A40 mit 300 W das doppelte an Leistungsaufnahme genehmigen, sodass diese zudem höher taktet, was die Leistungsdaten deutlich nach oben schraubt. Mit 24 GB und einer Speicherbandbreite von 600 GB/s muss die A10 auch mit insgesamt weniger und vor allem weniger schnell angesteuertem Speicher auskommen als die A40.

Zweites neues Modell ist die A30, die nicht auf einer GA10X-GPU basiert, sondern offenbar die GA100-GPU mit HBM2-Speicher verwendet. Hier kennen wir wiederum die Leistungsdaten für INT8 bis FP64, dafür aber macht NVIDIA keine Angaben zur Ausbaustufen. Die Anzahl der INT32- und FP32-Recheneinheiten sowie RT und Tensor Cores ließe sich theoretisch zurückrechnen, wir warten hier aber, bis wir von NVIDIA die offiziellen Angaben bekommen.

Grob gesagt leistet die A30 in etwa halb so viel wie eine A100. Dafür benötigt sie im Vergleich zur PCIe-Variante aber auch deutlich weniger Leistung. Einen größeren Unterschied gibt es auch beim Speicherausbau und Speicherinterface. Auf 24 GB HBM2 kann die GA100-GPU hier zurückgreifen. Diese sind über ein 3.072 Bit breites Speicherinterface angebunden und liefern 933 GB/s. NVIDIA verwendet hier also nur drei der sechs möglichen Speicherchips und kommt so auf die entsprechende Kapazität und Anbindung.

Dritter neuer GPU-Beschleuniger der A-Serie ist die A16. Die A16 stellt aber eine gewissen Besonderheit dar, denn hier nennt NVIDIA die wenigsten Details, verbaut aber offenbar gleich vier Ampere-GPUs auf einem PCB. Diesen stehen jeweils 16 GB an GDDR6 zur Verfügung – insgesamt also 64 GB. Die A16 dürfte vor als Media-Beschleuniger oder als vGPU-Karte interessant sein. Entsprechend lassen sich den virtuellen GPUs 1, 2, 4, 8 oder 16 GB an Grafikspeicher zuordnen. Außerdem stehen vier NVENC-Encoder bzw. acht NVDEC-Decoder auf der A16 zur Verfügung.

Allesamt unterstützen die bestehen und neuen Modelle der A-Serie PCI-Express 4.0. Die A100, A40 und A30 können mittels NVLink modellgleich zusammengefasst werden. Die A10 und A16 bieten keinerlei NVLink. Als Datacenter-Karten verzichten alle Modelle auf Display-Ausgänge, die in diesem Anwendungsbereich auch nicht notwendig sind. Die Kühlung erfolgt passiv über den Luftstrom des Servers. Mit Strom versorgt werden alle Modelle über einen EPS12V mit acht Pins.

Während die A30 und A10 noch im April diesen Jahres verfügbar sein sollen, wird die A16 erst im Verlaufe des aktuellen Jahres verfügbar sein.