A10 und A30

Weitere Datacenter-GPUs auf Ampere-Basis vorgestellt

Von Andreas Schilling
Montag, 12.04.2021 um 19:06 Uhr

Weitere Datacenter-GPUs auf Ampere-Basis vorgestellt

Ebenfalls auf der GPU Technology Conference vorgestellt werden neue Datacenter-GPUs auf Basis der Ampere-Architektur. Diese ergänzen die A100 als High-End-Variante sowie die A40, die bereits im Oktober 2020 zusammen mit der RTX A6000 vorgestellt wurde.

Der Blick auf die Ampere-Architektur zeigt: Große Zuwachsraten für die FP32- und INT32-Rechenleistung zahlen sich im Rendering aus. Davon profitieren die professionellen RTX-Karten (ehemals Quadro) ebenso wie die GPU-Beschleuniger für das Datacenter. Neu sind die A30, A16 und A10. Während zur A30 und A10 bereits einige technische Details bekannt sind, wissen wir von der A16 aktuell nur, dass sich hier gleich vier GPUs auf einem PCB befinden. Die A10 und A16 sind vor allem für virtuelle Workstations vorgesehen, während die A30 dank GA100-GPU auch noch eine ausreichende Rechenleistung über alle Genauigkeit zu bieten hat.

Gegenüberstellung der Karten
	A100	A40	A30	A10
GPU	GA100	GA102	GA100	GA102
Transistoren	54 Milliarden	28 Milliarden	54 Milliarden	28 Milliarden
Fertigung	7 nm	8 nm	7 nm	8 nm
Chipgröße	826 mm²	628,4 mm²	826 mm²	628,4 mm²
FP32-ALUs	13.824	10.752	-	9.216
INT32-ALUs	6.912	5.376	-	4.608
SMs	108	84	-	72
Tensor Cores	432	336	-	288
RT Cores	-	84	-	72
INT4-Leistung	1.248/2.496 TOPS	-	661/1.321 TOPS	500/1000 TOPS
INT8-Leistung	624/1.248 TOPS	-	330/661 TOPS	250/500 TOPS
FP16-Leistung	312/624 TFLOPS	-	165/330 TFLOPS	125/250 TFLOPS
Bfloat16-Leistung	312/624 TFLOPS	-	165/330 TFLOPS	125/250 TFLOPS
FP32-Leistung	19,5 TFLOPS	-	10,3 TFLOPS	31,2 TFLOPS
FP64-Leistung	9,7/19,5 TFLOPS	-	5,2/10,3 TFLOPS	-
Speicherkapazität	40/80 GB	48 GB	24 GB	24 GB
Speichertyp	HBM2	GDDR6	HBM2	GDDR6
Speicherinterface	5.120 Bit	384 Bit	3.072 Bit	384 Bit
Speicherbandbreite	2.039/1.555 GB/s	969 GB/s	933 GB/s	600 GB/s
TDP	400/250 W	300 W	165 W	150 W

*Bei den Leistungsdaten sind die mit getrennten Werte Angaben zur nativen Leistung der Shader sowie der mit Sparsity-Unterstützung der Tensor Cores. Beim Speicher und der TDP muss man für die A100 zwischen der SMX4- und PCIe-Variante unterscheiden, was wir hier getan haben, in dem wir zwei Werte angeben, wobei der letztgenannte der für die PCIe-Karte ist.

Zur im vergangenen Herbst vorgestellten A40 hat NVIDIA noch immer keine Leistungsdaten veröffentlicht. Wir wissen aber, dass diese auf der GA102-GPU basiert, genau wie die nun neue A10. Fangen wir auch bei dieser an. Da NVIDIA 72 RT Cores nennt, wissen wir, dass hier 288 Tensor Cores und ebenso 72 SMs zum Einsatz kommen. Daraus lässt sich auf 4.608 INT32- und 9.216 FP32-Recheneinheiten schließen. Auf die Rohleistung bezogen dürfte die A10 also etwa 15 % langer als die A40 sein. Allerdings darf sich die A40 mit 300 W das doppelte an Leistungsaufnahme genehmigen, sodass diese zudem höher taktet, was die Leistungsdaten deutlich nach oben schraubt. Mit 24 GB und einer Speicherbandbreite von 600 GB/s muss die A10 auch mit insgesamt weniger und vor allem weniger schnell angesteuertem Speicher auskommen als die A40.

Zweites neues Modell ist die A30, die nicht auf einer GA10X-GPU basiert, sondern offenbar die GA100-GPU mit HBM2-Speicher verwendet. Hier kennen wir wiederum die Leistungsdaten für INT8 bis FP64, dafür aber macht NVIDIA keine Angaben zur Ausbaustufen. Die Anzahl der INT32- und FP32-Recheneinheiten sowie RT und Tensor Cores ließe sich theoretisch zurückrechnen, wir warten hier aber, bis wir von NVIDIA die offiziellen Angaben bekommen.

Grob gesagt leistet die A30 in etwa halb so viel wie eine A100. Dafür benötigt sie im Vergleich zur PCIe-Variante aber auch deutlich weniger Leistung. Einen größeren Unterschied gibt es auch beim Speicherausbau und Speicherinterface. Auf 24 GB HBM2 kann die GA100-GPU hier zurückgreifen. Diese sind über ein 3.072 Bit breites Speicherinterface angebunden und liefern 933 GB/s. NVIDIA verwendet hier also nur drei der sechs möglichen Speicherchips und kommt so auf die entsprechende Kapazität und Anbindung.

Dritter neuer GPU-Beschleuniger der A-Serie ist die A16. Die A16 stellt aber eine gewissen Besonderheit dar, denn hier nennt NVIDIA die wenigsten Details, verbaut aber offenbar gleich vier Ampere-GPUs auf einem PCB. Diesen stehen jeweils 16 GB an GDDR6 zur Verfügung – insgesamt also 64 GB. Die A16 dürfte vor als Media-Beschleuniger oder als vGPU-Karte interessant sein. Entsprechend lassen sich den virtuellen GPUs 1, 2, 4, 8 oder 16 GB an Grafikspeicher zuordnen. Außerdem stehen vier NVENC-Encoder bzw. acht NVDEC-Decoder auf der A16 zur Verfügung.

Allesamt unterstützen die bestehen und neuen Modelle der A-Serie PCI-Express 4.0. Die A100, A40 und A30 können mittels NVLink modellgleich zusammengefasst werden. Die A10 und A16 bieten keinerlei NVLink. Als Datacenter-Karten verzichten alle Modelle auf Display-Ausgänge, die in diesem Anwendungsbereich auch nicht notwendig sind. Die Kühlung erfolgt passiv über den Luftstrom des Servers. Mit Strom versorgt werden alle Modelle über einen EPS12V mit acht Pins.

Während die A30 und A10 noch im April diesen Jahres verfügbar sein sollen, wird die A16 erst im Verlaufe des aktuellen Jahres verfügbar sein.

Quellen und weitere Links