Nur 100GB/s Speicher wird bei 64 TFLOPs FP16 aber zur massiven Bremse. Da sehen dann die effektiven Werte bei GEMM/Conv Operationen wohl eher nach 4 TFLOPs aus.
Ausser sie haben einen absolut massiven local-memory cache, welcher dann ungefähr 4 bis 16MB gross sein müsste (ca. 112KB bei AMD und nVidia pro ~256 CUs).
Da fehlen halt massiv viele Angaben um zu entscheiden, ob das Ding jetzt wirklich so toll ist wie ein V100. Ich denke die Antwort ist Nein.