Sind sie doch schon.
Na okay, nicht ganz. IPC ist ja immer noch vergleichsweise gut. Aber zumindest was Energieeffizienz betrifft liegen sie mittlerweile Welten hinter AMD. Bei voller Auslastung war schon der 3950X etwa doppelt so energieeffizient wie der 10900K. Der 5950X wird da vermutlich nochmal 20-40% drauflegen.
Ja, Fertigung spielt auch eine Rolle, Stichwort Signallaufzeit, Latenz oder Cache-Kapazität. Allerdings spielen die Änderungen auf Logikebene üblicherweise eine deutlich grössere Rolle.
So viel weniger Takt wird's wohl nicht werden. Allerdings glaube ich auch nicht, dass man mit dem 14nm Backport die gleiche IPC Verbesserung wie mit der 10nm Variante erreicht. Vielleicht werden es +15% IPC und sogar >=5 GHz. Damit könnte man zumindest Single Core konkurrenzfähig sein. Multicore wird dann halt davon abhängen, welche Rekorde Intel bei der Leistungsaufnahme zu brechen bereit ist.
Wobei AMD in einem halben Jahr auch schon einen Refresh am Start haben könnte. Gibt ja durchaus Gerüchte dazu, Stichwort Warhol.
Nicht alle. Gibt durchaus einige, die die CPU übernimmt. Für DirectX gibt's da z.B. DirectX Math, eine für die jeweilige Architektur optimierte Bibliothek. Die könnte theoretisch auch AVX512 nutzen. Hab allerdings keine Ahnung ob sie das auch tut. Es gibt auch Compiler die Autovektorisierung für AVX512 unterstützen, wie der MSVC. Mit entsprechendem selbst geschriebenem C oder C++ Code kann der Compiler daraus AVX512 Maschinencode generieren. Vermutlich wird das aber kaum ein Entwickler bisher nutzen, weil der hardwareseitige Support halt kaum vorhanden ist.
Damit es keine Missverständnisse gibt, AMD unterstützt AVX schon länger. Was sie bisher nicht unterstützen ist lediglich AVX512. Laut Gerüchten soll das aber mit Zen 4 kommen. Wobei ich AVX256 im Client-Markt eigentlich für optimal halte. Damit kann man 4-fach Vektoren mit doppelter Genauigkeit (64-bit) in einem Rutsch verarbeiten. Mehr als 4-fach Vektoren (wie z.B. für xyzw Koordinaten) und Gleitkommazahlen doppelter Genauigkeit braucht man hier eigentlich nicht. Für mehr benötigt es schon recht spezifische Workloads die eher im professionellen Markt anzutreffen sind. Da sind auf lange Sicht, wie du schon andeutest, effizientere Beschleuniger wie GPUs oder spezielle FPGAs wahrscheinlich die bessere Lösung. Damit das aber auch ohne Verrenkungen funktioniert, benötigt es vollkohärente System. Da sind wir noch nicht. AMD arbeitet aber zumindest daran.