Es geht wohl eher daran, dass AMD nix angestoßen hat und "Trend" als Wort, da auch irgendwie nicht passend ist. Da AMD keinen Trend setzt(e) damit - das nicht mal ein Trend ist.
Ja, die aktuellen AMD CPUs verwenden größere L3 Caches - aber das hat primär technische Gründe. 8x Compute Dies zu jeweils total 32MB L3 Cache pro Die sind halt in Summe 256MB - wenn man es so rechnet. Der einzelne Core nutzt aber nur 32MB maximal. Weil das der L3 Cache ist, den er lokal nutzen kann. Mit Zen3 - mit Zen2 sind/waren es sogar nur 16MB - pro CCX, Zugriff auf den L3 Bereich des zweiten CCX brachte schon eine Straflatenz.
Soweit, sogut. Wenn man mal seeehr weit zurück blickt, erkennt man, dass es dabei um den Kompromiss aus Bandbreite, Latenz und Kosten/Machbarkeit geht. Das existiert so real mindestens mal bezogen auf x86 CPUs, seit den Anfängen dieser. Das kann man eigentlich nicht "Trend" schimpfen, weil es schlicht technisch notwendig ist das so zu bauen.
Technisch bedingt bedeuten größere Caches ein Latenz und ggf. auch Bandbreitendefizit. Um so größer man also Caches baut, desto weniger gut eignen sich diese. -> ganz pauschal betrachtet. Um das zu umgehen verwendet man von außen gesehen, immer kleiner werdende Cachestufen, die dann aber immer schneller werden. Früher gabs halt nur den L1 Cache. Dann später kam L2, L3 und mit Broadwell der L4 Cache. Manche Produkte nutzten interne, andere externe Caches. Slot 1/A CPUs bspw. hatten externen Cache. Noch älter gab es mal Steckmodule fürs Board usw. Andere Produkte wie Knights Landing verwendete GB große Caches zwischen RAM und dem eigentlichen In-CPU Cache. Also genau das, was hier auch passieren soll...
AMD hat da in der Thematik aber keine wirklich gesondert zu erwähnenden Anteile. Dass sie 8x32MB mit Zen3 bzw. 8x2x16MB mit Zen2 in den Epycs verbauen hat auch dort klar technische Gründe. Jeder RAM Zugriff von einem Kern muss Bauart bedingt durch die Fabric. Ein CCD bei AMD ist zudem auch nicht in der Lage die volle Speicherbandbreite nutzen zu können. Kleine Caches bedeuten also mehr Zugriffe über die Fabric. Mehr Traffic in der Fabric = mehr Verbrauch. Und dazu noch hohe Latenzen und geringe Bandbreiten. Cache im CCD mildert diese Zugriffe ab. Man kann den Cache aber halt nicht bedingungslos vergrößern. Weil kostet Geld, da viel Waferfläche und wird auch immer langsamer. AMDs Lösung (die ist meiner Meinung nach klar erwähnenswert) ist das zu stacken. Sodass die Latenzen nicht schlechter werden zu "flat" Bauweise und dennoch mehr Daten rein gehen. Für ihr MCM Produkt ist das eine sau gute Lösung, weil dadurch noch weniger Zugriffe über die Fabric zum RAM passieren.
Um auf Intel zurück zu kommen - gleiches Thema in bunt. Obwohl man dort abwarten muss, was genau wie kommt. Sapphire Rapids soll vier Slices zu 15 Cores bekommen. Wie diese verschalten sind und mit welchen Bandbreiten ist atm noch offen. Entsprechend ist auch offen wo der HBM ansetzt/andockt und was er da bringt. Der Wink zu Broadwell passt halt technisch so gar nicht. Da völlig andere Anforderung. Broadwells L4 Cache sollte der IGP mehr Bandbreite bringen, da latenz und bandbreitenkritische Bilderzeugung eben durch den lahmen RAM ausgebremst wird. Hier mit den Xeons geht es aber um ne ganz andere Geschichte...