Da verstehst du etwas grundlegend falsch.
Erstmal zu den Namenskonventionen entsprechend IEEE:
einfache Genauigkeit = 32-bit (1-bit Vorzeichen, 23-bit Mantisse, 8-bit Exponent)
doppelte Genauigkeit = 64-bit (1-bit Vorzeichen, 52-bit Mantisse, 11-bit Exponent)
Als nächstes musst du unterscheiden zwischen der Bitbreite von Operanden und der Bitbreite eines Datenvektors, wo mehrere Operanden parallel untergebracht werden können. Bei einem solchen Datenvektor, auf den dann eine Operation angewendet wird, spricht man auch von SIMD. Bei mehreren Operationen spricht man von MIMD.
Was also haben die Bit-Angaben bei x86 CPUs zu sagen? Die erste x86 CPU war ein reiner Ganzzahlprozessor. Dieser wurde später durch einen Coprozessor für Gleitkommaberechnungen erweitert, x87. Diese FPU existiert bis heute und kann einzelne Gleitkommawerte von bis zu 80-bit verarbeiten. IEEE spricht hier von erweiterter doppelter Genauigkeit.
Irgendwann wurde dann die SSE Pipeline eingeführt, die mit x87 nichts mehr zu tun hat. Ein SSE Register (XMM) ist 128-bit breit. Unterstützt werden aber lediglich Operationen mit einfacher und doppelter Genauigkeit. Du kannst also pro SSE Register 2 Gleitkommawerte mit doppelter Genauigkeit oder 4 Gleitkommawerte mit einfacher Genauigkeit unterbringen, die du dann einer SSE Instruktion übergibst.
In Zukunft wird mit AVX eine 256-bit Pipeline zur Verfügung stehen. Auch hier werden lediglich Operationen mit einfacher Genauigkeit und doppelter Genauigkeit unterstützt. Du kannst pro AVX Register (YMM) jedoch doppelt so viele Gleitkommawerte wie bei SSE unterbringen.
Also nochmal zusammenfassend:
x87 = 80-bit SISD Pipeline (Genauigkeit der Operationen: 32-bit, 64-bit und 80-bit)
SSE = 128-bit SIMD Pipeline (Genauigkeit der Operationen: 32-bit und 64-bit)
AVX = 256-bit SIMD/MIMD Pipeline (Genauigkeit der Operationen: 32-bit und 64-bit)
Darüber hinaus ist ein weiterer Aspekt, wie eine Mikroarchitektur die x86 ISA diesbezüglich implementiert. K8 und Core/Pentium-M haben zwar SSE unterstützt, hatten dafür aber lediglich eine 64-bit FPU zur Verfügung. Die 128-bit Datenpakete einer SSE Instruktion mussten dann unter Umständen auf zwei Takte verteilt werden. K10 und Core 2 hatten dann hardwareseitig volle 128-bit Unterstützung, um SSE Instruktionen in einem Takt verarbeiten zu können. Bulldozer wird zwei 128-bit FMACs pro Modul besitzen. Hier können AVX Instruktion ebenfalls in einem Takt verarbeitet werden. Bei Sandy Bridge ist es noch unklar. Nach bisherigen Spekulationen schaut es so aus, dass Sandy Bridge pro Kern weiterhin lediglich über eine 128-bit FPU verfügen wird, wie das eben schon beim Core 2 der Fall war. Mittels Double Pumping würden aber dennoch zwei 128-bit Datenpakete pro Takt verarbeitet werden können, um eine AVX Instruktion fertigzustellen.