AI Verarbeitung DDR4 VS DDR5

Dark_angel

Legende
Thread Starter
Mitglied seit
10.01.2007
Beiträge
9.697
Ort
Hessen
Ich bin seit einiger Zeit dran, mich mit Thema AI zu befassen.

Ich hatte auch schon einige Erfolge mit Stable Diffusion.

Unter anderem auch selber Lora Modelle trainieren, was mit einer RTX4070 aber doch schon sehr lange dauert.

Ich hoffe das ich jetzt zum release eine RTX 5090 bekomme :-)

Und dazu stellt sich mir jetzt die Frage, wie wichtig bei der ganzen Geschichte die Bandbreite ist, kann es sein, dass dann die Bandbreite vom DDR4 (3200 Mhz) ein limitierender Faktor ist und die RTX 5090 nicht ihr ganzes Potenzial ausspielen kann.

Ich hatte bisher keine vergleiche dazu gefunden:confused:
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Falls sich dazu niemand mehr zu Wort meldet, im Startbeitrag sind mehrere Vergleichstests zwischen DDR4 und DDR5 verlinkt:


Dort wurde wahrscheinlich nicht mit exakt dein Anwendungsfall getestet, aber vielleicht lassen sich die Ergebnisse bestimmter Benchmarks darauf übertragen.
 
Naja, du musst halt selbst denken. Eine Graka mit PCIe 4.0x16 schafft 32 Gigabyte/s.... solang der RAM mehr schafft, ist das fein. PCIe 5.0x16 kann dann natürlich entsprechend mehr, wobei fraglich ist, ob der Einfluss in der Realität da ist.
Ich hab letztens versuchsweise SDXL text2img laufen lassen mit PCIe 4.0x4 und PCIe 4.0x16 auf ner 4070 Ti, es war kein Unterschied merkbar... wenn das Modell mal im VRAM ist, ist es dort.
Und beim Model-Switch ist ja die M.2 das Problem.

Einzig interessant wäre es, wenn man andere Modelle im RAM hält (Refiner, Upscaler), da ist natürlich möglich, dass die RAM-VRAM Verbindung ne ernsthafte Rolle spielt.
Ob sie das beim LoRa Erstellen tut, weiss ich nicht, hab mich damit noch nie beschäftigt.
Aber da du dich ja damit beschäftigst, wirst du diese Frage höchstwahrscheinlich beantworten können, wenn du das Thema selbst genauer betrachtest.

Betrachten wir mal einen nicht optimalen text2img workflow, wo du nach jeder Generation Modell wechselst um den Refiner zu laden.
Bei fiktiven 10 it/s einer 5090 brauchst du bei 30 Steps 3 Sekunden. Fürn 6 gb Model mit 2gb/s (realistische Ladgeschwindigkeit) nochmal 3s. In Summe 6s.
Wenn das Model aber im RAM läge, wären das sagen wir 20gb/s, also 0,3s... in Summe 3,3s.
Wenn RAM-VRAM aber statt 20gb/s nun 60gb/s wäre, wären das 0,1s... in Summe 3.1s....

Wichtig ist, dass das mit dem RAM-VRAM Wechsel auch wirklich funktioniert, ich hatte bisher nur a1111 und forge, mit comfy noch nix gemacht.
Ich hab beobachtet, dass beim Wechsel bzw. einer neuen Img-Gen oft eine gewisse "Gedenksekunde" stattfindet, mal mehr, mal weniger. Ob das Comfy auch macht, kein Plan. a1111 war schlimmer als forge.
Insofen ist 1 Bild mit 100 Steps schneller fertig als 5 Bilder mit 20 Steps.

Bei Benchmarks genau schauen, die meisten sind komplett für die Würste.
Es gibt z.B. text2img Benchmarks, wo sie CPUs (amd/intel) verglichen haben... allerdings nicht mit ner GPU als "Generator" und der CPU als "Zuarbeiter" (obs hier nen Unterschied gibt oder nicht), sondern offenbar mit der CPU selbst.. da kommt dann raus, dass dann eine CPU doppelt so gut ist, weil die eine 200s/it macht und die andere 400s/it... wo die GPU halt 0,05s/it (20it/s) macht...
Wobei die CPU wohl nicht ganz uninteressant ist: https://github.com/AUTOMATIC1111/stable-diffusion-webui/discussions/7070

PCIe 5.0 und DDR5 gehen ohnehin Hand-in-Hand, insofern kommt das beim Plattformwechsel von selbst.

tl,dr: Ich denke nicht, dass der RAM nen großen Unterschied macht, auch mit ner 5090 nicht.
 
Zuletzt bearbeitet:
Schön das noch einer so verrückt ist :-)

Also wenn ich nur einzelnen Bilder generiere, bin ich bei dir, da wird es keinen Unterschied machen, wenn ich aber Lora Dateien trainieren will oder sogar ein Base-Model, dann glaube ich, spielt der RAM mitunter eine Rolle, sicher bin ich mir natürlich nicht.

Es kommt dabei auch darauf an, wie viel Bilder du Trainieren willst, bei 4-10 Bilder, sollte das kein Problem sein, wenn ich aber 20-40 Bilder Trainiere, dann könnte es schon sein, zumal es da so viele Einstellungen gibt, die sich dann auch auf die Qualität auswirken.

Im Januar kam das Hunyuan Video, was man auch lokal betreiben kann und ich glaube spätestens dann wird der RAM eine Rolle spielen, sicher bin ich mir hier natürlich auch nicht. :-)

Hierbei gibt es Möglichkeiten, wenn der VRAM voll ist, im RAM überlaufen zu lassen.


Ich bin von der ganzen Sache so beeindruckt, dass ich wirklich gewillt bin mir die 5090 zu holen und wenn ich bereit bin 2400€-3000€ für eine 5090 auszugeben, dann kommt es glaube auch nicht mehr auf ein neues Board und RAM an :-)

Das ganze wächst so rasant, da müsste der Tag 48 Stunden haben um alles aufzunehmen.
 
Zuletzt bearbeitet:
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh