flyingjoker
Urgestein
Bedenke das es am besten im RAM laufen sollte, es wird sehr viel gelesen und geschrieben.Ich denke nicht...
Soweit ich es verstanden habe bekommt jede GPU ihr eigenes Päckchen (die unterschiedlich sind).
Sonst könnte man ja die richtig großen Modelle gar nicht laufen lassen.
Ein llama3:405b/fp16 hat wuppige 812GB und wenn man den context hoch dreht eher 1.5TB !
Mein Ziel ist ein "flüssiges" llama3.3:70b-instruct-q6_K mit 64k context -> 89 GB (das modell hab ich mir schon gemacht, läuft hier aber momentan mit 0.6 tps, und das auf ner 4090 ;-)
Wenn das über die SSD läuft ist die schnell im Arsch.
Wir haben llama3.2 deepseek-r1 codellama deepseek-coder-v2 und lassen das über CPUs auf einem Server im RAM laufen, für Antworten reicht das aus.
Zum Anlernen braucht man GPUs, aber der sollte komplett in den RAM Passen.
Beitrag automatisch zusammengeführt:
Es sind mehr Daten die verarbeitet werden müssen.Kurze Frage:
Wieso laggt llama3.3 wesentlich mehr, als llama3.1, wenn ich es rein CPU-beschleunigt ausführen lasse?
Beide Modelle passen komplett in den Hauptspeicher.
Sind größere Modelle tatsächlich llahmer? (haha)
Allerdings habe ich nicht auf die NUMA-Konfig geachtet, es könnte also sein, dass einige der CPU-Kerne (20 vergeben) auf der anderen CPU laufen.
Haut das dann so stark rein?
llama3.3 (Warum ist der Himmel blau?):
Anhang anzeigen 1077661
llama3.1 (Warum ist der Himmel blau?):
Anhang anzeigen 1077662
Sind die Ergebnisse denn Besser?
Wir haben erst seit einem Monat die Modelle zum Spielen und zu den größeren noch keine Unterschiede gemerkt