Neuer AI-Server

Ich denke nicht...
Soweit ich es verstanden habe bekommt jede GPU ihr eigenes Päckchen (die unterschiedlich sind).
Sonst könnte man ja die richtig großen Modelle gar nicht laufen lassen.
Ein llama3:405b/fp16 hat wuppige 812GB und wenn man den context hoch dreht eher 1.5TB !
Mein Ziel ist ein "flüssiges" llama3.3:70b-instruct-q6_K mit 64k context -> 89 GB (das modell hab ich mir schon gemacht, läuft hier aber momentan mit 0.6 tps, und das auf ner 4090 ;-)
Bedenke das es am besten im RAM laufen sollte, es wird sehr viel gelesen und geschrieben.
Wenn das über die SSD läuft ist die schnell im Arsch.
Wir haben llama3.2 deepseek-r1 codellama deepseek-coder-v2 und lassen das über CPUs auf einem Server im RAM laufen, für Antworten reicht das aus.
Zum Anlernen braucht man GPUs, aber der sollte komplett in den RAM Passen.
Beitrag automatisch zusammengeführt:

Kurze Frage:
Wieso laggt llama3.3 wesentlich mehr, als llama3.1, wenn ich es rein CPU-beschleunigt ausführen lasse?
Beide Modelle passen komplett in den Hauptspeicher.
Sind größere Modelle tatsächlich llahmer? (haha)

Allerdings habe ich nicht auf die NUMA-Konfig geachtet, es könnte also sein, dass einige der CPU-Kerne (20 vergeben) auf der anderen CPU laufen.
Haut das dann so stark rein?
llama3.3 (Warum ist der Himmel blau?):
Anhang anzeigen 1077661

llama3.1 (Warum ist der Himmel blau?):
Anhang anzeigen 1077662
Es sind mehr Daten die verarbeitet werden müssen.
Sind die Ergebnisse denn Besser?

Wir haben erst seit einem Monat die Modelle zum Spielen und zu den größeren noch keine Unterschiede gemerkt
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
@tonythebuilder:
Die M60 sind zwei GTX980 mit je 8 GB auf einer Karte.
Kann man als vGPU schön aufsplitten (oder auch nicht).
Das oder auch nicht deshalb, weil ich in der Docker-VM Immich laufen lassen hab und das braucht auch ne komplette GPU...
Das partitionieren fluppt wohl unter CUDA auch erst ab Pascal oder so, deshalb schau ich schon die ganze Zeit nach günstigen P100...

@tcg:
Danke für die Info, aber was kann man damit anfangen, der Text ist jedes mal unterschiedlich, sowas ist doch nicht vergleichbar?

Spaßhalber:
llama3.1 "Warum ist der Himmel blau?"
6900xtxh:
Anhang anzeigen 1072255

eine halbe M60:
Anhang anzeigen 1072267
(Hier hat die KI aber wesentlich mehr Text ausgespuckt!)

10 Kerne E5-2640v4:
Anhang anzeigen 1072284
Wie lässt du dir das Anzeigen?
 
--verbose an den ollama-Aufruf:
z.B.
Code:
./ollama run WizardLM-7B-uncensored.Q6 "Warum ist der Himmel blau?" --verbose
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh