Neuer AI-Server

Ich denke nicht...
Soweit ich es verstanden habe bekommt jede GPU ihr eigenes Päckchen (die unterschiedlich sind).
Sonst könnte man ja die richtig großen Modelle gar nicht laufen lassen.
Ein llama3:405b/fp16 hat wuppige 812GB und wenn man den context hoch dreht eher 1.5TB !
Mein Ziel ist ein "flüssiges" llama3.3:70b-instruct-q6_K mit 64k context -> 89 GB (das modell hab ich mir schon gemacht, läuft hier aber momentan mit 0.6 tps, und das auf ner 4090 ;-)
Bedenke das es am besten im RAM laufen sollte, es wird sehr viel gelesen und geschrieben.
Wenn das über die SSD läuft ist die schnell im Arsch.
Wir haben llama3.2 deepseek-r1 codellama deepseek-coder-v2 und lassen das über CPUs auf einem Server im RAM laufen, für Antworten reicht das aus.
Zum Anlernen braucht man GPUs, aber der sollte komplett in den RAM Passen.
Beitrag automatisch zusammengeführt:

Kurze Frage:
Wieso laggt llama3.3 wesentlich mehr, als llama3.1, wenn ich es rein CPU-beschleunigt ausführen lasse?
Beide Modelle passen komplett in den Hauptspeicher.
Sind größere Modelle tatsächlich llahmer? (haha)

Allerdings habe ich nicht auf die NUMA-Konfig geachtet, es könnte also sein, dass einige der CPU-Kerne (20 vergeben) auf der anderen CPU laufen.
Haut das dann so stark rein?
llama3.3 (Warum ist der Himmel blau?):
Anhang anzeigen 1077661

llama3.1 (Warum ist der Himmel blau?):
Anhang anzeigen 1077662
Es sind mehr Daten die verarbeitet werden müssen.
Sind die Ergebnisse denn Besser?

Wir haben erst seit einem Monat die Modelle zum Spielen und zu den größeren noch keine Unterschiede gemerkt
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
@tonythebuilder:
Die M60 sind zwei GTX980 mit je 8 GB auf einer Karte.
Kann man als vGPU schön aufsplitten (oder auch nicht).
Das oder auch nicht deshalb, weil ich in der Docker-VM Immich laufen lassen hab und das braucht auch ne komplette GPU...
Das partitionieren fluppt wohl unter CUDA auch erst ab Pascal oder so, deshalb schau ich schon die ganze Zeit nach günstigen P100...

@tcg:
Danke für die Info, aber was kann man damit anfangen, der Text ist jedes mal unterschiedlich, sowas ist doch nicht vergleichbar?

Spaßhalber:
llama3.1 "Warum ist der Himmel blau?"
6900xtxh:
Anhang anzeigen 1072255

eine halbe M60:
Anhang anzeigen 1072267
(Hier hat die KI aber wesentlich mehr Text ausgespuckt!)

10 Kerne E5-2640v4:
Anhang anzeigen 1072284
Wie lässt du dir das Anzeigen?
 
--verbose an den ollama-Aufruf:
z.B.
Code:
./ollama run WizardLM-7B-uncensored.Q6 "Warum ist der Himmel blau?" --verbose
 
Vor allem wie sich das Teil gegen Nvidia Digits schlägt...
Ja, das wird definitiv spannend, da auch beide maximal 128 GB "URAM" haben. Dürfte dann auch stehen und fallen mit der verfügbaren Software - zumindest für den ein oder anderen interessierten pro Leihen wie mich xD. Das schöne ist, Framework bietet die ITX Boards auch einzeln an.

Auch wenn beides für meine "stand jetzt" Dinge wohl oversized wären (aber ich dachte am Anfang auch, was will ich mit einem Smartphone, bis ich dann eines hatte und die praktischen Vorzüge für mich erkannte xD), steht und fällt es für mich dann auch bezüglich der "Einfachheit" der verfügbaren Software. Zum Blindkaufen, ist es dann doch zu teuer, und da ist x86 HW dann doch flexibler.

Allerdings bin und werde ich kein early adopter sein, daher wird sich da bestimmt noch einiges tun, bis es bei mir so weit ist. Zumal die ganzen Sachen eh erstmal generell auf dem Markt verfügbar sein müssen, was noch dazu kommt.
 
@flyingjoker LM-Studio zeigt es immer an.

Die frage dürfte eher sein, braucht ihr so viel RAM? Deine eine größere LLM heißt nicht unbedingt das sie besser ist. Ich habe bei mir Qwen 2.5 Coder 14B (7.93 GB) und Qwen 2.5 Coder 32B (17.36 GB). Das 32B Model (8 Token/s) ist gegen über dem 14B Model (30 Token/s) deutlich langsamer. Und ich lasse das in meiner 7900XT laufen. Rein auf der CPU über RAM, dürfte es noch langsamer werden. Welches der beiden Modelle besser, kann ich nicht sagen. Vielleicht sind meine Fragestellungen auch zu simpel.

Wobei man mit langsam, auch vorsichtig sein sollte. Denn bei 8 Token/s kann man ganz gut mit lesen, während die LLM den Text erstellt (in LM-Studio). Im Terminal/Browser kann das schon wieder etwas anders sein. Die persönlichen Vorlieben sollte man auch nicht vergessen.

Versteift auch auch nicht auf die 128 GB zu sehr. 64 GB Module sind absurd teuer. Es gibt im Moment ein CUDIMM für 185€, bei RDIMM geht es bei 312€ das Stück los. Die Module von Micron die ich in meinem Rechner habe waren zwischenzeitlich bei 400+ €, diese habe ich Mitte 2023 für 200€ das Stück erworben.
 
@flyingjoker LM-Studio zeigt es immer an.

Die frage dürfte eher sein, braucht ihr so viel RAM? Deine eine größere LLM heißt nicht unbedingt das sie besser ist. Ich habe bei mir Qwen 2.5 Coder 14B (7.93 GB) und Qwen 2.5 Coder 32B (17.36 GB). Das 32B Model (8 Token/s) ist gegen über dem 14B Model (30 Token/s) deutlich langsamer. Und ich lasse das in meiner 7900XT laufen. Rein auf der CPU über RAM, dürfte es noch langsamer werden. Welches der beiden Modelle besser, kann ich nicht sagen. Vielleicht sind meine Fragestellungen auch zu simpel.

Wobei man mit langsam, auch vorsichtig sein sollte. Denn bei 8 Token/s kann man ganz gut mit lesen, während die LLM den Text erstellt (in LM-Studio). Im Terminal/Browser kann das schon wieder etwas anders sein. Die persönlichen Vorlieben sollte man auch nicht vergessen.

Versteift auch auch nicht auf die 128 GB zu sehr. 64 GB Module sind absurd teuer. Es gibt im Moment ein CUDIMM für 185€, bei RDIMM geht es bei 312€ das Stück los. Die Module von Micron die ich in meinem Rechner habe waren zwischenzeitlich bei 400+ €, diese habe ich Mitte 2023 für 200€ das Stück erworben.
Wir lassen das auf einem HP Proliant Dl380 Gen 10 mit 512gb RAM laufen.
Mit einem AMD Epyc 2x 7443
Ist nicht optimal aber ausreichend.
 
oder einfach kurz warten, schon gibts ne neue LLM die viel besser ist und weniger RAM braucht...
ich hab mal qwq (32b) probiert, ist schon imposant !
 
Mich wundert, dass scheinbar noch niemand das Board aus dem initialen Post angesprochen hat.
Ich würde da nun 6 * 4060/ti/16gb drauf setzen, dann hab ich 96GB VRAM ;-)
Mainboardspezifikation:
- 6 x PCI Express 3.0 x16 Slots (PCIE1 at x16 / PCIE2~6 at x1)
Disqualifiziert sich das das Board nicht sofort aufgrund der schlechten Anbindung der 5 von 6 geplanten GPUs?
Bereits bei Gaming wird man bei einer Grafikkarte, die mit PCIe 3.0 und nur einer Lane angebunden ist erhebliche Leistungseinbußen erwarten können. Ich habe noch keine Erfahrungen mit Multi-GPU-Workloads zusammen mit AI, aber bereits bei Single-GPU Setups reagieren KI-Workloads noch empfindlicher auf die PCIe-Bandbreite, als es bei Gaming der Fall ist. Ich würde daher erwarten, dass bei Multi-GPU-Setups die Anforderungen an CPU<-->GPU Banbreite noch wichtiger ist, als bei nur einer GPU.
Für Mining war die Bandbreite völlig egal, daher sind solche Boards zum Mining in Ordnung. Für AI-Krams kann man die jedoch wohl kaum gebrauchen.
 
oder einfach kurz warten, schon gibts ne neue LLM die viel besser ist und weniger RAM braucht...
ich hab mal qwq (32b) probiert,
benötigt ja nur 24GB RAM bei Q4_K_M....

So günstige sparsame M2 module für LLMs gibts immer noch nicht oder?
 
benötigt ja nur 24GB RAM bei Q4_K_M....
Da reichen ja zwei 5070 Tis für :fresse2:

Jetzt muss ich die nur noch auf dem X11SPi-TF im Jonsbo N5 unterkriegen ;)
Beitrag automatisch zusammengeführt:

So günstige sparsame M2 module für LLMs gibts immer noch nicht oder?
Hängt von deiner Definition von günstig ab ^^. Die Dinger sind halt eher für den Embedded-Markt gedacht.

 
Zuletzt bearbeitet:
Interessant, läuft der mit Ollama?
Hatte schonmal danach gesucht, aber nach ca. ner Stunde nichts sinnvolles gefunden...
 
Hängt von deiner Definition von günstig ab ^^. Die Dinger sind halt eher für den Embedded-Markt gedacht.
Da steht in der Beschreibung:

Kann ich LLMs auf dem HAILO-8 ausführen, bpsw. LLAMA?​

LLMs = Large Language Modelle (so etwas wie ChatGPT / GPT4-o, bzw. LLAMA, Falcon, usw.)
Nein, dafür ist der HAILO-8 nicht ausgelegt. Grafikkarten auf denen diese LLMs typischerweise laufen haben schnellen direkt angebundenen Speicher. Der HAILO-8 hat unter anderem nicht genügend Speicher, um diese Modelle laden zu können.
HAILO hat ein zukünftiges Produkt, den HAILO-10 angekündigt. Dieser wird eine Speicherschnittstelle haben, und auch GenAI Anwendungen wie LLMs besser unterstützen.
Außerdem bietet das ding 26 Tops Int8
Da wird man mit reiner CPU power wohl nicht so weit davon entfernt sein oder?

Edit:
Was zum nachlesen.
Keypoint:
I really doubt we'll see any actual useful consumer grade custom LLM accelerators in the short term (3 years). I think when (LP)DDR6 comes out / is more available we might start seeing some since you don't need a huge memory bus for decent speeds. But at that point I'd assume the NPUs on CPUs (Intel, Amd, qualcomm) will be good enough that compute isn't such a huge bottleneck even for prompt processing...
Also ja... Vergessen wir das wieder...
Vielleicht wenns die neuen AMD APUs für günstig gibt...
 
Zuletzt bearbeitet:
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh