Neuer AI-Server

Ich denke nicht...
Soweit ich es verstanden habe bekommt jede GPU ihr eigenes Päckchen (die unterschiedlich sind).
Sonst könnte man ja die richtig großen Modelle gar nicht laufen lassen.
Ein llama3:405b/fp16 hat wuppige 812GB und wenn man den context hoch dreht eher 1.5TB !
Mein Ziel ist ein "flüssiges" llama3.3:70b-instruct-q6_K mit 64k context -> 89 GB (das modell hab ich mir schon gemacht, läuft hier aber momentan mit 0.6 tps, und das auf ner 4090 ;-)
Bedenke das es am besten im RAM laufen sollte, es wird sehr viel gelesen und geschrieben.
Wenn das über die SSD läuft ist die schnell im Arsch.
Wir haben llama3.2 deepseek-r1 codellama deepseek-coder-v2 und lassen das über CPUs auf einem Server im RAM laufen, für Antworten reicht das aus.
Zum Anlernen braucht man GPUs, aber der sollte komplett in den RAM Passen.
Beitrag automatisch zusammengeführt:

Kurze Frage:
Wieso laggt llama3.3 wesentlich mehr, als llama3.1, wenn ich es rein CPU-beschleunigt ausführen lasse?
Beide Modelle passen komplett in den Hauptspeicher.
Sind größere Modelle tatsächlich llahmer? (haha)

Allerdings habe ich nicht auf die NUMA-Konfig geachtet, es könnte also sein, dass einige der CPU-Kerne (20 vergeben) auf der anderen CPU laufen.
Haut das dann so stark rein?
llama3.3 (Warum ist der Himmel blau?):
Anhang anzeigen 1077661

llama3.1 (Warum ist der Himmel blau?):
Anhang anzeigen 1077662
Es sind mehr Daten die verarbeitet werden müssen.
Sind die Ergebnisse denn Besser?

Wir haben erst seit einem Monat die Modelle zum Spielen und zu den größeren noch keine Unterschiede gemerkt
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
@tonythebuilder:
Die M60 sind zwei GTX980 mit je 8 GB auf einer Karte.
Kann man als vGPU schön aufsplitten (oder auch nicht).
Das oder auch nicht deshalb, weil ich in der Docker-VM Immich laufen lassen hab und das braucht auch ne komplette GPU...
Das partitionieren fluppt wohl unter CUDA auch erst ab Pascal oder so, deshalb schau ich schon die ganze Zeit nach günstigen P100...

@tcg:
Danke für die Info, aber was kann man damit anfangen, der Text ist jedes mal unterschiedlich, sowas ist doch nicht vergleichbar?

Spaßhalber:
llama3.1 "Warum ist der Himmel blau?"
6900xtxh:
Anhang anzeigen 1072255

eine halbe M60:
Anhang anzeigen 1072267
(Hier hat die KI aber wesentlich mehr Text ausgespuckt!)

10 Kerne E5-2640v4:
Anhang anzeigen 1072284
Wie lässt du dir das Anzeigen?
 
--verbose an den ollama-Aufruf:
z.B.
Code:
./ollama run WizardLM-7B-uncensored.Q6 "Warum ist der Himmel blau?" --verbose
 
Vor allem wie sich das Teil gegen Nvidia Digits schlägt...
Ja, das wird definitiv spannend, da auch beide maximal 128 GB "URAM" haben. Dürfte dann auch stehen und fallen mit der verfügbaren Software - zumindest für den ein oder anderen interessierten pro Leihen wie mich xD. Das schöne ist, Framework bietet die ITX Boards auch einzeln an.

Auch wenn beides für meine "stand jetzt" Dinge wohl oversized wären (aber ich dachte am Anfang auch, was will ich mit einem Smartphone, bis ich dann eines hatte und die praktischen Vorzüge für mich erkannte xD), steht und fällt es für mich dann auch bezüglich der "Einfachheit" der verfügbaren Software. Zum Blindkaufen, ist es dann doch zu teuer, und da ist x86 HW dann doch flexibler.

Allerdings bin und werde ich kein early adopter sein, daher wird sich da bestimmt noch einiges tun, bis es bei mir so weit ist. Zumal die ganzen Sachen eh erstmal generell auf dem Markt verfügbar sein müssen, was noch dazu kommt.
 
@flyingjoker LM-Studio zeigt es immer an.

Die frage dürfte eher sein, braucht ihr so viel RAM? Deine eine größere LLM heißt nicht unbedingt das sie besser ist. Ich habe bei mir Qwen 2.5 Coder 14B (7.93 GB) und Qwen 2.5 Coder 32B (17.36 GB). Das 32B Model (8 Token/s) ist gegen über dem 14B Model (30 Token/s) deutlich langsamer. Und ich lasse das in meiner 7900XT laufen. Rein auf der CPU über RAM, dürfte es noch langsamer werden. Welches der beiden Modelle besser, kann ich nicht sagen. Vielleicht sind meine Fragestellungen auch zu simpel.

Wobei man mit langsam, auch vorsichtig sein sollte. Denn bei 8 Token/s kann man ganz gut mit lesen, während die LLM den Text erstellt (in LM-Studio). Im Terminal/Browser kann das schon wieder etwas anders sein. Die persönlichen Vorlieben sollte man auch nicht vergessen.

Versteift auch auch nicht auf die 128 GB zu sehr. 64 GB Module sind absurd teuer. Es gibt im Moment ein CUDIMM für 185€, bei RDIMM geht es bei 312€ das Stück los. Die Module von Micron die ich in meinem Rechner habe waren zwischenzeitlich bei 400+ €, diese habe ich Mitte 2023 für 200€ das Stück erworben.
 
@flyingjoker LM-Studio zeigt es immer an.

Die frage dürfte eher sein, braucht ihr so viel RAM? Deine eine größere LLM heißt nicht unbedingt das sie besser ist. Ich habe bei mir Qwen 2.5 Coder 14B (7.93 GB) und Qwen 2.5 Coder 32B (17.36 GB). Das 32B Model (8 Token/s) ist gegen über dem 14B Model (30 Token/s) deutlich langsamer. Und ich lasse das in meiner 7900XT laufen. Rein auf der CPU über RAM, dürfte es noch langsamer werden. Welches der beiden Modelle besser, kann ich nicht sagen. Vielleicht sind meine Fragestellungen auch zu simpel.

Wobei man mit langsam, auch vorsichtig sein sollte. Denn bei 8 Token/s kann man ganz gut mit lesen, während die LLM den Text erstellt (in LM-Studio). Im Terminal/Browser kann das schon wieder etwas anders sein. Die persönlichen Vorlieben sollte man auch nicht vergessen.

Versteift auch auch nicht auf die 128 GB zu sehr. 64 GB Module sind absurd teuer. Es gibt im Moment ein CUDIMM für 185€, bei RDIMM geht es bei 312€ das Stück los. Die Module von Micron die ich in meinem Rechner habe waren zwischenzeitlich bei 400+ €, diese habe ich Mitte 2023 für 200€ das Stück erworben.
Wir lassen das auf einem HP Proliant Dl380 Gen 10 mit 512gb RAM laufen.
Mit einem AMD Epyc 2x 7443
Ist nicht optimal aber ausreichend.
 
oder einfach kurz warten, schon gibts ne neue LLM die viel besser ist und weniger RAM braucht...
ich hab mal qwq (32b) probiert, ist schon imposant !
 
Mich wundert, dass scheinbar noch niemand das Board aus dem initialen Post angesprochen hat.
Ich würde da nun 6 * 4060/ti/16gb drauf setzen, dann hab ich 96GB VRAM ;-)
Mainboardspezifikation:
- 6 x PCI Express 3.0 x16 Slots (PCIE1 at x16 / PCIE2~6 at x1)
Disqualifiziert sich das das Board nicht sofort aufgrund der schlechten Anbindung der 5 von 6 geplanten GPUs?
Bereits bei Gaming wird man bei einer Grafikkarte, die mit PCIe 3.0 und nur einer Lane angebunden ist erhebliche Leistungseinbußen erwarten können. Ich habe noch keine Erfahrungen mit Multi-GPU-Workloads zusammen mit AI, aber bereits bei Single-GPU Setups reagieren KI-Workloads noch empfindlicher auf die PCIe-Bandbreite, als es bei Gaming der Fall ist. Ich würde daher erwarten, dass bei Multi-GPU-Setups die Anforderungen an CPU<-->GPU Banbreite noch wichtiger ist, als bei nur einer GPU.
Für Mining war die Bandbreite völlig egal, daher sind solche Boards zum Mining in Ordnung. Für AI-Krams kann man die jedoch wohl kaum gebrauchen.
 
oder einfach kurz warten, schon gibts ne neue LLM die viel besser ist und weniger RAM braucht...
ich hab mal qwq (32b) probiert,
benötigt ja nur 24GB RAM bei Q4_K_M....

So günstige sparsame M2 module für LLMs gibts immer noch nicht oder?
 
benötigt ja nur 24GB RAM bei Q4_K_M....
Da reichen ja zwei 5070 Tis für :fresse2:

Jetzt muss ich die nur noch auf dem X11SPi-TF im Jonsbo N5 unterkriegen ;)
Beitrag automatisch zusammengeführt:

So günstige sparsame M2 module für LLMs gibts immer noch nicht oder?
Hängt von deiner Definition von günstig ab ^^. Die Dinger sind halt eher für den Embedded-Markt gedacht.

 
Zuletzt bearbeitet:
Interessant, läuft der mit Ollama?
Hatte schonmal danach gesucht, aber nach ca. ner Stunde nichts sinnvolles gefunden...
 
Hängt von deiner Definition von günstig ab ^^. Die Dinger sind halt eher für den Embedded-Markt gedacht.
Da steht in der Beschreibung:

Kann ich LLMs auf dem HAILO-8 ausführen, bpsw. LLAMA?​

LLMs = Large Language Modelle (so etwas wie ChatGPT / GPT4-o, bzw. LLAMA, Falcon, usw.)
Nein, dafür ist der HAILO-8 nicht ausgelegt. Grafikkarten auf denen diese LLMs typischerweise laufen haben schnellen direkt angebundenen Speicher. Der HAILO-8 hat unter anderem nicht genügend Speicher, um diese Modelle laden zu können.
HAILO hat ein zukünftiges Produkt, den HAILO-10 angekündigt. Dieser wird eine Speicherschnittstelle haben, und auch GenAI Anwendungen wie LLMs besser unterstützen.
Außerdem bietet das ding 26 Tops Int8
Da wird man mit reiner CPU power wohl nicht so weit davon entfernt sein oder?

Edit:
Was zum nachlesen.
Keypoint:
I really doubt we'll see any actual useful consumer grade custom LLM accelerators in the short term (3 years). I think when (LP)DDR6 comes out / is more available we might start seeing some since you don't need a huge memory bus for decent speeds. But at that point I'd assume the NPUs on CPUs (Intel, Amd, qualcomm) will be good enough that compute isn't such a huge bottleneck even for prompt processing...
Also ja... Vergessen wir das wieder...
Vielleicht wenns die neuen AMD APUs für günstig gibt...
 
Zuletzt bearbeitet:
Interessant, läuft der mit Ollama?
Hatte schonmal danach gesucht, aber nach ca. ner Stunde nichts sinnvolles gefunden...
ollama run qwq
;-)
Beitrag automatisch zusammengeführt:

Interessant, läuft der mit Ollama?
Hatte schonmal danach gesucht, aber nach ca. ner Stunde nichts sinnvolles gefunden...
ah, oh, das meinst du... nein:

Kann ich LLMs auf dem HAILO-8 ausführen, bpsw. LLAMA?​

LLMs = Large Language Modelle (so etwas wie ChatGPT / GPT4-o, bzw. LLAMA, Falcon, usw.)

Nein, dafür ist der HAILO-8 nicht ausgelegt. Grafikkarten auf denen diese LLMs typischerweise laufen haben schnellen direkt angebundenen Speicher. Der HAILO-8 hat unter anderem nicht genügend Speicher, um diese Modelle laden zu können.
 
Ja, leider, die CPU ist mir zu lahm und ich bin auf der Suche nach nem Beschleuniger, der normales RAM nutzen kann, weil ich nur 8 GB VRAM im Server hab...
RAM hab ich im (relativen) Überfluss...
 
Hmm, mein Laptop hat so eine "NPU" eingebaut, seh ich im Taskmanager.
Kann man das Teil evtl. für LLMs benutzen ?
Die GPU is eine 780m, die wäre ja super, wird aber von ollama nicht unterstützt ("wegen rocm" oder so)...
 
Hardware Haven hat nen Video zum Ryzen AI 370 gemacht und festgestellt das OOB nur win11 NPU Support hat und so gut wie keine nützlichen Funktionen über die NPU laufen ^^

Also ich denke das Thema ist interessant zum rumspielen. Wird aber erst in 3-7 Jahren praktischen nutzen finden.
Abgesehen von spezialisierten Anwendungen wie zbsp Frigate, das ja via Google Coral bereits vor Jahren so lief.
 
Die GPU is eine 780m, die wäre ja super, wird aber von ollama nicht unterstützt ("wegen rocm" oder so)...
Hö?
Meine 6900XTX läuft mit ROCm und Ollama prima unter Linux.

//Edith:
Schon mal damit probiert?
 
Ja, hab schon mehrere Versuche durch...
Bis auf ollama selbst compilieren.
Ich hoffe ja noch dass es irgendwann läuft.
 

Von der GTC erreichen uns die Preise für den DGX Spark. Mit einer 4-TB-SSD liegt der Preis bei 3.999 US-Dollar. Zusammen mit einem entsprechenden Verbindungskabel sollen zwei DGX Spark 8.049 US-Dollar kosten.

Der Framework Desktop mit Ryzen Ai Max+ 395 und 128 GB, ebenso 4 TB SSD und Noctua Kühler kommt auf 2788 €. Das einzelne MB 1979 € +x für das Lüfter Mounting Kit,

Da kommts dann echt auf die Feinheiten an - warum man entsprechend mehr/weniger ausgibt. Wenn Spark schon 4k kostet, dürfte die Station wohl bei min 8k-10k anfangen.
 
hab mal gefragt, aber meine frau hat gesagt 50k sind gerade nicht drin :-(
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh