Neuer AI-Server

flyingjoker · 26.02.2025

tcg schrieb:
Ich denke nicht...
Soweit ich es verstanden habe bekommt jede GPU ihr eigenes Päckchen (die unterschiedlich sind).
Sonst könnte man ja die richtig großen Modelle gar nicht laufen lassen.
Ein llama3:405b/fp16 hat wuppige 812GB und wenn man den context hoch dreht eher 1.5TB !
Mein Ziel ist ein "flüssiges" llama3.3:70b-instruct-q6_K mit 64k context -> 89 GB (das modell hab ich mir schon gemacht, läuft hier aber momentan mit 0.6 tps, und das auf ner 4090 ;-)

Bedenke das es am besten im RAM laufen sollte, es wird sehr viel gelesen und geschrieben.
Wenn das über die SSD läuft ist die schnell im Arsch.
Wir haben llama3.2 deepseek-r1 codellama deepseek-coder-v2 und lassen das über CPUs auf einem Server im RAM laufen, für Antworten reicht das aus.
Zum Anlernen braucht man GPUs, aber der sollte komplett in den RAM Passen.

Beitrag automatisch zusammengeführt: 26.02.2025

Weltherrscher schrieb:
Kurze Frage:
Wieso laggt llama3.3 wesentlich mehr, als llama3.1, wenn ich es rein CPU-beschleunigt ausführen lasse?
Beide Modelle passen komplett in den Hauptspeicher.
Sind größere Modelle tatsächlich llahmer? (haha)

Allerdings habe ich nicht auf die NUMA-Konfig geachtet, es könnte also sein, dass einige der CPU-Kerne (20 vergeben) auf der anderen CPU laufen.
Haut das dann so stark rein?
llama3.3 (Warum ist der Himmel blau?):
Anhang anzeigen 1077661

llama3.1 (Warum ist der Himmel blau?):
Anhang anzeigen 1077662

Es sind mehr Daten die verarbeitet werden müssen.
Sind die Ergebnisse denn Besser?

Wir haben erst seit einem Monat die Modelle zum Spielen und zu den größeren noch keine Unterschiede gemerkt

flyingjoker · 26.02.2025

Weltherrscher schrieb:
@tonythebuilder:
Die M60 sind zwei GTX980 mit je 8 GB auf einer Karte.
Kann man als vGPU schön aufsplitten (oder auch nicht).
Das oder auch nicht deshalb, weil ich in der Docker-VM Immich laufen lassen hab und das braucht auch ne komplette GPU...
Das partitionieren fluppt wohl unter CUDA auch erst ab Pascal oder so, deshalb schau ich schon die ganze Zeit nach günstigen P100...

@tcg:
Danke für die Info, aber was kann man damit anfangen, der Text ist jedes mal unterschiedlich, sowas ist doch nicht vergleichbar?

Spaßhalber:
llama3.1 "Warum ist der Himmel blau?"
6900xtxh:
Anhang anzeigen 1072255

eine halbe M60:
Anhang anzeigen 1072267
(Hier hat die KI aber wesentlich mehr Text ausgespuckt!)

10 Kerne E5-2640v4:
Anhang anzeigen 1072284

Wie lässt du dir das Anzeigen?

Weltherrscher · 26.02.2025

--verbose an den ollama-Aufruf:
z.B.

Code:

./ollama run WizardLM-7B-uncensored.Q6 "Warum ist der Himmel blau?" --verbose

tcg · 04.03.2025

Luckysh0t schrieb:
Mini-PC mit Riesen-APU: Framework stellt den Desktop vor

Nach den einfach reparierbaren Notebooks kommt Frameworks erster Mini-PC. Der "Desktop" verwendet AMDs Ryzen AI Max 300.

www.heise.de

Das klingt doch schon mal viel versprechend ^^.

Da bin ich ja echt mal gespannt.
Vor allem wie sich das Teil gegen Nvidia Digits schlägt...

Luckysh0t · 04.03.2025

tcg schrieb:
Vor allem wie sich das Teil gegen Nvidia Digits schlägt...

Ja, das wird definitiv spannend, da auch beide maximal 128 GB "URAM" haben. Dürfte dann auch stehen und fallen mit der verfügbaren Software - zumindest für den ein oder anderen interessierten pro Leihen wie mich xD. Das schöne ist, Framework bietet die ITX Boards auch einzeln an.

Auch wenn beides für meine "stand jetzt" Dinge wohl oversized wären (aber ich dachte am Anfang auch, was will ich mit einem Smartphone, bis ich dann eines hatte und die praktischen Vorzüge für mich erkannte xD), steht und fällt es für mich dann auch bezüglich der "Einfachheit" der verfügbaren Software. Zum Blindkaufen, ist es dann doch zu teuer, und da ist x86 HW dann doch flexibler.

Allerdings bin und werde ich kein early adopter sein, daher wird sich da bestimmt noch einiges tun, bis es bei mir so weit ist. Zumal die ganzen Sachen eh erstmal generell auf dem Markt verfügbar sein müssen, was noch dazu kommt.

tonythebuilder · 10.03.2025

@flyingjoker LM-Studio zeigt es immer an.

Die frage dürfte eher sein, braucht ihr so viel RAM? Deine eine größere LLM heißt nicht unbedingt das sie besser ist. Ich habe bei mir Qwen 2.5 Coder 14B (7.93 GB) und Qwen 2.5 Coder 32B (17.36 GB). Das 32B Model (8 Token/s) ist gegen über dem 14B Model (30 Token/s) deutlich langsamer. Und ich lasse das in meiner 7900XT laufen. Rein auf der CPU über RAM, dürfte es noch langsamer werden. Welches der beiden Modelle besser, kann ich nicht sagen. Vielleicht sind meine Fragestellungen auch zu simpel.

Wobei man mit langsam, auch vorsichtig sein sollte. Denn bei 8 Token/s kann man ganz gut mit lesen, während die LLM den Text erstellt (in LM-Studio). Im Terminal/Browser kann das schon wieder etwas anders sein. Die persönlichen Vorlieben sollte man auch nicht vergessen.

Versteift auch auch nicht auf die 128 GB zu sehr. 64 GB Module sind absurd teuer. Es gibt im Moment ein CUDIMM für 185€, bei RDIMM geht es bei 312€ das Stück los. Die Module von Micron die ich in meinem Rechner habe waren zwischenzeitlich bei 400+ €, diese habe ich Mitte 2023 für 200€ das Stück erworben.

flyingjoker · 10.03.2025

tonythebuilder schrieb:
@flyingjoker LM-Studio zeigt es immer an.

Die frage dürfte eher sein, braucht ihr so viel RAM? Deine eine größere LLM heißt nicht unbedingt das sie besser ist. Ich habe bei mir Qwen 2.5 Coder 14B (7.93 GB) und Qwen 2.5 Coder 32B (17.36 GB). Das 32B Model (8 Token/s) ist gegen über dem 14B Model (30 Token/s) deutlich langsamer. Und ich lasse das in meiner 7900XT laufen. Rein auf der CPU über RAM, dürfte es noch langsamer werden. Welches der beiden Modelle besser, kann ich nicht sagen. Vielleicht sind meine Fragestellungen auch zu simpel.

Wobei man mit langsam, auch vorsichtig sein sollte. Denn bei 8 Token/s kann man ganz gut mit lesen, während die LLM den Text erstellt (in LM-Studio). Im Terminal/Browser kann das schon wieder etwas anders sein. Die persönlichen Vorlieben sollte man auch nicht vergessen.

Versteift auch auch nicht auf die 128 GB zu sehr. 64 GB Module sind absurd teuer. Es gibt im Moment ein CUDIMM für 185€, bei RDIMM geht es bei 312€ das Stück los. Die Module von Micron die ich in meinem Rechner habe waren zwischenzeitlich bei 400+ €, diese habe ich Mitte 2023 für 200€ das Stück erworben.

Wir lassen das auf einem HP Proliant Dl380 Gen 10 mit 512gb RAM laufen.
Mit einem AMD Epyc 2x 7443
Ist nicht optimal aber ausreichend.

tcg · 11.03.2025

oder einfach kurz warten, schon gibts ne neue LLM die viel besser ist und weniger RAM braucht...
ich hab mal qwq (32b) probiert, ist schon imposant !

DerPixel · 11.03.2025

Mich wundert, dass scheinbar noch niemand das Board aus dem initialen Post angesprochen hat.

tcg schrieb:
* Board: https://www.asrock.com/MB/Intel/H510 Pro BTC+/index.de.asp

tcg schrieb:
Ich würde da nun 6 * 4060/ti/16gb drauf setzen, dann hab ich 96GB VRAM ;-)

Mainboardspezifikation:

- 6 x PCI Express 3.0 x16 Slots (PCIE1 at x16 / PCIE2~6 at x1)

Disqualifiziert sich das das Board nicht sofort aufgrund der schlechten Anbindung der 5 von 6 geplanten GPUs?
Bereits bei Gaming wird man bei einer Grafikkarte, die mit PCIe 3.0 und nur einer Lane angebunden ist erhebliche Leistungseinbußen erwarten können. Ich habe noch keine Erfahrungen mit Multi-GPU-Workloads zusammen mit AI, aber bereits bei Single-GPU Setups reagieren KI-Workloads noch empfindlicher auf die PCIe-Bandbreite, als es bei Gaming der Fall ist. Ich würde daher erwarten, dass bei Multi-GPU-Setups die Anforderungen an CPU<-->GPU Banbreite noch wichtiger ist, als bei nur einer GPU.
Für Mining war die Bandbreite völlig egal, daher sind solche Boards zum Mining in Ordnung. Für AI-Krams kann man die jedoch wohl kaum gebrauchen.

Haldi · 11.03.2025

tcg schrieb:
oder einfach kurz warten, schon gibts ne neue LLM die viel besser ist und weniger RAM braucht...
ich hab mal qwq (32b) probiert,

benötigt ja nur 24GB RAM bei Q4_K_M....

So günstige sparsame M2 module für LLMs gibts immer noch nicht oder?

spyfly · 11.03.2025

Haldi schrieb:
benötigt ja nur 24GB RAM bei Q4_K_M....

Da reichen ja zwei 5070 Tis für :fresse2:

Jetzt muss ich die nur noch auf dem X11SPi-TF im Jonsbo N5 unterkriegen

Beitrag automatisch zusammengeführt: 11.03.2025

Haldi schrieb:
So günstige sparsame M2 module für LLMs gibts immer noch nicht oder?

Hängt von deiner Definition von günstig ab ^^. Die Dinger sind halt eher für den Embedded-Markt gedacht.

Hailo-8 M.2 module M Key 2280 (26 TOPS)

Hailo-8 ist ein moderner KI-Beschleunigerchip für Deep Neural Networks. Hailo-8 ist insbesondere für Vision-Anwendungen geeignet. Das ist die M.2 M-key 2280 Variante des Hailo-8 AI Processors. Zum Betrieb wird eine Host-CPU benötigt. Technische Daten HAILO-8 AI Accelerator bis zu 26 TOPS INT8...

buyzero.de

Weltherrscher · 11.03.2025

Interessant, läuft der mit Ollama?
Hatte schonmal danach gesucht, aber nach ca. ner Stunde nichts sinnvolles gefunden...

spyfly · 11.03.2025

Weltherrscher schrieb:
Interessant, läuft der mit Ollama?

Neh, das läuft nur auf NVIDIA, AMD oder Apple GPUs: https://github.com/ollama/ollama/blob/main/docs/gpu.md

Haldi · 11.03.2025

spyfly schrieb:
Hängt von deiner Definition von günstig ab ^^. Die Dinger sind halt eher für den Embedded-Markt gedacht.

Da steht in der Beschreibung:

Kann ich LLMs auf dem HAILO-8 ausführen, bpsw. LLAMA?
LLMs = Large Language Modelle (so etwas wie ChatGPT / GPT4-o, bzw. LLAMA, Falcon, usw.)
Nein, dafür ist der HAILO-8 nicht ausgelegt. Grafikkarten auf denen diese LLMs typischerweise laufen haben schnellen direkt angebundenen Speicher. Der HAILO-8 hat unter anderem nicht genügend Speicher, um diese Modelle laden zu können.
HAILO hat ein zukünftiges Produkt, den HAILO-10 angekündigt. Dieser wird eine Speicherschnittstelle haben, und auch GenAI Anwendungen wie LLMs besser unterstützen.

Außerdem bietet das ding 26 Tops Int8
Da wird man mit reiner CPU power wohl nicht so weit davon entfernt sein oder?

Edit:
Was zum nachlesen.

https://www.reddit.com/r/LocalLLaMA/comments/1f72yh9/hailo10h_estimated_launch_date/?show=original

Keypoint:

I really doubt we'll see any actual useful consumer grade custom LLM accelerators in the short term (3 years). I think when (LP)DDR6 comes out / is more available we might start seeing some since you don't need a huge memory bus for decent speeds. But at that point I'd assume the NPUs on CPUs (Intel, Amd, qualcomm) will be good enough that compute isn't such a huge bottleneck even for prompt processing...

Also ja... Vergessen wir das wieder...
Vielleicht wenns die neuen AMD APUs für günstig gibt...

tcg · 12.03.2025

Weltherrscher schrieb:
Interessant, läuft der mit Ollama?
Hatte schonmal danach gesucht, aber nach ca. ner Stunde nichts sinnvolles gefunden...

ollama run qwq
;-)

Beitrag automatisch zusammengeführt: 12.03.2025

Weltherrscher schrieb:
Interessant, läuft der mit Ollama?
Hatte schonmal danach gesucht, aber nach ca. ner Stunde nichts sinnvolles gefunden...

ah, oh, das meinst du... nein:

Kann ich LLMs auf dem HAILO-8 ausführen, bpsw. LLAMA?

LLMs = Large Language Modelle (so etwas wie ChatGPT / GPT4-o, bzw. LLAMA, Falcon, usw.)

Nein, dafür ist der HAILO-8 nicht ausgelegt. Grafikkarten auf denen diese LLMs typischerweise laufen haben schnellen direkt angebundenen Speicher. Der HAILO-8 hat unter anderem nicht genügend Speicher, um diese Modelle laden zu können.

Weltherrscher · 13.03.2025

Ja, leider, die CPU ist mir zu lahm und ich bin auf der Suche nach nem Beschleuniger, der normales RAM nutzen kann, weil ich nur 8 GB VRAM im Server hab...
RAM hab ich im (relativen) Überfluss...

tcg · 13.03.2025

ne GPU mit so-dimm slots, will ich auch ;-)

Weltherrscher · 13.03.2025

shut up and take my money! :fresse:

besterino · 13.03.2025

Fragt die doch mal: https://bolt.graphics/how-it-works/

Weltherrscher · 13.03.2025

Nur für Rendering, aber der Ansatz ist schon mal gut. =)

Haldi · 14.03.2025

Dann aber lieber so ne Frei programmierbare Karte von Jim Keller....

tcg · 14.03.2025

Hmm, mein Laptop hat so eine "NPU" eingebaut, seh ich im Taskmanager.
Kann man das Teil evtl. für LLMs benutzen ?
Die GPU is eine 780m, die wäre ja super, wird aber von ollama nicht unterstützt ("wegen rocm" oder so)...

tcg · 15.03.2025

Haldi schrieb:
Dann aber lieber so ne Frei programmierbare Karte von Jim Keller....

Die sind gar nicht mal so langsam... "Wormhole™ n300 performs at up to 466TFLOPS (FP8)."
(Zum Vergleich: 4090 = 661 FP8-TFLOPS)
Die Teile sind (fast) bezahlbar: n300d = <$1500 ;-)
Und die kann man wohl stacken ;-)

Haldi · 16.03.2025

Hardware Haven hat nen Video zum Ryzen AI 370 gemacht und festgestellt das OOB nur win11 NPU Support hat und so gut wie keine nützlichen Funktionen über die NPU laufen ^^

Also ich denke das Thema ist interessant zum rumspielen. Wird aber erst in 3-7 Jahren praktischen nutzen finden.
Abgesehen von spezialisierten Anwendungen wie zbsp Frigate, das ja via Google Coral bereits vor Jahren so lief.

Weltherrscher · 17.03.2025

tcg schrieb:
Die GPU is eine 780m, die wäre ja super, wird aber von ollama nicht unterstützt ("wegen rocm" oder so)...

Hö?
Meine 6900XTX läuft mit ROCm und Ollama prima unter Linux.

ollama/docs/linux.md at main · ollama/ollama

Get up and running with OpenAI gpt-oss, DeepSeek-R1, Gemma 3 and other models. - ollama/ollama

github.com

//Edith:
Schon mal damit probiert?

GitHub - ByronLeeeee/Ollama-For-AMD-Installer: This project simplifies the installation process of likelovewant's library, making it easier for users to manage and update their AMD GPU-compatible Ollama installations.

This project simplifies the installation process of likelovewant's library, making it easier for users to manage and update their AMD GPU-compatible Ollama installations. - ByronLeeeee/Ollama-F...

github.com

tcg · 17.03.2025

Ja, hab schon mehrere Versuche durch...
Bis auf ollama selbst compilieren.
Ich hoffe ja noch dass es irgendwann läuft.

Luckysh0t · 19.03.2025

DGX Spark und DGX Station: KI-Workstation für KI-Entwickler - Hardwareluxx

DGX Spark und DGX Station: KI-Workstation für KI-Entwickler.

www.hardwareluxx.de

Von der GTC erreichen uns die Preise für den DGX Spark. Mit einer 4-TB-SSD liegt der Preis bei 3.999 US-Dollar. Zusammen mit einem entsprechenden Verbindungskabel sollen zwei DGX Spark 8.049 US-Dollar kosten.

Der Framework Desktop mit Ryzen Ai Max+ 395 und 128 GB, ebenso 4 TB SSD und Noctua Kühler kommt auf 2788 €. Das einzelne MB 1979 € +x für das Lüfter Mounting Kit,

Da kommts dann echt auf die Feinheiten an - warum man entsprechend mehr/weniger ausgibt. Wenn Spark schon 4k kostet, dürfte die Station wohl bei min 8k-10k anfangen.

tcg · 20.03.2025

Luckysh0t schrieb:
min 8k-10k anfangen.

ich tippe eher auf 30-50k

Haldi · 20.03.2025

Und noch so einer der AI chips baut die nur für Compute Vision nützlich sind...

DEEPX, the Leading AI Chip-Maker Unveils Next-Level AI Chips

Explore the cutting-edge AI chips from DEEPX, redefining industry standards with unparalleled innovation in accuracy and power efficiency.

deepx.ai

tcg · 24.03.2025

hab mal gefragt, aber meine frau hat gesagt 50k sind gerade nicht drin :-(

Neuer AI-Server

Urgestein

Urgestein

Enthusiast

Enthusiast

Enthusiast

Experte

Urgestein

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Kann ich LLMs auf dem HAILO-8 ausführen, bpsw. LLAMA?​

Enthusiast

Kann ich LLMs auf dem HAILO-8 ausführen, bpsw. LLAMA?​

Enthusiast

Enthusiast

Enthusiast

Legende

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Ähnliche Themen

Kann ich LLMs auf dem HAILO-8 ausführen, bpsw. LLAMA?

Kann ich LLMs auf dem HAILO-8 ausführen, bpsw. LLAMA?