Neuer AI-Server

tcg · 29.12.2024

ein paar esp32 hab ich hier noch liegen... hmmm...

sashXP schrieb:
Hast Du über einen Mac Mini m4 - ggf. als Cluster - nachgedacht?

schon mal ganz grob, aber noch nicht im detail.
kann der m4 seinen ganzen ram als vram nehmen, also wäre der m4 / 64gb fähig llama3.3:70b komplett auf gpu laufen zu lassen ?

momentan sieht es so aus als könnte ich (wohl aber nicht mit ollama sondern llama.cpp direkt) auf den 10 billigen gpus ~4090 performance aber mit 60gb vram hinbekommen.
eine einzelne P106-90 ist ca. 10%-12% 4090 laut ersten tests hier, also evtl noch schneller ;-)
bin noch am basteln, mal schauen wieviel zeit ich erübrigen kann.
dann hätte ich eine recht günstige und fast brauchbare lösung...
(der server hat 135€ gekostet, die gpus 210€, ok, wir sind im luxx, ich steck nochmal ram rein, server-ecc-ram ist günstig: 2*64gb ~100€)

er ist wohl deutlich lauter wie ein m4, ist halt nen server mit 3*1600W netzteilen für 10 gpus :-(
und er darf nur tagsüber laufen wenn die sonne genug aufs dach scheint, idle=120W ;-)

tcg · 30.12.2024

Haha, 4090-performance ist weit weg.

1*4090 @ desktop:
> ollama run llama3.3:70b "why is the sky blue ?" --verbose
-> 1.67 tokens/s
"ollama ps" says: 51%/49% CPU/GPU
> ollama run llama3.2:3b "why is the sky blue ?" --verbose
-> 200-225 tokens/s

10*P106-90 @ server:
> ./llama-cli -m Llama-3.3-70B-Instruct-Q4_K_M.gguf -p "why is the sky blue?" -ngl 1000
-> 1.45 tokens per second
> ./llama-cli -m llama-3.2-3b-instruct-q8_0.gguf -p "why is the sky blue?" -ngl 1000
-> ~20 tokens per second

Der Server braucht während dem Arbeiten <450w.

Luckysh0t · 31.12.2024

Haldi schrieb:
sieht auch sehr cool aus.
Für 80$ zwar teuer. Aber mit allem drum und dran doch recht bequem.
Hardware alleine alles zusammen kostet sicher 30-40$ und dann hat man probleme das alles korrekte zum laufen zu bekommen.

Ich denke auch, dass das schon ein recht faires Angebot ist, wenn man bedenkt, was bei den etablierten Herstellern so manche Sensoren kosten, die dann auch weniger können - freilich inklusive eigenem garantiert funktionierendem Ökosystem.
Aber die sind ja direkt für HA gebaut/programmiert, ich werde mir wohl einen zum Testen bestellen und dann ggf nach und nach alle meine Zigbee Hue Sensoren austauschen, auch wenn ich es an sich ganz gut finde, dass meine Beleuchtung auch autark von HA funktioniert.

Luckysh0t · 07.01.2025

Project Digits mit GB10: Nvidias erster Schritt auf dem Weg zu eigenen Desktop-PCs

Nvidia hat mit Project Digits einen Mini-AI-PC im NUC-Format vorgestellt, der auf den geschrumpften Grace-Blackwell-Superchip G10 setzt.

www.computerbase.de

AMD Strix Halo: Ryzen AI Max mit bis zu 16 Kernen, 40 CUs und 256 GB/s

AMDs „Monster-APU“ Strix Halo ist offiziell: Vier verschiedene Varianten gehen als Ryzen AI Max(+) 300 an den Start.

www.computerbase.de

Muss man zwar abwarten, was die so können, und es einem wie bei so vielem auch Wert sein, aber mir scheint es kommt ganz gut zu Bewegung in den "bezahlbaren" Bereich für der KI tauglichen Systemen.

Lobsi79 · 08.01.2025

Luckysh0t schrieb:
Muss man zwar abwarten, was die so können, und es einem wie bei so vielem auch Wert sein, aber mir scheint es kommt ganz gut zu Bewegung in den "bezahlbaren" Bereich für der KI tauglichen Systemen.

Sehe ich genauso 👍
Ich hoffe ja ggf. auf eine Strix Halo Plattform die als Ersatz für meinen mittlerweile betagten Homeserver taugt.
Im Idealfall kann man die NPU an eine VM durchreichen auf der Home Assistent mit LLM läuft. Ebenfalls dürfte genug "Dampf" vorhanden sein um nebenbei bisschen Docker\LXC und 2-3 VMs laufen zu lassen.

In hoffnungsvoller Erwartung

Lobsi

Luckysh0t · 08.01.2025

Lobsi79 schrieb:
Im Idealfall kann man die NPU an eine VM durchreichen auf der Home Assistent mit LLM läuft

So ähnlich auch mein Gedanke, allerdings als bare metal "KI Server", so kann abseits von meinem HA auch anderes zum "testen/spielen" direkt darauf laufen/zugreifen. Aber erstmal müssen die Sachen erscheinen ^^

Luckysh0t · 09.01.2025

Lobsi79 schrieb:
Ich hoffe ja ggf. auf eine Strix Halo Plattform die als Ersatz für meinen mittlerweile betagten Homeserver taugt.

Minisforum N5 Pro NAS Revealed

Minisforum N5 Pro NAS - Is it too Early for NAS of the Year? With so many mini PC brands trying to break their way into the network-attached storage NAS market, it takes a lot for any one of them to really stand out against the established players in the private server solutions market. However, on

nascompares.com

Ist zwar "nur" Strix Point, aber an sich… Nicht schlecht ^^

Lobsi79 · 09.01.2025

Luckysh0t schrieb:
Minisforum N5 Pro NAS Revealed

Minisforum N5 Pro NAS - Is it too Early for NAS of the Year? With so many mini PC brands trying to break their way into the network-attached storage NAS market, it takes a lot for any one of them to really stand out against the established players in the private server solutions market. However, on

nascompares.com

Ganz genau sowas meine ich, danke @Luckysh0t für den Link!

Wenn es sowas mal von Asrock, Supermicro & co. als Mainboard, meinetwegen auch mit aufgelöteter APU gäbe, wäre das ein "STFU and take my $" Moment!

Ich meine wie schön wäre es, sowas in einem Intertech 3U 19" Gehäuse ins Kellerrack zu stellen 😍

Haldi · 09.01.2025

Woot.
Was ist denn das für ein Geiles Ding.

Details surrounding launch price and indeed launch dates are still incredibly nebulous,

ich tippe mal so auf 800-1200$
Eher oben...

Andiii · 30.01.2025

Habt ihr eine Idee warum das N5 Pro minisforum NAS im M.2 2280 Slot nur max. 4TB unterstützen sollte?

Haldi · 31.01.2025

Weil es bei erstellen des Datenblattes nur 4TB M2 SSDs gab.

Weltherrscher · 31.01.2025

So, ollama (llama3.1, llava & deepseek r1) läuft in der vm mit einer halben M60 (8 GB).
Fazit:
Brauch mehr VRAM... :wall:

Lustigerweise läufts auf meiner 6900xtxh wesentlich schneller und besser, aber dafür halt nur lokal.
Frage dazu:
Weiß jemand, wie man einer lokalen ollama-Installation bei bringt, Bilder zu betrachten?
das Modell motzt mich nur voll, dass es "aus Sicherheitsgründen" nicht auf lokale Dateien zugreifen darf.
Mit OpenWebUI geht das beim llava-Modell im Keller prima, einfach Datei senden und fluppt.

tonythebuilder · 31.01.2025

Was für Software nutzt ihr um euere LLMs laufen zu lassen?
Ich selbst nutze LM Studio in einer Linux Mint VM. Mit 16 C/T (es werden aber nur 6 genutzt) und 64 GB RAM. Keine GPU und ich komme je nach LLM und frage auf 5 bis 30+ Tokens die Sekunde. Interessant ist die Time to first token. Da habe ich Zeiten von 0.09 bis 178 Sekunden.

tcg · 31.01.2025

tonythebuilder schrieb:
Was für Software nutzt ihr um euere LLMs laufen zu lassen?

ollama

Weltherrscher schrieb:
Weiß jemand, wie man einer lokalen ollama-Installation bei bringt, Bilder zu betrachten?

Weltherrscher · 31.01.2025

Ja, aber...
Nein.
Ich bin soo dumm.
das JPG hat die Endung JPG (groß geschrieben) und ich Depp hab im Prompt alles klein geschrieben.
Shize Ext4! :wall:

//Edith:
Fluppt:

//Edith2:
@tonythebuilder:
Debian VM auf ProxMox mit ollama, open webui und ner halben M60 im nvidia22-Profil als vGPU durchgereicht.
Die VM hat 32 GB, 10 Kerne, die vGPU 8 GB VRAM.

tcg · 03.02.2025

Du kannst mal "https://ollama.com/library/llama3.2-vision" statt llava versuchen, das erkennt/beschreibt Bilder etwas besser...

tonythebuilder · 03.02.2025

@Weltherrscher ist eine Tesla M60 noch so gut? Ich denke schon eine Zeit lang über eine RTX A nach aber mehr für VDI für meine VMs. Nur wirds halt sehr schnell teuer egal ob man bei Nvidia oder AMD guckt.

Weltherrscher · 03.02.2025

Keine Ahnung was du mit "gut" meinst, es gibt schon einen Verzug ggü. ner 6900xtxh (ist ja nur ne Server-GTX980), aber das kann ich in der VM verschmerzen.
Kann ich das irgendwie benchen?

//Edith:
Die KI, die blöde F...!

Das llama3.2-vision ist in der Tat besser.

tcg · 04.02.2025

benchen ist mit ollama recht einfach.
ollama run <model> "<prompt>" --verbose
verbose zeigt am ende eine zusammenfassung

Beitrag automatisch zusammengeführt: 04.02.2025

tonythebuilder schrieb:
VDI für meine VMs

Da hätte ich eine M10 für dich... bis zu 64 User (habs aber noch nicht probiert).
Incl. gedrucktem "Lüfterpaket".

tonythebuilder · 04.02.2025

@Weltherrscher nun ja, wenn ich mir so dein Profilbild ansehe. Wäre das ein oder andere Kilo weniger, auch ganz gut.

Spaß bei Seite. In LM-Studio wird es immer angezeigt.

Der Befehl von @tcg funktioniert:

M10 hmm... 1 Jahr jünger als eine M60. Etwas Leistungsstärke als meine RX570 ITX 4GB. Bring mich nicht in Versuchung. Denn mit zwei GPUs im System habe ich keine gute Erfahrung gemacht. Denn die RX570 wollte mal RX7900 XT spielen. Habe ich erst mitbekommen als der Lüfter um sein Leben schrie. Beim Ausbau, nach dem sofortigen Herunterfahren, war die Slotblende immer noch so bei 60°C.

ZelA1874 · 04.02.2025

Ich verwende keine GPU, lass das alles über den I5 laufen mit aktuell 96GB DDR5 5600.

Wenn man keinen Stress hat geht das 1A, mit z.b. Mixtral 8x22b Q4 K M oder Deepseek R1 70B Q8

Sollte aber "Low Budget" sein um günstig zu erweitern, bei Bedarf gibts um 200€ nochmal 96GB RAM.

Weltherrscher · 04.02.2025

@tonythebuilder:
Die M60 sind zwei GTX980 mit je 8 GB auf einer Karte.
Kann man als vGPU schön aufsplitten (oder auch nicht).
Das oder auch nicht deshalb, weil ich in der Docker-VM Immich laufen lassen hab und das braucht auch ne komplette GPU...
Das partitionieren fluppt wohl unter CUDA auch erst ab Pascal oder so, deshalb schau ich schon die ganze Zeit nach günstigen P100...

@tcg:
Danke für die Info, aber was kann man damit anfangen, der Text ist jedes mal unterschiedlich, sowas ist doch nicht vergleichbar?

Spaßhalber:
llama3.1 "Warum ist der Himmel blau?"
6900xtxh:

eine halbe M60:

(Hier hat die KI aber wesentlich mehr Text ausgespuckt!)

10 Kerne E5-2640v4:

tcg · 05.02.2025

etwas besser vergleichbar wird es wenn du die "temperatur" auf 0 setzt und am besten den "seed" auch. Dann sollte immer das gleiche raus kommen.
(wie auch immer das per cmdline geht).

Aber mit curl sollte das gehen, z.b.:
curl http://localhost:11434/api/generate -d '{
"model": "llama3.1",
"prompt": "def compute_gcd(a, b):",
"suffix": " return result",
"options": {
"temperature": 0
},
"stream": false
}'
Aber mit curl gibts kein "--verbose"...
(https://github.com/ollama/ollama/blob/main/docs/api.md)

fyi,
M10, das sind 4 GPUs mit je 8GB auf einer Platine.
Ich mach dir nen gutes Angebot ;-)
Die Karten liegen hier rum und langweilen sich nur...

fyi2 (rtx4090):
ollama run llama3.1 "warum ist der himmel blau?" --verbose

ollama run llama3.2:3b "warum ist der himmel blau?" --verbose

ollama run deepseek-r1:70b "warum ist der himmel blau?" --verbose

Weltherrscher · 05.02.2025

Hmm, mal probieren, in openwebui kann man sich auch die tokens/s anzeigen lassen, mal sehen, wie ich da mit dem seed rumspielen kann.
Die 200 Tps in llama3.2 sind schon krass, ist das so viel besser, obwohl kleiner?

Zum Angebot:
Danke, aber nein, denn das Problem an Maxwell ist
a) jede GPU zieht 28 W im Leerlauf(!) und
b) CUDA lässt keine Partitionierung zu.

Deshalb bin ich auf der Suche nach P100ern. =)

tcg · 05.02.2025

llama3.2 ist etwas komisch.
das 3b modell ist wesentlich schneller als 1b.
leider ist 70b nicht schneller als 3b ;-)

tonythebuilder · 07.02.2025

Das große Modelle nicht ganz so gut sind wie kleine durfte ich auch schon lernen. Habe oft in LM-Studio, dass Problem so große Modelle zu laden. Vom Speicherplatz mal abgesehen.

Der Verbrauch ist mir so ziemlich egal. Das Problem ist eher der Platz. Demnächst kommt noch eine zweite Hyper Gen5 Card ins System. Dann habe ich noch einen PCIe Gen5 x16 frei bzw. 2 Slots. Wenn ich damit leben kann, dass meine 7900XT nur mit PCIe x8 läuft. Sogar 2x Slots frei (x16, x8) aber nur jeweils ein Slot. Dann habe ich aber so langsam ein PCIe Lane Problem (bei 64).

Wäre wenn deutlcih günstiger eine V100 besser? Wobei man bei beiden wohl aufpassen muss. Denn es gibt PCIe Karten und SMX Module. In China baut man wohl gerne mal letztere in PCIe Karten um.

Weltherrscher · 07.02.2025

Das mit den Modulumbauten fluppt bei Netzwerkkarten schon einwandfrei, ich selbst betreibe eine umgebaute Mezzanine-ConnectX3 in meiner Firewall.
Da hätte ich keinen Stress, solange die Kühlung ordentlich funktioniert.

Obacht:
Bei den PCIe-Karten musst du aufpassen, die Server-Stromversorgung ist anders als die PCIe-Stecker in herkömmlichen Rechnern!

ATX: 3x 12V+Masse und in der vierten Reihe 2x Masse für die Kodierung.
Tesla-Karten: 4x 12V+Masse
Das gibt also nen saftigen Kurzen, wenn du da ein normales 8-Pol-Kabel anstöpselst.

tonythebuilder · 11.02.2025

Das ist halt die Sache mit den Kabeln. Hatte schon so etwas vermutet. Des wegen bin ich da etwas vorsichtig. Denn mein System wollte ich jetzt nicht fritieren.

Die Frage ist am Ende auch. Brauche man unbedingt 200 Token/s. Oder reichen meine 5 bis 30 Token/s. Denn ich benutzte meine LLM, nur nach zum Coden in C. Für alles andere nutze ich google.

Hat jemand Erfahrungen mit der Intel A770 16GB und LLM gesammelt? Es scheint nicht die beste Karte dafür zu sein. Man kann sie ab und zu mal für 250€ finden.

Weltherrscher · 18.02.2025

Kurze Frage:
Wieso laggt llama3.3 wesentlich mehr, als llama3.1, wenn ich es rein CPU-beschleunigt ausführen lasse?
Beide Modelle passen komplett in den Hauptspeicher.
Sind größere Modelle tatsächlich llahmer? (haha)

Allerdings habe ich nicht auf die NUMA-Konfig geachtet, es könnte also sein, dass einige der CPU-Kerne (20 vergeben) auf der anderen CPU laufen.
Haut das dann so stark rein?
llama3.3 (Warum ist der Himmel blau?):

llama3.1 (Warum ist der Himmel blau?):

Luckysh0t · 26.02.2025

Mini-PC mit Riesen-APU: Framework stellt den Desktop vor

Nach den einfach reparierbaren Notebooks kommt Frameworks erster Mini-PC. Der "Desktop" verwendet AMDs Ryzen AI Max 300.

www.heise.de

Das Mini-ITX-Mainboard samt Prozessor kommt auch einzeln in den Handel.

Das Herzstück des Framework Desktop bildet die schnellste Kombiprozessor-Serie für Consumer-Geräte: AMDs Ryzen AI Max 300 mit besonders starker integrierter Grafikeinheit. Framework bietet drei Varianten an: In der Basiskonfiguration sitzt der Achtkerner Ryzen AI Max 385 mit 32 GByte LPDDR5X-8000-RAM und integrierter Radeon 8050S (2048 Shader, 2,8 GHz).

In den zwei Teureren kommt das Topmodell Ryzen AI Max+ 395 zum Einsatz. Er kombiniert 16 Zen-5-Kerne mit einer Radeon 8060S (2560 Shader, 2,9 GHz) und 64 GByte LPDDR5X-8000-RAM in der mittleren Konfiguration beziehungsweise 128 GByte in der teuersten.

Das klingt doch schon mal viel versprechend ^^.

Neuer AI-Server

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Profi

Enthusiast

Enthusiast

Profi

Enthusiast

Enthusiast

Anhänge

Enthusiast

Enthusiast

Experte

Enthusiast

Enthusiast

Enthusiast

Experte

Enthusiast

Enthusiast

Experte

Experte

Enthusiast

Enthusiast

Anhänge

Enthusiast

Enthusiast

Experte

Enthusiast

Experte

Enthusiast

Enthusiast

Ähnliche Themen