Neuer AI-Server

ein paar esp32 hab ich hier noch liegen... hmmm...
Hast Du über einen Mac Mini m4 - ggf. als Cluster - nachgedacht?
schon mal ganz grob, aber noch nicht im detail.
kann der m4 seinen ganzen ram als vram nehmen, also wäre der m4 / 64gb fähig llama3.3:70b komplett auf gpu laufen zu lassen ?

momentan sieht es so aus als könnte ich (wohl aber nicht mit ollama sondern llama.cpp direkt) auf den 10 billigen gpus ~4090 performance aber mit 60gb vram hinbekommen.
eine einzelne P106-90 ist ca. 10%-12% 4090 laut ersten tests hier, also evtl noch schneller ;-)
bin noch am basteln, mal schauen wieviel zeit ich erübrigen kann.
dann hätte ich eine recht günstige und fast brauchbare lösung...
(der server hat 135€ gekostet, die gpus 210€, ok, wir sind im luxx, ich steck nochmal ram rein, server-ecc-ram ist günstig: 2*64gb ~100€)

er ist wohl deutlich lauter wie ein m4, ist halt nen server mit 3*1600W netzteilen für 10 gpus :-(
und er darf nur tagsüber laufen wenn die sonne genug aufs dach scheint, idle=120W ;-)
 
Zuletzt bearbeitet:
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Haha, 4090-performance ist weit weg.

1*4090 @ desktop:
> ollama run llama3.3:70b "why is the sky blue ?" --verbose
-> 1.67 tokens/s
"ollama ps" says: 51%/49% CPU/GPU
> ollama run llama3.2:3b "why is the sky blue ?" --verbose
-> 200-225 tokens/s

10*P106-90 @ server:
> ./llama-cli -m Llama-3.3-70B-Instruct-Q4_K_M.gguf -p "why is the sky blue?" -ngl 1000
-> 1.45 tokens per second
> ./llama-cli -m llama-3.2-3b-instruct-q8_0.gguf -p "why is the sky blue?" -ngl 1000
-> ~20 tokens per second

Der Server braucht während dem Arbeiten <450w.
 
sieht auch sehr cool aus.
Für 80$ zwar teuer. Aber mit allem drum und dran doch recht bequem.
Hardware alleine alles zusammen kostet sicher 30-40$ und dann hat man probleme das alles korrekte zum laufen zu bekommen.
Ich denke auch, dass das schon ein recht faires Angebot ist, wenn man bedenkt, was bei den etablierten Herstellern so manche Sensoren kosten, die dann auch weniger können - freilich inklusive eigenem garantiert funktionierendem Ökosystem.
Aber die sind ja direkt für HA gebaut/programmiert, ich werde mir wohl einen zum Testen bestellen und dann ggf nach und nach alle meine Zigbee Hue Sensoren austauschen, auch wenn ich es an sich ganz gut finde, dass meine Beleuchtung auch autark von HA funktioniert.
 

Muss man zwar abwarten, was die so können, und es einem wie bei so vielem auch Wert sein, aber mir scheint es kommt ganz gut zu Bewegung in den "bezahlbaren" Bereich für der KI tauglichen Systemen.
 
Muss man zwar abwarten, was die so können, und es einem wie bei so vielem auch Wert sein, aber mir scheint es kommt ganz gut zu Bewegung in den "bezahlbaren" Bereich für der KI tauglichen Systemen.
Sehe ich genauso 👍
Ich hoffe ja ggf. auf eine Strix Halo Plattform die als Ersatz für meinen mittlerweile betagten Homeserver taugt.
Im Idealfall kann man die NPU an eine VM durchreichen auf der Home Assistent mit LLM läuft. Ebenfalls dürfte genug "Dampf" vorhanden sein um nebenbei bisschen Docker\LXC und 2-3 VMs laufen zu lassen.

In hoffnungsvoller Erwartung

Lobsi
 
Ich hoffe ja ggf. auf eine Strix Halo Plattform die als Ersatz für meinen mittlerweile betagten Homeserver taugt.

Ist zwar "nur" Strix Point, aber an sich… Nicht schlecht ^^
 
Ganz genau sowas meine ich, danke @Luckysh0t für den Link!

Wenn es sowas mal von Asrock, Supermicro & co. als Mainboard, meinetwegen auch mit aufgelöteter APU gäbe, wäre das ein "STFU and take my $" Moment!

Ich meine wie schön wäre es, sowas in einem Intertech 3U 19" Gehäuse ins Kellerrack zu stellen 😍
 
Woot.
Was ist denn das für ein Geiles Ding.
Details surrounding launch price and indeed launch dates are still incredibly nebulous,
ich tippe mal so auf 800-1200$
Eher oben...
 
Habt ihr eine Idee warum das N5 Pro minisforum NAS im M.2 2280 Slot nur max. 4TB unterstützen sollte?
 

Anhänge

  • Screenshot_20250130-213800.png
    Screenshot_20250130-213800.png
    68 KB · Aufrufe: 25
So, ollama (llama3.1, llava & deepseek r1) läuft in der vm mit einer halben M60 (8 GB).
Fazit:
Brauch mehr VRAM... :wall: :fresse:

Lustigerweise läufts auf meiner 6900xtxh wesentlich schneller und besser, aber dafür halt nur lokal.
Frage dazu:
Weiß jemand, wie man einer lokalen ollama-Installation bei bringt, Bilder zu betrachten?
das Modell motzt mich nur voll, dass es "aus Sicherheitsgründen" nicht auf lokale Dateien zugreifen darf.
Mit OpenWebUI geht das beim llava-Modell im Keller prima, einfach Datei senden und fluppt.
 
Was für Software nutzt ihr um euere LLMs laufen zu lassen?
Ich selbst nutze LM Studio in einer Linux Mint VM. Mit 16 C/T (es werden aber nur 6 genutzt) und 64 GB RAM. Keine GPU und ich komme je nach LLM und frage auf 5 bis 30+ Tokens die Sekunde. Interessant ist die Time to first token. Da habe ich Zeiten von 0.09 bis 178 Sekunden.
 
Ja, aber...
Nein.

Ich bin soo dumm.
das JPG hat die Endung JPG (groß geschrieben) und ich Depp hab im Prompt alles klein geschrieben.
Shize Ext4! :wall:

//Edith:
Fluppt:
1738355065432.png

20240303_125309.JPG

//Edith2:
@tonythebuilder:
Debian VM auf ProxMox mit ollama, open webui und ner halben M60 im nvidia22-Profil als vGPU durchgereicht.
Die VM hat 32 GB, 10 Kerne, die vGPU 8 GB VRAM.
 
Zuletzt bearbeitet:
@Weltherrscher ist eine Tesla M60 noch so gut? Ich denke schon eine Zeit lang über eine RTX A nach aber mehr für VDI für meine VMs. Nur wirds halt sehr schnell teuer egal ob man bei Nvidia oder AMD guckt.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh