Neuer AI-Server

tcg

Enthusiast
Thread Starter
Mitglied seit
28.10.2009
Beiträge
1.436
Ort
iwwero
Hi,

ich würde gerne von euch meinen aktuellen Plan genehmigt bekommen...

Seit einiger Zeit spiele ich etwas mit KI (ollama+nodejs).
Nur ist mein Desktop etwas zu schwach für "ernsthafte" Anwendungen.
Daher bastle ich gerade einen "dedicated AI server" zusammen, eine aktuelle Tesla Karte ist etwas arg teuer....

Das hab ich schon hier:
* Board: https://www.asrock.com/MB/Intel/H510 Pro BTC+/index.de.asp
* CPU: Intel 10400F
* RAM: 16GB
* PSU (1800W)
* SSD SATA 256GB
* OS Ubuntu
Eigentlich fehlen jetzt nur die GPUs (und ein passendes Gehäuse).
Ich würde da nun 6 * 4060/ti/16gb drauf setzen, dann hab ich 96GB VRAM ;-)

Ich hab noch nie mehrere GPUs in einem PC gehabt, auf was muss ich denn achten ?
Sollten alle identisch sein ? Oder ist das total egal ?
Gibt es sowas wie SLI noch ? Ich denke das brauch ich bei ollama/llamacpp nicht, oder ? Ist wohl nur wichtig wenn man mehrere GPUs zu einer virtuellen zusammenbaut (e.g. zum Zocken), oder ?
Reichen die GPU Lüfter ? Ohne Gehäuse wird eine Gehäusekühlung schwierig...
Beitrag automatisch zusammengeführt:

1733743201754.png
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Keine Ahnung von KI. SLI gibt es nicht mehr. Und als es noch SLI gab, konntest Du nur den VRAM von einer GPU pro Anwendung nutzen.
 
Mit KI sollte das gehen, ich hatte mal einen Versuch mit 2 Tesla M10 (super alt), die tauchen als 4 GPUs im System auf.
z.b. ollama verteilt das dann auf die GPUs und wenns eng wird noch die CPUs.
Die SLI Frage hätte es wohl nicht gebraucht ;-)
 
Ich hab noch nie mehrere GPUs in einem PC gehabt, auf was muss ich denn achten ?
Kühlung eben jener Grafikkarten und Netzteil. Muss genug Ampere auf den entsprechenden Schienen liefern.


Bez mehrere GPUs.
Ich habe mir seine Videos zu dem Thema angeschaut, mir ist da nun nichts aufgefallen, als, dass es eine spezielle Einrichtung gibt, aus er das er Pop OS nutz, da es da wohl eine Version mit inkludierten Treibern für nvdia GPUs gibt.
 
danke, ich schau mal...
den kenn ich, aber nicht dieses video.

edit:
Netzteil sollte reichen, 1800W (80 Plus Platinum), ist ein "Mining-Netzteil".
Eine 4060ti/16gb sollte <200w brauchen, passt.
Ich hatte auch 4*3090 überlegt, aber das passt wohl nicht mehr so ganz.

Kühlung wird spannend, für das Board (50cm lang, viel größer als EATX) gibts kein Gehäuse.
 
Zuletzt bearbeitet:
Ich würde da nun 6 * 4060/ti/16gb drauf setzen, dann hab ich 96GB VRAM ;-)
Imho "stackt" der VRAM nicht, aber ich weiss das nicht mit Sicherheit.

Ich würde mal 2 günstige Karten nehmen und das probieren, dafür reicht irgend ein Board mit 2 Slots wo sie mechanisch passen, und wenns ein altes Ivy-Bridge SLI/Crossfire Board ist...
 
Board hab ich ja schon ;-) Und 2 M10 liegen hier noch rum... Eine M10 ist ja schon "4 in 1". Das sind dann fürs System 8 GPUs, aber halt schweinelahm...
Das hatte ich ja schonmal getestet, Ollama verteilt auf die GPUs (und CPUs).
Ich hab aber vor dem Kauf vor das nochmal zu testen !
 
Zuletzt bearbeitet:
Du sollst aber checken, wie sich der VRAM verhält.
Imho brauchst du überall das ganze Modell im VRAM, aber vllt. irre ich mich auch.

Beim Crossfire wars z.B. so, dass der VRAM nicht mehr wurde, weil jede Karte den vollen VRAM braucht weil sie ja die vollen Daten zur Berechnung brauchen...

Ich meine, das mit der KI ist ähnlich, wesegen NV auch absichtlich so mit dem VRAM geizt, um hier einfach Cash machen zu können.


Vielleicht irre ich mich, und es gibt Anwendungen, wos anders ist.
 
Ich denke nicht...
Soweit ich es verstanden habe bekommt jede GPU ihr eigenes Päckchen (die unterschiedlich sind).
Sonst könnte man ja die richtig großen Modelle gar nicht laufen lassen.
Ein llama3:405b/fp16 hat wuppige 812GB und wenn man den context hoch dreht eher 1.5TB !
Mein Ziel ist ein "flüssiges" llama3.3:70b-instruct-q6_K mit 64k context -> 89 GB (das modell hab ich mir schon gemacht, läuft hier aber momentan mit 0.6 tps, und das auf ner 4090 ;-)
 
Imho "stackt" der VRAM nicht, aber ich weiss das nicht mit Sicherheit.
Und als es noch SLI gab, konntest Du nur den VRAM von einer GPU pro Anwendung nutzen.
... genau genommen wurde bei SLI(oder auch allgemein MultiGPU für Rendering) nicht der VRAM nur einer GPU benutzt, sondern jede GPU braucht ALLE Daten in IHREM RAM. Bei 2x8GB stehen also in beiden 8GB die gleichen Daten, man hat effektiv also trotzdem nur 8GB.

Bei AI hängts dagegen wohl von der Software ab. Da gibts wohl verschiedene Möglichkeiten, z.B. kann jede GPU nur einen Teil des Models trainieren, dann braucht die eine GPU logischerweise nur den für sie relevanten Datenteil, wodurch sich der Speicher doch wieder addiert.
Ob das jedoch komplett uneingeschränkt und unter allen Umständen möglich ist, weiß ich auch nicht.
 
Werden wir bald wissen... Ich teste das dann mal...
Jetzt hoffe ich dass die RTX 5000 bald rauskommen, dann werden die 4060 hoffentlich günstiger.
 
Naja, wenns nur am VRAM liegt, aber fürs "zivile" (also kleine Modelle die in handelsüblichen VRAM passen) Stable Diffusion z.B. wirst ja alt mit ner 4060, da hast vom VRAM auch nix.

Aber wie gesagt, probiers und lass uns wissen.
 
Dafür hab ich ja die 4090 im Desktop ;-)
Ich weiss nicht wie Stable Diffusion skaliert, kann ich ja mal dann mal testen. ("dann" ist eher nach Weihnachten).
Von der Performance her ist die 4090 vergleichbar mit ~3,75 4060ti (AI TOPS von der Nvidia Seite). 6 davon sollten also ganz gut laufen.
Ja, VRAM ist relevant, wenn das nicht reicht rennen die Modelle auf der CPU, also eigentlich eher schleichen.
Und der neue Server hat nur 1 DIMM Slot, VRAM ist da richtig relevant ;-)
 
Mal aus interesse: Welche Modelle lässt du denn laufen? ein 7B-Modell habe ich selbst auf einer Quadro RTX4000ada-Mobile mit nur 12 GB-VRAM sehr gut am Laufen. Für ein 70B-Modell oder noch mehr glaube ich aber nicht, dass die vier 4060TI ausreichend sind, oder doch? Hier würde ich mich freuen, wenn du von deinen Erfahrungen berichten kannst.
 
Wie oben geschrieben, ich hätte gerne: llama3.3:70b-instruct-q6_K mit 64k context -> 89 GB. Das passt in 6*16 rein. Inclusive einem Embedding-Modell...
Oder evtl. ein q8_0 mit weniger Context. Muss ich nochmal eines machen...
Laut dem was man so hört/sieht/liest ist das auf Niveau eines llama3.1:405b ;-)
Momentan spiel ich am meisten mit llama3.2-vision:11b-instruct-fp16 (weil neu und 11b) oder llama3.1:8b-instruct-q8_0-65536 (weil 3.2-vision keine tools kann).
Außer Llamas hab ich wenig gemacht.
Ausserdem passen ja 6 GPUs aufs Board, nicht nur 4 ;-)
Beitrag automatisch zusammengeführt:

Nochmal kurz zu meiner Intention mit den 6 GPUs:
Wenn man die Contextgröße auf 128k setzt (was die llamas ja eigentlich können) passt sogar ein 3b Modell nicht mehr in die 24GB VRAM die ich habe.
Und bei meinen Versuchen "Fasse mir die Webseite xyz zusammen" reichen selbst 64k nicht mehr.
70b hätte ich schon gerne, weil llama3.1:8b wohl noch etwas zu blöd ist.
Sowas bekomme ich wenn ich diesen Thread angebe, und das ist nicht ganz korrekt, die M10 will ich ja gar nicht kaufen, die hab ich ja schon...

Rich (BBCode):
Das Thema "Möglichst günstiger PC für AI-Spielereien" auf Hardwareluxx.de ist ein interessantes und komplexes Thema.
Der Benutzer tcg hat sich entschieden, zwei Tesla M10-Grafikkarten zu kaufen, um eine Spielwiese für seine AI-Projekte einzurichten.

Der Benutzer hat bereits einige Vorschläge gemacht, wie man einen günstigen PC für AI-Spielereien aufbauen kann.
Er hat erwähnt, dass er nach einem System sucht, das mehr als zwei M10-Grafikkarten passen würde und auch genug Strom liefert, um die Karten zu betreiben.

Der Benutzer hat auch einige Probleme mit der Stromversorgung erwähnt, da die M10-Karten einen 8-poligen Strom-Stecker benötigen und je bis zu 225W verbrauchen.
Er sucht nach einem System, das genug Platz für mehrere PCIe-Slots bietet und auch eine ausreichende Stromversorgung hat.

Der Benutzer hat auch erwähnt, dass er nicht nur nach der Geschwindigkeit des Systems suchen wird, sondern auch nach einer guten Preis-Leistung.
Er möchte ein System aufbauen, das ihm ermöglicht, seine AI-Projekte effizient zu bearbeiten und gleichzeitig nicht zu viel Geld ausgeben.

Der Benutzer hat auch einige Vorschläge gemacht, wie man die Tesla M10-Grafikkarten verwenden kann.
Er hat erwähnt, dass er mit der Software "llama.cpp" arbeitet, die es ermöglicht, AI-Modelle auf verschiedenen Hardware-Konfigurationen auszuführen.

Insgesamt ist das Thema ein interessantes Beispiel für die Herausforderungen, die sich bei der Entwicklung von AI-Spielereien ergeben.
Der Benutzer muss eine Balance zwischen Preis und Leistung finden, um sein Projekt erfolgreich zu machen.

Hier sind einige mögliche Antworten auf die Fragen des Benutzers:

* Welche Hardware-Konfigurationen sind für AI-Spielereien geeignet?
* Wie kann man die Tesla M10-Grafikkarten verwenden, um AI-Modelle auszuführen?
* Welche Software-Tools können verwendet werden, um AI-Projekte zu bearbeiten?

Ich hoffe, diese Antworten helfen dem Benutzer bei seiner Suche nach einem günstigen PC für AI-Spielereien.
 
Zuletzt bearbeitet:
Hupsa, mea culpa, Ich blöd nicht AI blöd.

Das war mein alter Thread !

Dieser wäre dann:
Rich (BBCode):
Ich werde die wichtigsten Punkte aus dem Thread zusammenfassen:

* Der Benutzer tcg plant einen neuen AI-Server aufzubauen, um seine KI-Projekte zu bearbeiten.
* Er hat bereits einige Vorschläge gemacht, wie man einen günstigen PC für AI-Spielereien aufbauen kann, einschließlich der Verwendung von Tesla M10-Grafikkarten und einem Mining-Netzteil.
* tcg sucht nach einem System, das mehr als zwei M10-Grafikkarten passen würde und auch genug Strom liefert, um die Karten zu betreiben.
* Er hat erwähnt, dass er nicht nur nach der Geschwindigkeit des Systems suchen wird, sondern auch nach einer guten Preis-Leistung.
* tcg möchte ein System aufbauen, das ihm ermöglicht, seine AI-Projekte effizient zu bearbeiten und gleichzeitig nicht zu viel Geld ausgeben.
* Er hat erwähnt, dass er mit der Software "llama.cpp" arbeitet, die es ermöglicht, AI-Modelle auf verschiedenen Hardware-Konfigurationen auszuführen.
* Der Benutzer AliManali hat erwähnt, dass SLI nicht mehr existiert und dass jede GPU ihre eigenen Daten benötigt, um zu funktionieren.
* tcg hat erwähnt, dass er bereits einige Erfahrungen mit der Verwendung von Tesla M10-Grafikkarten gemacht hat und dass sie als 4 GPUs im System auftreten.
* Der Benutzer pwnbert hat erwähnt, dass der VRAM nicht "stackt" und dass jede GPU ihre eigenen Daten benötigt, um zu funktionieren.
* tcg hat erwähnt, dass er nach einem System sucht, das genug Platz für mehrere PCIe-Slots bietet und auch eine ausreichende Stromversorgung hat.
* Er möchte ein System aufbauen, das ihm ermöglicht, seine AI-Projekte effizient zu bearbeiten und gleichzeitig nicht zu viel Geld ausgeben.

Ich hoffe, diese Zusammenfassung hilft!
 
ein 7B-Modell habe ich selbst auf einer Quadro RTX4000ada-Mobile mit nur 12 GB-VRAM sehr gut am Laufen
Ich habe gerade gewaltige Probleme mit 24GB VRAM, nichtmal llama3.1:8b läuft noch vernünftig mit großem Context...
Je mehr ich gerade teste, desto mehr 4060 brauche ich ;-)
Leider (naja, zum Glück !) hat das Board nur 6 Slots...
 
Die Teslas brauchen den Enterprise-Treiber, der kann CUDA partitionieren, zumindest ab > Maxwell (meine M60 kanns noch nicht).
Die normalen Karten müsstest du dafür im Treiber patchen?
Aber vGPU ist ja kein Zwang, wenn die KI-Anwendung selbst partitionieren kann.

Je nach Anwendung kannst du alle möglichen GPUs drin haben, solange sie nicht unterschiedliche Treiber brauchen *hust* nvidia legacy *hust*.
Die M10, welche du hast, laufen nur mit den Legacy-Treibern (Maxwell GPUs).
Die 4060 brauchen dann den 550+.
Das wird also nicht gehen.

Ein Mix aus AMD und Nvidia würde aber wohl auch gehen.
Teile des Modells brauchen dann halt länger als andere.
 
Ja klar, die M10 wären jetzt erstmal zum testen wie sich das verhält, dazu hab ich ja auch fast alles hier jetzt. Juhu Weihnachtsurlaub.
Die 6*16GB würden mich aber schon reizen ;-)

Andererseits... Hmmm... man kann eine H100 für <$5/h auch mieten. Mist. Mal nachdenken...
edit:
Nachgedacht: Ach quatsch, mir gehts ja auch ums Basteln.
 
Nachgedacht: Ach quatsch, mir gehts ja auch ums Basteln.
Und, je nachdem was man damit macht oder vlt mal machen will, ist es ja auch nicht falsch sowas daheim abseits der Cloud zu haben ^^.
Ich gehe derzeit mit dem gedankenschwanger mir sowas in very very very light (HP EliteDesk 800 G2 Mini, ein Node aus meinem alten PVE Clusterchen) für meinen Home Assistant zu bauen.
Keine Ahnung ob das selbst für soetwas schon zu schwach ist und ich ewig warten müsste, aber wie du schon sagtest - man will ja basteln, versuch macht Klug. :d
 
Im Grunde das was network chuck in seinen anderen Videos im Kontext von Ai und HA zeigte, in erster Linie eine Sprachsteuerung für HA.
Und dann was die HW noch so hergeben kann - oder auch nicht ^^. Ich habe mich mit dem Thema noch nicht wirklich befasst, daher kann ich die nötigen Ressourcen was wann wie viel wozu braucht so absolut gar nicht abschätzen.

Da ich erst kürzlich diesen Sensor https://ultimatesensor.nl/en/mini entdeckt habe, und dieser fast eine AIO Wollmilchsau ist, kam mir mit den o.g Videos die Idee dass man sich dass doch mal irgendwann genauer ansehen könnte.

Nüchtern betrachtet kann also auch eine dedizierte VM reichen. Am Ende werde ich es vlt auch beides Testen, was schneller ist oder praktikabler.

Auch wenn mich die Sachen die er da noch so zeigt mit seinem Terry, und was er für Modelle da unter einem Hut unterbringt schon reizen würde.. aber (dießer) Spaß kostet und irgendwo sollte/muss man dann halt doch abwiegen wofür man sein Geld ausgeben mag/kann :d
 
Hab ich mit auch schon überlegt, ne eigene Alexa...
Eigentlich ganz einfach ;-)
Ein Mikrofon zum streamen (udp ?) an Whisper.cpp (https://github.com/ggerganov/whisper.cpp).
Und den Output dann umleiten an z.b. Ollama/llama:1b, dann mit Tools für dein HA System.
Bis aufs Audio streamen hab ich da alles schon mal angeschaut oder gemacht.
Wahrscheinlich gibts sowas sogar schon irgendwie...
 
HA hat doch Whisper / vosk schon integriert?
Samt Anbindung an ChatGPT.
Fluppt prima, als Assi hab ich momentan nen Raspi mit nem Seeed 2Mic Hat und auf dem Handy die HA App.
1733921940823.png
1733922002869.png
 
Gibt jetzt auch ne Ollama Integration für lokale Modelle:
 
Nur aus Interesse, hast Du konkrete Anwendungsfälle? Oder ist das mehr Test und Spielerei? Ich bin auch gerade dabei "etwas" mit Ollama herumzuspielen und überlege aktuell auf einen Mac Mini mit M4 zu gehen.
 
Ist reine Spielerei (bisher).
Ich will einfach mal mehr VRAM haben um auch größere Modelle laufen zu lassen.
Scheint aber nicht so zu saklieren wie ich gehofft habe... Bin gerade am Testen mit 10 GPUs ;-)
 
Wahrscheinlich gibts sowas sogar schon irgendwie...


Willow hat da recht früh mit angefangen.

Das ganze scheiterte aber eher daran das 75% der Mikrophone die es da draussen gibt mit esp32 und HA nicht korrekt liefen ^^

Aber das ist ja auch kein Problem mehr.
Gibt nun referenz Hardware.


P. s der
Da ich erst kürzlich diesen Sensor https://ultimatesensor.nl/en/mini entdeckt habe,
sieht auch sehr cool aus.
Für 80$ zwar teuer. Aber mit allem drum und dran doch recht bequem.
Hardware alleine alles zusammen kostet sicher 30-40$ und dann hat man probleme das alles korrekte zum laufen zu bekommen.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh