Neuer AI-Server

tonythebuilder · 24.03.2025

Ob bei einer Radeon Pro SSG, die Daten auch auf die M.2 ausgelagert werden? Naja wir werden es warscheinlich nie Erfahren, da diese Karten wohl etwas selten sind.

KAI 3dfx · 27.03.2025

Moin zusammen,

@tcg Ich habe gelesen, dass Du Dich schon tiefer damit beschäftigt hast. Ich glaube die Frage passt hier, aber wenn es Dich stört, lösche ich den Post natürlich.

Das ist im Prinzip die gleiche Vorgehensweise wie mit Deinem Server-Mainboard?

Kann man das so für einen Lokal-AI-Build/Llama3 nutzen?

tcg · 27.03.2025

Im Prinzip ja.
Du kannst GPUs "stacken" (ich hab hier 10 im Server) und dann größere Modelle laufen lassen.
Was genau hast du vor ?

edit:
so ein llama3.2:3b läuft eigentlich schon überall lokal...
wie groß solls denn sein ?
wobei ich llama erstmal durch qwq ersetzt habe, das ist deutlich besser, aber richtig langsam...

KAI 3dfx · 27.03.2025

Danke! Ich bin absoluter Neuling. Ich möchte erstmal lernen, Llama auf Linux aufzusetzen und dann ausprobieren wie in die KI sinnvoll einsetzen kann.

Bildbearbeitung etc, das ist nichts für mich. Jedoch würde ich gerne die KI als Sparringspartner aufbauen als Unterstützung in der täglichen Arbeit. Zum Beispiel Recherche, Auswertungen, Analysen. Vielleicht auch anderes. Ich bin total offen. Mein Ziel ist es mich mit dem Thema zu beschäftigen. Dabei werde ich rausfinden, was ich probieren möchte.

Ich habe überall gelesen, dass 16GB unterster Einstieg ist und 24GB schon deutlich flotter liefe. Eine 24GB GPU ist jedoch recht teuer, weshalb ich überlege 2x12 oder 2x16GB zu nutzen.

Weltherrscher · 27.03.2025

Obacht: CUDA ist wählerisch, was das Partitionieren von GPUs angeht!
Erst ab Pascal kann CUDA GPUs partitionieren.

Ansonsten, nehm ein aktuelles Debian, installier ollama und openwebui darin und fang einfach an. =)
Ich selbst nutze gerade das Gemma3:4B als "Standard"-Modell, das läuft prima und zügig mit einer halben zugeteilten Tesla M60 (8GB VRAM) in der VM.

tcg · 27.03.2025

KAI 3dfx schrieb:
Danke! Ich bin absoluter Neuling. Ich möchte erstmal lernen, Llama auf Linux aufzusetzen und dann ausprobieren wie in die KI sinnvoll einsetzen kann.

KAI 3dfx schrieb:
Bildbearbeitung etc, das ist nichts für mich. Jedoch würde ich gerne die KI als Sparringspartner aufbauen als Unterstützung in der täglichen Arbeit. Zum Beispiel Recherche, Auswertungen, Analysen. Vielleicht auch anderes. Ich bin total offen. Mein Ziel ist es mich mit dem Thema zu beschäftigen. Dabei werde ich rausfinden, was ich probieren möchte.

also chatgpt lokal benutzen und einfach mal spielen ;-)
wie ich auch...

KAI 3dfx schrieb:
Ich habe überall gelesen, dass 16GB unterster Einstieg ist und 24GB schon deutlich flotter liefe. Eine 24GB GPU ist jedoch recht teuer, weshalb ich überlege 2x12 oder 2x16GB zu nutzen.

ja, der gedanke passt soweit.

ich hatte mir mal die 4060/16gb rausgesucht, und dann gleich ein paar davon.
hab den plan nach vortest mit 10 gpus jetzt erstmal wieder verworfen.
ich kann dir nen günstigen server anbieten zum spielen und basteln ;-)

aber so richtig schnell wirds dadurch nicht, das ist momentan (mit ollama zumindest) begrenzt, es summiert sich der speicher aber nicht die geschwindigkeit.
du kannst dann halt ein llama 70b mit 4060-speed laufen lassen... naja...

du kannst alles haben, aber: wieviel willst du denn ausgeben ?

KAI 3dfx · 27.03.2025

Danke! Ja chatgpt habe ich schon ausgiebig probiert. Ich möchte gerne a) selber eine Plattform bauen (siehe Nachbar Thread

) und b) lerne wie ich KI noch besser nutzen kann und was es überhaupt für Möglichkeiten gibt.

Ich habe soweit alles bis auf die Grafikkarte. Ich könnte auch mit einer 5070ti 16gb anfangen und auf zwei später aufrüsten. Damit ich Deinen Thread nicht sprengen kannst Du auch bei mir im Thread antworten. Wie Du magst. 😎

tcg · 27.03.2025

mit einer 5070ti/16gb kommst du schon recht weit.
damit gehen übliche 14b modelle schon mal.
allerdings: wenn du context willst brauchst du wesentlich mehr ram hab ich gelernt :-(
2*16gb sollte, stand momentan, recht gut sein...
mir gehen die 24gb aus wenn ich qwq:32b mit >15000 context laufen lasse (was für reasoning schon nötig ist)...

KAI 3dfx · 27.03.2025

Ok, gut zu wissen. Danke! Dann wird es erstmal eine 5070Ti und dann später eine zweite.

Dann müsste ich nicht überlegen ob mein NZXT C1200 ausreicht dafür.
Die kleine MSI mit nur 300W TDP braucht 2x8Pin. Das sollte theoretisch passen. Dazu die GPU jeweils auf 250W limitieren.

tcg · 27.03.2025

schöne karte, wahrscheinlich auch angenehm schnell.
wenn man es schaffen würde auch die performance aufzuaddieren...
dann wären 3 * 4060/16gb genau so teuer aber deutlich besser.
wenn halt ... es gibt wohl lösungen und möglichkeiten, aber das ist mir zu viel gebastel gerade.
obwohl es sich bei meiner 10-gpu lösung rechnen würde ! ;-)

KAI 3dfx · 27.03.2025

Oder machst 2x 3090XT zu je 650€. 😱😁

Der Chip sollte immernoch Recht schnell sein. Und 2x 24GB wäre auch nice.

Ist halt immer so ne Sache mit Gebrauchtkauf. Bis 200/250€ habe ich das bisher gemacht. Für die PCs unserer Jungs. Aber da ist das Risiko etwas geringer in Relation zum Preis.

EDIT:
Was denkst Du über die Quadro M6000 24GB. Die gibt es schon für 450€ bei ebay. Die ist so schnell wie eine 3050 aber mit viel mehr VRAM. 2x 24GB für 900€? Oder ist das dann so langsam wegen des Chips, dass hier sogar der größere Speicher nichts bringt?

PNY Quadro M6000, 24GB GDDR5 ab € 1175,57 (2025) | Preisvergleich Geizhals EU

✔ Preisvergleich für PNY Quadro M6000, 24GB GDDR5 ✔ Bewertungen ✔ Produktinfo ⇒ Modell: NVIDIA Quadro M6000 • Speicher: 24GB GDDR5, 384bit, 6.6Gbps, 1653MHz, 317GB/s • Takt Basis: 988MH… ✔ PCIe ✔ Testberichte ✔ Günstig kaufen

geizhals.eu

Noch eine Frage. Müssen die Grafikkarten vom gleichen Hersteller bzw gleichem Modell sein?

Weltherrscher · 27.03.2025

Der Chiphersteller muss gleich sein, du kannst AMD (ROCE) und nVidia (CUDA) nicht mixen.
Und möglichst innerhalb einer Serie bleiben, also z.B. nicht 30x0 mit 40x0 mixen, das gibt Stress beim CUDA-Feature-Level, welches zur Ausführung kommt...
Die M6000 ist ne Maxwell, würde ich lassen.
Geh lieber auf ne Tesla P10, P100 oder so...

//Edith:
Aber OBACHT:
Die Teslas sind Server-Karten, der 8Pin-Anschluss ist KEIN PCIe-Stecker!
(Der hat auf Pin 7 & 8 12 V / GND statt 2x GND!)

spyfly · 27.03.2025

KAI 3dfx schrieb:
Was denkst Du über die Quadro M6000 24GB

Altmetall, die haben demnächst keinen Treiber Support mehr: https://www.tomshardware.com/pc-com...ta-gpus-geforce-driver-support-status-unclear

Ich hab mir persönlich zwei 5070 Tis für meinen AI Server geholt, gebrauchte 3090er sind sicher ne Option, aber den Idle-Verbrauch der doppelseitigen GDDR6x Bestückung nicht vergessen. Mein TIpp wäre ne 4060 Ti 16GB oder halt auf die 5060 Ti mit 16GB warten. Alternativ halt die besagte 5070 Ti, die bekommt man mittlerweile recht unproblematisch nahe UVP.

KAI 3dfx · 27.03.2025

spyfly schrieb:
Altmetall, die haben demnächst keinen Treiber Support mehr: https://www.tomshardware.com/pc-com...ta-gpus-geforce-driver-support-status-unclear

Ich hab mir persönlich zwei 5070 Tis für meinen AI Server geholt, gebrauchte 3090er sind sicher ne Option, aber den Idle-Verbrauch der doppelseitigen GDDR6x Bestückung nicht vergessen. Mein TIpp wäre ne 4060 Ti 16GB oder halt auf die 5060 Ti mit 16GB warten. Alternativ halt die besagte 5070 Ti, die bekommt man mittlerweile recht unproblematisch nahe UVP.

Ich habe gelesen, dass ich für ein 70-b Modell bei q8 / 8bit 70GB VRAM bräuchte.

Bei q4 immernoch 35GB (also wäre ich mit 2x 5070TI raus?, weil es ja ganz in den VRAM muss).

Und müsste dann auf q2 gehen, wobei ich dann für 17,5GB zwei 16GB-Grafikkarten oder eine 24GB-Grafikkarte bräuchte.

Wären dann für Q4 nicht 2x 3090/24GB besser für mich? Mit etwas Glück 2x 650€ noch gerade eben verkraftbar. 😇

Tut mir Leid für die vielen Fragen. Ich möchte nur bestmöglich hardwareseitig vorbereitet sein. Wenn ich damit anfange muss ich eh viel Lehrgeld in Form von Zeit investieren, denke ich.

Edit:
Den höheren Stromverbrauch verbuche ich auch mal unter Lehrgeld.
Wobei die 3090 im Idle nicht mehr wie die 5070TI verbraucht. Je nach Model.
Die TDP der 3090 (ASUS Tuf) ist 50Watt höher, aber da könnte ich gegensteuern.

Edit2:

Weltherrscher schrieb:
Der Chiphersteller muss gleich sein, du kannst AMD (ROCE) und nVidia (CUDA) nicht mixen.
Und möglichst innerhalb einer Serie bleiben, also z.B. nicht 30x0 mit 40x0 mixen, das gibt Stress beim CUDA-Feature-Level, welches zur Ausführung kommt...

Sorry, hat gerade beim ersten mal Deinen Post überlesen. Danke! Kann man den z.B. einmal eine RTX 3090 von ASUS mit einer RTX3090 von MSI kombinieren? Oder müssten das z.B. bei ASUS RTX 3090 TUF GAMING sein?

Weltherrscher · 28.03.2025

Die OEMs sind egal.
Wichtig ist, dass es dieselbe Generation ist, es könnte auch ne 3080 mit ner 3070 kombiniert werden, da die Funktion im Endeffekt gleich ist, die eine GPU halt nur schneller mit ihren Aufgaben fertig ist als die andere...

KAI 3dfx · 28.03.2025

Danke Dir! Ich tendiere gerade stark zu einer 3090 24GB und evtl auch 2* 3090. Falls ich das richtig verstanden habe mit den Leistungsanforderungen für Q4, q2 usw.. (siehe oben).

tcg · 29.03.2025

mit 24GB kommst du schonmal recht weit ...

tcg · 01.04.2025

Weltherrscher schrieb:
Ich selbst nutze gerade das Gemma3:4B als "Standard"-Modell

Wie schnell rennt das denn bei dir ?
Das ist bei mir brutal langsam !
Auch das 1b ist seeehr langsam.

Weltherrscher schrieb:
prima und zügig

geht hier nur das 27b...
Seltsamerweise geht das recht gut ?!?

Weltherrscher · 01.04.2025

relativ gut, Frage war "Was ist Mie-Resonanz?"

//Edith:
Es gab ein Ollama-Update (v0.6.3), welches Performance-Probleme mit Gemma3 behebt.

tcg · 02.04.2025

da ist die 4090 mit ~37 tps bei mir nicht so viel schneller ;-)

Weltherrscher · 02.04.2025

Interessant, hast du an den Kontext-Parametern rum gespielt oder läuft das alles auf default (bei mir ist alles default)?
Der Unterschied zw. ner ollen GTX980 und ner 4090 sollte schon signifikanter sein...

tcg · 02.04.2025

hab den context erhöht, ja, aber das braucht vram, nicht gpu power... alles soweit original...

tcg · 04.04.2025

Gemma3:27b hat wohl ein Leak... Wie auch immer das bei LLMs geht...

tonythebuilder · 05.04.2025

Hat jemand erfahrung mit Ktransformers?

GitHub - kvcache-ai/ktransformers: A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations

A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations - kvcache-ai/ktransformers

github.com

Weltherrscher · Gestern um 08:27

Sorry für die späte Antwort.
Scheinbar nicht, aber was ist dein Problem damit?

tcg · Gestern um 15:23

Mal kurz ein ganz anderes Thema:
Wollen wir mal einen KI-Laberthread aufmachen ?
Finden neue evtl. einfacher.
Ich hab aber auch kein Problem das hier laufen zu lassen...

N!DDL · Gestern um 18:37

tcg schrieb:
Mal kurz ein ganz anderes Thema:
Wollen wir mal einen KI-Laberthread aufmachen ?
Finden neue evtl. einfacher.
Ich hab aber auch kein Problem das hier laufen zu lassen...

Wär ne Idee.
Bin nur am Lesen, dann kommt da aber noch mehr Interessantes dazu

Neuer AI-Server

Experte

Enthusiast

Datenschutzhinweis für Youtube

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Experte

Enthusiast

Enthusiast

Enthusiast

Ähnliche Themen