Neuer AI-Server

Ob bei einer Radeon Pro SSG, die Daten auch auf die M.2 ausgelagert werden? Naja wir werden es warscheinlich nie Erfahren, da diese Karten wohl etwas selten sind.
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Moin zusammen,

@tcg Ich habe gelesen, dass Du Dich schon tiefer damit beschäftigt hast. Ich glaube die Frage passt hier, aber wenn es Dich stört, lösche ich den Post natürlich. :)

Das ist im Prinzip die gleiche Vorgehensweise wie mit Deinem Server-Mainboard?

Kann man das so für einen Lokal-AI-Build/Llama3 nutzen?
 
Im Prinzip ja.
Du kannst GPUs "stacken" (ich hab hier 10 im Server) und dann größere Modelle laufen lassen.
Was genau hast du vor ?

edit:
so ein llama3.2:3b läuft eigentlich schon überall lokal...
wie groß solls denn sein ?
wobei ich llama erstmal durch qwq ersetzt habe, das ist deutlich besser, aber richtig langsam...
 
Zuletzt bearbeitet:
Danke! Ich bin absoluter Neuling. Ich möchte erstmal lernen, Llama auf Linux aufzusetzen und dann ausprobieren wie in die KI sinnvoll einsetzen kann.

Bildbearbeitung etc, das ist nichts für mich. Jedoch würde ich gerne die KI als Sparringspartner aufbauen als Unterstützung in der täglichen Arbeit. Zum Beispiel Recherche, Auswertungen, Analysen. Vielleicht auch anderes. Ich bin total offen. Mein Ziel ist es mich mit dem Thema zu beschäftigen. Dabei werde ich rausfinden, was ich probieren möchte.

Ich habe überall gelesen, dass 16GB unterster Einstieg ist und 24GB schon deutlich flotter liefe. Eine 24GB GPU ist jedoch recht teuer, weshalb ich überlege 2x12 oder 2x16GB zu nutzen.
 
Obacht: CUDA ist wählerisch, was das Partitionieren von GPUs angeht!
Erst ab Pascal kann CUDA GPUs partitionieren.

Ansonsten, nehm ein aktuelles Debian, installier ollama und openwebui darin und fang einfach an. =)
Ich selbst nutze gerade das Gemma3:4B als "Standard"-Modell, das läuft prima und zügig mit einer halben zugeteilten Tesla M60 (8GB VRAM) in der VM.
 
Danke! Ich bin absoluter Neuling. Ich möchte erstmal lernen, Llama auf Linux aufzusetzen und dann ausprobieren wie in die KI sinnvoll einsetzen kann.
Bildbearbeitung etc, das ist nichts für mich. Jedoch würde ich gerne die KI als Sparringspartner aufbauen als Unterstützung in der täglichen Arbeit. Zum Beispiel Recherche, Auswertungen, Analysen. Vielleicht auch anderes. Ich bin total offen. Mein Ziel ist es mich mit dem Thema zu beschäftigen. Dabei werde ich rausfinden, was ich probieren möchte.
also chatgpt lokal benutzen und einfach mal spielen ;-)
wie ich auch...
Ich habe überall gelesen, dass 16GB unterster Einstieg ist und 24GB schon deutlich flotter liefe. Eine 24GB GPU ist jedoch recht teuer, weshalb ich überlege 2x12 oder 2x16GB zu nutzen.
ja, der gedanke passt soweit.

ich hatte mir mal die 4060/16gb rausgesucht, und dann gleich ein paar davon.
hab den plan nach vortest mit 10 gpus jetzt erstmal wieder verworfen.
ich kann dir nen günstigen server anbieten zum spielen und basteln ;-)

aber so richtig schnell wirds dadurch nicht, das ist momentan (mit ollama zumindest) begrenzt, es summiert sich der speicher aber nicht die geschwindigkeit.
du kannst dann halt ein llama 70b mit 4060-speed laufen lassen... naja...

du kannst alles haben, aber: wieviel willst du denn ausgeben ?
 
Danke! Ja chatgpt habe ich schon ausgiebig probiert. Ich möchte gerne a) selber eine Plattform bauen (siehe Nachbar Thread :) ) und b) lerne wie ich KI noch besser nutzen kann und was es überhaupt für Möglichkeiten gibt.

Ich habe soweit alles bis auf die Grafikkarte. Ich könnte auch mit einer 5070ti 16gb anfangen und auf zwei später aufrüsten. Damit ich Deinen Thread nicht sprengen kannst Du auch bei mir im Thread antworten. Wie Du magst. 😎
 
mit einer 5070ti/16gb kommst du schon recht weit.
damit gehen übliche 14b modelle schon mal.
allerdings: wenn du context willst brauchst du wesentlich mehr ram hab ich gelernt :-(
2*16gb sollte, stand momentan, recht gut sein...
mir gehen die 24gb aus wenn ich qwq:32b mit >15000 context laufen lasse (was für reasoning schon nötig ist)...
 
Ok, gut zu wissen. Danke! Dann wird es erstmal eine 5070Ti und dann später eine zweite.

Dann müsste ich nicht überlegen ob mein NZXT C1200 ausreicht dafür.
Die kleine MSI mit nur 300W TDP braucht 2x8Pin. Das sollte theoretisch passen. Dazu die GPU jeweils auf 250W limitieren.
 
schöne karte, wahrscheinlich auch angenehm schnell.
wenn man es schaffen würde auch die performance aufzuaddieren...
dann wären 3 * 4060/16gb genau so teuer aber deutlich besser.
wenn halt ... es gibt wohl lösungen und möglichkeiten, aber das ist mir zu viel gebastel gerade.
obwohl es sich bei meiner 10-gpu lösung rechnen würde ! ;-)
 
Oder machst 2x 3090XT zu je 650€. 😱😁

Der Chip sollte immernoch Recht schnell sein. Und 2x 24GB wäre auch nice.

Ist halt immer so ne Sache mit Gebrauchtkauf. Bis 200/250€ habe ich das bisher gemacht. Für die PCs unserer Jungs. Aber da ist das Risiko etwas geringer in Relation zum Preis.

EDIT:
Was denkst Du über die Quadro M6000 24GB. Die gibt es schon für 450€ bei ebay. Die ist so schnell wie eine 3050 aber mit viel mehr VRAM. 2x 24GB für 900€? Oder ist das dann so langsam wegen des Chips, dass hier sogar der größere Speicher nichts bringt?


Noch eine Frage. Müssen die Grafikkarten vom gleichen Hersteller bzw gleichem Modell sein?
 
Zuletzt bearbeitet:
Der Chiphersteller muss gleich sein, du kannst AMD (ROCE) und nVidia (CUDA) nicht mixen.
Und möglichst innerhalb einer Serie bleiben, also z.B. nicht 30x0 mit 40x0 mixen, das gibt Stress beim CUDA-Feature-Level, welches zur Ausführung kommt...
Die M6000 ist ne Maxwell, würde ich lassen.
Geh lieber auf ne Tesla P10, P100 oder so...

//Edith:
Aber OBACHT:
Die Teslas sind Server-Karten, der 8Pin-Anschluss ist KEIN PCIe-Stecker!
(Der hat auf Pin 7 & 8 12 V / GND statt 2x GND!)
 
Was denkst Du über die Quadro M6000 24GB
Altmetall, die haben demnächst keinen Treiber Support mehr: https://www.tomshardware.com/pc-com...ta-gpus-geforce-driver-support-status-unclear

Ich hab mir persönlich zwei 5070 Tis für meinen AI Server geholt, gebrauchte 3090er sind sicher ne Option, aber den Idle-Verbrauch der doppelseitigen GDDR6x Bestückung nicht vergessen. Mein TIpp wäre ne 4060 Ti 16GB oder halt auf die 5060 Ti mit 16GB warten. Alternativ halt die besagte 5070 Ti, die bekommt man mittlerweile recht unproblematisch nahe UVP.
 
Altmetall, die haben demnächst keinen Treiber Support mehr: https://www.tomshardware.com/pc-com...ta-gpus-geforce-driver-support-status-unclear

Ich hab mir persönlich zwei 5070 Tis für meinen AI Server geholt, gebrauchte 3090er sind sicher ne Option, aber den Idle-Verbrauch der doppelseitigen GDDR6x Bestückung nicht vergessen. Mein TIpp wäre ne 4060 Ti 16GB oder halt auf die 5060 Ti mit 16GB warten. Alternativ halt die besagte 5070 Ti, die bekommt man mittlerweile recht unproblematisch nahe UVP.

Ich habe gelesen, dass ich für ein 70-b Modell bei q8 / 8bit 70GB VRAM bräuchte.

Bei q4 immernoch 35GB (also wäre ich mit 2x 5070TI raus?, weil es ja ganz in den VRAM muss).

Und müsste dann auf q2 gehen, wobei ich dann für 17,5GB zwei 16GB-Grafikkarten oder eine 24GB-Grafikkarte bräuchte.

Wären dann für Q4 nicht 2x 3090/24GB besser für mich? Mit etwas Glück 2x 650€ noch gerade eben verkraftbar. 😇

Tut mir Leid für die vielen Fragen. Ich möchte nur bestmöglich hardwareseitig vorbereitet sein. Wenn ich damit anfange muss ich eh viel Lehrgeld in Form von Zeit investieren, denke ich.


Edit:
Den höheren Stromverbrauch verbuche ich auch mal unter Lehrgeld.
Wobei die 3090 im Idle nicht mehr wie die 5070TI verbraucht. Je nach Model.
Die TDP der 3090 (ASUS Tuf) ist 50Watt höher, aber da könnte ich gegensteuern.

Edit2:
Der Chiphersteller muss gleich sein, du kannst AMD (ROCE) und nVidia (CUDA) nicht mixen.
Und möglichst innerhalb einer Serie bleiben, also z.B. nicht 30x0 mit 40x0 mixen, das gibt Stress beim CUDA-Feature-Level, welches zur Ausführung kommt...
Sorry, hat gerade beim ersten mal Deinen Post überlesen. Danke! Kann man den z.B. einmal eine RTX 3090 von ASUS mit einer RTX3090 von MSI kombinieren? Oder müssten das z.B. bei ASUS RTX 3090 TUF GAMING sein?
 
Zuletzt bearbeitet:
Die OEMs sind egal.
Wichtig ist, dass es dieselbe Generation ist, es könnte auch ne 3080 mit ner 3070 kombiniert werden, da die Funktion im Endeffekt gleich ist, die eine GPU halt nur schneller mit ihren Aufgaben fertig ist als die andere...
 
Danke Dir! Ich tendiere gerade stark zu einer 3090 24GB und evtl auch 2* 3090. Falls ich das richtig verstanden habe mit den Leistungsanforderungen für Q4, q2 usw.. (siehe oben).
 
1743520689758.png

relativ gut, Frage war "Was ist Mie-Resonanz?"

//Edith:
Es gab ein Ollama-Update (v0.6.3), welches Performance-Probleme mit Gemma3 behebt.
 
Zuletzt bearbeitet:
Interessant, hast du an den Kontext-Parametern rum gespielt oder läuft das alles auf default (bei mir ist alles default)?
Der Unterschied zw. ner ollen GTX980 und ner 4090 sollte schon signifikanter sein...
 
hab den context erhöht, ja, aber das braucht vram, nicht gpu power... alles soweit original...
 
1743758708880.png

Gemma3:27b hat wohl ein Leak... Wie auch immer das bei LLMs geht...
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh