Hallo zusammen,
in der Arbeit (=Uni) ist nun endlich Geld+Wille da, die bestehende "Cluster"-Infrastruktur (~200 Kerne, die stückweise angeschafft wurden) aufzurüsten. Die Rechennodes traue ich mir auch zu auszuschreiben, sodass wir da bekommen, was wir brauchen (Kerne für DFT und GPUs für ML), bei einem Storageserver leider nicht. Grundsätzlich brauchen wir in allen Fällen auf Dauer wohl eh einen Administrationsverantwortlichen (Software), an sich könnte man also auch qualifiziert basteln, aber grundsätzlich ist ein All-in-one-Angebot mit möglichst langer Wartung (10a wird es nicht zu vertretbaren Preisen geben ) zumindest für den Speicher erstrebenswert. Wenn man das jetzt unqualifiziert ausschreibt, kommen halt vmtl. Systemhäuser, die uns das verkaufen, was wir bisher eingekauft haben, was imho reichlich am Ziel vorbeiging...
Ausgangssituation: 5 Server mit jeweils 5TB im RAID5 (5x1TB@3.5 Zoll/7200rpm) in einem Rack an einem Gigabit-Switch. Früher alle einzeln betrieben, jetzt als SLURM-"Cluster" (das Netzwerk reicht allerdings nicht für wirkliches Clustering aus). Als shared-fs wurde dann irgendwann ein Gluster eingerichtet, da man so immerhin auf unterschiedlichen Maschinen Dinge starten kann, ohne lange per rsync zu synchronisieren (und außerdem bei Server-Ausfall (aus diversen Gründen...) alle Daten da sind...). Die Crux daran ist, dass das einfach furchtbar lahm ist, git funktioniert kaum (was auf allen Cluster-FS wohl so ist) und wenn man 1min rechnet, braucht man erstmal 30s um die 500MB Ergebnisdaten auf die Festplatte zu schreiben (auf dem lokalen RAID5 um den Faktor ~10 schneller).
Anforderungen: Fileserver und geeignetes Storage-Netzwerk, um mittelfristig 20-30 Clients zu bedienen.
- Verfügbarkeit des ganzen: ich sage mal Ausfallzeit < 2 Werktage, die Daten sollten allerdings dann bei Wiederinbetriebnahme noch da sein.
- Speicherplatz: während der Simulationen können auch mal ein paar dutzend GB an Daten anfallen, effektiv aufgehoben werden im Moment so ~1-2 TB. Grundsätzlich denke ich, dass man so 5-6TB netto für Nutzer bereitstellen können sollte (Backup muss man auch noch extra regeln...)
- Use-Case: 3-4 User, die gleichzeitig mittelgroße Projekte (~10 Threads) kompilieren (zu diesem Zweck mglw. auch einmal 3-4 CI-VMs) können (dabei Performance wie am Desktop mit 0815-SSD), damit ist dann im wesentlichen vermutlich auch die "Hurra, ich verarbeite Daten-Phase" der selbstentwickelten Software gut abgedeckt (aus dem Teil der Gruppe gibt es leider keine genauen Specs). Parallel dazu sollte es möglich sein, Simulationsergebnisse mit ~300-400MB/s+ aggregiert für 2-3 Clients zu schreiben (oder einzulesen). User-Logins und Log-Files sollten daneben auch noch bedient werden können, mir wäre es am liebsten, auch die Betriebssystemimages auf dem Server liegen zu haben, das dürfte aber jetzt nicht das Performance-Bottleneck sein. /tmp könnte man evtl. auf eine günstige SSD packen im Server packen?!
- Netzwerk: reicht 10GBit?-Ethernet, ansonsten FC oder Infiniband – ich denke, da könnte man dann auch den MPI-Traffic drüber laufen lassen.
- Budget: ich sage einfach <30000€, je größer die Differenz zur oberen Schranke ausfällt, desto besser - jetzt ist zwar recht viel Geld da, aber je nachdem, wie erfolgreich man nach 5-10a war, sollte man immer die Möglichkeit haben, die Hardware auch einmal zu ersetzen. Für einen 20k€-Speicher findet man da schon mal das nötige Kleingeld, für 80-90k€ wird das dann schon deutlich problematischer.
Insgesamt wohl ähnlich zu diesem Thread (@Fr@ddy) hier – wie dort von @konfetti angemerkt, wäre wohl ein modernes, fertiges Hybrid-Storage das Mittel der Wahl, doch was fragt man da an - die Diskussion gleitet irgendwann in das spezifische Ausschreiben von RAID-Controllern ab, was ich persönlich über die gesamte Lebensdauer des ganzen für etwas kritisch halte (dann braucht man einfach an Tag 1 nach mir jemanden, der sich mit dem verwendeten System auskennt. Das ist unwahrscheinlich.)
P.S.: mit dem lokalen RZ habe ich schon gesprochen, da kriegt man deren 40-Kern-Cluster-Standard-Modell im Attended-Housing zum Listenpreis (GPUs verbauen sie nur paarweise Tesla V100@10k€ p. Stück...). Das Storageangebot ist auch nicht optimal (und die Software muss man auch managen, insofern fällt das raus.
P.P.S.: mir geht es wirklich darum, ein paar Bericht aus der Praxis zu bekommen und vllt. ein paar Namen/Dinge, mit denen man feststellen kann, ob das Systemhaus gerade (nicht) die "die dumme Behörde kauft bei uns im Rahmenvertrag"-Masche abzieht... (nicht anders würde ich es bezeichnen, wenn im "Rahmenvertragsshop" ein Standarddesktop mit 1 Jahr Bring-In 70% mehr als auf der Website des OEM kostet....)
in der Arbeit (=Uni) ist nun endlich Geld+Wille da, die bestehende "Cluster"-Infrastruktur (~200 Kerne, die stückweise angeschafft wurden) aufzurüsten. Die Rechennodes traue ich mir auch zu auszuschreiben, sodass wir da bekommen, was wir brauchen (Kerne für DFT und GPUs für ML), bei einem Storageserver leider nicht. Grundsätzlich brauchen wir in allen Fällen auf Dauer wohl eh einen Administrationsverantwortlichen (Software), an sich könnte man also auch qualifiziert basteln, aber grundsätzlich ist ein All-in-one-Angebot mit möglichst langer Wartung (10a wird es nicht zu vertretbaren Preisen geben ) zumindest für den Speicher erstrebenswert. Wenn man das jetzt unqualifiziert ausschreibt, kommen halt vmtl. Systemhäuser, die uns das verkaufen, was wir bisher eingekauft haben, was imho reichlich am Ziel vorbeiging...
Ausgangssituation: 5 Server mit jeweils 5TB im RAID5 (5x1TB@3.5 Zoll/7200rpm) in einem Rack an einem Gigabit-Switch. Früher alle einzeln betrieben, jetzt als SLURM-"Cluster" (das Netzwerk reicht allerdings nicht für wirkliches Clustering aus). Als shared-fs wurde dann irgendwann ein Gluster eingerichtet, da man so immerhin auf unterschiedlichen Maschinen Dinge starten kann, ohne lange per rsync zu synchronisieren (und außerdem bei Server-Ausfall (aus diversen Gründen...) alle Daten da sind...). Die Crux daran ist, dass das einfach furchtbar lahm ist, git funktioniert kaum (was auf allen Cluster-FS wohl so ist) und wenn man 1min rechnet, braucht man erstmal 30s um die 500MB Ergebnisdaten auf die Festplatte zu schreiben (auf dem lokalen RAID5 um den Faktor ~10 schneller).
Anforderungen: Fileserver und geeignetes Storage-Netzwerk, um mittelfristig 20-30 Clients zu bedienen.
- Verfügbarkeit des ganzen: ich sage mal Ausfallzeit < 2 Werktage, die Daten sollten allerdings dann bei Wiederinbetriebnahme noch da sein.
- Speicherplatz: während der Simulationen können auch mal ein paar dutzend GB an Daten anfallen, effektiv aufgehoben werden im Moment so ~1-2 TB. Grundsätzlich denke ich, dass man so 5-6TB netto für Nutzer bereitstellen können sollte (Backup muss man auch noch extra regeln...)
- Use-Case: 3-4 User, die gleichzeitig mittelgroße Projekte (~10 Threads) kompilieren (zu diesem Zweck mglw. auch einmal 3-4 CI-VMs) können (dabei Performance wie am Desktop mit 0815-SSD), damit ist dann im wesentlichen vermutlich auch die "Hurra, ich verarbeite Daten-Phase" der selbstentwickelten Software gut abgedeckt (aus dem Teil der Gruppe gibt es leider keine genauen Specs). Parallel dazu sollte es möglich sein, Simulationsergebnisse mit ~300-400MB/s+ aggregiert für 2-3 Clients zu schreiben (oder einzulesen). User-Logins und Log-Files sollten daneben auch noch bedient werden können, mir wäre es am liebsten, auch die Betriebssystemimages auf dem Server liegen zu haben, das dürfte aber jetzt nicht das Performance-Bottleneck sein. /tmp könnte man evtl. auf eine günstige SSD packen im Server packen?!
- Netzwerk: reicht 10GBit?-Ethernet, ansonsten FC oder Infiniband – ich denke, da könnte man dann auch den MPI-Traffic drüber laufen lassen.
- Budget: ich sage einfach <30000€, je größer die Differenz zur oberen Schranke ausfällt, desto besser - jetzt ist zwar recht viel Geld da, aber je nachdem, wie erfolgreich man nach 5-10a war, sollte man immer die Möglichkeit haben, die Hardware auch einmal zu ersetzen. Für einen 20k€-Speicher findet man da schon mal das nötige Kleingeld, für 80-90k€ wird das dann schon deutlich problematischer.
Insgesamt wohl ähnlich zu diesem Thread (@Fr@ddy) hier – wie dort von @konfetti angemerkt, wäre wohl ein modernes, fertiges Hybrid-Storage das Mittel der Wahl, doch was fragt man da an - die Diskussion gleitet irgendwann in das spezifische Ausschreiben von RAID-Controllern ab, was ich persönlich über die gesamte Lebensdauer des ganzen für etwas kritisch halte (dann braucht man einfach an Tag 1 nach mir jemanden, der sich mit dem verwendeten System auskennt. Das ist unwahrscheinlich.)
P.S.: mit dem lokalen RZ habe ich schon gesprochen, da kriegt man deren 40-Kern-Cluster-Standard-Modell im Attended-Housing zum Listenpreis (GPUs verbauen sie nur paarweise Tesla V100@10k€ p. Stück...). Das Storageangebot ist auch nicht optimal (und die Software muss man auch managen, insofern fällt das raus.
P.P.S.: mir geht es wirklich darum, ein paar Bericht aus der Praxis zu bekommen und vllt. ein paar Namen/Dinge, mit denen man feststellen kann, ob das Systemhaus gerade (nicht) die "die dumme Behörde kauft bei uns im Rahmenvertrag"-Masche abzieht... (nicht anders würde ich es bezeichnen, wenn im "Rahmenvertragsshop" ein Standarddesktop mit 1 Jahr Bring-In 70% mehr als auf der Website des OEM kostet....)