NEWS

#PNY #AIRI #HPC #DGX-1 #DGX-2 #NVIDIA #Deep-Learning #AI #Artificial-Intelligence #Machine-Learning #ML #PureStorage #Interconnect

Füttern der Bestie

PNY PURE AIRI verbindet HPC mit Storage und Netzwerk

Von Andreas Schilling
Freitag, 06.07.2018 um 14:39 Uhr

PNY PURE AIRI verbindet HPC mit Storage und Netzwerk

Seit einigen Jahren bietet NVIDIA Systeme für das High Performance Computing und Deep-Learning-Anwendungen an. Über seine Partner wie IBM, Dell, HPE und einige andere sind entsprechende Server ebenfalls für entsprechende Anwendungen verfügbar. PNY ist seit 2003 der exklusive Partner für den Verkauf der Hardware von NVIDIA im Bereich von Quadro- und Tesla-Karten und bietet seit einiger Zeit auch auf Kundenwunsch gefertigte HPC-Server an.

Dieses Angebot wurde zur GPU Technology Conference im März um die AIRI-Produktlinie erweitert. AIRI steht für "AI Ready Infrastructure", PNY will die Marke Pure AI Ready Infrastructure etablieren, die aber etwas sperrig ist und wir verweisen daher im folgenden auf AIRI. Im französischen Bordeaux konnten wir uns einen AIRI nun etwas genauer anschauen, vor allem aber über die Hintergründe einer solchen Entwicklung sprechen.

Bei Pure AI Ready Infrastructure handelt es sich um auf Kundenwunsch angepasste AI-Server, die mit DGX-1-Systemen von NVIDIA bestückt sind. Theoretisch könnten auch die neuen DGX-2 integriert werden, die NVMe-SSDs werden hier aber nicht unbedingt benötigt, da man die FlashBlades hat und die Skalierung der Leistung erfolgt bei den AIRI-Systemen über den Einsatz von mehreren DGX-1.

Hinzu kommt eine Storage-Hardware aus dem Hause PureStorage und eine Netzwerkanbindung über Switches aus dem Hause Arista oder Cisco. Auf den genauen Aufbau gehen wir noch etwas detaillierter ein.

DGX-Hardware ist im Storage- und Netzwerkbereich limitiert

Bereits im vergangenen Jahr präsentierte NVIDIA sein DGX-1-System. Es ist mit acht Tesla V100 mit wahlweise 16 oder 32 GB HBM2 ausgestattet. Hinzu kommen zwei Intel XeonE5-2698 v4 mit jeweils 20 Kernen, 512 GB DDR4-2133 sowie vier SSDs mit jeweils 2 TB im RAID 0. Die Anbindung weiterer Nodes erfolgt über vier InfiniBand-Kanäle mit jeweils 25 GBit/s sowie zwei 10-GbE-Netzwerkschnittstellen.

Die erwähnten 8 TB an SSD-Speicher sind der Flaschenhals der DGX-1-Systeme, denn häufig sind die Datensätze für Deep-Learning- bzw. Machine-Learning-Anwendungen deutlich größer als diese 8 TB. Zenuity, ein Netzwerk für autonome Fahrzeuge hat inzwischen eine Größe von 20 PB erreicht. Nicht alle Datensätze müssen zur gleichen Zeit genutzt werden. Die Daten zeigen aber, dass solche Netzwerke vor dem Training sehr groß sein können. Bei solchen Datenmengen müssen diese extern zur Verfügung gestellt werden, was über ein Network Attached Storage geschieht. Hier kommt im PNY AIRI die Zusammenarbeit mit PureStorage ins Spiel.

Ein FlashBlade besteht aus bis zu 15 Blades, die jeweils mit einer Kapazität von 17 oder 52 TB ausgestattet werden können. Insgesamt ergibt sich daraus eine Speicherkapazität von 190 bis 1.607 TB – ein deutliches Plus gegenüber den 8 TB eines DGX-1. Vor allem aber kann dieser Speicher in verschiedenen RAID-Arrays angelegt werden. Fällt das RAID 0 des DGX-1 aus, sind auch die Daten darauf nicht mehr nutzbar. Die FlasBlades bieten eine konfigurierbare Datensicherheit. Die theoretische Speicherbandbreite eines solchen Systems liegt bei 17 GB/s und bietet 1,5 Millionen IOPS. Angebunden werden kann ein solches FlashBlade über acht 40-GbE-Anschlüsse sowie 32x 10 GbE. Untergebracht ist dies alles in einem 4U-Rack.

Dritte Komponente sind die Netzwerkswitches. Je nach Konfiguration des PNY AIRI kommen Arista DCS-7060CX2-32S mit 32x 100 GbE sowie 2x 10 GbE oder aber Cisco Nexus 9336C-FX2 mit 36x 100/40 GbE zum Einsatz.

AI für viele Unternehmen noch immer eine Blackbox

Für viele Unternehmen sind AI- bzw. ML-Anwendungen in gewisser Weise eine Blackbox. Wurde das Thema vor vier bis fünf Jahren noch als eine Art Blase angesehen, kommt kaum ein Unternehmen mit eigenen Datensätzen noch ohne eine entsprechende Verarbeitung dieser Daten aus. Selbst wenn keine eigenen Daten über solche Algorithmen verarbeitet werden, in den verschiedensten Dienstleistungen sind heutzutage fast alle Unternehmen darauf angewiesen.

Je nach Menge der Daten, Notwendigkeit von Trainings-Iterationen in verschiedenen zeitlichen Abständen und vielen weiteren Rahmenbedingungen muss ein Unternehmen früher oder später entscheiden, auf welcher Hardware dies laufen soll. Der Aufbau des Netzwerkes kann mit einer einfachen Titan V von NVIDIA beginnen. Auf Basis einer Titan V sollten die Datensätze aber noch nicht allzu groß sein, sondern viel mehr erprobt werden, welche Art von Deep-Learning-Netzwerk überhaupt in Frage kommt und was aus den eigenen Daten zu gewinnen ist. In einem nächsten Schritt kann das eigene Projekt auf einer Cloud-Instanz im größeren Maßstab ausgeführt und weiter erprobt werden.

NVIDIA selbst, aber auch Amazon und Microsoft bieten dazu die entsprechende Cloud-Infrastruktur mit Hardware aus dem Hause NVIDIA, so dass das Netzwerk einfach von einer Titan V auf eine breiter aufgestellte Hardware überführt werden kann. Anpassungen sind dazu zunächst einmal nicht notwendig. Über eine eigene Docker-Lösung macht NVIDIA eine schnelle Portierung auf andere Hardware-Instanzen – eben von einer einzelnen Karte auf komplette DGX-Systeme – möglich.

Nun sind solche Cloud-Instanzen für einen initialen Test des Deep-Learning-Netzwerkes sinnvoll, je nachdem wie leistungsstark die Cloud-Instanz sein muss und wie häufig diese verwendet wird, kann sich schon nach einer Zeit von drei Monaten die Anschaffung eines Servers wie dem AIRI von PNY lohnen. Auch dies ist sicherlich wieder von zahlreichen Parametern abhängig und muss im Einzelfall geprüft werden. Im Zusammenhang mit den Cloud-Instanzen aber weitaus wichtiger ist, dass die Daten dann bei NVIDIA, Google oder Amazon liegen. Aus Gründen der Sicherheit der Daten verzichten viele Unternehmen auf ein Auslagern der sensiblen Daten – auch wenn diese verschlüsselt abgelegt sind. Sollen die Daten Inhouse verwaltet werden, bleibt nur die Anschaffung eines eigenen Servers.

Beispiele aus der Praxis

Es gibt bereits einige Unternehmen, die einen AIRI von PNY einsetzen. So verwendet Volvo ein System bestehend aus zehn DGX-1 plus zwei FlashBlades. Über die genaue Konfiguration des FlashBlades sowie die Bestückung mit Switches wollte man sich nicht äußern. Derzeit befinden sich allerdings fast 200 autonome Fahrzeuge von Volvo auf den Straßen der Welt und alle Daten dieser Fahrzeuge werden im besagten PNY AIRI verwertet.

Ein sogenannter Inkubator in München, UnternehmerTUM, hat ebenfalls einen PNY AIRI angeschafft und stellt diesen Startups zur Verfügung, damit diese ihre DL- bzw. ML-Anwendungen darauf laufen lassen können. Vor einem Jahr haben wir darüber berichtet, dass auch Formel-1-Teams auf solche Lösungen zurückgreifen. Zwar stehen hier noch keine AIRI, Mercedes AMG Petronas speichert die Daten allerdings auf FlashBlades und verarbeitet die Daten ebenfalls im Hintergrund auf AI-Systemen. PNY ist außerdem mit zahlreichen Banken in Gesprächen, die solche AIRI-Systeme für das Risikomanagement und Erkennung von unüblichen Finanztransaktionen (Fraud Detection) anschaffen wollen.

Bei einer solchen Anschaffung sprechen wir dann aber von Preisen in Höhe von rund 150.000 US-Dollar für jedes einzelne DGX-1 und hinzu kommen noch die PureStorage-FlashBlades und Netzwerkswitches. Eine mindestens im mittleren sechsstelligen Bereich liegende Investition ist also zu tätigen.

Quellen und weitere Links