NEWS

Super Real Time

NVIDIAs AI-Netzwerke werden komplexer und dennoch schneller

Portrait des Authors


NVIDIAs AI-Netzwerke werden komplexer und dennoch schneller
0

Werbung

Auch wenn auf der GPU Technology Conference auf deutschem Boden das Thema Automotive dominiert, so führt für NVIDIA natürlich alles durch die notwendige Rechenleitung auf die eigenen GPUs zurück. Auch auf der Keynote waren die stetig wachsenden und dennoch immer schneller werdenden Deep-Learning-Netzwerke daher ein wichtiges Thema.

Bilder-Netzwerke wie das erste AlexNet wuchsen stetig an, haben mit ResNet-50 eine Tiefe von 50 Iterationen erreicht und sind selbst damit nicht mehr die größten Netzwerke dieser Art. Inception-v4 als derzeit größtes Netzwerk dieser Art umfasst mehrere Milliarden Bilder und verlangt nach der 350fachen Menge an Speicher und Bandbreite im Vergleich zu den ersten Netzwerken. Auch solche für das Erkennen von Sprache sind inzwischen um das 30fache komplexer und solche für Übersetzungen in nahezu Echtzeit um den Faktor zehn.

Dabei haben sich inzwischen auch schon vier unterschiedliche Arten von Deep-Learning-Netzwerken entwickelt. Die ersten waren die sogenannten Convolutional Networks. Grundsätzlich besteht die Struktur eines klassischen Convolutional Neural Networks aus einem oder mehreren Convolutional Layern, gefolgt von einem Pooling Layer. Diese Einheit kann sich prinzipiell beliebig oft wiederholen, bei ausreichend Wiederholungen spricht man dann von Deep Convolutional Neural Networks. Vor allem solche Netzwerke die sich mit Bildern oder Videos beschäftigen verwenden Convolutional Networks.

Recurrent Networks entsprechen in etwa dem, wie unser Gehirn funktioniert. Hier gibt es direkte Verbindungen zwischen den verschiedenen Ebenen, sodass sich solche Netzwerke beispielsweise für die Sprach- oder Handschrifterkennung eignen. Dritte Kategorie sind die Generative Adversarial Networks, bei denen zwei Deep-Learning-Netzwerke gegeneinander arbeiten, um sich gegenseitig zu verbessern. Während das eine Netzwerk beispielsweise versucht ein bestimmtes Verhalten nachzuahmen, versucht das zweite Netzwerk nachzuweisen, dass es sich dabei um künstlich erstellte Daten handelt. Ein Beispiel wäre ein Netzwerk welches versucht einen berühmten Maler nachzuahmen, während das zweite Netzwerk versucht diese als Fälschung nachzuweisen.

Dritte und für AI-Anwendungen die wichtigste Kategorie sind die Reinforcement Networks, die durch Trial und Error auf das richtige Verhalten schließen und sich Schritt für Schritt weiterentwickeln.

Kaum ein Unternehmen kann laut NVIDIA auf die Entwicklung solcher Netzwerke verzichten, da es kaum Anwendungsfelder gibt, in denen dies nicht sinnvoll erscheint. Neben den wichtigsten Frameworks unterstützt NVIDIA die Entwickler auch mit solchen Konferenzen wie der GTC.

NVIDIA immer mit der richtigen (Hardware)-Antwort

Datenschutzhinweis für Youtube



An dieser Stelle möchten wir Ihnen ein Youtube-Video zeigen. Ihre Daten zu schützen, liegt uns aber am Herzen: Youtube setzt durch das Einbinden und Abspielen Cookies auf ihrem Rechner, mit welchen Sie eventuell getracked werden können. Wenn Sie dies zulassen möchten, klicken Sie einfach auf den Play-Button. Das Video wird anschließend geladen und danach abgespielt.

Ihr Hardwareluxx-Team

Youtube Videos ab jetzt direkt anzeigen

Aktuell basiert vieles von NVIDIAs Hardware-Strategie auf den High-End-Trainingswerkzeugen. Dazu gehören natürlich die Tesla V100 mit Volta-Architekturen, aber auch die dazugehörigen Inferencing-Karten. Welche Vorteile der Einsatz der eigenen GPUs bieten soll, erläutert NVIDIA anhand einer Demo, bei der ein Bildnetzwerk mit Blumen einmal durch einen aktuellen High-End-Prozessor (auf Nachfrage das Topmodell von Skylake-X) und einmal auf einer Tesla V100 trainiert wird.

Anstatt zwischen 4 und fünf Bildern pro Sekunde, kann das Netzwerk mit einer Tesla V100 über 500 Bilder pro Sekunde analysieren. NVIDIA sprach in Zusammenhang mit der gebotenen Leistung von Super Realtime, wenngleich eine Echtzeit eben Echtzeit ist und nicht noch einmal beschleunigt werden kann.

Die hohe Rechenleistung auf kleinerem Raum soll sich für die Kunden von NVIDIA auszahlen. So kann in einem Datacenter ein Kabinett aus vier Serverschränken und 160 CPUs für 45.000 Bildern pro Sekunde und einer Leistungsaufnahme von 65 kW durch ein HGX-1 mit acht Tesla V100 ersetzt werden, der ebenfalls 45.000 Bildern pro Sekunde verarbeiten kann, dafür aber nur 3 kW an Leistung benötigt.

Ein ähnlicher Ansatz ist auch das Drive-PX-Pegasus-Modul, welches eine Rechenleistung von 320 TOPS aus 500 W bietet und damit kleiner und sparsamer ist, als die Testhardware, die aktuell von den Herstellern für das Level 5 des autonomen Fahrens verwendet wird. Diese verbraucht mehreren tausend Watt und füllt den kompletten Kofferraum eines Fahrzeugs.

Allerdings erkauft sich NVIDIA die Rechenleistung des Drive PX Pegasus mit einer Verschlechterung der TOPS/W. Liegt die Effizienz mit dem Drive PX 2 noch bei 0,1 TOPS/W, konnte NVIDIA dies mit dem Xavier SoC auf 1 TOPS/W steigern. Drive PX Pegasus kommt allerdings nur noch auf 0,64 TOPS/W. Viel hilft viel – so das Motto um den Bedarf an Rechenleistung für das Level 5 des autonomen Fahrens in einer ersten Version realisieren zu können. Bis wir solche Systeme allerdings in der Praxis sehen, wird es noch einige Jahre dauern und NVIDIA hat daher Zeit die Effizienz wieder zu verbessern.

Quellen und weitere Links KOMMENTARE (0) VGWort