NEWS

NVIDIA GTC21

GANverse3D macht aus 2D-Bildern ein 3D-Modell

Portrait des Authors


GANverse3D macht aus 2D-Bildern ein 3D-Modell
1

Werbung

Die Entwicklungsabteilung von NVIDIA arbeitet in vielerlei Richtung an neuen Software-Entwicklungen. Daraus entstand beispielsweise Omniverse, eine 3D-Entwicklungsplattform, die alle aktuell verwendete Middleware zusammenfassen und eine hardwareunabhängige Plattform sein soll, die sich in die Cloud auslagern lässt. Großer Vorteil ist aber die Interoperabilität zwischen der unterschiedlichsten 3D-Software.

Aus dem Entwicklerbüro im kanadischen Toronto stammt nun GANverse3D – eine Software, die aus einem einfachen 2D-Bild ein 3D-Modell machen kann. Um einen Datensatz für das Training zu generieren, nutzten die Forscher ein Generative Adversarial Network (GAN), um Bilder zu synthetisieren, die dasselbe Objekt aus verschiedenen Blickwinkeln zeigen. Ein Beispiel ist ein Fahrzeug, von dem Fotos aus verschiedenen Winkeln gemacht werden. Diese Multi-View-Bilder wurden in ein Rendering-Framework überführt, welches das 3D-Gittermodelle aus 2D-Bildern ableitet.

Trainiert wurde ein neuronales Netzwerk auf Basis von StyleGAN. Als Datensatz verwendet wurden 5,7 Millionen Fotos von Fahrzeugen, 2 Millionen Fotos von Pferden und 48.000 Fotos von Vögeln. Allerdings konnten nicht alle Fotos für das Training verwendet werden. Letztendlich übriggeblieben sind 55.429 Autos, 16.392 Pferde und 7.948 Vögel. Das Deep-Learning-Netzwerk wurde mit 200.000 Iterationen und einer Batch Size von 16 trainiert. Das Training dauerte 120 Stunden auf vier Tesla V100. Um die Ergebnisse zu verbessern, wurden weitere Trainings-Schritte durchgeführt.

Die Ergebnisse sehen wie in der Galerie dargestellt aus. Aus einem 2D-Foto wird ein 3D-Modell. Neben dem 3D-Modell werden die dazugehörigen Texturen generiert. Zudem erkennt das System die einzelnen Komponenten eines Fahrzeugs – sprich Türen, Dach, Räder, Motorhaube, Kofferraum, etc. pp. Daraus lassen sich dann Funktionen ableiten, wie das Drehen der Räder oder das Öffnen von Türen.

Das Modell muss natürlich noch weiter verbessert werden, bis die 3D-Daten ausreichend gut sind, um produktiv eingesetzt zu werden. NVIDIA sieht das Einsatzgebiet später bei Architekten, 3D-Designern und Spieleentwicklern, die ansonsten auf ein Fotogrametrieverfahren zurückgreifen, oder die Objekte komplett ohne Vorlage entstehen lassen. Je nach Komplexität des Objekts kann es mehrere Stunden bis Tage dauern, bis ein solches Objekt im 3D-Mesh und mit Texturen erstellt ist. GANverse3D macht aus einem 2D-Foto innerhalb von wenigen Millisekunden ein fertiges 3D-Modell. Allerdings ist die Qualität wie oben abgebildet noch nicht ausreichend gut für diese Anwendungsbereiche.

Dies will NVIDIA in Zukunft verbessern. Unter anderem sind dazu bessere Trainingsdaten notwenig. Vor allem die 3D-Modelle der Pferde und Vögel sind noch recht grobschlächtig. Dies liegt daran, dass es zwar viele Fotos aus seitlichen Blickwinkeln auf diese Objekte gibt, aber kaum solche von oben oder unten. Aus diesem Grund kann das neuronale Netzwerk nicht wirklich lernen, wie diese Objekten aus diesen Blickwinkeln aussehen. Über ein Training mit weiteren Datensätzen, vor allem einer Feedback-Schleife, die dem Netzwerk aufzeigt, wo es noch Verbesserungsbedarf gibt, soll GANverse3D sukzessive optimiert werden.

Datenschutzhinweis für Youtube



An dieser Stelle möchten wir Ihnen ein Youtube-Video zeigen. Ihre Daten zu schützen, liegt uns aber am Herzen: Youtube setzt durch das Einbinden und Abspielen Cookies auf ihrem Rechner, mit welchen Sie eventuell getracked werden können. Wenn Sie dies zulassen möchten, klicken Sie einfach auf den Play-Button. Das Video wird anschließend geladen und danach abgespielt.

Ihr Hardwareluxx-Team

Youtube Videos ab jetzt direkt anzeigen

Quellen und weitere Links KOMMENTARE (1) VGWort