Detailseite
Projekt Druckansicht

Domänentransfer mit generativen Modellen und neuronalem Rendering

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung seit 2021
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 413611294
 
In den letzten Jahren haben wir den enormen Erfolg von neuronalen Netzen in fast allen Bereichen der Informatik erlebt. Trotz dieses Erfolgs bleibt jedoch eine grundlegende Einschränkung bestehen: die Verfügbarkeit von beschrifteten Trainingsdaten, die im Allgemeinen kostspielig und schwer zu beschaffen sind, insbesondere für Computerbildaufgaben wie die semantische Segmentierung, bei der Klassenbeschriftungen für jedes Pixel manuell erstellt werden müssen. Ein möglicher Ansatz zur Lösung dieses Problems besteht darin, synthetische Bilder als Trainingsdaten für neuronale Netze zu nutzen; hier werden Ground Truth Labels bereits kostenlos zur Verfügung gestellt, und aus einer gegebenen 3D-Szenenbeschreibung kann eine praktisch beliebig große Menge an Bildern aus verschiedenen Blickwinkeln synthetisiert werden. Dieses Potenzial hat die Computer Vision-Forschung bereits dazu inspiriert, Simulationsumgebungen zu entwickeln, um aus diesen Darstellungen Trainingsdaten zu generieren; z.B. Habitat und Gibson.Das übergreifende Ziel dieses Vorschlags ist es, Trainingsdaten domänenübergreifend zu nutzen, indem die Domänenlücke zwischen simulierten und realen visuellen Daten überbrückt wird. In frühen Arbeiten wurden Domänenadaptionstechniken vorgeschlagen, um dieses anspruchsvolle Problem zu lösen, wie z.B. die beliebte Open-Set-Domänenadaptionsmethode; das Problem selbst bleibt jedoch aufgrund der Diskrepanz in den zugrunde liegenden Datenstatistiken immer noch eine Herausforderung. Um das Problem zu lösen, schlagen wir vor, neue generative Modelle zu entwickeln, die einen Domänentransfer ermöglichen, indem sie lernen, die jeweiligen zugrunde liegenden Datenverteilungen sowohl in der Quell- (simulierten) als auch in der Zieldomäne (reale Welt) abzugleichen. Wir glauben, dass dies eine sehr zeitgemäße Richtung im Hinblick auf die Entwicklungen in der Forschungsgemeinschaft ist, da wir jetzt sehr vielversprechende Arbeiten zu generativen neuronalen Netzen für visuelle Daten gesehen haben. Insbesondere können generative kontradiktorische Netze (GANs) jetzt fotorealistische Bilder aus Zufallsverteilungen erzeugen. Mit diesen neuen Fortschritten sehen wir eine überzeugende Gelegenheit, solche Techniken zur Überbrückung der Lücke zwischen synthetisch-realen Domänen zu entwickeln, d.h. die Nutzung generativer Ansätze zur Transformation synthetischer Daten in ihr fotorealistisches Gegenstück.Unsere wichtigste Erkenntnis besteht darin, das grafikbasierte 3D-Verständnis von Bildern zu nutzen, um generative neuronale Netze zu informieren und so die Domänenlücke zu schließen. Durch das Erlernen expliziter 3D-Parametrisierungen von in Bildern erfassten Szenen können wir die Vorteile der physikalisch basierten Modellierung der Bildgebung und der räumlichen 3D-Konsistenz nutzen, die ein Netzwerk dann nicht lernen müsste, sondern sich darauf konzentrieren könnte, die domänenspezifischen Eigenschaften von synthetischen und realen Daten zu überbrücken.
DFG-Verfahren Forschungsgruppen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung