Detailseite
Projekt Druckansicht

Deep Models für die handgeführte Akquisition von Lichtfeldern

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2020 bis 2024
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 437172262
 
Erstellungsjahr 2024

Zusammenfassung der Projektergebnisse

Lichtfelder erfassen 3D-Szenen aus mehreren Blickwinkeln und ermöglichen präzise Darstellungen einer Szene aus freier Sicht oder die Schätzung von Objektgeometrien und -materialien. Ziel dieses Projekts war die Entwicklung verallgemeinerbarer tiefer Modelle und Algorithmen für die Lichtfeldrekonstruktion, die über feste Erfassungskonfigurationen hinausgehen. Dabei wurden wichtige Fortschritte in den Bereichen generative Modelle für Lichtfelder, implizite Repräsentationen, textgesteuerte Bildrekonstruktionen und -manipulationen sowie die Robustheit von Bildrekonstruktionsmethoden erzielt, mit dem übergeordneten Ziel, flexible und robuste Lösungen für Lichtfeld- und Bildwiederherstellung zu schaffen. Wir entwickelten das erste generative Modell für Lichtfelder, einen generativen Autoencoder, der auf der zentralen Ansicht basiert. Wir haben dieses Modell als Prior für die Lichtfeldwiederherstellung für verschiedene Aufgaben verwendet, darunter die Synthese von Lichtfeldansichten, die räumlich-angulare Superauflösung und die Wiederherstellung aus kodierten Projektionen, mit Vorteilen in Bezug auf Flexibilität und Robustheit im Vergleich zu durchgängig trainierten Netzwerken. Wir haben eine neuronale implizite Darstellung für 4D-Lichtfelder vorgeschlagen, die auf einem spärlichen Satz von Eingangsansichten basiert, um die Lichtfeldwerte für einen kontinuierlichen Bereich von räumlich-angularen Koordinaten zu erzeugen. Dieses Schema kann eine spärliche Menge von Eingangsansichten auf jede gewünschte räumliche und winkelmäßige Auflösung auflösen und kann zusätzlich beschädigte Eingangsansichten mit fehlenden Pixeln verarbeiten. Wir demonstrierten die Anwendung textgesteuerter Bilddiffusionsmodelle für Bildwiederherstellung und -manipulation. Hierzu entwickelten wir ein schnelles Verfahren zur textgesteuerten Bildmanipulation, das ohne weitere Optimierung die inhaltliche Konsistenz beibehält. Wir schlugen eine textgesteuerte flexible Bildsuperauflösung vor, um semantisch genaue Rekonstruktionen zu erzeugen, die die Datenkonsistenz bei niedrig aufgelösten Eingaben aufrechterhalten. Unser Ansatz führte zu verschiedenen Lösungen, die semantisch mit dem Eingabetext übereinstimmen und gleichzeitig die Konsistenz mit den degradierten Bildern für flexible Upsampling-Faktoren beibehalten. Zusätzlich untersuchten wir die Robustheit tiefer Netzwerke bei Bildverschleierung und Computertomographie. Unsere Analyse umfasste die Widerstandsfähigkeit gegenüber verschiedenen Angriffen, die Übertragbarkeit von Angriffen zwischen Methoden und die Rolle architektonischer Komponenten bei der Robustheit. Wir zeigten, dass lokalisierte Angriffe gezielt genutzt werden können, um Lösungen für schlecht gestellte Rekonstruktionsprobleme zu finden.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung