Deep Models für die handgeführte Akquisition von Lichtfeldern

Antragsteller Dr. Paramanand Chandramouli

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing

Förderung Förderung von 2020 bis 2024

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 437172262

Erstellungsjahr 2024

Zusammenfassung der Projektergebnisse

Lichtfelder erfassen 3D-Szenen aus mehreren Blickwinkeln und ermöglichen präzise Darstellungen einer Szene aus freier Sicht oder die Schätzung von Objektgeometrien und -materialien. Ziel dieses Projekts war die Entwicklung verallgemeinerbarer tiefer Modelle und Algorithmen für die Lichtfeldrekonstruktion, die über feste Erfassungskonfigurationen hinausgehen. Dabei wurden wichtige Fortschritte in den Bereichen generative Modelle für Lichtfelder, implizite Repräsentationen, textgesteuerte Bildrekonstruktionen und -manipulationen sowie die Robustheit von Bildrekonstruktionsmethoden erzielt, mit dem übergeordneten Ziel, flexible und robuste Lösungen für Lichtfeld- und Bildwiederherstellung zu schaffen. Wir entwickelten das erste generative Modell für Lichtfelder, einen generativen Autoencoder, der auf der zentralen Ansicht basiert. Wir haben dieses Modell als Prior für die Lichtfeldwiederherstellung für verschiedene Aufgaben verwendet, darunter die Synthese von Lichtfeldansichten, die räumlich-angulare Superauflösung und die Wiederherstellung aus kodierten Projektionen, mit Vorteilen in Bezug auf Flexibilität und Robustheit im Vergleich zu durchgängig trainierten Netzwerken. Wir haben eine neuronale implizite Darstellung für 4D-Lichtfelder vorgeschlagen, die auf einem spärlichen Satz von Eingangsansichten basiert, um die Lichtfeldwerte für einen kontinuierlichen Bereich von räumlich-angularen Koordinaten zu erzeugen. Dieses Schema kann eine spärliche Menge von Eingangsansichten auf jede gewünschte räumliche und winkelmäßige Auflösung auflösen und kann zusätzlich beschädigte Eingangsansichten mit fehlenden Pixeln verarbeiten. Wir demonstrierten die Anwendung textgesteuerter Bilddiffusionsmodelle für Bildwiederherstellung und -manipulation. Hierzu entwickelten wir ein schnelles Verfahren zur textgesteuerten Bildmanipulation, das ohne weitere Optimierung die inhaltliche Konsistenz beibehält. Wir schlugen eine textgesteuerte flexible Bildsuperauflösung vor, um semantisch genaue Rekonstruktionen zu erzeugen, die die Datenkonsistenz bei niedrig aufgelösten Eingaben aufrechterhalten. Unser Ansatz führte zu verschiedenen Lösungen, die semantisch mit dem Eingabetext übereinstimmen und gleichzeitig die Konsistenz mit den degradierten Bildern für flexible Upsampling-Faktoren beibehalten. Zusätzlich untersuchten wir die Robustheit tiefer Netzwerke bei Bildverschleierung und Computertomographie. Unsere Analyse umfasste die Widerstandsfähigkeit gegenüber verschiedenen Angriffen, die Übertragbarkeit von Angriffen zwischen Methoden und die Rolle architektonischer Komponenten bei der Robustheit. Wir zeigten, dass lokalisierte Angriffe gezielt genutzt werden können, um Lösungen für schlecht gestellte Rekonstruktionsprobleme zu finden.

Projektbezogene Publikationen (Auswahl)

Light Field Implicit Representation for Flexible Resolution Reconstruction
Paramanand Chandramouli, Hendrik Sommerhoﬀ & Andreas Kolb
A Generative Model for Generic Light Field Reconstruction. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44(4), 1712-1724.
Chandramouli, Paramanand; Gandikota, Kanchana Vaishnavi; Goerlitz, Andreas; Kolb, Andreas & Moeller, Michael
LDEdit: Towards generalized text guided image manipulation via latent diﬀusion models. British Machine Vision Conference (BMVC), 2022
Paramanand Chandramouli & Kanchana Vaishnavi Gandikota
On Adversarial Robustness of Deep Image Deblurring. 2022 IEEE International Conference on Image Processing (ICIP), 3161-3165. IEEE.
Gandikota, Kanchana Vaishnavi; Chandramouli, Paramanand & Moeller, Michael
Evaluating Adversarial Robustness of Low dose CT Recovery. Medical Imaging with Deep Learning (MIDL)
Kanchana Vaishnavi Gandikota, Paramanand Chandramouli, Hannah Droege & Michael Moeller
Exploring Open Domain Image Super-Resolution through Text. ICML Workshop on Artiﬁcial Intelligence & Human-Computer Interaction, 2023
Kanchana Vaishnavi Gandikota & Paramanand Chandramouli
On the unreasonable vulnerability of transformers for image restoration – and an easy fix. 2023 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW), 3709-3719. IEEE.
Agnihotri, Shashank; Gandikota, Kanchana Vaishnavi; Grabinski, Julia; Chandramouli, Paramanand & Keuper, Margret
Text-Guided Explorable Image Super-Resolution. 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 25900-25911. IEEE.
Gandikota, Kanchana Vaishnavi & Chandramouli, Paramanand

Servicenavigation

Hauptnavigation

Deep Models für die handgeführte Akquisition von Lichtfeldern

Zusammenfassung der Projektergebnisse

Projektbezogene Publikationen (Auswahl)

Zusatzinformationen

Servicenavigation

Hauptnavigation

Deep Models für die handgeführte Akquisition von Lichtfeldern

Zusammenfassung der Projektergebnisse

Projektbezogene Publikationen (Auswahl)

Zusatzinformationen

Textvergrößerung und Kontrastanpassung