Episodische Semantische Szenenanalyse
Zusammenfassung der Projektergebnisse
In diesem Projekt untersuchten wir die Darstellung und das Verständnis von alltäglichen Szenen und deren Veränderung im Laufe der Zeit. Szenegraphen stellen eine Szene bestehend aus Instanzen von Objekten als Knoten und ihre Beziehungen zueinander als gerichtete Kanten dar. Um die Veränderung von Szenengraphen im Laufe der Zeit zu untersuchen, stellen wir einen neuen 3D-Szenengraphendatensatz (3DSSG) von Innenraumen mit annotierten Beziehungen zwischen den Objekten vor, der über verschiedene Zeiträume wiederholte Scans der Szenen enthält. Abgeleitet davon formulieren wir die Aufgabe der domänenagnostische Szenenabfrage in sich verändernden Umgebungen. Durch das Zuordnen einzelner Teile aus zeitlich verschiedenen Aufnahmen einer Szene zueinander, können wir Veränderungen zwischen den zwei Aufnahmen derselben Szene erkennen; dies kann Maschinen dabei helfen aus der Beobachtung von menschlichen Interaktionen mit der Szene zu lernen. Wir schlagen eine Methode basierend auf neuronalen Graphennetzen zur Erstellung eines Szenengraphen aus einer segmentierten Punktwolke vor, bei der wir gleichzeitig die semantische Klasse der Objektknoten bestimmen sowie die Beziehungen zwischen den Entitäten in der Szene ableiten um die Kanten des Graphen zu bilden. Darüber hinaus untersuchen wir das Potenzial generativer Methoden zum Erlernen plausibler Konstellationen von Objekten in einer Szene, um aussagekräftige Vorhersagen über das gemeinsame Auftreten von Objekten und die Beziehungen zwischen ihnen zu erhalten. Daher haben wir Methoden entwickelt, um 3D-Szenen und Bilder aus einer erweiterten Szenengraphendarstellung mit kodierten neuronalen Merkmalen für Ob jektform und -erscheinung zu erzeugen und zu manipulieren. Dies ermöglicht es uns, eine Szene auf abstrakter Ebene virtuell zu verändern und uns das Ergebnis realistisch vorzustellen.
Projektbezogene Publikationen (Auswahl)
-
Object-driven multi-layer scene decomposition from a single image. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 5369–5378, 2019
Helisa Dhamo, Nassir Navab, and Federico Tombari
-
Learning 3d semantic scene graphs from 3d indoor reconstructions. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 3961–3970, 2020
Johanna Wald, Helisa Dhamo, Nassir Navab, and Federico Tombari
-
Semantic image manipulation using scene graphs. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5213–5222, 2020
Helisa Dhamo, Azade Farshad, Iro Laina, Nassir Navab, Gregory D Hager, Federico Tombari, and Christian Rupprecht
-
Graph-to-3d: End-to-end generation and manipulation of 3d scenes using scene graphs. In International Conference on Computer Vision, 2021
Helisa Dhamo, Fabian Manhardt, Nassir Navab, and Federico Tombari
-
Migs: Meta image generation from scene graphs. In British Machine Vision Conference, 2021
Azade Farshad, Sabrina Musatian, Helisa Dhamo, and Nassir Navab
-
Unconditional scene graph generation. In IEEE International Conference on Computer Vision, 2021
Sarthak Garg, Helisa Dhamo, Azade Farshad, Sabrina Musatian, Nassir Navab, and Federico Tombari