Detailseite
Die Interaktion mit Szenen durch Einzelteilbasiertes Verstehen lernen
Antragstellerin
Professorin Dr. Angela Dai
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung seit 2022
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 495902919
In den letzten Jahren gab es bemerkenswerte Fortschritte mit datengesteuerten Deep-Learning-Techniken bei der maschinellen Wahrnehmung realer Umgebungen. Diese haben in vielen Anwendungen neue Möglichkeiten geschaffen, darunter Robotik, Mixed Reality, Industrie 4.0 und medizinisches Verständnis. Insbesondere der Erfolg in der Objekterkennung hat den Weg geebnet, um Möglichkeiten für eine komplexe maschinelle Wahrnehmung und ein übergeordnetes Szenenverständnis zu eröffnen. Insbesondere das Verständnis der Interaktionen mit Umgebungen ist grundlegend für das Verständnis des menschlichen Verhaltens sowie der Struktur und Gestaltung von menschengemachten Umgebungen. Die Fähigkeit, Interaktionen mit Szenen vorherzusagen und zu generieren, wird sich auf viele Anwendungen in Forschung und Industrie auswirken: Zum Beispiel müssen Roboter oder virtuelle Agenten plausible Interaktionen mit ihrer Umgebung verstehen, um über navigationsbasierte Aufgaben hinauszugehen; für Mixed-Reality-Szenarien können vielfältige, komplexe virtuelle Umgebungen generiert werden; usw.. Leider bleibt die Erkennung auf der Ebene von Objekten unzureichend, um Interaktionen zu informieren, die eher mit Objektteilen als mit Objekten als Ganzes auftreten.Um beispielsweise einen Gegenstand in einer Schublade zu finden, sollte man sich bewusst sein, dass der Schubladengriff zum Öffnen verwendet wird, um an den Inhalt zu gelangen. Dies erfordert das Ableiten und Verstehen der Teilzerlegung der Objekte in einer Umgebung. Das Ableiten einer solchen teilebasierten Zerlegung ermöglicht dann Möglichkeiten für effiziente Operationen auf Teileebene, um Ansätze zu entwickeln, die über die Objektfunktionalität nachdenken und potenzielle Interaktionen mit Objekten in der Umgebung vorschlagen können.In diesem Projekt entwickeln wir daher neue Methoden des maschinellen Lernens, um ein teilebasiertes Verständnis von Objekten in realen Umgebungen abzuleiten und ihre Funktionalität zu lernen. Wir werden dazu neue Deep-Learning-Architekturen zum Erkennen und Segmentieren von Objektteilen in Szenen entwickeln und verschiedene Datendarstellungen und geometrische Operatoren untersuchen, wie zum Beispiel das Verständnis einer aufgenommenen Szene. Um teure Datenannotationsprozesse zu minimieren, werden wir uns außerdem auf die Entwicklung weakly und selbst überwachter (weakly & self-supervised Learning) Ansätze konzentrieren, um Wissen aus bestehenden synthetischen Formdatensätzen mit Teilannotationen mit realen Beobachtungen ohne Teilannotationen zu verbinden. Schließlich werden wir neue Lernalgorithmen basierend auf unseren vorhergesagten Teilzerlegungen entwickeln, um die Funktionalität der Objekte in einer Szene basierend auf diesen Objektteilen zu verstehen und mögliche Interaktionen mit den Objekten in der Umgebung vorzuschlagen.
DFG-Verfahren
Sachbeihilfen