Detailseite
Synthetische Daten und selbstständige Annotation für datengetriebene Videoanalyse.
Antragsteller
Professor Dr. Daniel Cremers, seit 11/2022
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung seit 2021
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 413611294
Während autonome Fahrzeuge und Roboter sich zu alltäglichen Bestandteilen unserer Städte entwickeln, gewinnt auch die Forschung an maschinellem Sehen zunehmend an Bedeutung. Um auf seine dynamische Umgebung zu reagieren muss ein autonomes Fahrzeug in erster Instanz diese Umgebung wahrnehmen können. Maschinelles Sehen wurde jüngst durch Deep Learning und dessen Fähigkeit tausende von Objekten in einem Bild zu erkennen revolutioniert. Daher liegt es nahe entsprechende datengetriebene Methoden auch für die Wahrnehmung und Interpretation von dynamischen Umgebungen zu verwenden. Insbesondere die Erkennung von Fußgängern in der Umgebung von autonomen Fahrzeugen steht im Vordergrund. Hierbei liegt die größte Herausforderung in der Kombination aus datenhungrigen neuronalen Netzwerken und der geringen Verfügbarkeit von großen, repräsentativen Video Datensätzen. Die temporäre Komponente birgt zwei grundlegende Schwierigkeiten für eine qualitativ hochwertige Annotation: (i) die zeitliche Konsistenz und (ii) die benötigte Datenmenge um neben der räumlichen auch eine aussagekräftige zeitliche Diversität zu beinhalten.Daher sollte auch die Möglichkeit in Erwägung gezogen werden neuronale Netzwerke für räumlich-temporäre Probleme mit synthetische Daten zu trainieren.Unser Hauptziel besteht darin neue Methoden zu studieren mit denen räumlich-temporäre neuronale Netzwerke ohne aufwendig annotierte Daten trainiert werden können. Da die räumliche Komponente, insbesondere Bildverarbeitung mit Deep Learning, schon ausreichend erforscht wurde, liegt unser Fokus auf der zeitlichen Domäne.Daher schlagen wir drei unterschiedliche Ansätze vor um den aktuellen Stand der datengetriebenen Videoanalyse, ohne den Einsatz von großen Datensätzen, voran zu bringen:A Einsatz von synthetischen, temporären Daten. Das Ziel ist Bewegungsmodelle auf synthetischen Daten zu erlernen, die zu echten Videodaten generalisieren. Im Zuge dessen, untersuchen wir die gelernten Repräsentationen der synthetischen und echten temporären Daten um Modelle zu trainieren, die eine höhere Generalisierung aufzeigen.B Untersuchung und Überbrückung der Generalisierungslücke für räumlich-temporäre Daten. Wir untersuchen die Gründe und Auswirkungen der Generalisierungslücke zwischen synthetischen und echten Daten mit Fokus auf die zeitlichen Domäne. Daraufhin werden wir generative Bildmodelle verwenden um möglichst reale synthetische Daten zu erzeugen. Dies soll die Generalisierungslücke automatisiert reduzieren und ermöglicht das gleichzeitige Erstellen von Daten und Trainieren von Bewegungsmodelle.C Analogien in der Bewegung für teilselbstständige Annotation. Wir schlagen vor bekannte Bewegungen zur teilselbstständige Annotation von 2D Bilddaten zu verwenden. Das Ziel ist Analogien in der Bewegung von annotierten und nicht annotierten Videos aufzuzeigen und die Annotation automatisch zu übernehmen. Das Endziel ist ein gemeinsames Training auf synthetischen und teilselbstständig annotierten Daten.
DFG-Verfahren
Forschungsgruppen
Teilprojekt zu
FOR 2987:
Lernen und Simulieren im Visual Computing
Ehemalige Antragstellerin
Professorin Dr.-Ing. Laura Leal-Taixe, bis 11/2022