Detailseite
Projekt Druckansicht

Robustes Machinelles Sehen durch Neuronale Analyse-durch-Synthese mit 3D-bewussten Kompositionellen Netzwerkarchitekturen

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung seit 2022
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 468670075
 
Eines der wichtigsten Probleme für maschinelles Sehen ist, dass aktuelle Ansätze mittles tiefem Lernen nur gut funktionieren, wenn sie in ihnen bekannten Szenarien angewendet werden. In ungesehenen oder ungünstigen Sichtbedingungen treffen sie jedoch keine zuverlässigen Vorhersagen. Beispielsweise sind derzeitige Ansätze unzuverlässig, wenn Objekte teilweise verdeckt sind, oder in einer vorher nicht gesehenen Pose oder bei schlechtem Wetter gesehen werden. Dieser Mangel an Robustheit muss überwunden werden, um maschinelles Sehen zu einem zuverlässigen Bestandteil der Wissenschaft und unseres Alltags zu machen.Das Ziel dieses Projekts ist es, tiefe neuronale Netze (TNN) für maschinelles Sehen zu entwickeln, die in realen Szenarien sehr robust sind. Um dieses Ziel zu erreichen, werden wir einen neuronalen Analyse-durch-Synthese-Ansatz für maschinelles Sehen erforschen, der die diskriminativen Eigenschaften von tiefem Lernen mit der Robustheit von generativen Modellen kombiniert. Diese Entwicklung wird zu fortschrittlichen neuronalen Netzwerkarchitekturen führen, die folgende Eigenschaften aufweisen:(1) 3D-bewusste Repräsentationen: Die große Mehrheit der heutigen Ansätze für maschinelles Sehen verarbeitet Bilder lediglich in 2D. Ein Ziel dieses Projekts ist es, TNNs mit Wissen über die dreidimensionale Struktur unserer Welt zu erweitern, um sie in die Lage zu versetzen, Objekte aus ungesehenen 3D-Ansichten und in ungesehener Pose zu erkennen, und zudem die 3D-Struktur von Szenen auszunutzen.(2) Kompositionelle Repräsentationen: Szenen in Bildern sind natürlicherweise aus einer Hierarchie von Entitäten zusammengesetzt (z. B. Objekte, deren Einzelteile, etc.), die in der 3D-Welt miteinander interagieren. Ein Ziel dieses Projekts ist es, die Robustheit von TNNs zu verbessern, indem Netzwerkarchitekturen entwickelt werden, die die hierarchische kompositionelle Struktur von Bildern ausnutzen. Insbesondere wird dies tiefe Netze in die Lage versetzen, zuverlässiger zu werden, wenn sich einzelne Komponenten der Repräsentation ändern, z. B. aufgrund von Verdeckung oder veränderten Sichtbedingungen.(3) Herstellung von Konsistenz zwischen einzelnen Vorhersagen durch ein generatives Bildverständnis: Das derzeitige Paradigma im maschinellen Sehen einzelne Erkennungsaufgaben isoliert zu lösen, ist sehr begrenzt. Einzelne Aufgaben sind oft nicht eindeutig zu lösen und werden zusätzlich erschwert durch ungünstige Sichtbedingungen. Aufbauend auf unseren Entwicklungen von 3D-bewussten (1) und kompositionellen (2) Repräsentationen werden wir tiefe Netze befähigen, mehrere Erkennungsaufgaben in einen gemeinsamen Denkprozess zu integrieren. Konkret werden wir ein generatives Bildmodell in TNNs integrieren, welches Bilder analysiert, indem es die einzelnen Komponenten auf der Ebene der neuronalen Merkmalsaktivierungen synthetisiert. Dies wird TNNs ermöglichen robust zu werden, indem sie mehrdeutige Wahrnehmungen zu einer konsistenten Bildinterpretation kombinieren.
DFG-Verfahren Emmy Noether-Nachwuchsgruppen
Großgeräte High-performance GPU servers
Gerätegruppe 7030 Dedizierte, dezentrale Rechenanlagen, Prozeßrechner
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung