Detailseite
Projekt Druckansicht

Schwach überwachtes Lernen zur Tiefenschätzung in monokularen Bildern

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2019 bis 2022
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 420493178
 
Erstellungsjahr 2024

Zusammenfassung der Projektergebnisse

In diesem Projekt haben wir neue Ansätze zur Tiefenschätzung in monokularen Bildern entwickelt. Es wurden zwei Arten von maschinellen Lernverfahren erforscht, die lediglich “schwache” Überwachung erfordern, nämlich Learning-to-Rank und Superset Learning. Darüber hinaus haben wir Methoden zur Berechnung von monokularen Tiefenmerkmalen, die durch die menschliche visuelle Wahrnehmung motiviert sind, untersucht. Hinsichtlich der Learning-to-Rank-Ansätze haben wir vorgeschlagen, die monokulare Tiefenschätzung als ein listenbasiertes Reihungsproblem zu behandeln und die Plackett-Luce-Wahrscheinlichkeitsverteilung von Reihungen genutzt. Die Parameter der Verteilung über die Tiefenrankings werden effizient mittels einer Deep-Learning-Architektur gelernt. Darüber hinaus zeigten wir, wie aus den Ordinaldaten auch die metrische Tiefe geschätzt werden kann. Um (interpretierbare) Merkmale für die Tiefenschätzung zu berechnen, haben wir vier monokulare Kriterien (lineare Perspektive, Verdeckung, relative Höhe, übliche Größe) modelliert und implementiert, die sowohl für Innen- als auch für Außenaufnahmen relevant sind. Wir haben analysiert, inwieweit ein datenbasiertes Deep-Learning-Modell diese Merkmale implizit lernt. In einer Folgearbeit untersuchten wir, ob wir die Ranking-Fehler eines State-of-the-Art-Modells mittels dieser Merkmale detektieren und korrigieren können. Hierzu schlugen wir vor, Cross-Attention in einem Transformator-Decoder zu nutzen, um Zusammenhänge zwischen zwei Pixeln durch Ausnutzung des Bildkontexts zu lernen. Die Experimente zeigten, dass das Modell einen Teil der Fehler eines State-of-the-Art-Ansatzes vorhersagen und korrigieren kann. Andere Projektpublikationen adressierten das Konzept des Superset Learning. Wir schlugen die Abschwächung der Label-Informationen (Label-Relaxation) in einem allgemeinen Framework vor und setzten es für die probabilistische Klassifikation um. In diesem Fall setzen sich die Superset-Annotationen aus mehreren Wahrscheinlichkeitsverteilungen zusammen, die “Credal Sets” bilden. Deren mathematischen Eigenschaften werden genutzt, um ein effizientes und robustes Lernverfahren zu realisieren. In einer weiteren Projektpublikation übertragen wir diese Idee auf die monokulare Tiefenschätzung. Anstatt die Sensorsignale als exakte Messungen zu betrachten, folgen wir der Idee der Label-Relaxation durch (fuzzy) Supersets. Zusammen mit einer verallgemeinerten empirischen Risikominimierung führt dieses Modell zu robusteren und besser verallgemeinernden Regressionsmodellen. Darüber hinaus haben wir die Re-Modellierung von Annotationen auf das Paradigma des semi-überwachten Lernens erweitert. Die umfassendere Form der Überwachung durch (fuzzy) Supersets wurde in einem “credal” selbstüberwachten Lernansatz genutzt. Anstatt einzelne (präzise) probabilistische Verteilungen als Pseudo-Label zu verwenden, werden von dem System “Credal Sets” konstruiert. In Kombination mit einer empirischen Risikominimierung führt diese Methode zu einem robusten Lernverhalten. Zudem haben wir eine ähnliche Idee auf die semi-überwachte monokulare Tiefenschätzung angewendet.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung