Schwach überwachtes Lernen zur Tiefenschätzung in monokularen Bildern

Antragsteller Professor Dr. Ralph Ewerth; Professor Dr. Eyke Hüllermeier

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing

Förderung Förderung von 2019 bis 2022

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 420493178

Erstellungsjahr 2024

Zusammenfassung der Projektergebnisse

In diesem Projekt haben wir neue Ansätze zur Tiefenschätzung in monokularen Bildern entwickelt. Es wurden zwei Arten von maschinellen Lernverfahren erforscht, die lediglich “schwache” Überwachung erfordern, nämlich Learning-to-Rank und Superset Learning. Darüber hinaus haben wir Methoden zur Berechnung von monokularen Tiefenmerkmalen, die durch die menschliche visuelle Wahrnehmung motiviert sind, untersucht. Hinsichtlich der Learning-to-Rank-Ansätze haben wir vorgeschlagen, die monokulare Tiefenschätzung als ein listenbasiertes Reihungsproblem zu behandeln und die Plackett-Luce-Wahrscheinlichkeitsverteilung von Reihungen genutzt. Die Parameter der Verteilung über die Tiefenrankings werden effizient mittels einer Deep-Learning-Architektur gelernt. Darüber hinaus zeigten wir, wie aus den Ordinaldaten auch die metrische Tiefe geschätzt werden kann. Um (interpretierbare) Merkmale für die Tiefenschätzung zu berechnen, haben wir vier monokulare Kriterien (lineare Perspektive, Verdeckung, relative Höhe, übliche Größe) modelliert und implementiert, die sowohl für Innen- als auch für Außenaufnahmen relevant sind. Wir haben analysiert, inwieweit ein datenbasiertes Deep-Learning-Modell diese Merkmale implizit lernt. In einer Folgearbeit untersuchten wir, ob wir die Ranking-Fehler eines State-of-the-Art-Modells mittels dieser Merkmale detektieren und korrigieren können. Hierzu schlugen wir vor, Cross-Attention in einem Transformator-Decoder zu nutzen, um Zusammenhänge zwischen zwei Pixeln durch Ausnutzung des Bildkontexts zu lernen. Die Experimente zeigten, dass das Modell einen Teil der Fehler eines State-of-the-Art-Ansatzes vorhersagen und korrigieren kann. Andere Projektpublikationen adressierten das Konzept des Superset Learning. Wir schlugen die Abschwächung der Label-Informationen (Label-Relaxation) in einem allgemeinen Framework vor und setzten es für die probabilistische Klassifikation um. In diesem Fall setzen sich die Superset-Annotationen aus mehreren Wahrscheinlichkeitsverteilungen zusammen, die “Credal Sets” bilden. Deren mathematischen Eigenschaften werden genutzt, um ein effizientes und robustes Lernverfahren zu realisieren. In einer weiteren Projektpublikation übertragen wir diese Idee auf die monokulare Tiefenschätzung. Anstatt die Sensorsignale als exakte Messungen zu betrachten, folgen wir der Idee der Label-Relaxation durch (fuzzy) Supersets. Zusammen mit einer verallgemeinerten empirischen Risikominimierung führt dieses Modell zu robusteren und besser verallgemeinernden Regressionsmodellen. Darüber hinaus haben wir die Re-Modellierung von Annotationen auf das Paradigma des semi-überwachten Lernens erweitert. Die umfassendere Form der Überwachung durch (fuzzy) Supersets wurde in einem “credal” selbstüberwachten Lernansatz genutzt. Anstatt einzelne (präzise) probabilistische Verteilungen als Pseudo-Label zu verwenden, werden von dem System “Credal Sets” konstruiert. In Kombination mit einer empirischen Risikominimierung führt diese Methode zu einem robusten Lernverhalten. Zudem haben wir eine ähnliche Idee auf die semi-überwachte monokulare Tiefenschätzung angewendet.

Projektbezogene Publikationen (Auswahl)

Credal self-supervised learning. In Proceedlins NeurIPS, Advances in Neural Information Processing Systems (Vol. 34, pp. 14370-14382)
Lienen, J. & Hüllermeier, E.
From Label Smoothing to Label Relaxation. Proceedings of the AAAI Conference on Artificial Intelligence, 35(10), 8583-8591.
Lienen, Julian & Hüllermeier, Eyke
Instance weighting through data imprecisiation. International Journal of Approximate Reasoning, 134, 1-14.
Lienen, Julian & Hüllermeier, Eyke
Monocular Depth Estimation via Listwise Ranking using the Plackett-Luce Model. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 14590-14599. IEEE.
Lienen, Julian; Hullermeier, Eyke; Ewerth, Ralph & Nommensen, Nils
Robust Regression for Monocular Depth Estimation. In Asian Conference on Machine Learning (pp. 1001-1016)
Lienen, J., Nommensen, N., Ewerth, R. & Hüllermeier, E.
Scikit-Weak: A Python Library for Weakly Supervised Machine Learning. Lecture Notes in Computer Science, 57-70. Springer Nature Switzerland.
Campagner, Andrea; Lienen, Julian; Hüllermeier, Eyke & Ciucci, Davide
Analyzing Results of Depth Estimation Models with Monocular Criteria. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 3739-3743. IEEE.
Theiner, Jonas; Nommensen, Nils; Rhotert, Jim; Springstein, Matthias; Müller-Budack, Eric & Ewerth, Ralph
Conformal Credal Self-Supervised Learning. Proc. COPA, Conformal and Probabilistic Prediction with Applications. Limassol, Cyprus. PMLR 204:1-20, 2023
Lienen, J.; Demir, C. & Hüllermeier, E.
Memorization-Dilation: Modeling Neural Collapse Under Noise. Proc. ICLR, 11th International Conference on Learning Representations. Kigali, Rwanda,
Nguyen, D.A. , Levie, R. , Lienen, J. , Hüllermeier, E. & Kutyniok, G.
Mitigating Label Noise through Data Ambiguation. Proceedings of the AAAI Conference on Artificial Intelligence, 38(12), 13799-13807.
Lienen, Julian & Hüllermeier, Eyke

Servicenavigation

Hauptnavigation

Schwach überwachtes Lernen zur Tiefenschätzung in monokularen Bildern

Zusammenfassung der Projektergebnisse

Projektbezogene Publikationen (Auswahl)

Zusatzinformationen

Servicenavigation

Hauptnavigation

Schwach überwachtes Lernen zur Tiefenschätzung in monokularen Bildern

Zusammenfassung der Projektergebnisse

Projektbezogene Publikationen (Auswahl)

Zusatzinformationen

Textvergrößerung und Kontrastanpassung