Detailseite
Schwach überwachtes Lernen zur Tiefenschätzung in monokularen Bildern
Antragsteller
Professor Dr. Ralph Ewerth; Professor Dr. Eyke Hüllermeier
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung von 2019 bis 2022
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 420493178
Dieses Projekt erforscht neue Ansätze zur Tiefenschätzung in monokularen Bildern auf der Basis des "schwach überwachten" (maschinellen) Lernens, konkret des sogenannten "Learning to Rank" und des "Superset Learning". Im Vergleich zu herkömmlichen, auf statistischer Regression basierenden Ansätzen, die Trainingsdaten in Form präziser Tiefeninformation erfordern (und im Prinzip unnötig präzise Schätzungen liefern), arbeiten beide Ansätze mit deutlich schwächeren Trainingsdaten, entweder relativen ("Objekt B befindet sich hinter Objekt A") oder ungefähren absoluten Angaben zur Tiefe ("Objekt A ist nah an der Kamera"). Dies erleichtert unter anderem die Akquise von Trainingsdaten. Als Ergebnis liefern die neuen Ansätze qualitative Tiefenkarten in Form von Reihungen (Rankings) der Objekte in einer Szene. Für beide Ansätze werden speziell auf das Problem der Tiefenschätzung zugeschnittene maschinelle Lernverfahren entwickelt. Diese werden wiederum mit zwei Varianten der Merkmalsrepräsentation kombiniert: der systematischen Modellierung von monokularen Tiefenmerkmalen basierend auf Erkenntnissen zur menschlichen Wahrnehmung ("hand-crafted Features") sowie die automatische Generierung von Merkmalsrepräsentationen mithilfe tiefer neuronaler Netzen. Unsere qualitativen, schwach überwachten Ansätze zur monokularen Tiefenschätzung werden umfassend evaluiert und sowohl miteinander als auch mit existierenden, auf statistischer Regression basierenden Ansätzen verglichen. Nicht zuletzt werden die Vorteile der neuen Algorithmen für mehrere wichtige Anwendungen untersucht: visuelle Konzeptklassifikation in Bildern und Videos, visuelle Konzeptlokalisierung und semantische Bildsegmentierung.
DFG-Verfahren
Sachbeihilfen