Raum-zeitliche Multiskalenmerkmale zur Segmentierung und Klassifikation von Objektinstanzen in Videos
Zusammenfassung der Projektergebnisse
In diesem gemeinsamen Projekt zwischen der Universidad de los Andes und der Universität Freiburg wurde ein Ansatz entwickelt, der auf Deep Learning basierende Instanzsegmentierung mit Bewegungsinformationen aus ebenfalls Deep-Learning basiertem optischem Fluss zusammenführt. Die Instanzsegmentierung ist für mehrere Objekte ausgelegt und hält auch eine konsistente Identität über die Zeit aufrecht. Der Ansatz kann daher auch als verfeinerter Trackingansatz betrachtet werden. Auf den DAVIS und Youtube-VOS Benchmarks zeigte das Verfahren bis dato die besten Ergebnisse bei dieser Aufgabe. Das Projekt diente primär auch der Stärkung der Zusammenarbeit zwischen der Universidad de los Andes und der Universität Freiburg sowie der Nachwuchsförderung.
Projektbezogene Publikationen (Auswahl)
- MAIN: Multi-Attention Instance Network for Video Segmentation, 2019
Juan Leon Alcazar, Maria A. Bravo, Ali K. Thabet, Guillaume Jeanneret, Thomas Brox, Pablo Arbelaez, Bernard Ghanem
(Siehe online unter https://doi.org/10.48550/arXiv.1904.05847)