Trainieren tiefer Netzwerke für reale Computer Vision Szenarien mithilfe gerenderter Daten

Antragsteller Professor Dr.-Ing. Thomas Brox

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing

Förderung Förderung von 2018 bis 2023

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 401269959

Erstellungsjahr 2024

Zusammenfassung der Projektergebnisse

Während des Projekts gewannen wir ein deutlich besseres Verständnis für die Robustheit von Netzwerken zur Schätzung von optischem Fluss oder anderer Korrespondenzaufgaben. Die Robustheit gegenüber Samples außerhalb der Trainingsverteilung ist nicht, wie ursprünglich vermutet, wirklich größer als bei Erkennungsnetzwerken. Vielmehr ist bei optischem Fluss die entscheidende Größe die Verteilung der Flussvektoren und eben nicht die Bildverteilung. Eine generalisierende Trainingsverteilung von Flussvektoren lässt sich wesentlich einfacher synthetisch erzeugen als eine generalisierende Trainingsverteilung über Bilder. Dies erklärt die unterschiedlichen Eigenschaften von Netzwerken beider Arten von Lernaufgaben. Die Lösung für eine Steigerung der Robustheit bei Erkennungsaufgaben ist daher die Erstellung von allgemeinen Trainingsverteilungen. Diese können nach heutigem Wissensstand nicht (wie bei der Antragstellung noch allgemein vermutet) synthetisch erzeugt werden, sondern vielmehr durch die Nutzung extrem großer und diverser Datensätze. Dies ist die Grundlage der inzwischen entstandenen Foundation Models, die sich auf selbstüberwachte Lernverfahren stützen und daher auf sehr große Trainingsdatensätze skaliert werden können. Da das Wissen zu den Eigenschaften dieser Foundation Modelle bisher hauptsächlich deskriptiver Natur ist, haben wir im Projekt begonnen, Benchmarks zu erstellen, mit denen sich Foundation Modelle detaillierter analysieren lassen. Die Forschung hierzu steht jedoch erst am Anfang. Im Projekt haben wir zudem Verfahren zur Steuerung von Roboterarmen entwickelt, die in Simulation und daher auf gerenderten Bilddaten für Aufgaben trainiert werden. Wir entwickelten ein Verfahren basierend auf Reinforcement Learning unter Berücksichtigung eines Lerncurriculums sowie ein Verfahren basierend auf Imitationslernen. Wir erweiterten das zweite Verfahren auf verschiedene Aufgaben und Aufgabenkombinationen, so dass nicht mehr für jede neue Kombination auch eine eigene Demonstration notwendig ist. Der aktuelle Stand bietet eine gute Basis für eine Skalierung und damit für eine weitere Verallgemeinerung des Verfahrens.

Projektbezogene Publikationen (Auswahl)

FusionNet and AugmentedFlowNet: Selective Proxy Ground Truth for Training on Unlabeled Images
O. Makansi, E. Ilg & T. Brox
Adaptive Curriculum Generation from Demonstrations for Sim-to-Real Visuomotor Control. 2020 IEEE International Conference on Robotics and Automation (ICRA), 6498-6505. IEEE.
Hermann, Lukas; Argus, Max; Eitel, Andreas; Amiranashvili, Artemij; Burgard, Wolfram & Brox, Thomas
FlowControl: Optical Flow Based Visual Servoing. 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 7534-7541. IEEE.
Argus, Max; Hermann, Lukas; Long, Jon & Brox, Thomas
Temporal Shift GAN for Large Scale Video Generation. 2021 IEEE Winter Conference on Applications of Computer Vision (WACV), 3178-3187. IEEE.
Munoz, Andres; Zolfaghari, Mohammadreza; Argus, Max & Brox, Thomas
Conditional Visual Servoing for Multi-Step Tasks. 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2190-2196. IEEE.
Izquierdo, Sergio; Argus, Max & Brox, Thomas
Towards Understanding Adversarial Robustness of Optical Flow Networks. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 8906-8914. IEEE.
Schrodi, Simon; Saikia, Tonmoy & Brox, Thomas
Open-vocabulary Attribute Detection. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 7041-7050. IEEE.
Bravo, María A.; Mittal, Sudhanshu; Ging, Simon & Brox, Thomas
Compositional Servoing by Recombining Demonstrations. 2024 IEEE International Conference on Robotics and Automation (ICRA), 7339-7346. IEEE.
Argus, Max; Nayak, Abhijeet; Büchner, Martin; Galesso, Silvio; Valada, Abhinav & Brox, Thomas
Open-ended VQA benchmarking of Vision-Language models by exploiting classification datasets and their semantic hierarchy, International Conference on Learning Representations (ICLR), 2024.
S. Ging, M. A. Bravo & T. Brox

Servicenavigation

Hauptnavigation

Trainieren tiefer Netzwerke für reale Computer Vision Szenarien mithilfe gerenderter Daten

Zusammenfassung der Projektergebnisse

Projektbezogene Publikationen (Auswahl)

Zusatzinformationen

Servicenavigation

Hauptnavigation

Trainieren tiefer Netzwerke für reale Computer Vision Szenarien mithilfe gerenderter Daten

Zusammenfassung der Projektergebnisse

Projektbezogene Publikationen (Auswahl)

Zusatzinformationen

Textvergrößerung und Kontrastanpassung