Training Deep Networks for Real-world Computer Vision Scenarios with Rendered Data

Applicant Professor Dr.-Ing. Thomas Brox

Subject Area Image and Language Processing, Computer Graphics and Visualisation, Human Computer Interaction, Ubiquitous and Wearable Computing

Term from 2018 to 2023

Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 401269959

Final Report Year 2024

Final Report Abstract

Während des Projekts gewannen wir ein deutlich besseres Verständnis für die Robustheit von Netzwerken zur Schätzung von optischem Fluss oder anderer Korrespondenzaufgaben. Die Robustheit gegenüber Samples außerhalb der Trainingsverteilung ist nicht, wie ursprünglich vermutet, wirklich größer als bei Erkennungsnetzwerken. Vielmehr ist bei optischem Fluss die entscheidende Größe die Verteilung der Flussvektoren und eben nicht die Bildverteilung. Eine generalisierende Trainingsverteilung von Flussvektoren lässt sich wesentlich einfacher synthetisch erzeugen als eine generalisierende Trainingsverteilung über Bilder. Dies erklärt die unterschiedlichen Eigenschaften von Netzwerken beider Arten von Lernaufgaben. Die Lösung für eine Steigerung der Robustheit bei Erkennungsaufgaben ist daher die Erstellung von allgemeinen Trainingsverteilungen. Diese können nach heutigem Wissensstand nicht (wie bei der Antragstellung noch allgemein vermutet) synthetisch erzeugt werden, sondern vielmehr durch die Nutzung extrem großer und diverser Datensätze. Dies ist die Grundlage der inzwischen entstandenen Foundation Models, die sich auf selbstüberwachte Lernverfahren stützen und daher auf sehr große Trainingsdatensätze skaliert werden können. Da das Wissen zu den Eigenschaften dieser Foundation Modelle bisher hauptsächlich deskriptiver Natur ist, haben wir im Projekt begonnen, Benchmarks zu erstellen, mit denen sich Foundation Modelle detaillierter analysieren lassen. Die Forschung hierzu steht jedoch erst am Anfang. Im Projekt haben wir zudem Verfahren zur Steuerung von Roboterarmen entwickelt, die in Simulation und daher auf gerenderten Bilddaten für Aufgaben trainiert werden. Wir entwickelten ein Verfahren basierend auf Reinforcement Learning unter Berücksichtigung eines Lerncurriculums sowie ein Verfahren basierend auf Imitationslernen. Wir erweiterten das zweite Verfahren auf verschiedene Aufgaben und Aufgabenkombinationen, so dass nicht mehr für jede neue Kombination auch eine eigene Demonstration notwendig ist. Der aktuelle Stand bietet eine gute Basis für eine Skalierung und damit für eine weitere Verallgemeinerung des Verfahrens.

Publications

FusionNet and AugmentedFlowNet: Selective Proxy Ground Truth for Training on Unlabeled Images
O. Makansi, E. Ilg & T. Brox
Adaptive Curriculum Generation from Demonstrations for Sim-to-Real Visuomotor Control. 2020 IEEE International Conference on Robotics and Automation (ICRA), 6498-6505. IEEE.
Hermann, Lukas; Argus, Max; Eitel, Andreas; Amiranashvili, Artemij; Burgard, Wolfram & Brox, Thomas
FlowControl: Optical Flow Based Visual Servoing. 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 7534-7541. IEEE.
Argus, Max; Hermann, Lukas; Long, Jon & Brox, Thomas
Temporal Shift GAN for Large Scale Video Generation. 2021 IEEE Winter Conference on Applications of Computer Vision (WACV), 3178-3187. IEEE.
Munoz, Andres; Zolfaghari, Mohammadreza; Argus, Max & Brox, Thomas
Conditional Visual Servoing for Multi-Step Tasks. 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2190-2196. IEEE.
Izquierdo, Sergio; Argus, Max & Brox, Thomas
Towards Understanding Adversarial Robustness of Optical Flow Networks. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 8906-8914. IEEE.
Schrodi, Simon; Saikia, Tonmoy & Brox, Thomas
Open-vocabulary Attribute Detection. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 7041-7050. IEEE.
Bravo, María A.; Mittal, Sudhanshu; Ging, Simon & Brox, Thomas
Compositional Servoing by Recombining Demonstrations. 2024 IEEE International Conference on Robotics and Automation (ICRA), 7339-7346. IEEE.
Argus, Max; Nayak, Abhijeet; Büchner, Martin; Galesso, Silvio; Valada, Abhinav & Brox, Thomas
Open-ended VQA benchmarking of Vision-Language models by exploiting classification datasets and their semantic hierarchy, International Conference on Learning Representations (ICLR), 2024.
S. Ging, M. A. Bravo & T. Brox

Servicenavigation

Hauptnavigation

Training Deep Networks for Real-world Computer Vision Scenarios with Rendered Data

Final Report Abstract

Publications

Additional Information

Servicenavigation

Hauptnavigation

Training Deep Networks for Real-world Computer Vision Scenarios with Rendered Data

Final Report Abstract

Publications

Additional Information

Textvergrößerung und Kontrastanpassung