Trainieren tiefer Netzwerke für reale Computer Vision Szenarien mithilfe gerenderter Daten
Zusammenfassung der Projektergebnisse
Während des Projekts gewannen wir ein deutlich besseres Verständnis für die Robustheit von Netzwerken zur Schätzung von optischem Fluss oder anderer Korrespondenzaufgaben. Die Robustheit gegenüber Samples außerhalb der Trainingsverteilung ist nicht, wie ursprünglich vermutet, wirklich größer als bei Erkennungsnetzwerken. Vielmehr ist bei optischem Fluss die entscheidende Größe die Verteilung der Flussvektoren und eben nicht die Bildverteilung. Eine generalisierende Trainingsverteilung von Flussvektoren lässt sich wesentlich einfacher synthetisch erzeugen als eine generalisierende Trainingsverteilung über Bilder. Dies erklärt die unterschiedlichen Eigenschaften von Netzwerken beider Arten von Lernaufgaben. Die Lösung für eine Steigerung der Robustheit bei Erkennungsaufgaben ist daher die Erstellung von allgemeinen Trainingsverteilungen. Diese können nach heutigem Wissensstand nicht (wie bei der Antragstellung noch allgemein vermutet) synthetisch erzeugt werden, sondern vielmehr durch die Nutzung extrem großer und diverser Datensätze. Dies ist die Grundlage der inzwischen entstandenen Foundation Models, die sich auf selbstüberwachte Lernverfahren stützen und daher auf sehr große Trainingsdatensätze skaliert werden können. Da das Wissen zu den Eigenschaften dieser Foundation Modelle bisher hauptsächlich deskriptiver Natur ist, haben wir im Projekt begonnen, Benchmarks zu erstellen, mit denen sich Foundation Modelle detaillierter analysieren lassen. Die Forschung hierzu steht jedoch erst am Anfang. Im Projekt haben wir zudem Verfahren zur Steuerung von Roboterarmen entwickelt, die in Simulation und daher auf gerenderten Bilddaten für Aufgaben trainiert werden. Wir entwickelten ein Verfahren basierend auf Reinforcement Learning unter Berücksichtigung eines Lerncurriculums sowie ein Verfahren basierend auf Imitationslernen. Wir erweiterten das zweite Verfahren auf verschiedene Aufgaben und Aufgabenkombinationen, so dass nicht mehr für jede neue Kombination auch eine eigene Demonstration notwendig ist. Der aktuelle Stand bietet eine gute Basis für eine Skalierung und damit für eine weitere Verallgemeinerung des Verfahrens.
Projektbezogene Publikationen (Auswahl)
-
FusionNet and AugmentedFlowNet: Selective Proxy Ground Truth for Training on Unlabeled Images
O. Makansi, E. Ilg & T. Brox
-
Adaptive Curriculum Generation from Demonstrations for Sim-to-Real Visuomotor Control. 2020 IEEE International Conference on Robotics and Automation (ICRA), 6498-6505. IEEE.
Hermann, Lukas; Argus, Max; Eitel, Andreas; Amiranashvili, Artemij; Burgard, Wolfram & Brox, Thomas
-
FlowControl: Optical Flow Based Visual Servoing. 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 7534-7541. IEEE.
Argus, Max; Hermann, Lukas; Long, Jon & Brox, Thomas
-
Temporal Shift GAN for Large Scale Video Generation. 2021 IEEE Winter Conference on Applications of Computer Vision (WACV), 3178-3187. IEEE.
Munoz, Andres; Zolfaghari, Mohammadreza; Argus, Max & Brox, Thomas
-
Conditional Visual Servoing for Multi-Step Tasks. 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2190-2196. IEEE.
Izquierdo, Sergio; Argus, Max & Brox, Thomas
-
Towards Understanding Adversarial Robustness of Optical Flow Networks. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 8906-8914. IEEE.
Schrodi, Simon; Saikia, Tonmoy & Brox, Thomas
-
Open-vocabulary Attribute Detection. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 7041-7050. IEEE.
Bravo, María A.; Mittal, Sudhanshu; Ging, Simon & Brox, Thomas
-
Compositional Servoing by Recombining Demonstrations. 2024 IEEE International Conference on Robotics and Automation (ICRA), 7339-7346. IEEE.
Argus, Max; Nayak, Abhijeet; Büchner, Martin; Galesso, Silvio; Valada, Abhinav & Brox, Thomas
-
Open-ended VQA benchmarking of Vision-Language models by exploiting classification datasets and their semantic hierarchy, International Conference on Learning Representations (ICLR), 2024.
S. Ging, M. A. Bravo & T. Brox
