Project Details
Projekt Print View

Training Deep Networks for Real-world Computer Vision Scenarios with Rendered Data

Subject Area Image and Language Processing, Computer Graphics and Visualisation, Human Computer Interaction, Ubiquitous and Wearable Computing
Term from 2018 to 2023
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 401269959
 
Final Report Year 2024

Final Report Abstract

Während des Projekts gewannen wir ein deutlich besseres Verständnis für die Robustheit von Netzwerken zur Schätzung von optischem Fluss oder anderer Korrespondenzaufgaben. Die Robustheit gegenüber Samples außerhalb der Trainingsverteilung ist nicht, wie ursprünglich vermutet, wirklich größer als bei Erkennungsnetzwerken. Vielmehr ist bei optischem Fluss die entscheidende Größe die Verteilung der Flussvektoren und eben nicht die Bildverteilung. Eine generalisierende Trainingsverteilung von Flussvektoren lässt sich wesentlich einfacher synthetisch erzeugen als eine generalisierende Trainingsverteilung über Bilder. Dies erklärt die unterschiedlichen Eigenschaften von Netzwerken beider Arten von Lernaufgaben. Die Lösung für eine Steigerung der Robustheit bei Erkennungsaufgaben ist daher die Erstellung von allgemeinen Trainingsverteilungen. Diese können nach heutigem Wissensstand nicht (wie bei der Antragstellung noch allgemein vermutet) synthetisch erzeugt werden, sondern vielmehr durch die Nutzung extrem großer und diverser Datensätze. Dies ist die Grundlage der inzwischen entstandenen Foundation Models, die sich auf selbstüberwachte Lernverfahren stützen und daher auf sehr große Trainingsdatensätze skaliert werden können. Da das Wissen zu den Eigenschaften dieser Foundation Modelle bisher hauptsächlich deskriptiver Natur ist, haben wir im Projekt begonnen, Benchmarks zu erstellen, mit denen sich Foundation Modelle detaillierter analysieren lassen. Die Forschung hierzu steht jedoch erst am Anfang. Im Projekt haben wir zudem Verfahren zur Steuerung von Roboterarmen entwickelt, die in Simulation und daher auf gerenderten Bilddaten für Aufgaben trainiert werden. Wir entwickelten ein Verfahren basierend auf Reinforcement Learning unter Berücksichtigung eines Lerncurriculums sowie ein Verfahren basierend auf Imitationslernen. Wir erweiterten das zweite Verfahren auf verschiedene Aufgaben und Aufgabenkombinationen, so dass nicht mehr für jede neue Kombination auch eine eigene Demonstration notwendig ist. Der aktuelle Stand bietet eine gute Basis für eine Skalierung und damit für eine weitere Verallgemeinerung des Verfahrens.

Publications

 
 

Additional Information

Textvergrößerung und Kontrastanpassung