Detailseite
Planung und Durchführung robotischer Handlungen basierend auf simulierten Bildfolgen durch künstliche generative neuronale Netze
Antragsteller
Professor Dr. Florentin Wörgötter
Fachliche Zuordnung
Automatisierungstechnik, Mechatronik, Regelungssysteme, Intelligente Technische Systeme, Robotik
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung von 2019 bis 2023
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 417069796
Konventionelle Methoden zur Planung robotischer Handlungen basieren auf der Verarbeitung symbolisch-kodierter Information. Zum Beispiel: Im Bereich des KI-basierten Planens werden Domänenwissen und Planungsalgorithmen verwendet und auch physikalische Simulationen, die man für Planungsalgorithmen benutzen kann, benötigen explizit-kodierte Anweisungen. Im Unterschied dazu ist es unser Ziel mit Hilfe maschineller Bildverarbeitung ein System zu entwickeln, das in der Lage ist kurze Pläne für robotische Manipulationshandlungen zu erstellen, welche ausschließlich auf implizit-simulierten Bildsequenzen basieren. Um dies zu erreichen ermitteln wir zunächst in einer visuellen Szene verschiedene, ausgewählte Manipulations-„Affordances“ mit Hilfe eines „encoder-decoder“ Netzwerks. Die dabei erstellte „Affordance“-Karte beschreibt also eine Gruppe möglicher Handlungsvorbedingungen (Action Preconditions). Die visuelle Szene ist auch der Input für ein anderes, generatives künstliches neuronales Netz. Dieses Netz simuliert implizit eine der Handlungen, die durch die „Affordance“-Karte möglich sind, und erzeugt dabei als Output eine neue (virtuelle) Szene, die zeigt, wie die Situation sich verändert, wenn man diese Handlung durchführen würde. Da dies in 3D geschieht können wir in die neue Szene auf geometrische Konsistenz prüfen, so dass wir im positiven Fall hier also ein wahrscheinlich mögliches Handlungsergebnis (Action Post-condition) erhalten. Die neue Szene kann dann wiederum als input für eine weitere simulierte Handlung verwendet werden, und so weiter. Hierdurch entstehen also kurze Pläne, die wir mit unserem Roboter durchführen. Das ermöglich nun die rigorose Quantifizierung durch den Vergleich von simulierter zu richtiger Szene. Die zentrale Hypothese dieser Arbeit ist also, dass es möglich sein sollte (kurze) ausführbare Pläne durch reine sub-symbolische Methoden zu erzeugen. Der Vorteil davon ist, dass einfache Handlungen, zum Beispiel im Bereich Service Robotik, einfacher planbar werden, da sich der Aufwand für explizite Repräsentation verringert.
DFG-Verfahren
Sachbeihilfen
Mitverantwortlich
Dr. Tomas Kulvicius