Roboter lernen zu erkennen, zu planen und zu handeln unter Ungewissheit
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Zusammenfassung der Projektergebnisse
Dieses Projekt untersuchte das Verstärkungslernen (Reinforcement Learning, RL), eine Klasse von Algorithmen, die aus vergangenen Interaktionen mit einer dynamischen Umgebung lernen, in Situationen, in denen der Zustand der Umgebung nicht vollständig beobachtet werden kann. Als intuitives Beispiel dient das Navigieren durch einen unbekannten Raum mit verbundenen Augen. Sinnesbeobachtungen wie das Berühren von Objekten geben lokale Informationen über die Umgebung preis, aber Informationen über den Raum müssen aktiv gesammelt werden. Solche teilweise beobachtbaren Systeme treten in verschiedenen Szenarien in der Robotik auf. Das Erlernen von Lösungen für teilweise beobachtbare Aufgaben mittels Verstärkungslernen erfordert die Einbeziehung eines Gedächtnisses, um sich an vergangene Beobachtungen zu erinnern, und eine gezielte Planung, um neue Informationen zu sammeln. Beide Kriterien stellen eine Herausforderung für die heutigen Algorithmen des Verstärkungslernens dar; weshalb in diesem Projekt Lösungsansätze untersucht wurden. Während des Projekts wurden neue Konzepte für die Wertepropagierung im Kontext der Baumsuche, einem bekannten Planungsalgorithmus der häufig zur Leistungssteigerung mit Algorithmen des verstärkenden Lernens kombiniert wird, vorgeschlagen und untersucht. Diese Ansätze können den Kompromiss zwischen der Ausnutzung gefundener (aber potenziell suboptimaler) Lösungen durch den Algorithmus und der Suche nach alternativen Lösungen verbessern. Desweiteren wurden verschiedene Speicherrepräsentationen für modellfreie tiefe Reinforcement-Learning-Agenten verglichen. Darüber hinaus entstanden während des Projektes Ansätze zur Stabilisierung des Trainings von RL-Agenten bei anspruchsvollen Lernaufgaben, wie z. B. teilweise beobachtbaren Domänen. Diese Ansätze beginnen mit dem Lernen einfacherer Versionen der Aufgaben und passen deren Komplexität an den Lernfortschritt des RL-Agenten an. Die entwickelten Methoden wurden an verschiedenen Roboteraufgaben evaluiert. Darunter eine, bei der ein Roboterarm nur durch Verwendung von Kollisionsinformationen ein Objekt aus einem engen Raum durch einen Ausgang an unbekannter Stelle entfernen muss, ähnlich dem Beispiel der Navigation mit verbundenen Augen.
Projektbezogene Publikationen (Auswahl)
-
A Probabilistic Interpretation of Self-Paced Learning with Application to Reinforcement Learning Journal of Machine Learning Research 22 (182), 1-52
P. Klink, H. Abdulsamad, B. Belousov, C. D’Eramo, J. Peters & J. Pajarinen
-
Self-Paced Contextual Reinforcement Learning Conference on Robot Learning (CoRL) 2019 Conference on Robot Learning (CoRL) 2019
P. Klink, H. Abdulsamad, B. Belousov & J. Peters
-
Generalized Mean Estimation in Monte-Carlo Tree Search International Joint Conferences on Artificial Intelligence Organization (IJCAI) 2020
T. Dam, P. Klink, C. D’Eramo, J. Peters & J. Pajarinen
-
Self-Paced Deep Reinforcement Learning Advances in Neural Information Processing Systems (NeurIPS) 2021
P. Klink, C. D’Eramo, J. Peters & J. Pajarinen
-
Boosted Curriculum Reinforcement Learning International Conference on Learning Representations (ICLR) 2022
P. Klink, C. D’Eramo, J. Peters & J. Pajarinen
-
Convex regularization in Monte-Carlo tree search International Conference on Machine Learning (ICML) 2022
T. Dam, C. D’Eramo, J. Peters & J. Pajarinen
-
Curriculum Reinforcement Learning via Constrained Optimal Transport International Conference on Machine Learning (ICML) 2022
P. Klink, H. Yang, C. D’Eramo, J. Pajarinen & J. Peters
-
Monte-Carlo Robot Path Planning. IEEE Robotics and Automation Letters, 7(4), 11213-11220.
Dam, Tuan; Chalvatzaki, Georgia; Peters, Jan & Pajarinen, Joni
