Roboter lernen zu erkennen, zu planen und zu handeln unter Ungewissheit

Antragsteller Professor Jan Reinhard Peters, Ph.D., seit 11/2019

Fachliche Zuordnung Automatisierungstechnik, Mechatronik, Regelungssysteme, Intelligente Technische Systeme, Robotik
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing

Förderung Förderung von 2018 bis 2022

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 398611747

Erstellungsjahr 2022

Zusammenfassung der Projektergebnisse

Dieses Projekt untersuchte das Verstärkungslernen (Reinforcement Learning, RL), eine Klasse von Algorithmen, die aus vergangenen Interaktionen mit einer dynamischen Umgebung lernen, in Situationen, in denen der Zustand der Umgebung nicht vollständig beobachtet werden kann. Als intuitives Beispiel dient das Navigieren durch einen unbekannten Raum mit verbundenen Augen. Sinnesbeobachtungen wie das Berühren von Objekten geben lokale Informationen über die Umgebung preis, aber Informationen über den Raum müssen aktiv gesammelt werden. Solche teilweise beobachtbaren Systeme treten in verschiedenen Szenarien in der Robotik auf. Das Erlernen von Lösungen für teilweise beobachtbare Aufgaben mittels Verstärkungslernen erfordert die Einbeziehung eines Gedächtnisses, um sich an vergangene Beobachtungen zu erinnern, und eine gezielte Planung, um neue Informationen zu sammeln. Beide Kriterien stellen eine Herausforderung für die heutigen Algorithmen des Verstärkungslernens dar; weshalb in diesem Projekt Lösungsansätze untersucht wurden. Während des Projekts wurden neue Konzepte für die Wertepropagierung im Kontext der Baumsuche, einem bekannten Planungsalgorithmus der häufig zur Leistungssteigerung mit Algorithmen des verstärkenden Lernens kombiniert wird, vorgeschlagen und untersucht. Diese Ansätze können den Kompromiss zwischen der Ausnutzung gefundener (aber potenziell suboptimaler) Lösungen durch den Algorithmus und der Suche nach alternativen Lösungen verbessern. Desweiteren wurden verschiedene Speicherrepräsentationen für modellfreie tiefe Reinforcement-Learning-Agenten verglichen. Darüber hinaus entstanden während des Projektes Ansätze zur Stabilisierung des Trainings von RL-Agenten bei anspruchsvollen Lernaufgaben, wie z. B. teilweise beobachtbaren Domänen. Diese Ansätze beginnen mit dem Lernen einfacherer Versionen der Aufgaben und passen deren Komplexität an den Lernfortschritt des RL-Agenten an. Die entwickelten Methoden wurden an verschiedenen Roboteraufgaben evaluiert. Darunter eine, bei der ein Roboterarm nur durch Verwendung von Kollisionsinformationen ein Objekt aus einem engen Raum durch einen Ausgang an unbekannter Stelle entfernen muss, ähnlich dem Beispiel der Navigation mit verbundenen Augen.

Projektbezogene Publikationen (Auswahl)

A Probabilistic Interpretation of Self-Paced Learning with Application to Reinforcement Learning Journal of Machine Learning Research 22 (182), 1-52
P. Klink, H. Abdulsamad, B. Belousov, C. D’Eramo, J. Peters & J. Pajarinen
Self-Paced Contextual Reinforcement Learning Conference on Robot Learning (CoRL) 2019 Conference on Robot Learning (CoRL) 2019
P. Klink, H. Abdulsamad, B. Belousov & J. Peters
Generalized Mean Estimation in Monte-Carlo Tree Search International Joint Conferences on Artificial Intelligence Organization (IJCAI) 2020
T. Dam, P. Klink, C. D’Eramo, J. Peters & J. Pajarinen
Self-Paced Deep Reinforcement Learning Advances in Neural Information Processing Systems (NeurIPS) 2021
P. Klink, C. D’Eramo, J. Peters & J. Pajarinen
Boosted Curriculum Reinforcement Learning International Conference on Learning Representations (ICLR) 2022
P. Klink, C. D’Eramo, J. Peters & J. Pajarinen
Convex regularization in Monte-Carlo tree search International Conference on Machine Learning (ICML) 2022
T. Dam, C. D’Eramo, J. Peters & J. Pajarinen
Curriculum Reinforcement Learning via Constrained Optimal Transport International Conference on Machine Learning (ICML) 2022
P. Klink, H. Yang, C. D’Eramo, J. Pajarinen & J. Peters
Monte-Carlo Robot Path Planning. IEEE Robotics and Automation Letters, 7(4), 11213-11220.
Dam, Tuan; Chalvatzaki, Georgia; Peters, Jan & Pajarinen, Joni

Servicenavigation

Hauptnavigation

Roboter lernen zu erkennen, zu planen und zu handeln unter Ungewissheit

Zusammenfassung der Projektergebnisse

Projektbezogene Publikationen (Auswahl)

Zusatzinformationen

Servicenavigation

Hauptnavigation

Roboter lernen zu erkennen, zu planen und zu handeln unter Ungewissheit

Zusammenfassung der Projektergebnisse

Projektbezogene Publikationen (Auswahl)

Zusatzinformationen

Textvergrößerung und Kontrastanpassung