Verknüpfung von metrischen und symbolischen Ebenen in autonomen Reinforcement Lernen
Zusammenfassung der Projektergebnisse
Reinforcement Learning (RL) hat in den letzten Jahren einige beeindruckende Fortschritte gemacht. RL mit tiefen neuronale Netzen konnte erfolgreich auf Atari Computerspiele, das Brettspiel GO und sogar auf Roboter angewandt werden. Diese Erfolge beruhen jedoch hauptsächlich auf der mächtigen Funktionsklasse, und nicht etwa auf fundamental neuen Verfahren. Will man diese Erfolge auf reale Anwendungen (wie zum Beispiel autonomes Fahren) zu skalieren, mussen zunachst einige fundamentale Fragen beantwortet werden: Wie kann ein RL-Agent Wissen in wieder verwertbarer Form speichern? Wie kann ein RL-Agent neue Aufgaben erlernen ohne vorhergegangene Trainings-Beispiele explizit aufzubewahren? Wie kann ein RL-Agent sinnvoll auf komplett neuen Situationen reagieren? Wir gehen diesen Fragen nach, indem wir erstens analysieren, wie ein Agent seine sensorischen Beobachtungen repräsentieren soll. Eine mathematische Analyse von Least Squares Temporal Difference Learning (LSTD) zeigt, wie die Wahl der Basisfunktionen, welche aus den Beobachtungen konstruiert werden können, sich auf die Generalisierung auswirkt. Dies erlaubt es ein Optimierungsproblem zu definieren, welches den Fehler für eine gegebene Menge von Aufgaben minimiert. Der daraus resultierende Algorithmus lernt “optimale” Basisfunktionen für alle Aufgaben in der gleichen Umgebung. Wir evaluieren diesen Ansatz am Beispiel von Roboter-Navigation. Wir untersuchen zweitens wie ein RL Problem durch die Annahme von strukturellen Eigenschaften in der Repräsentation vereinfacht werden kann. Um die Anzahl von Trainingsbeispielen für RL zu reduzieren, definieren wir Lineare Faktorisierte Funktionen (LFF). Wir entwickeln einen passenden Planungs-Algorithmus (FAPI), der auf Umgebungs-Modellen basiert, welche als LFF repräsentiert werden können. Dank der besonderen LFF Struktur konnen solche Modelle für neue Aufgaben wiederverwendet werden. Um LFF Trainings-Modelle aus Beispielen zu erlernen, entwickeln wir einen passenden Regressions-Algorithmus. Drittens untersuchen wir wie ein Agent sich in komplett ungewohnten Situationen zurechtfinden kann. Wir zeigen dass die oben genannten Modelle durch ein dynamisches Bayesianisches Netzwerk (DBN) repräsentiert werden können. Zwar können nur wenige Umgebungen durch einen solchen Ansatz perfekt modelliert werden, die Modelle können jedoch mit einem Bruchteil der nötigen Trainingsbeispiele erlernt werden. Um diesen Effizienzvorteil auch in nicht modellierbaren Umgebungen anwenden zu können, erweitern wir unser Modell mit einem teilen&herrschen Ansatz, welcher es erlaubt, in jedem Zustand des Systems ein anderes Modell anzuwenden. Jedes beteiligte DBN kann hierbei einzeln berechnet und die Vorhersagen analytisch kombiniert werden. Viertens untersuchen wir wie Kontrollalgorithmen stabilisiert werden können und wie die Zustandsrepräsentation der Agenten mit vorher gelernten Modellen generiert werden kann. Unser Algorithmus erlernt die Value Estimation mit quadratischem Aufwand (im Bezug auf die Anzahl der Zustands-Variablen), und skaliert somit bedeutend besser als vorherige Ansätze mit exponentiellem Wachstum. Leider skaliert die Policy Improvement weiterhin exponentiell, was die ursprünglich vorgesehene Evaluation durch einen simulierten Roboter unmöglich macht. Aus dem selben Grund konnten wir leider die vorgesehene Integration von relationalen Regeln zur Auswahl von teilen&herrschen Modellen nicht ausführen. Obwohl unser Ansatz auf aktueller Hardware nicht mit Neuronalen Netzen konkurrieren kann, demonstrieren wir vielversprechende Techniken um sowohl die Trainingszeit als auch die Anzahl der Trainingsbeispiele in Anwendungen mit großen Zustands- und Aktionsräumen zu reduzieren.
Projektbezogene Publikationen (Auswahl)
-
Generating feature spaces for linear algorithms with regularized sparse kernel slow feature analysis. Machine Learning, 89(1-2):67-86, 2012
Wendelin Böhmer, Steffen Grunewalder, Hannes Nickisch, and Klaus Obermayer
-
Construction of approximation spaces for reinforcement learning. Journal of Machine Learning Research, 14:2067-2118, July 2013
Wendelin Böhmer, Steffen Grunewalder, Yun Shen, Marek Musial, and Klaus Obermayer
-
Towards structural generalization: Factored approximate planning. ICRA Workshop on Autonomous Learning, 2013
Wendelin Böhmer and Klaus Obermayer
-
Autonomous learning of state representations for control: An emerging field aims to autonomously learn state representations for reinforcement learning agents from their real-world sensor observations. KI - Künstliche Intelligenz, 29(4):353-362, 2015
Wendelin Böhmer, Jost Tobias Springenberg, Joschka Boedecker, Martin Riedmiller, and Klaus Obermayer
-
Regression with linear factored functions. In Machine Learning and Knowledge Discovery in Databases, volume 9284 of Lecture Notes in Computer Science, pages 119-134. Springer, 2015
Wendelin Böhmer and Klaus Obermayer
-
Non-deterministic policy improvement stabilizes approximate reinforcement learning. 13th European Workshop on Reinforcement Learning, 2016
Wendelin Böhmer, Rong Guo, and Klaus Obermayer
-
Representation and generalization in autonomous reinforcement learning. PhD thesis, Technische Universität Berlin, 2017
Wendelin Böhmer
-
A Fenchel-Moreau-Rockafellar type theorem on the Kantorovich-Wasserstein Space with Applications in Partially Observable Markov Decision Processes. Journal of Mathematical Analysis Applications 477(2):1133-1156, 2019
Vaios Laschos, Klaus Obermayer, Yun Shen and Wilhelm Stannat