Detailseite
Projekt Druckansicht

Verknüpfung von metrischen und symbolischen Ebenen in autonomen Reinforcement Lernen

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2011 bis 2020
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 200282059
 
Erstellungsjahr 2019

Zusammenfassung der Projektergebnisse

Reinforcement Learning (RL) hat in den letzten Jahren einige beeindruckende Fortschritte gemacht. RL mit tiefen neuronale Netzen konnte erfolgreich auf Atari Computerspiele, das Brettspiel GO und sogar auf Roboter angewandt werden. Diese Erfolge beruhen jedoch hauptsächlich auf der mächtigen Funktionsklasse, und nicht etwa auf fundamental neuen Verfahren. Will man diese Erfolge auf reale Anwendungen (wie zum Beispiel autonomes Fahren) zu skalieren, mussen zunachst einige fundamentale Fragen beantwortet werden: Wie kann ein RL-Agent Wissen in wieder verwertbarer Form speichern? Wie kann ein RL-Agent neue Aufgaben erlernen ohne vorhergegangene Trainings-Beispiele explizit aufzubewahren? Wie kann ein RL-Agent sinnvoll auf komplett neuen Situationen reagieren? Wir gehen diesen Fragen nach, indem wir erstens analysieren, wie ein Agent seine sensorischen Beobachtungen repräsentieren soll. Eine mathematische Analyse von Least Squares Temporal Difference Learning (LSTD) zeigt, wie die Wahl der Basisfunktionen, welche aus den Beobachtungen konstruiert werden können, sich auf die Generalisierung auswirkt. Dies erlaubt es ein Optimierungsproblem zu definieren, welches den Fehler für eine gegebene Menge von Aufgaben minimiert. Der daraus resultierende Algorithmus lernt “optimale” Basisfunktionen für alle Aufgaben in der gleichen Umgebung. Wir evaluieren diesen Ansatz am Beispiel von Roboter-Navigation. Wir untersuchen zweitens wie ein RL Problem durch die Annahme von strukturellen Eigenschaften in der Repräsentation vereinfacht werden kann. Um die Anzahl von Trainingsbeispielen für RL zu reduzieren, definieren wir Lineare Faktorisierte Funktionen (LFF). Wir entwickeln einen passenden Planungs-Algorithmus (FAPI), der auf Umgebungs-Modellen basiert, welche als LFF repräsentiert werden können. Dank der besonderen LFF Struktur konnen solche Modelle für neue Aufgaben wiederverwendet werden. Um LFF Trainings-Modelle aus Beispielen zu erlernen, entwickeln wir einen passenden Regressions-Algorithmus. Drittens untersuchen wir wie ein Agent sich in komplett ungewohnten Situationen zurechtfinden kann. Wir zeigen dass die oben genannten Modelle durch ein dynamisches Bayesianisches Netzwerk (DBN) repräsentiert werden können. Zwar können nur wenige Umgebungen durch einen solchen Ansatz perfekt modelliert werden, die Modelle können jedoch mit einem Bruchteil der nötigen Trainingsbeispiele erlernt werden. Um diesen Effizienzvorteil auch in nicht modellierbaren Umgebungen anwenden zu können, erweitern wir unser Modell mit einem teilen&herrschen Ansatz, welcher es erlaubt, in jedem Zustand des Systems ein anderes Modell anzuwenden. Jedes beteiligte DBN kann hierbei einzeln berechnet und die Vorhersagen analytisch kombiniert werden. Viertens untersuchen wir wie Kontrollalgorithmen stabilisiert werden können und wie die Zustandsrepräsentation der Agenten mit vorher gelernten Modellen generiert werden kann. Unser Algorithmus erlernt die Value Estimation mit quadratischem Aufwand (im Bezug auf die Anzahl der Zustands-Variablen), und skaliert somit bedeutend besser als vorherige Ansätze mit exponentiellem Wachstum. Leider skaliert die Policy Improvement weiterhin exponentiell, was die ursprünglich vorgesehene Evaluation durch einen simulierten Roboter unmöglich macht. Aus dem selben Grund konnten wir leider die vorgesehene Integration von relationalen Regeln zur Auswahl von teilen&herrschen Modellen nicht ausführen. Obwohl unser Ansatz auf aktueller Hardware nicht mit Neuronalen Netzen konkurrieren kann, demonstrieren wir vielversprechende Techniken um sowohl die Trainingszeit als auch die Anzahl der Trainingsbeispiele in Anwendungen mit großen Zustands- und Aktionsräumen zu reduzieren.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung