Skalierbares Autonomes Selbstverstärkendes Lernen durch Reduzierung der Vorstrukturierung

Antragsteller Professor Dr. Joschka Bödecker, seit 4/2015; Professor Jan Reinhard Peters, Ph.D.

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing

Förderung Förderung von 2014 bis 2021

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 260194412

Projektbeschreibung

Im Laufe des letzten Jahrzehnts haben sich die Methoden des verstärkenden Lernens (reinforcement learning) zu einem vielversprechenden Werkzeug für das Erlernen einer Vielzahl von unterschiedlichsten Aufgaben in der Robotik entwickelt. In diesem Zeitraum wurden erhebliche Fortschritte erzielt, welche die Anwendung dieser Methoden auf hochdimensionale Systeme und komplexe Probleme ermöglichen. Diese Skalierbarkeit der aktuellen Methoden wird allerdings durch Zuhilfenahme von Expertenwissen zur Vorstrukturierung der unterschiedlichen Bestandteile des Lernproblems erreicht. Dies bedeutet, dass die aktuellen Methoden des verstärkenden Lernens im Bereich der Robotik generell auf handkonstruierte Zustandsrepräsentationen, vorstrukturierte parametrisierte Handlungsstrategien, wohldefinierte Belohnungsfunktionen sowie auf Demonstrationen eines menschlichen Experten beruhen. Diese erhebliche Vorstrukturierung steht im starken Kontrast zum Ziel autonome Roboter zu entwickeln. Mit diesem Antrag wollen wir das Feld des verstärkenden Lernens ausgehend von einer klassischen Modellierung einer anspruchsvollen Robotikaufgabe (das Spielen des Spieles Tetherball) in Richtung einer höheren Autonomie vorantreiben. Diese Aufgabe soll innerhalb des Projektes zunächst mit aktuellen Methoden des verstärkenden Lernens gelöst werden, welches an sich bereits einen interessanten Forschungsbeitrag darstellt. Ausgehend von der Formulierung dieses Ansatzes werden wir darauffolgend die Komponenten der Lernarchitektur identifizieren für die noch ein hoher Grad an Expertenwissen vonnöten ist. Im Verlaufe des Projektes zielen wir darauf ab diese Komponenten durch autonomere und skalierbare Komponenten zu ersetzen. Um dies zu erreichen werden wir die folgenden systematischen Methoden entwickeln, die im Vergleich zu traditionellen Methoden einen höheren Autonomiegrad ermöglichen: (1) Methoden zum automatischen Lernen von Zustandsrepräsentationen; (2) Entwicklung von generischen Handlungsstrategieklassen. Mit diesen soll die große Bandbreite an Regelungsstrategien repräsentiert werden, die für autonomes Verhalten notwendig sind; (3) Methoden zur automatischen Ermittlung von Belohnungsfunktionen. Die Fortschritte in diesen Bereichen werden in der etablierten Theorie zu Strategiesuchverfahren (policy search methods) verankert und durch Verbesserung an selbigen ermöglicht. Das aus dieser Forschung resultierende Lernsystem soll schließlich in der Lage sein eine Handlungsstrategie zu erlernen die rohe Sensordaten auf Regelsignale abbildet. Im Sinne der angestrebten Autonomie soll dieses Lernen auf simplen generischen Prinzipien beruhen, dabei automatisch vorhandene Struktur in der Umgebung ausnutzen, und letztlich anspruchsvolle Regelprobleme ohne Expertenwissen lösen. Die in diesem Projekt entwickelte Methodologie erlaubt es eine neue, und erheblich leistungsfähigere Generation von verstärkenden Lernverfahren für komplizierte Problemstellungen der Robotik zu entwickeln.

DFG-Verfahren Schwerpunktprogramme

Teilprojekt zu SPP 1527: Autonomes Lernen

Ehemaliger Antragsteller Professor Dr. Martin Riedmiller, bis 4/2015