Detailseite
Reinforcement-Lernen auf unterschiedlichen Zeitskalen
Antragsteller
Professor Dr. Wolfram Menzel (†)
Fachliche Zuordnung
Theoretische Informatik
Förderung
Förderung von 2000 bis 2003
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 5246786
Im beantragten Projekt sollen durch Lernen auf verschiedenen Zeitebenen effizientere Lernalgorithmen erarbeitet werden. Entsprechende Konzepte der zeitlichen Abstraktion existieren bisher nur für den Fall, daß eine Dekomposition des Gesamtproblems in Teilprobleme bereits vorgegeben ist. Durch die hierauf beruhende Strukturierung konnte eine drastische Reduktion der Lernzeiten erreicht werden. Im beantragten Projekt soll nun zeitliche Abstraktion auch dann genutzt werden, wenn eine Zerlegung in Teilprobleme nicht offensichtlich ist, z. B. bei Maschinenzuteilungsproblemen in Produktionsprozessen oder bei Regelungsaufgaben. Die hierzu erforderlichen neuen Algorithmen müssen Konzepte der zeitlichen Abstraktion in den Reinforcement-Lernansatz integrieren. Zentrales Konzept ist das der Blockaktion. Blockaktionen sind Folgen derselben Aktionen, deren Längen jedoch variieren und während des Lernens festgelegt werden. Hierdurch ergibt sich dann im Nachhinein eine Strukturierung des Problems. Sobald zugehörige Algorithmen erarbeitet sind, läßt sich ein erfolgreicher Einsatz von Reinforcement-Lernen auch bei solchen sequentiellen Entscheidungsproblemen erwarten, die aufgrund eines sehr großen Zustandsraums und mangelnden Vorwissens über eine helfende Struktur bislang nur schwer zugänglich waren.
DFG-Verfahren
Sachbeihilfen
Beteiligte Person
Professor Dr. Martin Riedmiller