Detailseite
Aktives Lernen für die stochastische ökonomische modellprädiktive Regelung - nichtlineare Optimierungsproblemformulierungen und numerische Methoden
Antragsteller
Professor Dr. Moritz Diehl
Fachliche Zuordnung
Automatisierungstechnik, Mechatronik, Regelungssysteme, Intelligente Technische Systeme, Robotik
Förderung
Förderung seit 2025
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 535860958
Als Teil der Forschungsgruppe "Aktives Lernen für dynamische Systeme und Regelung (ALeSCo)- Dateninformativität, Unsicherheiten und Garantien" betrachtet dieses Projekt die Formulierung und approximative Lösung stochastischer Optimalsteuerungsprobleme als Mittel zur impliziten Definition der Dateninformativität für nichtlineare dynamische Systeme mit ökonomischen Zielfunktionen. Während die nichtlineare modellprädiktive Regelung (NMPC) ein deterministisches Modell nutzt, um das zukünftige Systemverhalten vorherzusagen und darauf aufbauend Regelungsentscheidungen zu treffen, zielt die stochastische optimale Steuerung darauf ab, Unsicherheiten aufgrund von Stochastizität, Modellierungsfehlern oder Schätzungsunsicherheiten explizit zu berücksichtigen. Die daraus resultierenden stochastischen Optimalsteuerungsprobleme - theoretisch gelöst mithilfe der stochastische Bellman-Gleichung im Zustandsraum des bayesianischen Zustandschätzers (belief space) - sind jedoch aufgrund Bellmans "Fluchs der Dimensionalität" im Allgemeinen unlösbar. Das Ziel dieses Forschungsprojekts ist es, approximative Problemformulierungen sowie maßgeschneiderte numerische Methoden für die online Lösung stochastischer optimaler Steuerungsprobleme mit nichtlinearen Modellen und ökonomischen Kosten zu entwickeln. Insbesondere betrachten wir Systeme, deren Zustand nicht direkt gemessen werden kann, sondern aus verrauschten Messungen geschätzt werden muss. Diese Probleme werden in Form von partiell beobachtbaren Markov-Entscheidungsprozessen (POMDP) in kontinuierlichen Zustands- und Steuerungsräumen modelliert, wobei eine Beschreibung der Unsicherheiten bezüglich des aktuellen Systemzustands und der Systemparameter - eine bayesianische Zustandsschätzung - über die Zeit propagiert wird. Die betrachteten Vorhersagemodelle, die sowohl von Black-Box- als auch Grey-Box-Form sein können, sollen ein Maß für die Vorhersageunsicherheit kodieren - ein Beispiel dafür ist die prädizierte Kovarianzmatrix in einem erweiterten Kalman-Filter. Da die Vorhersageunsicherheit typischerweise negative Auswirkungen auf das Regelungsziel hat, aber durch eine kluge Wahl der gewählten Steuerungen potenziell reduziert werden kann, kodiert die optimale Lösung des stochastischen Optimalsteuerungsproblems automatisch eine Form des aktiven Lernens, die als implizite Form des "dual control" klassifiziert werden kann. Da exakte optimale Lösungen in der Praxis nicht berechnet werden können, streben wir mit diesem Forschungsprojekt neue modellprädiktive Regelungsformulierungen an, die qualitativ den aktiv lernenden Effekt der stochastischen Optimalsteuerungsprobleme bewahren. Die zu entwickelnde Ansätze basieren auf der Formulierung von strukturierten nichtlinearen Optimierungsproblemen (NLP), die mit Hilfe von maßgeschneiderten numerischen Methoden in Echtzeit gelöst werden sollen, um auf praktische Regelungsprobleme - z.B. in Robotik oder Energiesystemen - anwendbar zu sein.
DFG-Verfahren
Forschungsgruppen
