Detailseite
Projekt Druckansicht

Nichtlineare optimale Feedback-Regelung mit tiefen neuronalen Netzen ohne den Fluch der Dimension: Räumlich abnehmende Sensitivität und nichtglatte Probleme

Fachliche Zuordnung Mathematik
Förderung Förderung seit 2021
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 463912816
 
Optimale Regelung mittels Feedback ist eines der Hauptanwendungsgebiete von Deep Learning. Deep Reinforcement Learning, eines der Verfahren zur Berechnung optimaler Feedbacks und wohl einer der erfolgreichsten Algorithmen der Künstlichen Intelligenz, steht hinter den spektakulären Erfolgen in Spielen wie Schach und Go, hat aber auch mannigfache Anwendungen in Wissenschaft, Technik und Wirtschaft. Dieses Projekt erforscht die mathematischen Grundlagen dieser Erfolge. Wir konzentrieren uns dabei auf die Herleitung von Bedingungen, unter denen die hochdimensionalen Funktionen, die in der optimalen Regelung benötigt werden, effizient (also ohne den Fluch der Dimension) durch tiefe neuronale Netze (DNNs) approximiert werden können. Genauer betrachten wir einerseits optimale Wertefunktionen, die als eindeutige Viskositätslösungen von Hamilton-Jacobi-Bellman PDEs charakterisiert sind. Andererseits betrachten wir Kontroll-Lyapunovfunktionen (clfs). Diese treten an die Stelle der optimalen Wertefunktionen in Kontrollproblemen, in denen eine gegebene Menge oder ein Punkt asymptotisch - aber nicht unbedingt optimal - stabilisiert werden soll. Beide Funktionsarten liefern die Grundlage zur Berechnung von optimalen oder stabilisierenden Feedback-Kontrollen, die das ultimative Ziel bei der Lösung von Kontrollproblemen auf langem oder unendlichen Zeithorizont sind. In der ersten Förderperiode haben wir verschiedene Bedingungen an die Problemdaten, also an die Dynamik und die Kostenfunktion identifiziert, unter denen sich die genannten Funktionen durch kompositionelle oder separable Funktionen approximieren lassen, die auch in hohen Dimenionen effizient durch DNNs darstellbar sind. Die wahrscheinlich wichtigste Erkenntnis aus der ersten Förderperiode ist, dass räumlich abnehmende Sensitivitäten der Schlüssel zur Konstruktion einer überlappenden separablen Approximation einer optimalen Wertefunktion sind. Diese abnehmenden Sensitivitäten wurden in jüngster Zeit vielfach untersucht (in zeitlicher Form unter anderem auch vom Antragsteller) und das Verständnis ihrer Bedeutung für DNN Approximationen wird einer der zentralen Punkte in der zweiten Förderperiode sein. Eine Beschränkung der Ergebnisse aus der ersten Förderperiode besteht darin, dass sie derzeit nur für glatte optimale Wertefunktionen bzw. clfs und nur für DNNs mit glatten Aktivierungsfunktionen gelten. Letzteres schließt die beliebten und effizient implementierbaren ReLU DNNs aus, ersteres alle Kontrollprobleme ohne glatte Lösung, wie z.B. asymptotische Stabilisierungsprobleme mit Hindernissen. Für diese Problemklasse ist bekannt, dass nur aus nichtglatten Näherungen Feedback-Kontrollen berechnet werden können, die das Kontrollproblem tatsächlich lösen. Der zweite zentrale Punkt der zweiten Förderperiode wird daher die Entwicklung von approximativen ReLU DNNs für Probleme mit nichtglatten Lösungen sein, die auf den Resultaten für glatte Probleme aus der ersten Förderperiode aufbauen.
DFG-Verfahren Schwerpunktprogramme
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung