Neuronale biologisch inspirierte Steuerungsachitektur für einen mobilen Roboter
Final Report Abstract
Ziel des Projektes war die Entwicklung einer Kamera basierten Steuerungsarchitektur für einen Roboter und eines Lernverfahrens, das die Steuerung weitgehend autonom auf die Umgebung anpassen sollte. Im Antrag wurde als erster Ansatz eine Netzwerkstruktur namens Leabra vorgeschlagen. Diese stellte sich in Untersuchungen jedoch als nicht praxistauglich heraus. Als Alternative wurde eine Architektur entwickelt, die aus einem hierarchischen Netzwerk zur visuellen Verarbeitung und einem Verfahren aus dem Reinforcement Learning zur Steuerung bestand. Mit diesem Ansatz gelang es eine funktionierende Robotersteuerung zu erstellen. Die Architektur wurde auf einem eigens entwickelten Simulator und an einem Roboter getestet. Kernstück der visuellen Verarbeitung stellt ein Lernverfahren namens Slow Feature Analysis (SFA) dar. Mit Hilfe der SFA war es uns möglich eine zur Umbegung passende visuelle Verarbeitung zu erlernen, ohne das Vorwissen über diese Umgebung eingebracht werden musste. Die Anwendung der SFA wurde von einer Reihe von theoretischen Untersuchungen begleitet; so wurde unter anderem ein Verfahren entwickelt das sparse Lösungen produziert. Sparse Lösungen führen unter anderem zu einer Reduktion des Rechenaufwands für die Anwendung eines Filters. Der Steuerungsteil der Architektur basiert auf einer Value-Policy Iteration, wobei zur Value Schätzung der Least Squares Temporal Difference Schätzer (LSTD) verwendet wurde. Im Projekt wurden weiterhin theoretische Untersuchungen zu diesem Schätzer angestellt. So konnte unter anderem gezeigt werden das der LSTD Schätzer für azykliche Markov Reward Processes (MRPs) optimal ist in der Klasse der unbiased Schätzer. Weiterhin wurde gezeigt das in speziellen Fällen der Schätzer equivalent ist zu dem Monte Carlo Schätzer, welcher deutlich weniger Rechenleistung benötigt. Neben der Untersuchung von Value Schätzern wurden Verfahren zur Risiko-Sensitiven Steuerung und zur Steuerung von Partially Observable Markov Decision Processes (POMDPs) entwickelt. In Roboterexperimenten erreichten wir für die auf der SFA und LSTD basierten Steuerung eine Erfolgsquote von zirka 80% für einfache Navigationsaufgaben.
Publications
-
Handling the exploration-exploitation tradeoff through value-variance estimation. In: Neural Information Processing Systems, Workshop, 2006
S. Grünewälder and K. Obermayer
-
Mdp unfolding through hidden-state extraction. In: Neural Information Processing Systems, Workshop, 2006
S. Grünewälder, U. Werner, and K. Obermayer
-
Quadratic optimization for simultaneous matrix diagonalization. IEEE Trans. Signal Processing, 2006
R. Vollgraf and K. Obermayer
-
Sparse optimization for second order kernel methods. In: International Joint Conference Neural Networks 2006 Conference Proceedings, 2006
R. Vollgraf and K. Obermayer
-
Unsupervised Learning Methods for Statistical Signal Processing. PhD thesis, Technische Universität Berlin, 2006
Roland Vollgraf
-
Feed-forward learning: Fast reinforcement learning of controllers. In: J. Mira and J.R. Alvarez, editors, IWINAC 2007, Part H, LNCS 4528, pages 277-286, Berlin Heidelberg, 2007. Springer-Verlag. ISBN 978-3-540-73054-5
M. Musial and F. Lemke
-
Optimality of 1std and its relation to me. In: International Joint Conference Neural Networks 2007 Conference Proceedings, 2007
S. Grünewälder, S. Hochreiter, and K. Obermayer
-
System Architecture of Small Autonomous UAVs. VDM Verlag, Saarbrücken, 2008. Habilitation, TU Berlin (2007)
Marek Musial