Detailseite
Projekt Druckansicht

Neuronale biologisch inspirierte Steuerungsachitektur für einen mobilen Roboter

Mitantragsteller Dr.-Ing. Marek Musial
Fachliche Zuordnung Automatisierungstechnik, Mechatronik, Regelungssysteme, Intelligente Technische Systeme, Robotik
Förderung Förderung von 2004 bis 2008
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 5418867
 
Erstellungsjahr 2008

Zusammenfassung der Projektergebnisse

Ziel des Projektes war die Entwicklung einer Kamera basierten Steuerungsarchitektur für einen Roboter und eines Lernverfahrens, das die Steuerung weitgehend autonom auf die Umgebung anpassen sollte. Im Antrag wurde als erster Ansatz eine Netzwerkstruktur namens Leabra vorgeschlagen. Diese stellte sich in Untersuchungen jedoch als nicht praxistauglich heraus. Als Alternative wurde eine Architektur entwickelt, die aus einem hierarchischen Netzwerk zur visuellen Verarbeitung und einem Verfahren aus dem Reinforcement Learning zur Steuerung bestand. Mit diesem Ansatz gelang es eine funktionierende Robotersteuerung zu erstellen. Die Architektur wurde auf einem eigens entwickelten Simulator und an einem Roboter getestet. Kernstück der visuellen Verarbeitung stellt ein Lernverfahren namens Slow Feature Analysis (SFA) dar. Mit Hilfe der SFA war es uns möglich eine zur Umbegung passende visuelle Verarbeitung zu erlernen, ohne das Vorwissen über diese Umgebung eingebracht werden musste. Die Anwendung der SFA wurde von einer Reihe von theoretischen Untersuchungen begleitet; so wurde unter anderem ein Verfahren entwickelt das sparse Lösungen produziert. Sparse Lösungen führen unter anderem zu einer Reduktion des Rechenaufwands für die Anwendung eines Filters. Der Steuerungsteil der Architektur basiert auf einer Value-Policy Iteration, wobei zur Value Schätzung der Least Squares Temporal Difference Schätzer (LSTD) verwendet wurde. Im Projekt wurden weiterhin theoretische Untersuchungen zu diesem Schätzer angestellt. So konnte unter anderem gezeigt werden das der LSTD Schätzer für azykliche Markov Reward Processes (MRPs) optimal ist in der Klasse der unbiased Schätzer. Weiterhin wurde gezeigt das in speziellen Fällen der Schätzer equivalent ist zu dem Monte Carlo Schätzer, welcher deutlich weniger Rechenleistung benötigt. Neben der Untersuchung von Value Schätzern wurden Verfahren zur Risiko-Sensitiven Steuerung und zur Steuerung von Partially Observable Markov Decision Processes (POMDPs) entwickelt. In Roboterexperimenten erreichten wir für die auf der SFA und LSTD basierten Steuerung eine Erfolgsquote von zirka 80% für einfache Navigationsaufgaben.

Projektbezogene Publikationen (Auswahl)

  • M. Musial and F. Lemke. Feed-forward learning: Fast reinforcement learning of controllers. In J. Mira and J.R. Alvarez, editors, IWINAC 2007, Part H, LNCS 4528, pages 277-286, Berlin Heidelberg, 2007. Springer- Verlag. ISBN 978-3-540-73054-5.

  • Marek Musial. System Architecture of Small Autonomous UAVs. VDM Verlag, Saarbrücken, 2008. Habilitation at TU Berlin (2007).

  • R. Vollgraf and K. Obermayer. Quadratic optimization for simultaneous matrix diagonalization. IEEE Trans. Signal Processing, 2006.

  • R. Vollgraf and K. Obermayer. Sparse optimization for second order kernel methods. In International Joint Conference Neural Networks 2006 Conference Proceedings, 2006.

  • Roland Vollgraf. Unsupervised Learning Methods for Statistical Signal Processing. PhD thesis, Technische Universität Berlin, 2006.

  • S. Grünewälder and K. Obermayer. Handling the exploration-exploitation tradeoff through value-variance estimation. In Neural Information Processing Systems, Workshop, 2006.

  • S. Grünewälder, U. Werner, and K. Obermayer. Mdp unfolding through hidden-state extraction. In Neural Information Processing Systems, Workshop, 2006.

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung