Detailseite
Rekurrente Neuronale Netzwerkmodelle für Explorationsverhalten in dynamischen Umgebungen
Antragsteller
Professor Dr. Jan Peters
Fachliche Zuordnung
Kognitive und systemische Humanneurowissenschaften
Experimentelle und theoretische Netzwerk-Neurowissenschaften
Experimentelle und theoretische Netzwerk-Neurowissenschaften
Förderung
Förderung seit 2022
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 496990750
Rekurrente neuronale Netze stoßen auf zunehmendes Interesse in den kognitiven und systemischen Neurowissenschaften. Diese Modelle wurde erfolgreich auf Lernaufgaben aus der Psychologie und den Humanneurowissenschaften trainiert, und könnten neue Erkenntnisse im Hinblick auf die computationalen Mechanismen liefern, die höheren kognitiven Funktionen zugrunde liegen. Im vorliegenden Antrag sollen rekurrente neuronale Netze genutzt werden, um ein fundamentales Problem des Belohnungslernens zu beleuchten, den „Exploration/Exploitation-Trade-off“. Dieser bezeichnet ein Entscheidungsdilemma: soll eine bekannte Option zur Belohnungsmaximierung ausgewählt werden („Exploitation“), oder soll eine unbekannte Option zum Informationsgewinn gewählt werden („Exploration“)? Menschen nutzen mindestens zwei Strategien zur Exploration – Handlungsrandomisierung („random exploration“) und die zielgerichtete Exploration von unsicheren, vielversprechenden Optionen („directed exploration“). Für die erste Zielsetzung des Projektes soll die Hypothese getestet werden, dass rekurrente neuronale Netze den Exploration/Exploitation Trade-off mittels ähnlicher computationaler Strategien lösen wie Menschen. Hierzu soll das Verhalten von trainierten Netzen mittels computationaler Modellierung untersucht werden. Für die zweite Zielsetzung des Antrages sollen dann die Repräsentationen, die der Modellperformanz zugrunde liegen, im Detail untersucht werden, insbesondere über eine Analyse der Dynamik in der hidden units der Netzwerke. Das Projekt wird computationale Mechanismen beleuchten, die Lernen und Entscheiden in dynamischen Umgebungen zugrunde liegen könnten.
DFG-Verfahren
Sachbeihilfen