Risiko-sensitive Entscheidungen und belohnungsabhängiges Lernen unter Unsicherheit
Zusammenfassung der Projektergebnisse
Ziel des Projekts war die Untersuchung menschlicher sequentieller Entscheidungsprozesse unter Risiko mithilfe eines modellbasierten Ansatzes. Risiken können durch Unsicherheiten auf unterschiedlichen Stufen der Entscheidungsndung und Handlungsplanung entstehen. In unserer Arbeit haben wir uns auf zwei davon konzentriert: das Risiko, das aufgrund der Unsicherheit über die Konsequenzen von Entscheidungen (oder den damit verbundenen Handlungen) entsteht (ökonomisches Risiko), und das Risiko, das aus unvollständigem Wissen über die Entscheidungssituation entsteht (perzeptuelles Risiko). Um die sequentielle Entscheidungsfindung unter unvollständigem Wissen über den Zustand der Welt zu modellieren, wurden partiell beobachtbare Markov'sche Entscheidungsprozesse (POMDP) verwendet. Die Entscheidungsndung und Optimierung basiert auf einer Wahrscheinlichkeitsverteilung über die möglichen Zustände (dem belief state), die im risikoneutralen Fall eine suffiziente Statistik darstellt. Im risikosensitiven Fall wurde eine Informationszustandsvariable hinzugefügt, die die durchschnittliche akkumulierte Belohnung über die Handlungssequenz quantifiziert. Ein wesentlicher Beitrag des Projekts bestand darin, diesen Ansatz auf Nutzenfunktionen zu erweitern, die aus Summen von Exponentialfunktionen als Elemente einer Reihenentwicklung bestehen. Das Resultat ist ein Optimierungsalgorithmus für risikosensitive Strategien (policies), der Nutzenfunktionen verwenden kann, die die im menschlichen Verhalten häug beobachteten gemischten Risikosensitivitäten induzieren. Wenn die Anzahl der Exponentialterme nicht zu groß ist, ist die neue Methode rechnerisch effzienter als frühere Ansätze. Dieser Modellansatz wurde auf menschliche Entscheidungsprozesse unter Risiko und unvollständiger Information angewendet, um die Auswirkungen perzeptueller vs. ökonomischer Unsicherheit zu untersuchen. Wir haben ein experimentelles Paradigma etabliert, bei dem die Bewegungsrichtung eines Random Dot Kinematogram (RDK) den Zustand anzeigt. Niedrige Kohärenz führt zu perzeptueller Unsicherheit, während probabilistische Zustandsänderungen und damit verbundene Belohnungen ein ökonomisches Risiko erzeugen. Weiterhin wurde ein Modell entwickelt, das ein biologisch und psychophysisch plausibles perzeptuelles Inferenzmodell mit einem risikosensitiven POMDP kombiniert. Das perzeptuelle Inferenzmodell berücksichtigt die zirkuläre Natur von RDK-Bewegungssignalen, reagiert auf zeitliche Schwankungen des RDK-Bewegungssignals, berechnet die jeweils aktuellen Posterior-Wahrscheinlichkeiten über mögliche RDK-Zustände und dient somit als belief state Inferenz-Modell für die Anwendung in Markov'schen Entscheidungsprozessen. Risikoneutrale und risikosensitive Modelle wurden an die in der ökonomisch-perzeptuellen Entscheidungsaufgabe beobachteten Reaktionszeitverteilungen der Probanden angepasst. Wir identifizierten Probandengruppen mit ähnlichen Risikopräferenzen, und die unterschiedlichen Reaktionszeitverteilungen unterstützten die Annahme, dass die Risikosensitivität gegenüber perzeptueller Unsicherheit das Verhalten der Probanden beeinflusste. Im Allgemeinen beschreibt das risikosensitive Modell die experimentellen Daten deutlich besser als das risikoneutrale Modell. Die Ergebnisse zeigen somit die Anwendbarkeit risikosensitiver POMDPs auch auf menschliche Entscheidungsprozesse unter perzeptueller Unsicherheit.
Projektbezogene Publikationen (Auswahl)
-
Risk Sensitivity under Partially Observable Markov Decision Processes. 2019 Conference on Cognitive Computational Neuroscience. Cognitive Computational Neuroscience.
Höft, Nikolas; Guo, Rong; Laschos, Vaios; Jeung, Sein; Ostwald, Dirk & Obermayer, Klaus
-
Risk-Sensitive Partially Observable Markov Decision Processes as Fully Observable Multivariate Utility Optimization Problems.
A. Afsardeir, A. Kapetanis, V. Laschos, K. Obermayer
