Detailseite
Projekt Druckansicht

Online-Präferenzlernen mit Bandit-Algorithmen

Antragsteller Professor Dr. Eyke Hüllermeier, seit 3/2017
Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2017 bis 2022
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 317046553
 
Im Bereich des maschinellen Lernens fasst man unter dem Begriff des mehrarmigen Banditen (multi-armed bandit, MAB) eine Klasse von Online-Lernproblemen zusammen, in denen ein Agent sein Entscheidungsverhalten im Rahmen eines sequenziellen Entscheidungsprozesses optimiert. MABs verbinden praktische Nützlichkeit mit theoretisch interessanten Fragestellungen und haben sich nicht zuletzt deshalb als wichtiges Forschungsthema etabliert. Dieses Projekt widmet sich einer neuen Variante des MAB Problems, das wir als präferenzbasierten mehrarmigen Banditen (PB-MAB) bezeichnen. Anstatt aus stochastischem Feedback in der Form reellwertiger Nutzenwerte für die Wahl einzelner Alternativen zu lernen, kann ein PB-MAB Agent jeweils zwei Alternativen qualitativ miteinander vergleichen. Dieses Projekt verfolgt zwei zentrale Ziele. Durch Konsolidierung bestehender Arbeiten und die Beantwortung offener theoretischer und algorithmischer Fragen soll zunächst ein möglichst vollumfängliches Verständnis des PB-MAB Problems erlangt werden. Darüber hinaus sollen Methoden für praktisch motivierte Erweiterungen des Problems entwickelt werden, und zwar einmal für kontextualisierte PB-MABs, bei denen Präferenzen zwischen Alternativen vom jeweiligen Entscheidungskontext abhängen, und zum anderen PB-MABs mit verallgemeinertem Feedback, die über paarweise Vergleiche hinausgehend Präferenzinformation allgemeinerer Natur zulassen.
DFG-Verfahren Sachbeihilfen
Ehemaliger Antragsteller Dr. Robert Busa-Fekete, bis 2/2017
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung