Online-Präferenzlernen mit Bandit-Algorithmen

Antragsteller Professor Dr. Eyke Hüllermeier, seit 3/2017

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing

Förderung Förderung von 2017 bis 2022

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 317046553

Projektbeschreibung

Im Bereich des maschinellen Lernens fasst man unter dem Begriff des mehrarmigen Banditen (multi-armed bandit, MAB) eine Klasse von Online-Lernproblemen zusammen, in denen ein Agent sein Entscheidungsverhalten im Rahmen eines sequenziellen Entscheidungsprozesses optimiert. MABs verbinden praktische Nützlichkeit mit theoretisch interessanten Fragestellungen und haben sich nicht zuletzt deshalb als wichtiges Forschungsthema etabliert. Dieses Projekt widmet sich einer neuen Variante des MAB Problems, das wir als präferenzbasierten mehrarmigen Banditen (PB-MAB) bezeichnen. Anstatt aus stochastischem Feedback in der Form reellwertiger Nutzenwerte für die Wahl einzelner Alternativen zu lernen, kann ein PB-MAB Agent jeweils zwei Alternativen qualitativ miteinander vergleichen. Dieses Projekt verfolgt zwei zentrale Ziele. Durch Konsolidierung bestehender Arbeiten und die Beantwortung offener theoretischer und algorithmischer Fragen soll zunächst ein möglichst vollumfängliches Verständnis des PB-MAB Problems erlangt werden. Darüber hinaus sollen Methoden für praktisch motivierte Erweiterungen des Problems entwickelt werden, und zwar einmal für kontextualisierte PB-MABs, bei denen Präferenzen zwischen Alternativen vom jeweiligen Entscheidungskontext abhängen, und zum anderen PB-MABs mit verallgemeinertem Feedback, die über paarweise Vergleiche hinausgehend Präferenzinformation allgemeinerer Natur zulassen.

DFG-Verfahren Sachbeihilfen

Ehemaliger Antragsteller Dr. Robert Busa-Fekete, bis 2/2017

Servicenavigation

Hauptnavigation

Online-Präferenzlernen mit Bandit-Algorithmen

Zusatzinformationen

Servicenavigation

Hauptnavigation

Online-Präferenzlernen mit Bandit-Algorithmen

Zusatzinformationen

Textvergrößerung und Kontrastanpassung