Detailseite
xPres – Crossmodale Rezeptionsverlaufs-Embeddings
Antragsteller
Professor Dr. Achim Rettinger
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung seit 2020
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 445561254
Techniken des Repräsentationslernens tragen entscheidend zum derzeitigen Erfolg des Maschinellen Lernens bei. Eine Kernkomponente sind (Self-)Attention-mechanismen, die lernen welche Elemente der Eingabe (z.B. Wörter in einem Satz) relevant sind um andere Elemente der Eingabe zu kontextualisieren.Dies lässt sich auf menschliche Wahrnehmungsmodelle übertragen, wie sie in den Medienwissenschaften und der Psychologie entwickelt werden. Wertet man Blickaufzeichnungsexperimente aus, wird deutlich, dass Personen spezielle Eigenschaften multimedialer Inhalte nutzen um deren inhaltliche Bedeutung zu verstehen: (1) Bedeutung wird durch Verschiebung der Aufmerksamkeitsallokation zwischen Text und Bild konstruiert, welche bedingt ist durch Layout- und Designelemente. (2) Nicht alle Elemente eines Dokuments werden gleichermaßen rezipiert: z.B. werden einige Worte ausgelassen, während andere mehrfach wahrgenommen werden.Da Multimediadokumente von Menschen für Menschen entworfen werden argumentieren wir dafür, dass der Medieninhalt auch für die automatisierte Verarbeitung in menschenähnlicher Weise rezipiert werden sollte. xPres plant das Potential einer wahrnehmungsbasierten Rezeption für Repräsentationslernverfahren zu untersuchen. Die Kernidee ist ein neuartiges Inhaltsrepräsentationsparadigma, das multimediale Inhalte ähnlich repräsentiert, wie sie von Menschen rezipiert werden: Als Sequenz von Aufmerksamkeitsverschiebungen, z.B. zwischen Wörtern und Bildbereichen die in einem Dokument arrangiert sind.Basierend auf diesen rezeptionsbasierten Dokumentrepräsentationen wird xPres es ermöglichen zwei Forschungsfragestellungen zu untersuchen: (1) Was sind Gemeinsamkeiten und Unterschiede der Inhaltswahrnehmung von menschlicher Rezeption im Vergleich zu Repräsentationslernansätzen? (2) Können Repräsentationslernverfahren durch einen induktiven Rezeptions-bias verbessert werden?xPres wird folgende Ergebnisse generieren: (1) Methoden zur automatischen Extraktion von Rezeptionsmustern aus Multimediadokumenten; (2) dateneffizientere Repräsentationslernverfahren; (3) Erkenntnisse über Unterschiede der Inhaltswahrnehmung von menschlicher Rezeption und Repräsentationslernansätzen; (4) bessere empirische Ergebnisse auf Benchmarkdatensätzen; (5) frei verfügbare Blickaufzeichnungsdaten von Multimediadokumenten, Repräsentationslernverfahren basierend auf cross-modalen Blickverlaufsmustern und kontextabhängige, crossmodale, blickverlaufsbasierte Embeddings.Der Repräsentationslernansatz von xPres ist motiviert durch die menschliche Wahrnehmung und damit der erste der den Inhalt multimedialer Dokumente nicht nur als Summe von Einzelmodalitäten versteht. Da es noch keine wahrnehmungsbasierten ML-Ansätze gibt hat xPres das Potential wegweisend für viele Richtungen in der Künstlichen-Intelligenz-Forschung zu sein, wie z.B. "explainable AI", "AI alignment" und das Lernen aus limitierten Daten.
DFG-Verfahren
Sachbeihilfen