Detailseite
Projekt Druckansicht

Automatisches Alignment von Text und Video für semantische Multimediaanalyse

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2014 bis 2018
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 252286362
 
In diesem Forschungsvorhaben möchten wir detaillierte textuelle Beschreibungen von Video-Daten (TV Serien und Filme) zur Analyse und zum Verständnis von Multimediadaten und zur Gewinnung von Labels zu nutzen. Wir legen den Fokus dabei auf zwei Arten von Text: Plot-Zusammenfassungen und Bücher. Für viele Filme und Episoden von TV Serien gibt es Plot-Zusammenfassungen im Internet, z.B. auf Wikipedia oder Fan-Webseiten. Sie beschreiben eine Episode oder Film zusammenfassend in wenigen Sätzen. Im Gegensatz dazu sind Bücher (von denen ein Film adaptiert wurde) eine detaillierte Beschreibung der Handlung und visuellen Eindrücke, die der Autor vermitteln möchte. Text in Form von Untertiteln und Drehbüchern wurde bereits erfolgreich zur Automatisierung von Personen-Identifikation [Everingham 2006] oder zur Gewinnung von Annotationen für Action Recognition [Laptev 2008] eingesetzt. Da Untertitel und Drehbücher allerdings hauptsächlich aus dem gesprochenen Text/Dialog bestehen, sind sie zum Verständnis und als visuelle Beschreibung der Handlung/Welt nur bedingt hilfreich. Um von Plot-Zusammenfassungen Gebrauch machen zu können, beginnen wir, Sätze der Zusammenfassung Teilen des Videos zuzuordnen (WP2). Wir schlagen vor, als Hinweise für dieses Alignment sogenannte Anker zu benutzen, z.B. Personen-Identitäten. Wir möchten dabei insbesondere zwei Herausforderungen des Alignments betrachten: mögliche nicht-Linearitäten der Zusammenfassung im Vergleich zum Video und das Fehlen von Shots im Video. Im Gegensatz zu Plot-Zusammenfassungen besteht der erste Schritt bei der Analyse von Büchern aus einem gröberen Alignment von Kapiteln zu Shots (WP3). Wir nehmen dazu an, dass einige der Dialoge in einem Buch in der Videoadaption verwendet werden. Damit kann weiterhin in einem zweiten Schritt automatische Personenidentifikation durchführen werden, und ein fein-granulares Alignment innerhalb eines Kapitels wird erleichtert. Ein Alignment kann durch Wissen über eine Szene/Ort oder vorhandene Objekte in einem Shot verbessert werden. Wir werden diesen Zusammenhang von Annotationen und Ankern in WP4 untersuchen, zunächst iterativ, dann durch eine gemeinsame Modellierung der beiden Aufgaben von Gewinnung von Annotationen und Durchführung des Alignments. Wir betrachten zwei Anwendungsgebiete: (i) Gewinnung von Annotationen aus Textquellen und (ii) Video-Anwendungen. Aus Plot-Zusammenfassungen möchten wir Annotationen zu Orten und Szenen extrahieren (WP5-P1). Weiterhin werden wir automatische Zusammenfassung, Indizierung und Suche unter Ausnutzung der Alignments untersuchen (WP5-P2). So kann z.B. eine Videokurzfassung auf Basis eines Alignments generiert werden, indem man eine automatische Textzusammenfassung auf der Plot-Zusammenfassung durchführt, und dann die entsprechenden Shots für die Videokurzfassung auswählt. Für Büchern planen wir Beschreibungen um Dialoge herum zum Lernen von Attributen der Charaktere, Szenen und Objekten zu verwenden (WP5-P1).
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung