Unüberwachte Multimodale Personenerkennung in TV Serien und Spielfilmen

Antragsteller Professor Dr.-Ing. Rainer Stiefelhagen

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing

Förderung Förderung von 2016 bis 2021

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 316692988

Automatische Schauspieler-Identifikation in Multimediadaten ist ein umfangreiches und herausforderndes Problem. Personen-Identitäten können als Basis und Baustein für viele weitergehende Video-Analyse-Aufgaben dienen, z.B. semantisches Indizieren, Suche und Video-Zusammenfassungen.Das Ziel dieses Projekts ist es, Audio- und Video-Information zu nutzen um Schauspieler automatisch in TV-Serien und Filmen zu identifizieren, ohne dafür manuelle Annotationen zum Trainieren von Gesichts-/Sprachmodellen zu benötigen. Ein vollautomatischer Ansatz ist insbesondere von Vorteil, wenn man die große Menge an vorhandenen Multimediadaten betrachtet. Audio und Video stellen zur Personen-Identifizierung komplementäre Informationen bereit, und erlauben durch gemeinsame Betrachtung eine bessere Identifizierung als durch jeweils eine der beiden Modalitäten allein.Wir werden uns insbesondere mit den folgenden Forschungsfragen beschäftigen: unüberwachtes Clustering von abwechselnden Sprechern (speaker diarization) und Gesichtstracks um ähnliche Daten der gleichen Person ohne manuelle Information zu gruppieren; unüberwachte Identifikation durch Propagieren von automatisch generierten Labels aus verschiedenen Informationsquellen (z.B. Untertitel und Drehbücher); und multimodale Fusion von akustischen, visuellen und textuellen Merkmalen auf verschiedenen Ebenen der Identifikations-Pipeline.Obwohl viele generische Ansätze zu unüberwachtem Clustering existieren, sind diese nicht an heterogene audio-visuelle Daten (Gesichtstracks und abwechselnde Sprecher) aus TV-Serien und Filmen angepasst. Wir über-clustern daher zunächst die Daten, um sicherzustellen, dass die Cluster möglichst homogen bleiben, bevor wir den Clustern Namen zuweisen. Wir erwarten, dass ein multimodales Clustering durch die Ausnutzung beider Modalitäten deutlich bessere Ergebnisse erzielt. Gleichzeitig können wir domänenspezifische Elemente ausnutzen.Das Ziel von unüberwachter Identifikation ist dann ein vollautomatisches Zuweisen von Namen zu Clustern, nur durch Ausnutzung von Informationen, die schon in der Sprache oder im Video vorhanden sind. In Filmen werden Namen von Charakteren typischerweise eingeführt und regelmäßig genannt. Wir werden Adressat-Empfänger-Beziehungen sowohl in der Sprache als auch im Video (z.B. durch Bestimmung der Kopfdrehung/Aufmerksamkeit) bestimmen. Durch die im entsprechenden Dialog enthaltenen Namen können wir Identitäten zu einigen Clustern zuweisen, diskriminative Modelle lernen und darüber schließlich alle Cluster identifizieren.Für die Evaluation werden wir einen existierenden Korpus von drei TV-Serien (49 Episoden) und einer Film-Serien (8 Filme) erweitern und annotieren. Diese Daten decken verschiedenen Filmstile, Erzählweisen und Herausforderungen sowohl für Audio als auch Video ab. Wir werden die verschiedenen Schritte dieses Projekts auf diesem Korpus evaluieren, und die Annotationen für andere Forscher auf diesem Gebiet öffentlich verfügbar machen.

DFG-Verfahren Sachbeihilfen

Internationaler Bezug Frankreich

Partnerorganisation Agence Nationale de la Recherche / The French National Research Agency

Kooperationspartnerinnen / Kooperationspartner Professor Dr.-Ing. Claude Barras; Hervé Bredin, Ph.D.; Professorin Camille Guinaudeau, Ph.D.

Servicenavigation

Hauptnavigation

Unüberwachte Multimodale Personenerkennung in TV Serien und Spielfilmen

Zusatzinformationen

Servicenavigation

Hauptnavigation

Unüberwachte Multimodale Personenerkennung in TV Serien und Spielfilmen

Zusatzinformationen

Textvergrößerung und Kontrastanpassung