Project Details
Statistische Modellierung des Inhaltes von Online Videos zur automatisierten Detektion semantischer Konzepte in Videos
Applicant
Professor Dr. Thomas Breuel
Subject Area
Image and Language Processing, Computer Graphics and Visualisation, Human Computer Interaction, Ubiquitous and Wearable Computing
Term
from 2008 to 2012
Project identifier
Deutsche Forschungsgemeinschaft (DFG) - Project number 76019615
Eine der größten Herausforderungen im Bereich Computer Vision ist die Entwicklung von Systemes, die visuelle Konzepte wie Objekte, Orte und Tätigkeiten, in Videos und Bildern erkennen. Üblicherweise wird dazu die Erscheinung von Konzepten aus einem Satz annotierter Trainings-Bilder oder Videos gelernt. Die erforderlichen Annotationen werden von Hand erzeugt. Dies ist ein zeitraubender Vorgang der ein fundamentales Problem für das Training und Testen von Erkennungssystemen darstellt. Die Zielsetzung dieses Antrages ist die Erstellung eines Systems, das stattdessen von einem neuartigen Typ Trainingsdaten lernt. Dabei handelt es sich um Online Videos, die über Portale wie youtube in größeren Mengen frei zugänglich sind. Die Annotationen, welche die Anwender für Videos vergeben, sollen dazu verwendet werden ein Erkennungssystem in schwach überwachter Form zu trainieren. Um solches visuelles Lernen zu ermöglichen, wollen wir auf einige etablierte Verfahren für Bilddaten zurückgreifen, für die das Lernen von Online Daten bereits untersucht wurde. Im Unterschied dazu wollen wir den Schwerpunkt auf die Eigenheiten von Videodaten legen und dabei besonders die folgenden Fragen beantworten:Wie wählt / kombiniert man Merkmale für Videoinhalte? Verschiedene semantische Konzepte werden am besten durch unterschiedliche visuelle Eigenschaften beschrieben. Wir planen die Untersuchung verschiedener Merkmale (z.B. Textur und Bewegung) sowie ihrer geeigneter Fusion mittels Methoden des maschinellen Lernens. Können wir Videoabschnitte identifizieren die für ein Konzept relevant sind? Es ist möglich, dass ein Konzept nur in bestimmten Abschnitten aber nicht in allen Teilen eines Videos sichtbar ist. Um diese relevanten Abschnitte zu identifizieren und daraus verbesserte Konzeptmodelle zu erzeugen, planen wir unüberwachte Topic Modelle für den zeitlichen Bereich zu adaptieren. Wie können Objektmodelle durch Bewegungssegmentierung verbessert werden? Objekte können im Video aufgrund ihrer spezifischen Bewegung vom Hintergrund getrennt werden. Wir planen die Untersuchung verschiedener Möglichkeiten Objekterkennung mit bewegungsbasierter Segmentierung zu kombinieren.
DFG Programme
Research Grants