Detailseite
Projekt Druckansicht

Statistische Modellierung des Inhaltes von Online Videos zur automatisierten Detektion semantischer Konzepte in Videos

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2008 bis 2012
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 76019615
 
Eine der größten Herausforderungen im Bereich Computer Vision ist die Entwicklung von Systemes, die visuelle Konzepte wie Objekte, Orte und Tätigkeiten, in Videos und Bildern erkennen. Üblicherweise wird dazu die Erscheinung von Konzepten aus einem Satz annotierter Trainings-Bilder oder Videos gelernt. Die erforderlichen Annotationen werden von Hand erzeugt. Dies ist ein zeitraubender Vorgang der ein fundamentales Problem für das Training und Testen von Erkennungssystemen darstellt. Die Zielsetzung dieses Antrages ist die Erstellung eines Systems, das stattdessen von einem neuartigen Typ Trainingsdaten lernt. Dabei handelt es sich um Online Videos, die über Portale wie youtube in größeren Mengen frei zugänglich sind. Die Annotationen, welche die Anwender für Videos vergeben, sollen dazu verwendet werden ein Erkennungssystem in schwach überwachter Form zu trainieren. Um solches visuelles Lernen zu ermöglichen, wollen wir auf einige etablierte Verfahren für Bilddaten zurückgreifen, für die das Lernen von Online Daten bereits untersucht wurde. Im Unterschied dazu wollen wir den Schwerpunkt auf die Eigenheiten von Videodaten legen und dabei besonders die folgenden Fragen beantworten:Wie wählt / kombiniert man Merkmale für Videoinhalte? Verschiedene semantische Konzepte werden am besten durch unterschiedliche visuelle Eigenschaften beschrieben. Wir planen die Untersuchung verschiedener Merkmale (z.B. Textur und Bewegung) sowie ihrer geeigneter Fusion mittels Methoden des maschinellen Lernens. Können wir Videoabschnitte identifizieren die für ein Konzept relevant sind? Es ist möglich, dass ein Konzept nur in bestimmten Abschnitten aber nicht in allen Teilen eines Videos sichtbar ist. Um diese relevanten Abschnitte zu identifizieren und daraus verbesserte Konzeptmodelle zu erzeugen, planen wir unüberwachte Topic Modelle für den zeitlichen Bereich zu adaptieren. Wie können Objektmodelle durch Bewegungssegmentierung verbessert werden? Objekte können im Video aufgrund ihrer spezifischen Bewegung vom Hintergrund getrennt werden. Wir planen die Untersuchung verschiedener Möglichkeiten Objekterkennung mit bewegungsbasierter Segmentierung zu kombinieren.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung