Project Details
Cognitive Computer Vision: Grounding knowledge-based concepts in visual data exploiting the situational and functional contexts
Applicant
Privatdozent Dr.-Ing. Sven Wachsmuth
Subject Area
Theoretical Computer Science
Term
from 2002 to 2004
Project identifier
Deutsche Forschungsgemeinschaft (DFG) - Project number 5386463
In vielen zukunftsträchtigen Anwendungsbereichen, wie z.B. inhaltsbasierter Abfrage von Bilddatenbanken oder flexiblenService-Robotern im Heimbereich, wird im Bereich maschinelles Sehendie Erkennung von Objektkategorien und die Generierung semantischerBeschreibungen (Cognitive Vision) im Gegensatz zur Wiedererkennung individueller Objekte immer wichtiger.Eine Annotation von gespeicherten Bildern oder Bildfolgen per Hand ist bei rasant zunehmender Datenmenge weder bei zentralen Archiven noch für einen Heimanwender leistbar. Service-Roboter müssen sich in einer nicht normierten Umgebung zurechtfinden und mit Gegenständen umgehen können, deren Aussehen dem System im Vorhinein nicht bekannt ist. Man steht damit vor dem bisher ungelösten Problem der generischen Objekterkennung, d.h. ein System kann "meine Lieblingstasse" als Tasse erkennen, obwohl dem System das spezielle Aussehen dieser Tasse unbekannt ist. Stattdessen verwendet das System ein generisches Modell einer Tasse zur Objekterkennung.Das Ziel des Forschungsvorhabens ist ein lernbares generisches Modellsemantischer Objektklassen zu entwickeln. Als Grunddaten werdenText-annotierte Bilder verwendet, die im World Wide Web zahlreich undleicht zugänglich vorhanden sind (z.B. online Möbelkataloge).Die Zuordnung eines Wortes zu einem Bildobjekt ist in diesen Datennicht gegeben und muss zusätzlich gelernt werden. Dies betrifft zumeinen die Detektion der Bildregion (Segmentierungsproblem) zum anderendas Extrahieren der beschreibenen Textphrase (Zuordnungsproblem). Der situative Kontext eines Bildobjektes ist zum einen durch den natürlich sprachlichen Text zum anderen durch weitere Bildobjekte gegeben. Der funktionale Kontext ergibt sich sowohl ausTeil-Ganzes Beziehungen als auch aus dem Textzusammenhang.Ist beispielsweise ein Bild von einer Wandlampe mit dem folgenden Textgegeben: "SMYG wall lamp. Good directional light makes this lamp an ideal reading companion". Kann aufgrund von vielfachem Vorkommen in dem Grunddatensatz das Wort "lamp" mit dem Bildobjekt, das die Form einer Lampe besitzt, verbunden werden. Desweiteren wird das Wort "lamp" in dem Text durch die Modifikation "wall lamp" in einen situativen Kontext und durch die weiteren Wörter "light" und "reading" in einen funktionalen Kontext gestellt.
DFG Programme
Research Fellowships