Detailseite
Kognitives Computer-Sehen: Verankerung wissensbasierter Konzepte in visuellen Daten unter spezieller Berücksichtigung des situativen und funktionellen Kontextes
Antragsteller
Privatdozent Dr.-Ing. Sven Wachsmuth
Fachliche Zuordnung
Theoretische Informatik
Förderung
Förderung von 2002 bis 2004
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 5386463
In vielen zukunftsträchtigen Anwendungsbereichen, wie z.B. inhaltsbasierter Abfrage von Bilddatenbanken oder flexiblenService-Robotern im Heimbereich, wird im Bereich maschinelles Sehendie Erkennung von Objektkategorien und die Generierung semantischerBeschreibungen (Cognitive Vision) im Gegensatz zur Wiedererkennung individueller Objekte immer wichtiger.Eine Annotation von gespeicherten Bildern oder Bildfolgen per Hand ist bei rasant zunehmender Datenmenge weder bei zentralen Archiven noch für einen Heimanwender leistbar. Service-Roboter müssen sich in einer nicht normierten Umgebung zurechtfinden und mit Gegenständen umgehen können, deren Aussehen dem System im Vorhinein nicht bekannt ist. Man steht damit vor dem bisher ungelösten Problem der generischen Objekterkennung, d.h. ein System kann "meine Lieblingstasse" als Tasse erkennen, obwohl dem System das spezielle Aussehen dieser Tasse unbekannt ist. Stattdessen verwendet das System ein generisches Modell einer Tasse zur Objekterkennung.Das Ziel des Forschungsvorhabens ist ein lernbares generisches Modellsemantischer Objektklassen zu entwickeln. Als Grunddaten werdenText-annotierte Bilder verwendet, die im World Wide Web zahlreich undleicht zugänglich vorhanden sind (z.B. online Möbelkataloge).Die Zuordnung eines Wortes zu einem Bildobjekt ist in diesen Datennicht gegeben und muss zusätzlich gelernt werden. Dies betrifft zumeinen die Detektion der Bildregion (Segmentierungsproblem) zum anderendas Extrahieren der beschreibenen Textphrase (Zuordnungsproblem). Der situative Kontext eines Bildobjektes ist zum einen durch den natürlich sprachlichen Text zum anderen durch weitere Bildobjekte gegeben. Der funktionale Kontext ergibt sich sowohl ausTeil-Ganzes Beziehungen als auch aus dem Textzusammenhang.Ist beispielsweise ein Bild von einer Wandlampe mit dem folgenden Textgegeben: "SMYG wall lamp. Good directional light makes this lamp an ideal reading companion". Kann aufgrund von vielfachem Vorkommen in dem Grunddatensatz das Wort "lamp" mit dem Bildobjekt, das die Form einer Lampe besitzt, verbunden werden. Desweiteren wird das Wort "lamp" in dem Text durch die Modifikation "wall lamp" in einen situativen Kontext und durch die weiteren Wörter "light" und "reading" in einen funktionalen Kontext gestellt.
DFG-Verfahren
Forschungsstipendien