Kognitives Computer-Sehen: Verankerung wissensbasierter Konzepte in visuellen Daten unter spezieller Berücksichtigung des situativen und funktionellen Kontextes

Antragsteller Privatdozent Dr.-Ing. Sven Wachsmuth

Fachliche Zuordnung Theoretische Informatik

Förderung Förderung von 2002 bis 2004

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 5386463

Projektbeschreibung

In vielen zukunftsträchtigen Anwendungsbereichen, wie z.B. inhaltsbasierter Abfrage von Bilddatenbanken oder flexiblenService-Robotern im Heimbereich, wird im Bereich maschinelles Sehendie Erkennung von Objektkategorien und die Generierung semantischerBeschreibungen (Cognitive Vision) im Gegensatz zur Wiedererkennung individueller Objekte immer wichtiger.Eine Annotation von gespeicherten Bildern oder Bildfolgen per Hand ist bei rasant zunehmender Datenmenge weder bei zentralen Archiven noch für einen Heimanwender leistbar. Service-Roboter müssen sich in einer nicht normierten Umgebung zurechtfinden und mit Gegenständen umgehen können, deren Aussehen dem System im Vorhinein nicht bekannt ist. Man steht damit vor dem bisher ungelösten Problem der generischen Objekterkennung, d.h. ein System kann "meine Lieblingstasse" als Tasse erkennen, obwohl dem System das spezielle Aussehen dieser Tasse unbekannt ist. Stattdessen verwendet das System ein generisches Modell einer Tasse zur Objekterkennung.Das Ziel des Forschungsvorhabens ist ein lernbares generisches Modellsemantischer Objektklassen zu entwickeln. Als Grunddaten werdenText-annotierte Bilder verwendet, die im World Wide Web zahlreich undleicht zugänglich vorhanden sind (z.B. online Möbelkataloge).Die Zuordnung eines Wortes zu einem Bildobjekt ist in diesen Datennicht gegeben und muss zusätzlich gelernt werden. Dies betrifft zumeinen die Detektion der Bildregion (Segmentierungsproblem) zum anderendas Extrahieren der beschreibenen Textphrase (Zuordnungsproblem). Der situative Kontext eines Bildobjektes ist zum einen durch den natürlich sprachlichen Text zum anderen durch weitere Bildobjekte gegeben. Der funktionale Kontext ergibt sich sowohl ausTeil-Ganzes Beziehungen als auch aus dem Textzusammenhang.Ist beispielsweise ein Bild von einer Wandlampe mit dem folgenden Textgegeben: "SMYG wall lamp. Good directional light makes this lamp an ideal reading companion". Kann aufgrund von vielfachem Vorkommen in dem Grunddatensatz das Wort "lamp" mit dem Bildobjekt, das die Form einer Lampe besitzt, verbunden werden. Desweiteren wird das Wort "lamp" in dem Text durch die Modifikation "wall lamp" in einen situativen Kontext und durch die weiteren Wörter "light" und "reading" in einen funktionalen Kontext gestellt.

DFG-Verfahren Forschungsstipendien

Servicenavigation

Hauptnavigation

Kognitives Computer-Sehen: Verankerung wissensbasierter Konzepte in visuellen Daten unter spezieller Berücksichtigung des situativen und funktionellen Kontextes

Zusatzinformationen

Servicenavigation

Hauptnavigation

Kognitives Computer-Sehen: Verankerung wissensbasierter Konzepte in visuellen Daten unter spezieller Berücksichtigung des situativen und funktionellen Kontextes

Zusatzinformationen

Textvergrößerung und Kontrastanpassung