Detailseite
Projekt Druckansicht

Untersuchung und Identifikation kritischer Faktoren für die Objekterkennung und das Training erscheinungsbasierter, kompositioneller Modelle

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2010 bis 2016
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 179792144
 
Erstellungsjahr 2015

Zusammenfassung der Projektergebnisse

Zu Beginn wurde das am Institut existierende System ADA für die Erkennung von Comic Gesichtern eingesetzt. ADA nutzt SIFT Merkmale, die auf flächige - von schwarzen Linien umrandete - Bilder zugeschnitten sind. Nach Optimierung der Klassifikatorstruktur wurde eine Genauigkeit von 85% erreicht (89% korrekte Erkennungen von Gesichtern und 80% korrekte Zurückweisungen von beliebigen anderen Objekten). Um eine größere Allgemeingültigkeit der Ergebnisse zu gewährleisten und nicht von der Flächenhaftigkeit der Vorlagen abhängig zu sein, wurden alle weiteren Arbeiten mit einer öffentlich verfügbaren Datenbank realer Gesichter durchgeführt. Nach der Auffindung passender neuer Merkmale wurden andere moderne, mehrstufige Erkennungsverfahren (nämlich das Viola–Jones Objekterkennungs-System und das Projekt NLPR_SS_VW_PLS, der Gewinner des internationalen Pascal VOC 2011 Wettbewerbes) untersucht bzw. reimplementiert, um die eigenen Ergebnisse mit ihnen vergleichen zu können Obwohl die Ergebnisse des zweiten Verfahrens auf Grund mangelnder Informationen über die Parametrierung nicht nachvollzogen werden konnten, führten diese Arbeiten zur Entwicklung des Rückprojektions-Verfahrens. Bei der Berechnung der Auffälligkeit (salience) werden lokale Merkmale verglichen, die auch als Elemente eines visuellen Alphabetes interpretiert werden können. Die Rückprojektion wird erzeugt indem im Beispielbild an jeder Position das ausgewählte Merkmal (hier ein 4*4 Pixel großer Bildausschnitt) platziert wird. Das so entstehende Bild lässt eine sehr gute visuelle Beurteilung zu, welche Information bei der Erkennung im visuellen Alphabet genutzt wurde. Damit ist also der visuelle Vergleich verschiedener Zerlegungen (visueller Alphabete) möglich. Neben dieser Bewertungsmöglichkeit hat sich die Berechnung der Transinformation als Maß für den Vergleich von visuellen Alphabeten bewährt. Der Informationsgehalt der Wahrscheinlichkeitsverteilung der Unterteile eines Objektes wird mit dem Informationsgehalt nach ihrer Zusammensetzung zu Teilen verglichen. Damit ergibt sich eine klar begründete Maßzahl. Aufbauend auf den statistischen Abhängigkeiten zwischen Unterteilen und Teilen entstand die Fragestellung, diese Methode direkt auf der Pixelebene beginnend anzuwenden. Da bekanntermaßen die Pixelintensitäten innerhalb von Teilen bzw. Objekten starke statistische Abhängigkeiten aufweisen können, sollte sich diese Tatsache nutzen lassen. Als Objektklasse zum Test des Erkennungssystems wurde der Augenwinkel eines menschlichen Auges gewählt. Nimmt man an, über alle Bilder der Stichprobe hinweg bestehe zwischen zwei Pixeln mit festgelegtem Abstand eine lineare Abhängigkeit, so lässt sich dies einfach mittels Regressionsanalyse prüfen. Alle Pixelpaare, die dieser Forderung genügen, werden als Gruppe bezeichnet. Für die Stärke der Abhängigkeit kann eine Schwelle festgesetzt werden, welche die räumliche Verteilung der Gruppen und ihre Größe bestimmt. Üblicherweise sind näher benachbarte Pixel stärker korreliert. D.h. dadurch, dass die Abhängigkeiten zwischen den Pixeln einer Gruppe bekannt sind, lassen sich die Werte der Pixel gegenseitig vorhersagen. Andersherum lassen sich damit Pixel auswählen, die fast den gesamten Informationsgehalt der Gruppe tragen. Dies lässt sich zur substantiellen Beschleunigung der Erkennungsprozesse ohne deutliche Einbußen bei der Erkennungsqualität nutzen. Zur Erkennung werden nach der Gruppenbildung nur die Mittelpunkte der Gruppengebiete ausgewählt. Es hat sich gezeigt, dass bei realen Bildern die Wahl einer Regressionsschwelle von 0,8 typischerweise die besten Ergebnisse liefert: die Anzahl der falsch positiv erkannten Teile wird nur um 4% erhöht und die Anzahl der falsch negativ Erkannten bleibt nahezu gleich im Vergleich zur Auswertung aller Pixel. Die Methode ist dabei aber im Mittel 14fach schneller. Generell lässt sich sagen, dass die Untersuchungen das Verständnis beim Entwurf, der Belehrung und der Nutzung mehrstufiger, auf visuellen Alphabeten aufgebauter, Klassifikatoren verbessert hat.

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung