Detailseite
Projekt Druckansicht

Lernen von Analyse Operatoren mit Anwendungen in der Bildverarbeitung

Antragsteller Professor Dr.-Ing. Klaus Diepold, seit 8/2016
Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2013 bis 2018
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 246651110
 
Erstellungsjahr 2018

Zusammenfassung der Projektergebnisse

Gegenstand des Forschungsprojekts war die Untersuchung des co-sparse-Analysemodells. Als erster Aspekt wurden theoretische Eigenschaften des Lernalgorithmus, nämlich der Generalisierungsfehler und die Stichprobenkomplexität des Modells, untersucht. Als erster Schritt der theoretischen Analyse wurde zunächst das Dictionary Learning Modell betrachtet, welches ein nahe verwandtes Repräsentationsmodell ist. Hierbei wurden Abschätzungen für den Generalisierungsfehler erreicht, die bis dahin erreichte Resultate auf allgemeinere Verteilungen der Daten erweitern. Das hierzu verwendete Framework erwies sich allerdings als suboptimal für die Abschätzung des Generalisierungsfehlers des Analysemodells. Daher wurde für diese Aufgabe ein anderes Abschätzungsverfahren gewählt. Dieses basiert auf der Verwendung von McDiarmids Ungleichung, Rademacher-Komplexität und Slepians Lemma. Mit dieser Methode konnten neue Abschätzungen für den Generalisierungsfehler sowie die Stichprobenkomplexität des co-sparse-Analysemodells hergeleitet werden. Die gewonnenen Ergebnisse spiegeln den Einfluss der im Modell involvierten Komponenten, wie zum Beispiel Eigenschaften der Kostenfunktion oder geometrische Eigenschaften des Analyseoperators, wider. Mit Hilfe von Methoden der multilinearen Algebra wurde ein neues Analysemodell entworfen, welches in der Lage ist mit multidimensionalen Daten zu arbeiten, ohne dabei lokale Informationen zu verlieren. Dies wurde erreicht indem eine separable Struktur vom Analyseoperator verlangt wird. Separabilität bedeutet hier, dass ein Analyseoperator das Kroneckerprodukt aus mehreren Operatoren ist; eine Eigenschaft wie sie auch Filtern in der Bildverarbeitung verwendet wird. Dieses Modell wurde unter anderem dazu verwendet um dreidimensionale MRT-Daten zu entrauschen. Durch die separable Struktur waren wir in der Lage, größere Bildausschnitte zu betrachten und damit einen Algorithmus zu entwickeln der sowohl in der Trainingsphase, als auch bei der Rekonstruktion deutlich schneller ist als vergleichbare andere Algorithmen. Außerdem kann durch den Austausch der Fehler-Norm der Rekonstruktionsprozess an die jeweilige Rauschcharakteristik angepasst werden. Das zuvor verwendete Abschätzungsverfahren zur Bestimmung des Generalisierungsfehlers erwies sich als gut geeignet um diese auch im Falle des multidimensionalen Analysemodells zu untersuchen. Hierbei zeigte sich, dass die zusätzliche Struktur eine niedrige Stichprobenkomplexität zur Folge hat, und somit der weniger Daten für die Trainingsphase benötigt werden. Experimente, die mit synthetisch hergestellten Daten durchgeführt wurden, bekräftigten diese Eigenschaft. Darüber hinaus konnte nach eingehender Betrachtung des Sparse Autoencoder Modells eine Möglichkeit entwickelt werden, die Encoder-Matrix gemäß des co-sparse-Analysemodells zu lernen und anschließend zur Regularisierung von inversen Problemen zu nutzen. Im Vergleich zu herkömmlichen Verfahren zum Lernen von Analyseoperatoren konnte dabei auf zusätzliche Nebenbedingungen verzichtet werden, da durch den im Autoencoder Modell enthaltenen Decoder eine triviale Lösung verhindert werden kann. Numerische Experimente haben die Gleichwertigkeit der beiden Ansätze verdeutlicht.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung