Detailseite
Projekt Druckansicht

Data-dependency Gap: Ein neues Problem in der Lerntheorie von CNNs

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung seit 2021
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 464252197
 
In der statistischen Lerntheorie wollen wir theoretische Garantien für die Verallgemeinerungsfähigkeit von Algorithmen des maschinellen Lernens nachweisen. Der Ansatz besteht in der Regel darin, die Komplexität der mit dem Algorithmus verbundenen Funktionsklasse zu begrenzen. Wenn die Komplexität klein ist (im Vergleich zur Anzahl der Trainingsmuster), ist garantiert, dass der Algorithmus gut verallgemeinern kann. Bei neuronalen Netzen ist die Komplexität jedoch oft extrem groß. Nichtsdestotrotz haben neuronale Netzwerke - und insbesondere Faltungsnetzwerke - eine beispiellose Verallgemeinerung in einem breiten Anwendungsspektrum erreicht. Dieses Phänomen lässt sich nicht mit der Standardlerntheorie erklären. Obwohl eine reichhaltige Literatur durch die Analyse der impliziten Regularisierung, die durch das Trainingsverfahren auferlegt wird, Teilantworten liefert, ist das Phänomen im Großen und Ganzen nicht gut verstanden. In diesem Vorschlag führen wir einen neuen Gesichtspunkt zur "überraschend hohen" Generalisierung ein Fähigkeit neuronaler Netze: die Datenabhängigkeitslücke. Wir argumentieren, dass der wesentliche Grund für diese unerklärlichen Verallgemeinerungsfähigkeiten durchaus in der Struktur der Daten selbst liegen könnte. Unsere zentrale Hypothese ist, dass die Daten als Regularisierer beim Training neuronaler Netze fungieren. Das Ziel dieses Vorschlags ist es, diese Hypothese zu verifizieren. Wir werden empirische Evaluationen durchführen und eine Lerntheorie entwickeln, in Form von Lerngrenzen in Abhängigkeit von der Struktur in den Daten. Dabei werden wir die Gewichte der trainierten CNNs mit den unter Berücksichtigung der Struktur in der zugrundeliegenden Datenverteilung. Wir konzentrieren uns auf Faltungsneuronale Netze, die wohl prominenteste Klasse praktischer Neuronaler Netze. Die vorliegende Arbeit kann jedoch den Weg für die Analyse anderer Klassen von Netzen ebnen (dies kann in der zweite Förderperiode des SPP geschehen).
DFG-Verfahren Schwerpunktprogramme
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung