Detailseite
Projekt Druckansicht

Über die Konvergenz von Variational Deep Learning zu Entropie-Summen

Antragstellerinnen / Antragsteller Professorin Dr. Asja Fischer; Professor Dr. Jörg Lücke
Fachliche Zuordnung Mathematik
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung seit 2021
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 464104047
 
Tiefe probabilistische Modelle sind ein zentrales theoretisches Fundament des tiefen unüberwachten Lernens. In der Form z.B. von Sigmoid-Belief-Networks (SBNs) oder Deep-Belief-Networks (DBNs) haben sie eine Schlüsselrolle in der Ethablierung des gesamten Deep Learning Feldes gespielt. Heute sind tiefe probabilistische Modelle eine zentrale, treibende Kraft von theoretischen und praktischen Entwicklungen im Deep Learning z.B. in der Form von Variational Autoencoders (VAEs), Generative Adversarial Nets oder Deep Restricted Boltzmann Machines (RBMs).Für alle tiefen probabilistischen Modelle ändert das Lernen die Modellparameter bis diese konvergiert sind, d.h., bis sich die Modellparameter nicht mehr wesentlich ändern. Die Konvergenzpunkte des Lernens können daher als stationäre Punkte einer Lerndynamik angesehen werden. Die konkreten Änderungen der Modellparameter werden durch die entsprechende Zielfunktion eines tiefen Modells definiert. Für die meisten probabilistischen Modelle (einschl. SBNs, RBMs und aller VAE-Varianten) ist diese Zielfunktion theoretisch wohl-definiert fundiert und entspricht der sog. Variational-Lower-Bound. Unser Ziel ist es hier, eine theoretische Struktur zu untersuchen, die allen tiefen Modellen, die auf der Variational-Lower-Bound beruhen, gemeinsam zu sein scheint: wir möchten untersuchen ob und wie die Lower-Bound zu Werten konvergiert, die durch eine Summe von Entropien beschrieben wird.Jedes tiefe probabilistische Modell wird durch individuelle Verteilungsfunktionen definiert, z.B. für die latenten und die observierten Variablen im Falle von SBNs und DBNs oder durch spezifische Boltzmann Verteilungen für RBMs. Unsere Hypothese ist es, dass während des Lernens die Parameter aller oben erwähnter Modelle sich so ändern, dass die Werte der Lower-Bound identisch werden zu einer Summe von Entropien. Diese Entropien sind genau die Entropien der Verteilungsfunktionen, durch die ein gegebenes tiefes Modell beschrieben wird. Unser Ziel ist es außerdem zu untersuchen, für welche allgemeine Klasse von tiefen Modelle dieses Konvergenzverhalten unter realistischen Bedingungen bewiesen werden kann.Darüber hinaus ist es unser Ziel die Konvergenz zu Entropie-Summen zur Verbesserung des tiefen unüberwachten Lernens zu benutzen. Dies soll erreicht werden (A) durch die Nutzung unser theoretisch Ergebnisse um flache lokale Optima, Mode-Collapse und Überanpassung zu vermeiden; und (B) durch die partielle analytische Lösung des Optimierungsproblems für tiefes Lernen. Unsere wichtigsten mathematischen Werkzeuge werden hierbei die Theorie der exponentiellen Familie von Wahrscheinlichkeitsverteilungen so wie die Theorie des Variational Deep Learning sein. Wir glauben, dass die Ergebnisse über die hier untersuchte theoretischen Struktur zu einem neuen und tieferen Verständnis des tiefen unüberwachten Lernens führen wird; und wir glauben, dass dieses tiefere Verständis zu wesentliche Verbesserungen und neuen Ansätzen führen wird.
DFG-Verfahren Schwerpunktprogramme
Internationaler Bezug Frankreich, Großbritannien, Kanada
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung