Detailseite
Über die Konvergenz von Variational Deep Learning zu Entropie-Summen
Antragstellerinnen / Antragsteller
Professorin Dr. Asja Fischer; Professor Dr. Jörg Lücke
Fachliche Zuordnung
Mathematik
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung seit 2021
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 464104047
Tiefe probabilistische Modelle sind ein zentrales theoretisches Fundament des tiefen unüberwachten Lernens. In der Form z.B. von Sigmoid-Belief-Networks (SBNs) oder Deep-Belief-Networks (DBNs) haben sie eine Schlüsselrolle in der Ethablierung des gesamten Deep Learning Feldes gespielt. Heute sind tiefe probabilistische Modelle eine zentrale, treibende Kraft von theoretischen und praktischen Entwicklungen im Deep Learning z.B. in der Form von Variational Autoencoders (VAEs), Generative Adversarial Nets oder Deep Restricted Boltzmann Machines (RBMs).Für alle tiefen probabilistischen Modelle ändert das Lernen die Modellparameter bis diese konvergiert sind, d.h., bis sich die Modellparameter nicht mehr wesentlich ändern. Die Konvergenzpunkte des Lernens können daher als stationäre Punkte einer Lerndynamik angesehen werden. Die konkreten Änderungen der Modellparameter werden durch die entsprechende Zielfunktion eines tiefen Modells definiert. Für die meisten probabilistischen Modelle (einschl. SBNs, RBMs und aller VAE-Varianten) ist diese Zielfunktion theoretisch wohl-definiert fundiert und entspricht der sog. Variational-Lower-Bound. Unser Ziel ist es hier, eine theoretische Struktur zu untersuchen, die allen tiefen Modellen, die auf der Variational-Lower-Bound beruhen, gemeinsam zu sein scheint: wir möchten untersuchen ob und wie die Lower-Bound zu Werten konvergiert, die durch eine Summe von Entropien beschrieben wird.Jedes tiefe probabilistische Modell wird durch individuelle Verteilungsfunktionen definiert, z.B. für die latenten und die observierten Variablen im Falle von SBNs und DBNs oder durch spezifische Boltzmann Verteilungen für RBMs. Unsere Hypothese ist es, dass während des Lernens die Parameter aller oben erwähnter Modelle sich so ändern, dass die Werte der Lower-Bound identisch werden zu einer Summe von Entropien. Diese Entropien sind genau die Entropien der Verteilungsfunktionen, durch die ein gegebenes tiefes Modell beschrieben wird. Unser Ziel ist es außerdem zu untersuchen, für welche allgemeine Klasse von tiefen Modelle dieses Konvergenzverhalten unter realistischen Bedingungen bewiesen werden kann.Darüber hinaus ist es unser Ziel die Konvergenz zu Entropie-Summen zur Verbesserung des tiefen unüberwachten Lernens zu benutzen. Dies soll erreicht werden (A) durch die Nutzung unser theoretisch Ergebnisse um flache lokale Optima, Mode-Collapse und Überanpassung zu vermeiden; und (B) durch die partielle analytische Lösung des Optimierungsproblems für tiefes Lernen. Unsere wichtigsten mathematischen Werkzeuge werden hierbei die Theorie der exponentiellen Familie von Wahrscheinlichkeitsverteilungen so wie die Theorie des Variational Deep Learning sein. Wir glauben, dass die Ergebnisse über die hier untersuchte theoretischen Struktur zu einem neuen und tieferen Verständnis des tiefen unüberwachten Lernens führen wird; und wir glauben, dass dieses tiefere Verständis zu wesentliche Verbesserungen und neuen Ansätzen führen wird.
DFG-Verfahren
Schwerpunktprogramme
Teilprojekt zu
SPP 2298:
Theoretische Grundlagen von Deep Learning
Internationaler Bezug
Frankreich, Großbritannien, Kanada
Kooperationspartner
Dr. Jörg Bornschein; Dr. Zhenwen Dai; Georgios Exarchakis, Ph.D.; James Lucas