Detailseite
Robuste Samplingverfahren für Bayessche neuronale Netzwerke
Antragstellerinnen / Antragsteller
Professor Dr. Daniel Rudolf; Professorin Dr. Claudia Schillings; Professor Dr. Björn Sprungk
Fachliche Zuordnung
Mathematik
Förderung
Förderung seit 2023
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 522337282
Im Projekt werden effiziente numerische Verfahren zur Simulation bzw. Bewertung tiefer Bayesscher neuronaler Netzwerke entwickelt, um damit eine Unsicherheitsquantifizierung im tiefen Lernen zu ermöglichen. Die Unsicherheit im trainierten Netzwerk ist hierbei durch eine a-posteriori Verteilung auf der Menge der zu erlernenden Parameter des Netzwerkes gegeben. Diese Verteilung wird aus einer gewählten a-priori Verteilung, meist einer multivariaten Normalverteilung, durch das „Bedingen“ an Trainingsdaten gebildet. Sie führt somit zu einem Wahrscheinlichkeitsmaß auf der Menge der neuronalen Netzwerke (mit gleicher Architektur) und damit schließlich zu einer Vorhersageverteilung, die die Unsicherheit in den Prognosen des erlernten Netzwerkes quantifiziert. Numerische Ansätze zur Beurteilung Bayesscher neuronaler Netzwerke sind gegeben durch Samplingverfahren, die (approximative) Realisierungen der Parameter bzw. Netzwerke gemäß der a posteriori Verteilung generieren, sowie durch variationelle Methoden, die einfache Näherungen an die Verteilung berechnen und diese dann evaluieren. Herausforderungen hierbei stellen die hohe Dimensionalität und die hohe Konzentration der a-posteriori Verteilung dar. Diese resultieren aus der erheblichen Größe tiefer neuronaler Netzwerke und aus einem hohen Informationsgehalt der Trainingsdaten, z. B. aufgrund einer großen Datenanzahl. Wir entwickeln in diesem Projekt effiziente Verfahren um auch für große neuronale Netzwerke und informative Daten eine Auswertung der a-posteriori Verteilung bzw. der Vorhersageverteilung zu gewährleisten. Die konkrete Vorgehensweise ist dabei wie folgt: 1.) Zunächst untersuchen wir eine klassische Näherung an die a- posteriori Verteilung, die Laplace-Approximation. Im Fall von immer informativeren Trainingsdaten sowie in Situationen, in denen die a-posteriori Verteilung multimodal und hoch- bzw. unendlich-dimensional ist, interessiert uns wie schnell die Laplace-Approximation gegen die a-posteriori Verteilung konvergiert. Kenntnisse darüber bilden das Fundament für die Anwendung dieser Approximation für tiefe Netzwerke und große Datenmengen. 2.) Die Laplace-Approximation betrachten wir als Hilfsmittel um gängige Samplingmethoden wie Importance Sampling, Quasi-Monte Carlo und Markowketten-Monte Carlo-Verfahren robuster bzgl. der Konzentriertheit der a-posteriori Verteilung zu machen. Da die Laplace-Approximation implizit Information über die Konzentration der Verteilung beinhaltet, kann diese vom entsprechenden Sampling-Verfahren ausgenutzt werden. Die Robustheit gängiger Effizienzmaße der daraus resultierenden Methoden wird mathematisch analysiert und alle theoretischen sowie algorithmischen Ergebnisse werden an praktischen Beispielen überprüft.
DFG-Verfahren
Sachbeihilfen