Detailseite
Statistische Grundlagen des halb-überwachten Lernens mit Graph-Neural-Networks
Antragsteller
Professor Debarghya Ghoshdastidar, Ph.D.
Fachliche Zuordnung
Theoretische Informatik
Mathematik
Mathematik
Förderung
Förderung seit 2021
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 463402401
Die Theorie des Deep Learnings ist ein aktiver Forschungsbereich und hat ein genaues Verständnis der Leistung überwachter Modelle ermöglicht, die auf markierten Daten trainiert werden. Doch die praktischen Entwicklungen im Bereich von Foundation-Models hängen in hohem Maße von der Verfügbarkeit riesiger Mengen unmarkierter Daten ab. Daher ist es ebenso wichtig zu verstehen, wie in der Praxis durch halb- oder unüberwachtes Deep Learning aus unmarkierten Daten bessere Modelle gelernt werden. Dies war das Ziel unseres Projekts in der ersten Förderphase des Schwerpunktprogramms und hat zu Ergebnissen sowohl zum unüberwachten Repräsentationslernen als auch zum halbüberwachten Deep Learning auf Graphen geführt. Das Ziel des Nachfolgeprojekts besteht darin, zwei wichtige Fragen des modernen maschinellen Lernens zu verstehen: (i) Wie verbessern unmarkierte Daten die Leistung von Modellen? (ii) Warum verbessern der Attention-Mechanismus und die Transformer-Architektur die statistische Leistung? Wir beantworten beide Fragen im Kontext des halbüberwachten Deep Learnings auf Graphen, insbesondere durch die Untersuchung von Graph-Neural-Networks für die Klassifizierung von Knoten und die Vorhersage von Kanten. Die wichtigsten technischen Beiträge des Projekts sind: (i) Herleitung des Neural-Tangent-Kernels für unendlich breite neuronale Netze, und des Gaußprozess-Grenzwertes für Graph-Attention-Networks und für Graph-Transformer. (ii) Berechnung des exakten statistischen Risikos für Kernel-basierte Approximationen von Graph-Neural-Networks, einschließlich Faltungs- und Attention-basierter Architekturen; (iii) Statistische Garantien für Graph-Neural-Networks für kontextbezogene stochastische Blockmodelle. Die Ergebnisse werden es ermöglichen, die statistische Leistung von Faltungs- und Attention-basierter Modellen genau zu vergleichen und so die Frage zu beantworten, warum tiefe Attention-basierte Modelle für das Lernen von Daten mit Interaktionen großer Reichweite überlegen sind. Darüber hinaus wird die Analyse von Zufallsgraphen Aufschluss darüber geben, wann zusätzliche Informationen (hier gegeben in Form von Graphen) die Vorhersagekraft von Modellen verbessern oder verschlechtern können. Die Analyse wird auch dazu beitragen, die Grenzen aktueller Graph-Neural-Networks zu identifizieren und alternative Architekturen zu erforschen, die für kontextbezogene stochastische Blockmodelle nahezu optimal sind.
DFG-Verfahren
Schwerpunktprogramme
Teilprojekt zu
SPP 2298:
Theoretische Grundlagen von Deep Learning