Detailseite
Nutzung eines theoretischen Simulations-Frameworks zur Validierung und Weiterentwicklung von prädiktiven Machine Learning Verfahren auf Netzwerken
Antragsteller
Professor Dr. Daniel Memmert; Dr. Fabian Wunderlich
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Theoretische Informatik
Theoretische Informatik
Förderung
Förderung seit 2019
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 432919559
Das Forschungsvorhaben knüpft inhaltlich direkt an ein im Rahmen des DFG-Projektes ME 2378/29-1 entwickeltes theoretisches Simulations-Framework zur Validierung von prädiktiven Ratings auf Netzwerken an. Mithilfe des Simulations-Frameworks können künstliche Daten erzeugt werden, die von der Netzwerkgenerierung bis hin zur Erstellung von prädiktiven Ratings und daraus abgeleiteten prozentualen Vorhersagen einen vollständigen Vorhersageprozess replizieren. Der Vorteil der künstlichen Daten liegt darin, dass im Gegensatz zu Realdaten alle inhärenten Prozesse gezielt gesteuert und variiert werden können. Dadurch kann z.B. der genaue Einfluss der Netzwerkstruktur auf die prädiktive Qualität analysiert werden und zudem werden bessere Genauigkeitsmaße und Profitabilitätsmaße zur Untersuchung der Modelle ermöglicht. Während im Vorgängerantrag bereits klassische statistische Modelle erfolgreich validiert wurden, fokussiert das vorliegende Forschungsvorhaben nun die theoretische Validierung und Weiterentwicklung von prädiktiven Machine Learning (nachfolgend kurz ML) Verfahren auf Netzwerken. Als Anwendungsbeispiel dienen Daten aus dem Sportbereich, wobei aufgrund der Verfügbarkeit von komplexen Datensätzen die Sportarten Fußball und Tennis betrachtet werden. Bei den ML Modellen adressiert der Antrag Methoden des supervised learning, die im ersten Arbeitspaket spezifiziert, implementiert, in das bestehende Simulations-Framework integriert und auf Funktionalität getestet werden. Vorgesehen sind dabei vier Modellklassen, zwei reine ML Modellklassen basierend auf Random Forest und Graph Neural Networks sowie zwei hybride Modellklassen, die ML Methoden und klassische statistische Komponenten verbinden. Im zweiten Arbeitspaket werden die ML-basierten Modelle anhand künstlicher Daten aus dem Simulations-Framework systematisch validiert. Dabei geht es darum zu ermitteln wie die prädiktive Qualität der Modelle durch variierte Netzwerk- und Datenstrukturen beeinflusst wird. Insbesondere soll überprüft werden in welchen Situationen ML, hybride oder klassische Modelle überlegen sind. Diese Fragestellung fußt u.a. auf der Erkenntnis, dass bei Vorhersageprozessen (z.B. in der Ökonomie) ML Modelle traditionellen Verfahren oft noch nicht überlegen zu sein scheinen. Die Manipulation von Input-Daten und Validierung der Modelloutputs ist dabei eng verwandt mit der Frage der Interpretierbarkeit von ML-Modellen. Durch die Analyse der Modellqualität und die Identifikation von Stärken und Schwächen der Modelle ermöglichen sich zudem Rückschlüsse auf Weiterentwicklungspotenzial bei den ML-basierten Modellen, die in Arbeitspaket 3 umgesetzt und erneut validiert werden können. Im abschließenden Arbeitspaket werden die ML-basierten Modelle auf echte Datensätze angewendet, um die Übertragbarkeit der gewonnenen Erkenntnisse auf Realdaten zu sichern. Auch hierbei ist es geplant durch Analyse der Modellstärken und -schwächen Weiterentwicklungspotential zu identifizieren.
DFG-Verfahren
Sachbeihilfen
Mitverantwortlich
Professor Dr. Ralph Ewerth