Detailseite
Projekt Druckansicht

Datenaufbereitung bei der Validierung von biomedizinischen Prädiktionsmodellen

Fachliche Zuordnung Epidemiologie und Medizinische Biometrie/Statistik
Förderung Förderung von 2011 bis 2015
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 192522475
 
Dieses Projekt soll die Schnittstelle zwischen Datenaufbereitung und Evaluation molekularer Prädiktionsmodelle für medizinische Zielgrößen betrachten. Der Hintergrund des Projekts ist, dass in der Praxis oft der gesamte Datensatz simultan aufbereitet wird (z.B. durch Normalisierung, Skalierung, Dichotomisierung oder Imputation) und somit die strikte Trennung zwischen Trainings- und Validierungsdaten nicht gewährleistet wird. Dadurch kann die Prädiktionsgüte überschätzt werden. Werden Trainings- und Validierungsdaten im Gegensatz dazu separat aufbereitet, können die gewonnenen Prädiktionsregeln schlechter übertragen werden. Diese beiden Aspekte sollen anhand einer empirischen Studie quantitativ untersucht werden. Darüber hinaus werden Ansätze, die die Datenaufbereitung in den Evaluationsprozess integrieren, weiterentwickelt: die Datenaufbereitung wird auf dem Trainingsdatensatz durchgeführt und durch spezielle Parameter dokumentiert. Diese Parameter werden anschließend dazu verwendet, die Validierungsdaten möglichst ähnlich aufzubereiten. Damit wird die Trennung von Trainings- und Validierungsdaten aus Sicht des statistischen Lernens gewährleistet. Trotzdem sind beide Datensätze vergleichbar, da sie mit denselben Parametern aufbereitet wurden.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung