Detailseite
Projekt Druckansicht

Baum-basierte, hybride Regression zur Modellierung von biomedizinischen Daten

Antragsteller Dr. Moritz Berger
Fachliche Zuordnung Epidemiologie und Medizinische Biometrie/Statistik
Förderung Förderung seit 2020
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 456235587
 
Regressionsmodelle stellen ein unverzichtbares Instrument für die Analyse klinischer und epidemiologischer Studiendaten dar. Diese ermöglichen es, den Zusammenhang zwischen einer interessierenden, abhängigen Variable (Zielvariable) und einer Menge von erklärenden Variablen zu beschreiben und zu quantifizieren. Klassische, generalisierte lineare Regressionsmodelle (GLMs) setzen den Erwartungswert der Zielvariablen über eine geeignete Linkfunktion in Bezug zu einer Linearkombination der erklärenden Variablen. Dabei lassen sich die linearen Effekte intuitiv und unabhängig von den Werten anderer Variablen interpretieren. Der einfachen Form eines GLM steht entgegen, dass die parametrische Struktur den meist deutlich komplexeren Zusammenhängen in biomedizinischen Anwendungsdaten oftmals nicht gerecht wird. Als wegweisende Erweiterung von GLMs führten Hastie & Tibshirani die Klasse der variierenden-Koeffizienten-Modelle ein, mit denen, im Vergleich zu einfachen linearen Modellen, Interaktionen in sehr flexibler Form abgebildet werden können. Die für das vorliegende Projekt relevante Variante dieser Modellklasse sind sogenannte Baum-basierte variierende-Koeffizienten-Modelle, abgekürzt mit "TSVC" für Tree Structured Varying Coefficients. Ziel ist es, anknüpfend an die Entwicklungen in der ersten Projektphase (April 2021 – April 2025), die Klasse der TSVC Modelle weiter auszubauen. Gegenstand der jetzt beantragten zweiten Projektphase sind drei weitgehend noch nicht erschlossene Bereiche, nämlich (i) die Modellierung hierarchischer Daten (longitudinaler Daten oder gruppierter Querschnittsdaten), (ii) die Erweiterung auf Ansätze der Verteilungsregression, und (iii) die Verknüpfung des TSVC-Algorithmus mit Variablenselektion durch Gradient Boosting. Im Zuge der statistisch-methodischen Entwicklungen ist geplant, die Implementierungen mittels geeigneter Software (durch Ergänzung der existierenden Programmpakets TSVC) kostenfrei zur Verfügung zu stellen. Des Weiteren soll der Mehrwert der entwickelten Methoden, wie in den bisherigen Vorarbeiten, mit Hilfe von Simulationen und auf Basis ausgewählter, klinischer und epidemiologischer Studiendaten (in Zusammenarbeit mit Kooperationspartner*innen des DZNE Bonn, ICH Hamburg und der TU München) untersucht werden.
DFG-Verfahren Sachbeihilfen
Mitverantwortlich Professor Dr. Matthias Schmid
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung