Detailseite
Projekt Druckansicht

Machine-Learning Methoden für Conditional Logistic Regression

Antragsteller Dr. Gunther Schauberger
Fachliche Zuordnung Epidemiologie und Medizinische Biometrie/Statistik
Statistik und Ökonometrie
Förderung Förderung seit 2025
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 562549888
 
Conditional Logistic Regression wird in zwei sehr verschiedenen Anwendungsfeldern verwendet, nämlich in gematchten Fall-Kontrollstudien sowie bei der Analyse von Discrete Choice Daten. In gematchten Fall-Kontrollstudien wird ein Fall (d.h. eine an der betreffenden Krankheit leidende Person) mit einer oder mehreren Kontrollen (d.h. gesunden Personen) gematcht. Das Matching basiert klassischerweise auf Variablen wie Alter, Geschlecht und Wohnort, die sich zwischen Fall und Kontrollen nicht oder kaum unterscheiden sollen. Das Ziel ist es, Einflussfaktoren zu finden, die das Entstehen der betreffenden Krankheit entweder begünstigen oder verhindern können. Discrete Choice Daten entstehen, wenn eine Person aus einer bestimmten Anzahl an Alternativen genau eine auswählt, beispielweise bei der Wahl der Behandlung für eine bestimmte PatientIn (mit Behandlungsarten A, B und C als Auswahlmöglichkeiten). In beiden Fällen liegt den Daten eine spezifische stratifizierte Struktur zugrunde, die bei der Analyse der Daten zu berücksichtigen ist. Diese Struktur entsteht, da a) immer nur eine der gematchten Personen ein Fall ist bzw. b) eine Person immer nur eine der möglichen Alternativen wählen kann. Die typische Art der Datenanalyse ist in beiden Fällen Conditional Logistic Regression. Allerdings basiert Conditional Logistic Regression auf sehr restriktiven Annahmen wie Linearität und Additivität der Effekte, wodurch keine komplexeren funktionalen Zusammenhänge modelliert werden können. Klassische Machine-Learning Verfahren könnten dieses Problem beheben, können aber nicht direkt auf diese Art von Daten angewandt werden, da sie nicht in der Lage sind die stratifizierten Daten geeignet zu behandeln. In diesem Forschungsprojekt sollen Machine-Learning Methoden entwickelt und implementiert werden, die Conditional Logistic Regression ersetzen können. Insbesondere sollen dies Baum-basierte Methoden sowie Boosting-Methoden sein. In den wichtigsten eigenen Vorarbeiten für dieses Projekt wurden bereits Entscheidungsbäume und Random Forests für gematchte Fall-Kontrollstudien entwickelt. Random Forests sind eine Kombination einer großen Anzahl an Entscheidungsbäumen, die zu einer noch größeren Flexibilität führen. Da sich die Datenstruktur zwischen gematchten Fall-Kontrollstudien und Discrete Choice Daten aber in einigen Punkten unterscheiden, müssen die für gematchte Fall-Kontrollstudien entwickelten Methoden für die Verwendung bei Discrete Choice Daten angepasst werden. Daneben soll eine flexible Boosting-Methode für Conditional Logistic Regression entwickelt werden. Boosting ist ein schrittweiser Algorithmus, der verschiedene Modellbestandteile (z.b. lineare Effekte, glatte Effekte, räumliche Effekte, etc.) geeignet zu einem gemeinsamen Modell kombinieren kann, was Boosting zu einer sehr flexiblen und leistungsstarken Schätzmethode macht. Die Boosting-Methode wird sowohl auf gematchte Fall-Kontrollstudien als auch auf Discrete Choice Daten anwendbar sein.
DFG-Verfahren Sachbeihilfen
Mitverantwortlich(e) Professorin Dr. Stefanie Klug
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung