Detailseite
Projekt Druckansicht

Survival models with high-dimensional data structure (H: High-dimensional)

Fachliche Zuordnung Epidemiologie und Medizinische Biometrie/Statistik
Förderung Förderung von 2007 bis 2011
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 5470786
 
Erstellungsjahr 2011

Zusammenfassung der Projektergebnisse

Die Ziele von High-dimensional deckten drei Gebiete ab, die für die Entwicklung von Ereigniszeit-Modellen für hochdimensionale molekulare Daten von großer Bedeutung sind: 1) Schätzung der Parameter bei solchen Modellen, 2) Auswahl der Tuning-Parameter eines Modells, 3) Bewertung der Vorhersageleistung. Zur Schätzung von hochdimensionalen Ereigniszeit-Modellen sollten zunächst Modelle für diskrete Zeiten betrachtet werden, und erst im nächsten Schritt Techniken für stetige Zeiten. Die Freiheitsgrade aus dem Modell diskreter Zeit erwiesen sich jedoch als nicht zuverlässig für die Modellwahl und so haben wir Techniken stetiger Zeit früher betrachtet als geplant. Hierfür haben wir einen komponentenweise Likelihood-basierten Boosting Ansatz entwickelt, der sich im Vergleich mit Pfad-basierten Ansätzen konkurrenzfähig und zudem flexibler erwies. Alle weiteren Untersuchungen basierten daher auf diesem Ansatz. So konnten wir beispielsweise den zusätzlichen Wert von Genexpressionsmessungen unter Einbeziehung von weiteren klinischen Kovariablen quantifizieren. Dabei stellte sich heraus, dass häufig nur sehr begrenzte Information aus Genexpressionsmessungen extrahiert werden kann. Aus diesem Grund haben wir komplexere Kovariablenstrukturen, wie z.B. zeit-variierende Effekte, nicht mehr berücksichtigt. Stattdessen konzentrierten wir uns auf die Entwicklung von Techniken, um die Power zur Identifizierung zeit-fixer Effekte zu verbessern, z.B. durch Einbeziehung externen Wissens oder durch verbesserte Modellierung der Endpunkt-Struktur. Einige dieser Techniken wurden auch auf niedrigdimensionale biomedizinische Modellierungsprobleme rückübertragen. Modellbewertung wurde mittels Bootstrap-Techniken vorgenommen, wobei wir die Art der Zufallsziehung spezifisch für hochdimensionale Daten modifizieren mussten, und auch die Wahl passender Vergleichspunkte eine wichtige Rolle spielte. Den Ansatz zur Schätzung des Vorhersagefehlers haben wir im nächsten Schritt für die Auswahl der Tuning-Parameter adaptiert. Weitere Schritte zur Modellbewertung beinhalteten Ansätze zur Bestimmung von p-Werten und 'False discovery rates'. Diese weiteren Arbeiten werden aktuell fertiggestellt.

Projektbezogene Publikationen (Auswahl)

  • Adapting prediction error estimates for biased complexity selection in high-dimensional bootstrap samples. Statistical Applications in Genetics and Molecular Biology 2008; 7(1):Article 12
    Binder H, Schumacher M
  • Allowing for mandatory covariates in boosting estimation of sparse highdimensional survival models. BMC Bioinformatics 2008; 9:14
    Binder H, Schumacher M
  • Comment on 'Network-constrained regularization and variable selection for analysis of genomic data'. Bioinformatics 2008; 24(21):2566-2568
    Binder H, Schumacher M
  • Boosting for high-dimensional time-to-event data with competing risks. Bioinformatics 2009; 25(7):890-896
    Binder H, Allignol A, Schumacher M, Beyersmann J
  • Incorporating pathway information into boosting estimation of high-dimensional risk prediction models. BMC Bioinformatics 2009; 10:18
    Binder H, Schumacher M
  • A general, prediction error-based criterion for selecting model complexity for high-dimensional survival models. Statist. Med. 2010; 29(7-8):830-838
    Porzelius C, Schumacher M, Binder H
  • Sparse regression techniques in low-dimensional survival data settings. Statistics and Computing 2010; 20(2):151-163
    Porzelius C, Schumacher M, Binder H
  • An overview of techniques for linking high-dimensional molecular data to time-to-event endpoints by risk prediction models. Biom J 2011; 53(2): 170-189
    Binder H, Porzelius C, Schumacher M
  • The benefit of data-based model complexity selection via prediction error curves in time-to-event data. Computational Statistics 2011; 26:293-301
    Porzelius C, Schumacher M, Binder H
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung