Detailseite
Projekt Druckansicht

Verbesserte prognostische Signaturen aus Microarray-Studien durch Auswahl von Genen mit charakteristischen Verteilungen

Fachliche Zuordnung Epidemiologie und Medizinische Biometrie/Statistik
Förderung Förderung von 2011 bis 2019
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 195111687
 
Erstellungsjahr 2017

Zusammenfassung der Projektergebnisse

Die genomweite Analyse von Expressionsdaten ist eine Standardmethode zur Aufdeckung von krankheitsrelevanten Genen. Für Brustkrebspatientinnen ist die Prognose für die Therapiewahl von entscheidender Bedeutung. Ein Ziel ist es, betroffenen Frauen, die keine Therapie zur Verhinderung von später auftretenden Metastasen benötigen, die starken Nebenwirkungen zum Beispiel einer Chemotherapie zu ersparen. Dies kann über statistische Klassifikatoren geschehen, welche Patientengruppen in Bezug auf die Prognose bestmöglich unterscheiden. Dabei werden insbesondere sogenannte Gensignaturen entwickelt, die auf Kombinationen von Genexpressionswerten beruhen und die sowohl eine prognostische Güte als auch eine biologische Plausibilität besitzen sollen. Klassische Ansätze aus der Diskriminanzanalyse führen nicht zu zufriedenstellenden Ergebnissen, besonders da die Entscheidungsgrenzen nicht scharf sind. Als neuer Ansatz wurde untersucht, ob eine Vorauswahl von Genen mit charakteristischer Verteilung der Expressionswerte hilfreich ist. Zum Beispiel bedeutet eine bimodale Verteilung, dass die Patienten anhand dieses Genes gut in zwei Gruppen eingeteilt werden können. Es wurden viele unterschiedliche Verteilungs-Scores für die Vorauswahl berücksichtigt. Besonders die Scores Likelihood Ratio und Negative Kurtosis lieferten vergleichsweise gute Ergebnisse. Für die konkrete Konstruktion von Klassifikatoren führten einfache Klassifikationsbäume zu plausiblen interpretierbaren Modellen. Allerdings sind die komplexeren Random Forests in Bezug auf die prognostische Güte leicht überlegen, besonders wenn die geschätzten Modelle auf anderen unabhängigen Datensätzen validiert werden. Für eine hohe Prognosegüte ist entscheidend, dass die Expressionswerte eines vorausgewählten Gens anhand der Verteilung direkt dichotomisiert werden und damit die adaptive Wahl des Cutoffs im einzelnen Baum ausgeschlossen wird. Random Forests ohne Vorauswahl über Verteilungs-Scores, aber mit Parameteroptimierung, schneiden bei der Validierung auf anderen Kohorten schlechter ab. Etablierte multivariate Klassifikatoren aus der Literatur berücksichtigen nicht die Interpretierbarkeit der einzelnen Gene, können aber teilweise auf anderen Kohorten gut validiert werden.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung