Adaptive statistische Design-Methoden in der genetischen Epidemiologie, insbesondere für genomweite Assoziationsstudien
Zusammenfassung der Projektergebnisse
Mit der Entwicklung der Chiptechnologie ist es möglich geworden, in epidemiologischen Fall- Kontrollstudien ein über das gesamte Genom verteiltes Netz von 500.000 oder mehr DNA- Markern (SNPs, single nucleotide polymorphism) zu untersuchen, um prädisponierende genetische Varianten für komplexe Erkrankungen zu identifizieren (sogenannte genomweite Assoziationsstudien, GWAs). Wir haben optimierte und flexible statistische Mehrstufendesigns für GWAs entwickelt. Dabei wird das Studienkollektiv aus Fällen und Kontrollen in Teilgruppen eingeteilt. Nur in der ersten Teilgruppe wird das volle genomweite Markernetz genotypisiert. Aufgrund der Zwischenergebnisse werden für die jeweils nächste Stufen nur noch erfolgversprechende Marker ausgewählt und per Einzelmarker-Genotypisierung oder mit Hilfe sogenannter customized chips genotypisiert. Auf diese Weise können Genotypisierungskosten erheblich reduziert werden („minimal cost designs“) oder bei begrenztem Budget oder begrenzter verfügbarer Fallzahl die statistische Power der Studie deutlich erhöht werden („maximal power designs“) im Vergleich zu konventionellen Einstufendesigns. So ist es auch möglich, für ein bereits vorliegendes Studienkollektiv (Fall-Kontroll-Kollektiv) eine optimale sequentielle Genotypisierungsstrategie zu erstellen. In einem typischen Anwendungsbeispiel konnte durch optimale Wahl der Designparameter – dies beinhaltet die optimale Aufteilung des Studienkollektivs auf die einzelnen Stufen und die optimale Auswahl des Marker-Sets für die jeweils nächste Stufe - die Planungskosten von 3.4 Mio $ für das gängige Einstufendesign auf 0.8 Mio $ bei Verwendung eines optimalen Zweistufendesgins und weiter auf 0.51 Mio$ durch Einfügung zweier weiterer Stufen (optimales Vierstufendesign) gesenkt werden. Zuvor vorgeschlagene ad hoc Lösungen ohne Optimierung lagen bei 1.6 Mio $. Wir haben Methoden der numerischen Integration und numerischen Optimierung eingesetzt, basierend auf dem mathematischen Modell eines diskretisierten stochastischen Prozesses zur Beschreibung der Entwicklung der Teststatistik mit wachsendem Studienkollektiv (Brownsche Bewegung). Außer den optimalen Designparametern werden dabei auch adjustierte Signifikanztests ermittelt, die an den Prozess der stufenweisen Markerselektion angepasst sind und eine möglichst hohe Power für die Assoziationstestung der verbleibenden Marker unter Kontrolle der genomweiten Falsch-positiv-Rate gewährleisten. Bei bisherigen Mehrstufendesigns war der Anwender an eine fest vorgegebene Regel für die Auswahl der Marker für die jeweils nächste Stufe gebunden, wie z.B. einen Schwellenwert für die Höhe des Assoziationssignals auf der vorigen Stufe. Bei der Benutzung konventioneller statistischer Tests ist dies Voraussetzung für die Kontrolle des Risikos falsch positiver Assoziationsbefunde. Im vorliegenden Projekt konnten wir erstmals auch eine Methode entwickeln, die eine flexiblere Markerauswahl ermöglicht. Dies konnten wir mit Hilfe des von uns ursprünglich für Therapiestudien entwickelten CRP-Prinzips (CRP = conditional rejection probability) erreichen. CRP ist ein allgemeines Prinzip zur datenabhängigen Designmodifikation laufender Studien. Mit dieser neuen Methode kann bei mehrstufigen GWAs die stufenweise Markerauswahl frei getroffen werden, ohne Bindung an formale Auswahlregeln. Wir haben ferner Arbeiten zur Beschleunigung von Algorithmen für Permutationstests durchgeführt, die in Zukunft bei der Optimierung mehrstufiger GWAs möglicherweise eine bessere Berücksichtigung des Kopplungsungleichgewichts benachbarter Marker ermöglichen könnten. Wir haben schließlich robuste Designs entwickelt für den Fall, dass in der Planung kein genetisches Modell („Erbgang“, rezessiv/dominant/additiv) spezifiziert werden kann. Zukünftige Anwendungsfelder für optimierte statistische Design- und Analyse-Methoden, wie wir sie hier für GWAs entwickelt haben, sehen wir bei der neuen Chip-Generation mit bis zu 5 Mio SNPs und MAF von bis zu 1%, vor allem aber bei full sequence Assoziationsstudien, also auf dem Gebiet der „rare variants“. Unsere Ergebnisse können als Grundlage für weiterführende Arbeiten auf diesen Gebieten dienen.
Projektbezogene Publikationen (Auswahl)
- Bias-Corrected Effect Estimators for Genome-Wide Association Studies. 17th Annual Meeting of the International Genetic Epidemiology Society September 14-16th 2008 St Louis
Pahl R, Nguyen TT, Hinney A, Greene B, Hebebrand J, Schäfer H
- (2009). Flexible Designs for Genomewide Association Studies. Biometrics 65(3):815-821
Scherag A, Hebebrand J, Schäfer H, Müller HH
- (2009). Optimal multistage designs - a general framework for efficient genome-wide association studies. Biostatistics 10(2):297-309
Pahl R, Schäfer H, Müller HH
- (2009). Optimal robust two-stage designs for genome-wide association studies. Annals of Human Genetics 73:638-651
Nguyen TT, Pahl R, Schäfer H
- Multiplicity in Adaptive Designs Aiming to Combine Learning Data and Confirming Data (Sue Jane Wang). Multiple Comparison Procedures 2009. Tokyo march 24-27, 2009
Yuki Ando, Christy Chuang-Stein, Christopher Jennison, Franz König, Helmut Schäfer
- Recent developments in multi-stage designs for genome-wide association studies. Multiple Comparison Procedures 2009. Tokyo march 24-27, 2009
Schäfer Helmut, Müller Hans Helge, Nguyen Trang, Pahl Roman, Scherag A, Hebebrand J
- (2010). PERMORY: an LD-exploiting permutation test algorithm for powerful genome-wide association testing. Bioinformatics 26(17):2093-100
Pahl R, Schäfer H
- Don’t let LD bring you down – a fast permutation test algorithm for powerful genome – wide association testing. 19th Annual Meeting of the International Genetic Epidemiology Society Boston 2010
Pahl R, Schäfer H
- Flexible kosteneffiziente Designs für genomweite Assoziationsstudien. Deutsche Arbeitsgemeinschaft Statistik DAGStat 2010, 23-26. März 2010 TU Dortmund
Müller HH, Pahl R, Schäfer H
- Minimal cost multistage designs for genome wide association studies unsing customized DNA chips. XXVth International Biometric Conference. Florianopolis, december 5 –december 10 2010
Müller Hans-Helge, Nguyen Thuy Trang, Pahl Roman, Schäfer Helmut
- Optimized and flexible designs for genome-wide association studies. Basler Biometrische Sektion, Fall Conference 2010 Monday, Emerging Topics in Pharmaceutical Statistics: Adaptive Designs and Non-inferiority, Basel, October 04, 2010
H. Schäfer