Vor- und Nachteile von Mega-Analysen verglichen mit Meta-Analysen bei genomweiten Assoziationsstudien
Zusammenfassung der Projektergebnisse
Für genomweite Assoziationsstudien (GWAS) wird sehr große Stichprobengröße benötigt wegen des multiplen Testens von Millionen von Genvarianten. Deshalb werden GWAS typischerweise über zahlreiche Studien durchgeführt. Die studienspezifischen Ergebnisse werden dabei als Meta-Analyse kombiniert. Wir stellten uns die Frage, ob das Detektieren von Erkrankungs-Loci verbessert werden kann durch das Einsammeln von Einzeldaten (individual participant data, IPD) und durch Auswertung als einen großen Datensatz („Mega-Analyse“) statt der Meta-analyse von studien-spezifischen Ergebnissen. Insbesondere war die Frage, ob ein Imputieren über den Gesamtdatensatz Vorteile bringt (Mega-Imputation), was komputatorisch sehr aufwändig ist, im Vergleich zu studien-spezifischer Imputation (Meta-Imputation). Wir untersuchten also, ob Mega-Imputation einen Vorteil gegenüber Meta-Imputation hat. Für mega- wie meta-imputierten Daten wir untersuchten in einem zweiten Schritt, in wieweit studien-spezifische Charakteristiken im Modell berücksichtigt werden müssen, um falsch-positive Signale zu vermeiden bzw. unverzerrte Effektschätzer zu liefern. Für diese Arbeiten verwendeten eine sehr großen Datensatz zur Genetik der AMD, der uns als IPD vorliegt (IAMDGC, > 17,000 Fälle, 16,000 Kontrollen). AMD ist ein ideales Beispiel aufgrund zahlreicher bekannter genetischer Varianten mit großen Effekten. Unser Untersuchungen involvierten zahlreiche Neu-Imputationen, sowohl für den „phasing“ als auch den Varianten-imputierenden Schritt, und zahlreiche Analysen mit verschiedenen statistischen Modellen mit unterschiedlichem Grad der Kontrolle für studienspezifische Charakteristiken. Mehrere wichtige Ergebnisse konnten erzielt werden. Unter anderem fanden wir, dass Mega-Imputation mehr gut imputierte genetischen Varianten hervorbrachte, vor allem bei den seltenen Varianten. Für häufige Varianten war der Gewinn limitiert. Wir fanden auch, dass Meta- Imputation für die statistische Auswertung eine Kontrolle von studien-spezifischen Charakteristiken benötigte, um Pseudo-Signale und Bias zu vermeiden. Dies resultierte in unserer Empfehlung, einen meta-imputierten Datensatz als Meta-analysis (i.e. getrennt nach Studie) auszuwerten. Die Auswertung mega-imputierter Daten ohne studien-spezifischen Kovariablen hat bessere Power; wenn Effektschätzung das Ziel ist, ist aber auch hier die Kontrolle für studien-spezifische Kovariablen empfehlenswert, um Bias zu verhindern. Wir folgten diesen Empfehlungen in unsere Arbeit zur GWAS für frühe Formen der AMD, die wir ursprünglich als Mega-Analyse (inklusive Mega-Imputation) geplant hatten, da wir einen Großteil der Daten als IPD in der Hand hatten. Da wir auf häufige Varianten fokussierten, führten wir diese Arbeit als Meta-analyse durch, was die Untersuchung deutlich beschleunigte. Die methodischen Arbeiten an der Untersuchung von Bias in genetischen Effektschätzern und die Meta-Analyse zur frühen AMD motiviert eine weitere Arbeit. Wir klassifizierten frühe und späte AMD in 60,000 Probanden von UK Biobank in > 170,000 Augenfundusbildern durch machine learning Algorithmus. Solche Algorithmen sind nötig, um AMD Forschung in großen multi-center Mega-Daten, z.B. NAKO-Studie, zu ermöglichen. Wir benutzten GWAS für die Untersuchung, ob diese automatisierte Erkrankungsbestimmung erfolgreich war. Wir fanden relevant Unsicherheit in der AMD-Klassifikation durch manuelle Klassifikation in einer Subgruppe. Unser entwickelter statistischer Ansatz für diese Unsicherheit zu adjustieren, zeigte einerseits echte AMD-Genorte, aber auch ein Pseudosignal für Varianten in einem Augenfarbekodierenden Gen. Insgesamt war unser Projekt sehr erfolgreich, die Fragen wie im Antrag gestellt zu beantworten. Entwickelte Software und Pipelines wurden open source zur Verfügung gestellt. Unsere Ergebnisse sind sehr relevant für das Design und die Auswertung von zukünftigen großen GWAS-Studien.
Projektbezogene Publikationen (Auswahl)
- On the differences between mega- and meta-imputation and analysis exemplified on the genetics of age-related macular degeneration. Genet Epidemiol 2019;43(5):559-76
Gorski M, Guenther F, Winkler TW, Weber BHF, Heid IM
(Siehe online unter https://doi.org/10.1002/gepi.22204) - Chances and challenges of machine learning-based disease classification in genetic association studies illustrated on age-related macular degeneration. Genet Epidemiol 2020; 44 (7):759-777
Guenther F, Brandl C, Winkler TW, Wanner V, Stark K, Kuechenhoff H, Heid IM
(Siehe online unter https://doi.org/10.1002/gepi.22336) - Genome-wide association meta-analysis for early age-related macular degeneration highlights novel loci and insights for advanced disease. BMC Med Genomics 2020;13(1):120
Winkler TW, Grassmann F, Brandl C, Kiel C, Guenther F, Strunz T, Weidner L, Zimmermann ME, Korb CA, Poplawski A, Schuster AK, Muller-Nurasyid M, Peters A, Rauscher FG, Elze T, Horn K, Scholz M, Canadas-Garre M, McKnight AJ, Quinn N, Hogg RE, Kuchenhoff H, Heid IM, Stark KJ, Weber BHF
(Siehe online unter https://doi.org/10.1186/s12920-020-00760-7)