Project Details
Projekt Print View

Statistical Methods for the Assessment of Genetic Variants in Microarray and Sequencing Studies

Subject Area Epidemiology and Medical Biometry/Statistics
Term from 2011 to 2018
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 203724463
 
Final Report Year 2018

Final Report Abstract

Variationen im menschlichen Genom können das Risiko der Erstehung einer Krankheit entscheidend beeinflussen. Deshalb befassen sich zahlreiche Studien mit der Analyse von genetischen Variationen und dabei insbesondere mit Einzelnukleotidpolymorphismen (SNPs; Single Nucleotide Polymorphisms), der am häufigsten vorkommenden Art genetischer Variationen. Ziel solcher Analysen ist es, SNPs, d.h. Variationen, die nur eine Basenpaarstelle in der DNA umfassen, zu identifizieren, die mit einer Krankheit assoziiert sind. Hierzu werden in genomweiten Assoziationsstudien hunderttausende, vorher festgelegte SNPs mit Microarrays in DNA-Proben gleichzeitig gemessen. Alternativ können Sequenzierungstechnologien genutzt werden, um sämtliche SNPs im gesamten Genom zu messen. Ziel dieses Forschungsprojekts war es, statistische Methoden für die Analyse von SNPs in solchen Microarray- und Sequenzierungsstudien zu entwickeln, die zu einer verbesserten Bewertung, ob bzw. wie stark SNPs mit einer Krankheit assoziiert sind, und somit zur Identifizierung von krankheitsassoziierten SNPs beitragen. Da einzelne SNPs häufig nur einen geringen Einfluss auf das Krankheitsrisiko zeigen, wollten wir dabei die Analyse der SNPs stärken, indem wir mehrere SNPs gemeinsam betrachten oder weitere Informationen in dieser Analyse berücksichtigen. So wird z.B. üblicherweise angenommen, dass nicht einzelne SNPs, sondern Interaktionen mehrerer SNPs das Krankheitsrisiko entscheidend beeinflussen. Es ist daher von Interesse SNP-Interaktionen zu identifizieren, die mit einer Krankheit assoziiert sind. Da die Anzahl der möglichen Interaktionen schon bei einer moderaten Anzahl an SNPs riesig ist, sind Methoden zur Identifizierung von krankheitsassoziierten SNP-Interaktionen üblicherweise auf die Analyse von verhältnismäßig wenigen SNPs beschränkt oder haben eine sehr hohe Rechenzeit. In diesem Projekt haben wir deshalb zwei Machine-Learning-Methoden entwickelt, mit denen in Fall-Kontroll-Studien effizient SNP-Interaktionen identifiziert werden können, die mit dem Fall-Kontroll-Status assoziiert sind. Die Anwendung beider Verfahren auf Hunderttausende von SNPs dauert dabei einigen Minuten bis wenigen Stunden. Regularisierte Regressionsverfahren wie Lasso können verwendet werden, um eine große Anzahl an SNPs gemeinsam/multivariat zu analysieren. Weiterentwicklungen dieser Methoden wie Sparse Group Lasso erlauben dabei eine effiziente Analyse von SNP-Daten, die berücksichtigt, dass SNPs gruppenweise hoch miteinander korreliert sind. Allerdings nehmen diese Verfahren üblicherweise an, dass die betrachteten Personen voneinander unabhängig sind. Da dies in Fall-Eltern-Trio-Studien, in denen kranke Kinder und ihre Eltern betrachtet werden, nicht der Fall ist, wir aber an der Analyse solcher Trio-Daten interessiert sind, haben wir TrioSGL (Trio Sparse Group Lasso) entwickelt, die unserem Wissen nach erste regularisierte Regressionsmethode für Trio-Daten. Neben SNP-Daten existieren auch noch andere Variationsdaten wie die Variation in der Anzahl an Kopien der Chromosomen (CNV) oder alternative Spleiß-Ereignisse. Deshalb haben wir z.B. eine Methode für die Aufdeckung von de novo CNVs, d.h. Kopienanzahlen in den erkrankten Kindern, die von den Kopienanzahlen in den Eltern abweichen, sowie eine Analyse-Pipeline für die Identifizierung und Bewertung von Spleiß-Ereignissen entwickelt. Vermehrt werden in Studien mehrere genetische Datentypen wie SNPs, CNVs, Genexpressionen und Histonmodifikationen gleichzeitig erhoben. Ziel solcher Studien ist es, die verschiedenen Datentypen gemeinsam zu betrachten, um so die Assoziationsanalyse zu stärken. In diesem Forschungsprojekt haben wir deshalb für eine solche integrative Datenanalyse Verfahren basierend auf Bayes-Modellen entwickeln, die den Einfluss der verschiedenen Datentypen direkt multivariat modellieren und nicht – wie in anderen Verfahren zur integrativen Analyse – die verschiedenen Datentypen zuerst getrennt betrachten und dann die Ergebnisse der getrennten Analyse kombinieren. Neben der Entwicklung dieser Verfahren, mit denen genetische Variationsdaten analysiert werden können, haben wir auch einige theoretischere Methoden z.B. zur Fallzahlplanung in Fall-Eltern-Trio-Studien und für Spleiß-Ereignisse sowie zur Bestimmung der maximal erreichbaren Güte von multivariaten Assoziationstests in Fall-Kontroll-Studien erarbeitet. Sämtliche in diesem Projekt entwickelten Methoden wurden in frei verfügbarer Software umgesetzt.

Publications

  • (2013). Efficient Simulation of Epistatic Interactions in Case-Parent Trios. Human Heredity, 75, 12-22
    Li, Q., Schwender, H., Louis, T.A., Fallin, M.D. und Ruczinski, I.
    (See online at https://doi.org/10.1159/000348789)
  • (2013). On Multi-Marker Tests for Association in Case-Control-Studies. Frontiers in Genetics, 4, 252
    Taub, M.A., Schwender, H., Younkin, S.G., Louis, T.A. und Ruczinski, I.
    (See online at https://doi.org/10.3389/fgene.2013.00252)
  • (2014). Analytic Power and Sample Size Calculation for the Genotypic Transmission/Disequilibrium Test in Case-Parent Trio Studies. Biometrical Journal, 68, 766-773
    Neumann, C., Taub, M.A., Younkin, S.G., Beaty, T.H., Ruczinski, I. und Schwender, H.
    (See online at https://doi.org/10.1002/bimj.201300148)
  • (2014). Detecting Disease Variants in Case-Parent Trio Studies Using the Bioconductor Software Package trio. Genetic Epidemiology, 38, 516-522
    Schwender, H., Li, Q., Neumann, C., Taub, M.A., Younkin, S.G., Berger, P., Scharpf, R.B., Beaty, T.H. und Ruczinski, I.
    (See online at https://doi.org/10.1002/gepi.21836)
  • (2014). Integrative Analysis of Histone ChIP-Seq and Transcription Data Using Bayesian Mixture Models. Bioinformatics, 30, 1154-1162
    Klein, H.U., Schäfer, M., Porse, B.T., Hasemann, M.S., Ickstadt, K. und Dugas, M.
    (See online at https://doi.org/10.1093/bioinformatics/btu003)
  • (2015). rbamtools: An R Interface to samtools Enabling Fast Accumulative Tabulation of Splicing Events over Multiple RNA-Seq Samples. Bioinformatics, 31, 1663-1664
    Kaisers, W., Schaal, H. und Schwender, H.
    (See online at https://doi.org/10.1093/bioinformatics/btu846)
  • (2017). Comparison of Weighting Approaches for Genetic Risk Scores in Gene-Environment Interaction Studies. BMC Genetics, 18, 115
    Hüls, A., Krämer, U., Carlsten, C., Schikowski, T., Ickstadt, K. und Schwender, H.
    (See online at https://doi.org/10.1186/s12863-017-0586-3)
  • (2017). Integrative Analysis of Multiple Genomic Variables Using a Hierarchical Bayesian Model. Bioinformatics, 33, 3220-3227
    Schäfer, M., Klein, H.U. und Schwender, H.
    (See online at https://doi.org/10.1093/bioinformatics/btx356)
  • (2017). Sample Size Estimation for Detection of Splicing Events in Transcriptome Sequencing Data. International Journal of Molecular Sciences, 18, E1900
    Kaisers, W., Schwender, H. und Schaal, H.
    (See online at https://doi.org/10.3390/ijms18091900)
  • (2017). Validation of Splicing Events in Transcriptome Sequencing Data. International Journal of Molecular Sciences, 18, E1110
    Kaisers, W., Ptok, J., Schwender, H. und Schaal, H.
    (See online at https://doi.org/10.3390/ijms18061110)
 
 

Additional Information

Textvergrößerung und Kontrastanpassung