Detailseite
Statistical Boosting zur Entschlüsselung von Protein-Protein-Interaktionen in Multi-Omics-Daten
Antragstellerin
Hannah Klinkhammer, Ph.D.
Fachliche Zuordnung
Epidemiologie und Medizinische Biometrie/Statistik
Humangenetik
Humangenetik
Förderung
Förderung seit 2025
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 574440500
Omics-Daten wie Genomik (DNA), Transkriptomik (Genaktivität) und Proteomik (Proteine) sind in der Genforschung unerlässlich, da sie mehrere Ebenen biologischer Informationen beinhalten. Große Biobanken wie die UK Biobank und FinnGen sammeln diese Daten von Hunderttausenden von Menschen, einschließlich DNA, Gesundheitsdaten und jetzt auch Proteindaten. Durch genomweite Assoziationsstudien (GWAS) wurden Millionen von Genotyp-Phänotyp-Assoziationen aufgedeckt und polygene Scores entwickelt, die als Biomarker auf der Grundlage der individuellen genetischen Veranlagung zur Stratifizierung von Personen dienen können. Die meisten der berücksichtigten genetischen Varianten (Single Nucleotide Polymorphisms, SNPs) liegen jedoch in der nicht-kodierenden Region des Genoms und sind daher biologisch schwer zu interpretieren. Die Proteomik liefert hier wertvolle Erkenntnisse, indem sie zeigt, wie sich die Proteinwerte bei Krankheiten verändern, was zu besseren Biomarkern führen kann. Die gemeinsame Analyse mehrerer Omics kann entweder durch die Kombination separater Ergebnisse oder durch die Verwendung integrativer Modelle erfolgen, die sie gleichzeitig analysieren. Zum Beispiel verbinden Studien zu quantitativen Proteinmerkmalen (Protein Quantitative Trait Loci, pQTL) genetische Varianten mit Proteinspiegeln. Diese können aufzeigen, wie genetische Varianten Krankheiten beeinflussen und die Entwicklung von Arzneimitteln unterstützen. Neuere Studien schlagen vor, Wechselwirkungen zwischen Proteinen zu untersuchen, anstatt nur einzelne Proteine. Die Analyse von Proteinpaaren oder Proteinverhältnissen kann beispielsweise besser widerspiegeln, wie biologische Pfade zusammenarbeiten, und neue genetische Verbindungen aufdecken. Die Analyse groß angelegter Genomdaten ist jedoch eine besondere Herausforderung, da sie eine große Anzahl genetischer Varianten (oft p > 1.000.000) mit einer komplexen Korrelationsstruktur (Linkage Disequilibirium) umfasst. Dies macht die statistische Modellierung und die Variablenauswahl computational aufwändig. Das vorgeschlagene Projekt zielt darauf ab, dieses Problem durch die Entwicklung eines neuartigen statistischen Boosting-Algorithmus zu lösen, der in einem multivariaten Rahmen modelliert, wie zwei Proteine und ihre Interaktion durch die Genetik beeinflusst werden. Die Methode wird snpboost, eine statistische Boosting-Methode für genetische Daten, die ich für univariate Zielgrößen entwickelt habe, erweitern, um eine bivariate Normalverteilung für die beiden Proteine zu modellieren und gleichzeitig die hohe Dimensionalität und Korrelationsstruktur genomischer Daten effizient zu handhaben. Die relevanten Varianten werden für jeden Parameter getrennt ausgewählt, so dass Wissenschaftler genau feststellen können, welche Varianten jedes Protein allein und welche ihre Interaktion beeinflussen. Dieser detaillierte Einblick wird unser Verständnis der Krankheitsmechanismen verbessern und die Entwicklung robuster Biomarker unterstützen.
DFG-Verfahren
WBP Stipendium
Internationaler Bezug
Finnland
Gastgeber
Professor Andrea Ganna, Ph.D.
