Detailseite
Projekt Druckansicht

Multikollinearität im Zeitalter der statistischen Genomik: Vorschläge zur Einbeziehung von Abhängigkeiten zwischen molekularen Kovariaten und die Anwendung in der Tierzucht

Antragstellerin Dr. Dörte Wittenburg
Fachliche Zuordnung Tierzucht, Tierernährung, Tierhaltung
Förderung Förderung von 2017 bis 2020
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 363504750
 
In der Tierzucht werden molekulare Daten (z.B. Einzelnukleotidpolymorphismen; SNPs) als erklärende Variablen in ein statistisches Modell aufgenommen, um eine verbesserte genom-basierte Auswertung der Merkmalsausprägung beim Nutztier zu erreichen. Wichtig für die Tierzucht ist, dass dies zu präziser geschätzten Zuchtwerten von Tieren ohne bisherige eigene Leistung führt. Außerdem ermöglicht die SNP-basierte Auswertung die Aufklärung der genetischen Architektur von Merkmalsausprägungen: nicht nur die Effektgröße sondern auch die Position auf dem Genom sind relevante Parameter. Mit den verfügbaren hochdimensionalen SNP-Daten kann sogar ein einzelnes Basenpaar auf dem Genom als ursächliche Variante lokalisiert werden. Da die Anzahl der Modellparameter mit einer weiter steigenden Anzahl an SNPs zunimmt, kann die vorhandene Multikollinearität zwischen den Einflussvariablen das Ergebnis von genom-basierten Regressionsmethoden beeinflussen. Das Ziel dieser Studie ist es, die Abhängigkeiten zwischen den molekularen Kovariaten, die durch Kopplung und Kopplungsungleichgewicht zwischen den Genomsegmenten verursacht werden, explizit zu benutzen, um präzisere Schätzwerte der SNP-Effekte zu erhalten. Die theoretische Kovarianz zwischen den SNP-Genotypen kann eingesetzt werden, um die gesamte SNP-Menge zu filtern und wenige, aber repräsentative Einflussvariablen zu behalten. Es wird außerdem ein kombinierter Ansatz vorgeschlagen, der es ermöglicht, relevante Einflussvariablen gleichzeitig zu selektieren und deren Schätzwerte geeignet zu glätten. Es wird vermutet, dass diese Methode die Anforderungen an eine genomische Auswertung erfüllt: die Abhängigkeiten zwischen SNPs werden berücksichtigt, die Schätzwerte werden innerhalb einer Gruppe von hoch korrelierten SNPs geglättet, und es erfolgt eine Selektion nicht nur von SNP-Gruppen sondern auch einzelner SNPs innerhalb dieser Gruppen. Auf diese Weise können genomische Regionen, die ein Merkmal beeinflussen, identifiziert werden.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung