Entwicklung und Erprobung von Methoden zur Meta-Analyse phylogenetischer Studien bei Nutztieren
Final Report Abstract
Die Erforschung der Biodiversität stellt heutzutage eine wesentliche Aufgabe im Rahmen der Bemühungen zur Erhaltung der Vielfalt von Nutztierarten und deren Rassen dar. Biodiversität lässt sich auf unterschiedliche Art und Weise definieren. Ein wichtiges Forschungsfeld unter den denkbaren Möglichkeiten ist die genetische Diversität aufgrund von Polymorphismen im Genom zwischen unterschiedlichen Rassen. Dabei hat sich die Analyse von Mikrosatellitenmarkern durchgesetzt. Diese genetischen Marker sind mit Standardverfahren zuverlässig zu ermitteln und weisen ausreichende Polymorphismen auf, um verschiedene Rassen einer Art zu charakterisieren. Die bisher dazu erhobenen Studien sind getrennt voneinander an unterschiedlichen Datensätzen, d.h. in der Anzahl an untersuchten Rassen und Markern, durchgeführt worden. Jede Studie für sich weist daher nur einen sehr begrenzten Teil der vorhandenen Rassenvielfalt nach. Viele dieser Einzelstudien untersuchten teilweise die gleichen Rassen und Markern, so dass sich Überlappungen zwischen einzelnen Studien nachweisen lassen. Um die Aussagefähigkeit der einzelnen Untersuchungsergebnisse zu erhöhen, bietet es sich an, diese miteinander zu kombinieren, also eine Meta-Analyse dieser überlappenden Datensätze durchzuführen. Die Kombination unterschiedlicher Studien erwies sich bislang als unmöglich, da aus den Ergebnissen der Genotypisierung genetische Distanzen zwischen den Rassen einer Art berechnet wurde. Zwar wurden wenige unterschiedliche Distanzmaße benutzt, die Skalierung dieser Distanzen hing aber jeweils von der Anzahl der untersuchten Marker ab, so dass eine berechnete Distanz zweier Rassen aus einer Studie nicht zwingend den gleichen Betrag haben musste wie die einer zweiten Studie. Aufgabe dieses Forschungsprojektes war daher, eine Meta-Analyse zu entwickeln, die die Informationen überlappender phylogenetischer Studien kombiniert und einheitliche, vergleichbare genetische Distanzen zwischen allen untersuchten Rassen berechnet. Das neu entwickelte Verfahren setzt an einer grundlegenden Stelle in der Berechnung von genetischen Distanzen an. Prinzipiell setzt sich eine genetische Distanz aus einer Summe von Markerbeiträgen zusammen, die je nach Distanzmaß wiederum Aufsummierungen von Allelfrequenzen darstellen, die innerhalb der beiden Rassen berechnet werden, zwischen denen die jeweilige Distanz benötigt wird. Für jede Rassekombination stehen daher unterschiedliche Markerbeiträge zur Verfügung, die als Summe die Distanz bilden. Stehen für alle möglichen Rassekombinationen alle Marker zur Verfügung, lassen sich auch die entsprechenden Markerbeiträge berechnen, der Datensatz ist also vollständig. Bei unvollständigen Datensätzen, z.B. überlappenden Datensätzen, stehen für die gemeinsamen Rassen Informationen aller untersuchten Marker zur Verfügung, für die jeweils unterschiedlichen Rassen nur die Markerinformationen der jeweiligen Studie. Hier setzt das neue Verfahren an. Anhand der gemeinsamen Rassen zweier Datensätze lassen sich die Markerbeiträge aller Marker berechnen. Anhand dieser Startwerte können mit dem neu entwickelten Verfahren die unbekannten Markerbeiträge für die nicht überlappenden Rassekombinationen geschätzt werden. Aus der Kombination von bekannten und geschätzten Markerbeiträgen lassen sich daraufhin die genetischen Distanzen zwischen allen möglichen Rassekombinationen der beiden überlappenden Datensätze bilden. Das Verfahren wurde anhand einer Simulation mit vollständigen Daten getestet und zeigt hohe Genauigkeiten zu den tatsächlichen Werten selbst bei geringen Überlappungen der Datensätze. Obwohl die Berechnung iterativ erfolgt, ist die Realisierung genauer Ergebnisse in einem kurzen Zeitrahmen erzielbar. Der erforderliche Aufwand an die Hardware ist gering. Die Anwendung des Verfahrens liegt in der erstmals möglichen gemeinsamen Auswertung unterschiedlicher Biodiversitätsstudien und ermöglicht die Berechnung genetischer Distanzen zwischen Rassen, die bisher nie in einer Studie gemeinsam untersucht wurden. Der Wissenszuwachs an der Phylogenie von Nutztierrassen kann aufgrund des neuen Rechenverfahrens ohne nennenswerten Aufwand an Kosten und Arbeit um ein Vielfaches erweitert werden, da auf bereits bestehende Studien mit historischen Daten zurückgegriffen werden kann. Zukünftig bietet sich damit erstmals eine gemeinsame Speicherung verschiedener Mikrosatelliteninformationen in einer gemeinsamen Datenbank an, die, z.B. übers Internet, Forschern die Möglichkeit gibt, ihre eigenen phylogenetischen Ergebnisse mit anderen Studien zu vergleichen und umfassende Analysen zu betreiben. Damit lassen sich theoretisch erstmals genetische Distanzen zwischen allen bislang genotypisierten Nutztierrassen berechnen und einen weltweiten Abstammungsnachweis unserer heutigen Nutztiere aufstellen.
Publications
- (2006) Estimation of genetic distances from two partly overlapping microsatellite marker data sets. Proceedings of the 30th International Conference on Animal Genetics, Porto Seguro, Brazil, August 20-25, 2006
Täubert, H., Bradley, D.G. and Simianer, H.
- (2006) Methods for the meta-analysis of partly overlapping phylogenetic studies. Proceedings of the 8th World Congress on Genetics Applied to Livestock Production, Belo Horizonte, Brazil, August 14-18, 2006
Täubert, H., Bradley, D.G. and Simianer, H.
- (2007) Combi.pl: A computer program to combine data sets with inconsistent microsatellite marker allele size information. Mol. Ecol. Notes. Published article online: 25-Sep-2007
H. Täubert and D.G. Bradley
(See online at https://doi.org/10.1111/j.1471-8286.2007.02011.x) - (2007) Genetic distances estimated from two partly overlapping microsatellite marker data sets. Proc. 58th annual meeting of the EAAP, Dublin 2007
H. Täubert, D.G. Bradley and H. Simianer