Vom Genotyp zum Haplotyp: Read-basierte integrierte Haplotypisierung ganzer Chromosomen
Zusammenfassung der Projektergebnisse
Die Bedeutung der Genomik hat in den letzten Jahren dramatisch zugenommen. Entwicklungen in diesem Feld beeinflussen zunehmend individuelle Personen sowie die Gesellschaft im Ganzen. Jüngste Fortschritte in der Sequenziertechnologie verändern sowohl die Grundlagen- als auch die medizinische Forschung: Große Genotyp-Phänotyp-Assoziationsstudien sind zur Routine geworden und liefern Erkenntnisse über die genetischen Grundlagen von Krankheiten und die Wirksamkeit von Medikamenten. Diese Fortschritte in der medizinischen Genomik ermöglichen eine personalisierte Medizin. Andere Forschungsgebiete, wie zum Beispiel die Populationsgenetik, profitieren von der Möglichkeit, Millionen genetischer Marker in großen Populationen studieren zu können. Individuelle Genome werden jedoch zur Zeit meistens auf Genotypebene betrachtet. Dabei bezeichnet "Genotypisierung" das Bestimmen der beiden Allele (jeweils vererbt von einem der beiden Eltern) an einem Lokus und kann man mit verschiedenen etablierten Technologien wie z.B. Microarrays oder Genomsequenzierung realisiert werden. Genotypen beinhalten jedoch nicht die Information, ob sich ein Allel auf der paternalen oder auf der maternalen Kopie eines Chromosoms befindet. Weitere Analysen müssen daher mit unvollständiger Information durchgeführt werden. Die vollständigen Sequenzen der beiden Chromosomenkopien werden auch als Haplotypen bezeichnet. Diese vollaufgelösten Genomsequenzen sind unerlässlich, um wichtige Fragen in der Populationsgenetik zu adressieren und haben eine besondere Relevanz für die medizinische Forschung und deren Anwendung in der klinischen Praxis. Mit dem beantragten Projekt stellen wir algorithmische Grundlagen für die Ära der haplotypbasierten Genomik bereit. Es ebnet den Weg für ein genaueres Verständnis von regulatorischen Mechanismen diverser Phänotypen, insbesondere von Krankheiten. Es wird auch dazu beitragen, die sogenannte "missing heritability" aufzuklären – die Tatsache, dass nur für einen Bruchteil von erblichen Krankheitsrisiken entsprechende genetische Varianten bekannt sind. Wir werden Algorithmen zur Haplotypisierung aus Sequenzierdaten entwerfen, implementieren und evaluieren um drei Hauptziele zu erreichen: Erstens werden wir bisher unlösbare Probleminstanzen lösen können. Dies trifft insbesondere auf Probleminstanzen zu, die Daten von verschiedenen experimentellen Plattformen integrieren und dadurch Haplotypen ganzer Chromosomen liefern können. Zweitens werden wir eine detaillierte experimentelle Karte erstellen, die exakt die Stärken und Schwächen verschiedener (Kombinationen von) Technologien aufzeigt und somit von großem Wert für die zukünftige Planung von Studien sein wird. Dies wird durch eine enge Zusammenarbeit mit dem "Human Genome Structural Variation Consortium" erreicht. Drittens werden alle neuen Algorithmen in unsere Open-Source-Software WhatsHap integriert, um eine unmittelbare Nutzung in der angewandten Genomik zu erlauben.
Projektbezogene Publikationen (Auswahl)
-
Fully phased human genome assembly without parental data using single-cell strand sequencing and long reads. Nature Biotechnology, 39(3), 302-308.
Porubsky, David; Ebert, Peter; Audano, Peter A.; Vollger, Mitchell R.; Harvey, William T.; Marijon, Pierre; Ebler, Jana; Munson, Katherine M.; Sorensen, Melanie; Sulovari, Arvis; Haukness, Marina; Ghareghani, Maryam; Lansdorp, Peter M.; Paten, Benedict; Devine, Scott E.; Sanders, Ashley D.; Lee, Charles; Chaisson, Mark J. P. ... & Marschall, Tobias
-
Haplotype threading: accurate polyploid phasing from long reads. Genome Biology, 21(1).
Schrinner, Sven D.; Mari, Rebecca Serra; Ebler, Jana; Rautiainen, Mikko; Seillier, Lancelot; Reimer, Julia J.; Usadel, Björn; Marschall, Tobias & Klau, Gunnar W.
-
The Longest Run Subsequence Problem. In Proc. WABI 2020: 20th International Workshop on Algorithms in Bioinformatics. Editors: Carl Kingsford and Nadia Pisanti; Article No. 6; pp. 6:1–6:13
Sven Schrinner, Manish Goel, Michael Wulfert, Philipp Spohr, Korbinian Schneeberger & Gunnar W. Klau
-
The Lost Recipes from the Four Schools of Amathus. Lecture Notes in Computer Science, 16-23. Springer International Publishing.
Klau, Gunnar W.
-
Haplotype-resolved diverse human genomes and integrated analysis of structural variation. Science, 372(6537).
Ebert, Peter; Audano, Peter A.; Zhu, Qihui; Rodriguez-Martin, Bernardo; Porubsky, David; Bonder, Marc Jan; Sulovari, Arvis; Ebler, Jana; Zhou, Weichen; Serra, Mari Rebecca; Yilmaz, Feyza; Zhao, Xuefang; Hsieh, PingHsun; Lee, Joyce; Kumar, Sushant; Lin, Jiadong; Rausch, Tobias; Chen, Yu; Ren, Jingwen ... & Eichler, Evan E.
-
Using the longest run subsequence problem within homology-based scaffolding. Algorithms for Molecular Biology, 16(1).
Schrinner, Sven; Goel, Manish; Wulfert, Michael; Spohr, Philipp; Schneeberger, Korbinian & Klau, Gunnar W.
-
Genetic polyploid phasing from low-depth progeny samples. iScience, 25(6), 104461.
Schrinner, Sven; Serra, Mari Rebecca; Finkers, Richard; Arens, Paul; Usadel, Björn; Marschall, Tobias & Klau, Gunnar W.
-
Haplotype-resolved assembly of a tetraploid potato genome using long reads and low-depth offspring data. Genome Biology, 25(1).
Serra, Mari Rebecca; Schrinner, Sven; Finkers, Richard; Ziegler, Freya Maria Rosemarie; Arens, Paul; Schmidt, Maximilian H.-W.; Usadel, Björn; Klau, Gunnar W. & Marschall, Tobias
