Design, analysis, development and experimental validation of algorithms for high throughput sequencing mass data using the SeqAn library for biological sequence analysis

Antragsteller Professor Dr. Knut Reinert

Fachliche Zuordnung Bioinformatik und Theoretische Biologie

Förderung Förderung von 2010 bis 2015

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 192954395

Erstellungsjahr 2015

Zusammenfassung der Projektergebnisse

Während der letzten Dekade konnte ein super-exponentielles Wachstum von Sequenzierungsdaten durch die rapide Entwicklung moderner Sequenzierungsverfahren beobachtet werden. Zum Zeitpunkt des Schreibens dieses Berichtes hatte eine einzige Sequenziermaschinen bereits einen Durchsatz von 30 Milliarden Nukleotiden pro Tag. Ziel dieses Projektes war es entsprechend der massenhaften Generierung von Sequenzierdaten neuartige Datenstrukturen und Algorithmen zu entwickeln, die in komprimierter Form repräsentiert werden können. Wir haben die Implementierung des Journaled Strings verbessert um noch mehr Speicher einzusparen und um die Datenstruktur schneller zu iterieren. Im Anschluss haben wir ein entsprechendes Dateiformat entworfen und eine Applikation implementiert um die Daten anzuzeigen, zu modiﬁzieren oder darzustellen. In der zweiten Phase des Projekts entwickelten wir eine neuartige Datenstruktur um die Daten in vertikalem Modus zu repräsentieren. Dies bedeutet, dass die Unterschiede zwischen einer Donorsequenz und einer Referenzsequenz nicht pro Sequenz gespeichert werden, sondern dass die Diﬀerenz für alle Sequenzen gleichzeitig sichtbar ist. Mit dieser Repräsentierung konnten wir einen generischen Algorithmus entwickeln, der die Sequenzen daten-parallel traversiert. Das heißt redundante Bereiche werden nur einmal betrachtet. Wir haben die Datenstruktur und den Algorithmus auf mehr als 2000 Sequenzen vom Chromosom 1 getestet und mit der naiven Suchstrategie verglichen und ausgewertet.

Projektbezogene Publikationen (Auswahl)

Unifying Alignment Algorithms Using Generic Meta-Programming. Intelligent Systems for Molecular Biology (ISMB) (ISCB 2013), July 21-23, Berlin
R. Rahn, D. Weese, M. Holtgrewe and K. Reinert
Journaled string tree - a scalable data structure for analyzing thousands of similar genomes on your laptop. Bioinformatics (2014) 30 (24): 3499- 3505
Rahn, René; Weese, David & Reinert, Knut

Servicenavigation

Hauptnavigation

Design, analysis, development and experimental validation of algorithms for high throughput sequencing mass data using the SeqAn library for biological sequence analysis

Zusammenfassung der Projektergebnisse

Projektbezogene Publikationen (Auswahl)

Zusatzinformationen

Servicenavigation

Hauptnavigation

Design, analysis, development and experimental validation of algorithms for high throughput sequencing mass data using the SeqAn library for biological sequence analysis

Zusammenfassung der Projektergebnisse

Projektbezogene Publikationen (Auswahl)

Zusatzinformationen

Textvergrößerung und Kontrastanpassung