Project Details
Projekt Print View

Compressed Suffix Trees: Design, Construction, and Applications

Subject Area Theoretical Computer Science
Term from 2012 to 2020
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 206825075
 
Final Report Year 2017

Final Report Abstract

Wenn ein Text (z.B. die DNA-Sequenz eines Chromosoms) oder eine Sammlung von Texten (z.B. mehrere Chromosomen oder Genome) nicht oder nur selten verändert wird, dann lohnt es sich in vielen Anwendungen, den Text in einem Vorverarbeitungsschritt zu indizieren. Die erstellte Index-Datenstrukutur wird dann benutzt, um Anwendungen (z.B. den Vergleich zweier Genome) zu beschleunigen. Ein wesentliches Problem tritt bei der automatischen Verarbeitung von großen Datenmengen auf: Wenn der Index nicht mehr vollständig in den Hauptspeicher des benutzten Rechners passt, müssen Teile in den Sekundärspeicher ausgelagert werden. Da dies zu erheblichen Effizienzverlusten führt, war es das Ziel des Projektes, eine Bibliothek von grundlegenden Algorithmen zur Konstruktion von sehr kleinen Index-Datenstrukturen zu erstellen, die auch bei sehr großen Texten noch im Hauptspeicher gehalten werden können. Diese Software-Bibliothek steht nun öffentlich zur Verfügung. Die verwendete Index-Datenstruktur besteht aus vier Komponenten (einem FM-Index bestehend aus der Burrows-Wheeler Transformierten und deren Wavelet-Baum, einem Suffixarray, einem LCP-Array und einer sehr kleinen Repräsentation der Suffixbaumtopologie), und es wurden im Laufe des Projektes Konstruktionsalgorithmen für alle vier Komponenten entwickelt, die bisherige Algorithmen verbesserten. Als Anwendung dieser Index-Datenstruktur wurden neuartige Algorithmen zur Repeat-Analyse und zur Pangenomanalyse entwickelt, die mit signifikant weniger Hauptspeicher auskommen als bisherige Algorithmen.

Publications

 
 

Additional Information

Textvergrößerung und Kontrastanpassung