Detailseite
Projekt Druckansicht

Compressed Suffix Trees: Design, Construction, and Applications

Fachliche Zuordnung Theoretische Informatik
Förderung Förderung von 2012 bis 2020
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 206825075
 
Erstellungsjahr 2017

Zusammenfassung der Projektergebnisse

Wenn ein Text (z.B. die DNA-Sequenz eines Chromosoms) oder eine Sammlung von Texten (z.B. mehrere Chromosomen oder Genome) nicht oder nur selten verändert wird, dann lohnt es sich in vielen Anwendungen, den Text in einem Vorverarbeitungsschritt zu indizieren. Die erstellte Index-Datenstrukutur wird dann benutzt, um Anwendungen (z.B. den Vergleich zweier Genome) zu beschleunigen. Ein wesentliches Problem tritt bei der automatischen Verarbeitung von großen Datenmengen auf: Wenn der Index nicht mehr vollständig in den Hauptspeicher des benutzten Rechners passt, müssen Teile in den Sekundärspeicher ausgelagert werden. Da dies zu erheblichen Effizienzverlusten führt, war es das Ziel des Projektes, eine Bibliothek von grundlegenden Algorithmen zur Konstruktion von sehr kleinen Index-Datenstrukturen zu erstellen, die auch bei sehr großen Texten noch im Hauptspeicher gehalten werden können. Diese Software-Bibliothek steht nun öffentlich zur Verfügung. Die verwendete Index-Datenstruktur besteht aus vier Komponenten (einem FM-Index bestehend aus der Burrows-Wheeler Transformierten und deren Wavelet-Baum, einem Suffixarray, einem LCP-Array und einer sehr kleinen Repräsentation der Suffixbaumtopologie), und es wurden im Laufe des Projektes Konstruktionsalgorithmen für alle vier Komponenten entwickelt, die bisherige Algorithmen verbesserten. Als Anwendung dieser Index-Datenstruktur wurden neuartige Algorithmen zur Repeat-Analyse und zur Pangenomanalyse entwickelt, die mit signifikant weniger Hauptspeicher auskommen als bisherige Algorithmen.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung