Detailseite
Projekt Druckansicht

Methoden des maschinellen Lernens zur Rekonstruktion von Genomen in der Metagenomik

Antragsteller Dr. Peter Meinicke
Fachliche Zuordnung Bioinformatik und Theoretische Biologie
Förderung Förderung von 2016 bis 2020
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 324226106
 
Die Metagenomik ist zu einem Standardansatz für die Analyse von mikrobiellen Organismengemeinschaften geworden. Die Sequenzierung von klinischen Proben oder Umweltproben liefert große Mengen von kurzen Sequenzfragmenten, die eine umfangreiche Analyse der taxonomischen Zusammensetzung und des metabolischen Potentials ermöglichen. Der Fortschritt in den Sequenziertechnologien hat zu einer beträchtlichen Steigerung der Sequenziertiefe geführt, so dass es möglich wird, längere Abschnitte von Genomsequenzen (Contigs) selbst für hochdiverse Gemeinschaften zu assemblieren. Neuere Studien haben gezeigt, dass es möglich ist, nahezu komplette Genome zu rekonstruieren, indem die Contigs durch sogenannte Binning-Methoden geeignet gruppiert werden. Das Metagenom-Binning stellt eine rechenintensive und methodische Herausforderung dar und obwohl die derzeitigen Softwarewerkzeuge alle ähnliche Clustertechniken verwenden, so hängen die Ergebnisse entscheidend von benutzerdefinierten Parametern ab und zeigen eine hohe Variation der Qualität in Abhängigkeit von den betrachteten Gemeinschaften und den eingesetzten Werkzeugen. Um das volle Potential des Metagenom-Binning Ansatzes auszuschöpfen, soll ein Rahmenwerk des Maschinellen Lernens entwickelt werden, das die automatische Optimierung der Genauigkeit und der Reproduzierbarkeit der Ergebnisse ermöglicht. Um dieses Ziel zu erreichen, sollen aktuelle Modelle des maschinellen Lernens zusammen mit statistischen Modellen für Zähldaten und einer auf Simulation basierten Kontrolle der Modellgüte eingesetzt werden. In Zusammenarbeit mit dem Joint Genome Institute in Walnut Creek soll ein neuer Ansatz entwickelt werden, mit dem sich die Vollständigkeit und die Kontaminierung von rekonstruierten Genomen auf Grundlage der Proteindomänenverteilung und durch Alignments mit bekannten Genomen bestimmen lassen. Im Unterschied zu den derzeitigen Binning-Schemata, die eine Abschätzung der erzielten Genomqualität ans Ende der Verarbeitungskette stellen, soll die Qualitätskontrolle beim lernbasierten Ansatz in den Optimierungsprozess integriert werden. In der Fortführung einer bestehenden Kooperation mit der Abteilung für genomische und angewandte Mikrobiologie in Göttingen soll zudem untersucht werden, in wie weit Sequenziertechniken der dritten Generation durch besonders lange Rohsequenzen die Überprüfung und Verbesserung der Binning-Qualität erlauben. In Kooperation mit der Abteilung Forstbotanik und Baumphysiologie in Göttingen soll der Binning-Ansatz auf mikrobielle Pilzgemeinschaften erweitert werden, um neue Möglichkeiten für die ökologische Anwendung zu eröffnen.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung