Spezies-Identifikation und Quantifizierung in der Metaproteogenomik
Zusammenfassung der Projektergebnisse
Hochdurchsatzverfahren wie die Sequenzierung der DNA oder RNA eines Organismus oder die hochauflösende Massenspektrometrie zur Analyse von Proteinen erlauben einen sehr detaillierten Einblick in molekularbiologische Prozesse. Im Rahmen des Projekts haben wir von bioinformatischer Seite die Frage bearbeitet, wie diese verschiedenen Datenquellen integriert ausgewertet werden können. Durch ihre unterschiedliche Herangehensweise haben Sequenzierung und Massenspektrometrie unterschiedliche Stärken und Schwächen und können sich daher in verschiedenen Fragestellungen ergänzen. Die von uns entwickelte Methodik basiert dabei auf einem Netzwerkmodell. Basierend auf Sequenzierungs- und Massenspektrometriemessungen werden nach und nach Knoten in ein Netzwerk eingefügt, die Ergebnisse darstellen. Je nach Zuverlässigkeit und Kohärenz von Ergebnissen werden diese Verbindungen zwischen diesen Knoten ausgebaut und unterstützt. So können zuverlässige Ergebnisse aus verschiedenen Messungen sich stärken und so kann experimentelles Rauschen reduziert werden. Abschließend lässt sich hierauf basierend eine Liste von identifizierten Proteinen erhalten, die deutlich weniger falsche Identifikationen umfasst als bei bestehenden Verfahren und gleichzeitig die selbe (oder sogar höhere) Anzahl an korrekten Identifikationen. Von besonderer Relevanz ist unsere Arbeit dabei für Nicht-Modell-Organismen zu denen nur unvollständige Datenbanken von bekannten Proteinen verfügbar sind und die so nun besser eingeordnet werden konnten. Beispielsweise sind viele Bakterien bislang uncharakterisiert. Hier können unsere Methoden dazu beitragen, Gene besser zu identifizieren und Funktionen zuzuordnen. Im Laufe des Projekts haben wir uns dabei zunehmend auch der Analyse von Umweltproben gewidmet, in der nicht nur einzelne Mikroorganismen, sondern natürlich auftretende Mischungen analysiert werden. Wir haben hier Verfahren entwickelt, die es erlauben, auch sehr ähnliche Bakterien oder Viren noch voneinander zu unterscheiden. Diese Vorangehensweise erlaubt es perspektivisch auch, Hochdurchsatzverfahren für die Feindiagnostik anzuwenden. Als Anwendung haben wir zeigen können, dass sich bspw. zwei sehr nahverwandte Kuhpockengenome alleine aufgrund von massenspektrometrischen Messungen und unserer entwickelter Algorithmik und Software unterscheiden lassen. Untersucht haben wir zudem den Einfluss von möglichen Fehlern in der Identifizierung von Proteinen auf deren Quantifizierung und ein Verfahren entwickelt, um quantitative Proteinmessungen zuverlässiger zu machen. Als Ausblick sehen wir dabei integrierte Identifikationen aus Umweltproben mit oft unzureichender Sequenzabdeckung.
Projektbezogene Publikationen (Auswahl)
-
(2014). Pipasic: similarity and expression correction for strain-level identification and quantification in metaproteomics. Bioinformatics, 30(12), i149-i156
Penzlin, A., Lindner, M. S., Doellinger, J., Dabrowski, P. W., Nitsche, A., & Renard, B. Y.
-
(2015). IPred-integrating ab initio and evidence based gene predictions to improve prediction accuracy. BMC Genomics, 2014, 16(1), 134
Zickmann, F., & Renard, B. Y.
-
(2015). MSProGene: integrative proteogenomics beyond six-frames and single nucleotide polymorphisms. Bioinformatics, 31(12), i106-i115
Zickmann, F., & Renard, B. Y.
-
(2015). iPQF: a new peptide-to-protein summarization method using peptide spectra characteristics to improve protein quantification. Bioinformatics, 2016, 32(7): 1040-1047
Fischer, M., & Renard, B. Y.
-
(2016). Detecting horizontal gene transfer by mapping sequencing reads across species boundaries. Bioinformatics, 2016, 32(17), i595-i604
Trappe, K., Marschall, T., & Renard, B. Y.
-
(2017). Evaluating de novo sequencing in proteomics: already an accurate alternative to database-driven peptide identifiation? Briefings in Bioinformatics. 2017
Muth T, & Renard, B. Y.