Detailseite
Projekt Druckansicht

Projekt Harvester: Verbesserte Vorhersage von molekularen Fingerabdrücken durch Selbsttraining

Fachliche Zuordnung Bioinformatik und Theoretische Biologie
Analytische Chemie
Förderung Förderung seit 2023
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 518231245
 
Die schnelle Annotation kleiner Moleküle ist in zahlreichen Bereichen der Biologie und den Lebenswissenschaften von höchstem Interesse. Massenspektrometrie (MS) ist eine Schlüsseltechnologie für die Annotation kleiner Moleküle aus kleinen Mengen von Proben. Die Strukturaufklärung kleiner Moleküle erfolgt in der Regel mittels Tandem-Massenspektrometrie (MS/MS). Die computergestützte Analyse von MS/MS-Daten ist heute eine der größten technologischen Hürden in der Metabolomik und der Forschung an kleinen Molekülen. Im Jahr 2015 entwickelte meine Gruppe CSI:FingerID für die Suche von MS/MS-Daten in Molekülstruktur-Datenbanken. Später entwickelten wir CANOPUS für die umfassende Zuordnung von Stoffklassen, ohne dass eine Strukturaufklärung erforderlich ist. Im Jahr 2021 veröffentlichten wir den COSMIC-Workflow, der es uns ermöglicht, zwischen richtigen und falschen Annotationen zu unterscheiden. Alle diese Methoden sind auf MS/MS-Daten angewiesen, um die zugrunde liegenden maschinellen Modelle zu trainieren. Leider wachsen die verfügbaren MS/MS-Referenzbibliotheken nur langsam und viel langsamer als Strukturdatenbanken oder öffentlich Verfügbare biologische Daten. Das grundlegende Ziel dieses Projekts besteht darin, die öffentlich verfügbaren biologischen Daten nutzbar zu machen, um unsere maschinellen Lernmodelle zu verbessern. Die Vorhersage molekularer Fingerabdrücke aus MS/MS-Daten von kleinen Molekülen steht im Mittelpunkt vieler Methoden wie CSI:FingerID, CANOPUS und MSNovelist. Das Ziel dieses Projekts ist es, die Qualität der Fingerabdruckvorhersage durch Selbsttraining zu verbessern, indem wir die Milliarden von unannotierten Spektren kleiner Moleküle nutzen, die öffentlich verfügbar sind. Wir werden Hunderttausende von LC-MS/MS-Läufen verarbeiten, die Repositories wie GNPS zur Verfügung stehen. Wir identifizieren dabei Strukturannotationen mit hoher Konfidenz, speisen diese annotierten MS/MS-Spektren als Trainingsdaten für die Fingerabdruckvorhersage ein, und wiederholen diesen Vorgang bis zur Konvergenz. Unser Projekt wird sich in zweierlei Hinsicht auswirken. Erstens können wir die Leistung aller Methoden verbessern, die auf der Vorhersage von Fingerabdrücken beruhen, einschließlich CSI:FingerID, CANOPUS und MSNovelist. Zweitens wird unser Projekt eine große öffentliche Bibliothek von MS/MS mit mutmaßlichen Molekularstruktur-Annotationen generieren. Diese Bibliothek wird es nicht nur anderen ermöglichen, bessere Modelle des maschinellen Lernens zu trainieren (z. B. für Competitive Fragmentation Modeling, CFM), sondern wird auch für die Entwicklung von Computermethoden im Allgemeinen von Nutzen sein.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung