Detailseite
Vorhersage von Signalintensitäten in der Massenspektrometrie mittels maschineller Lernverfahren
Antragsteller
Professor Dr.-Ing. Tim Nattkemper, Ph.D., seit 7/2006
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung von 2006 bis 2010
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 16666471
Massenspektrometrie ist eine in der Proteomforschung intensiv eingesetzte Technik zur Identifikation von Protein- und DNA-Sequenzen. Die gemessen Massenspektren liefern Information über die Sequenz einzelner Fragmente. Dabei entspricht die Position eines signifikanten Signals im Spektrum der Masse eines Fragments, während die Signalintensität der relativen Auftrittshäufigkeit des Fragments entspricht. Die Gesamtheit der gemessenen Masse/Intensitäts-Paare eines Spektrums erlaubt Rückschlüsse auf die ursprüngliche Gesamtsequenz der analysierten Probe. In dem beantragten Projekt sollen Methoden entwickelt und untersucht werden, ein Massenspektrum auf Basis der Sequenz vorherzusagen. Während die Masse eines Peaks noch einfach aus der zugehörigen Sequenz zu bestimmen ist, ist die Vorhersage der entsprechenden Signalintensität ein ungelöstes Problem. Ausgehend von den jüngsten Entwicklungen auf dem Gebiet der künstlichen neuronalen Netze und des maschinellen Lernens soll im Rahmen dieses Projektes ein System entwickelt werden, welches moderne Lernverfahren zur Vorhersage von Signalintensitäten in Massenspektren einsetzt. Die verwendeten Verfahren ermöglichen es, den Zusammenhang zwischen der Sequenz eines Fragmentes und der zugehörigen Signalintensität aus einer Menge von Beispielen zu erlernen und sind daher unabhängig von einer expliziten mathematischen Modellierung des zugrunde liegenden physikalischen Fragmentierungsprozesses. Hierzu soll die biologische Sequenzinformation der Beispieldaten in eine vektorielle Repräsentation überführt werden, welche eine Analyse und Verarbeitung mittels numerischer Lernverfahren ermöglicht. Die so trainierten Lernalgorithmen können anschließend zur Vorhersage der Signalintensität neuer Fragmente eingesetzt werden. Die Möglichkeit der Vorhersage von Signalintensitäten für gegebene Protein oder DNA-Fragmente ist ein wichtiger Beitrag zur Verbesserung moderner Techniken der datenbankbasierten Vergleichsanalyse. Während etablierte Techniken nur die Masse signifikanter Signale zur Datenbanksuche verwenden, würde eine Erweiterung der Datenbankanfrage durch Signalintensitäten die Effizienz und Zuverlässigkeit derartiger Verfahren steigern. Die Interpretation und Analyse des Lernprozesses selber erlaubt es weiterhin, neue Erkenntnisse über den Mechanismus der Fragmentierung biologischer Moleküle zu erlangen.
DFG-Verfahren
Sachbeihilfen
Ehemaliger Antragsteller
Professor Dr. Sebastian Böcker, bis 7/2006