Detailseite
Projekt Druckansicht

Deep Learning von Proteinfamilien und Multiplen Sequenzalignment

Fachliche Zuordnung Bioinformatik und Theoretische Biologie
Förderung Förderung seit 2024
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 539129343
 
Alignments dienen als grundlegendes Werkzeug zum Verständnis von Lebewesen auf molekularer Ebene. Die Konstruktion von genauen multiplen Sequenzalignments (MSAs) von diversen und stetig wachsenden Proteinfamilien bleibt jedoch ein ungelöstes Problem. Mit der Zunahme der verfügbaren verwandten Sequenzen tauchen Herausforderungen auf, vor allem weil bestehende Alignmentverfahren nicht darauf ausgelegt sind, die wachsende Datenmenge gewinnbringend zu nutzen. Gleichzeitig ergeben sich auch Chancen. Deep-Learning-Methoden bieten nun eine erhöhte Genauigkeit bei der Bestimmung, ob zwei Reste aus unterschiedlichen Proteinsequenzen von der gleichen Position eines gemeinsamen Vorfahren abstammen, und übertreffen damit die vergleichsweise einfachen Aminosäure-Bewertungsschemata aktueller Alignmentprogramme. Dies ist auf die reichen strukturellen, evolutionären und biophysikalischen Eigenschaften zurückzuführen, die implizit über Millionen von verschiedenen Proteinsequenzen auf der Ebene einzelner Reste gelernt werden. Unser Ziel ist es, genauere MSAs mit modernen End-to-End-Maschinenlernmethoden zu erstellen, die aufkommende Protein-Sprachmodelle mit etablierten Evolutionsmodellen kombinieren. Darüber hinaus streben wir an, das erste modellbasierte und alignmentfreie Tool zu entwickeln, das in der Lage ist, sensitiv nach Homologen einer Protein-Familie zu suchen und somit die Notwendigkeit, ein MSA für die Familie zu erstellen, zu eliminieren. Der Vorschlag baut auf unserem Tool learnMSA auf und erweitert es. Dabei wird ein neues Paradigma zur Konstruktion von MSAs verfolgt: Ein Profil-Hidden-Markow-Modell (HMM) wird direkt aus nicht alignierten Sequenzen mit Hilfe von Gradientenabstieg gelernt. Dies stellt einen Perspektivwechsel dar: Wo traditionell ein MSA der Ausgangspunkt war und das Profil-HMM danach kam, lernen wir umgekehrt das Modell zuerst, was es ermöglicht, bei allen nachgelagerten Aufgaben, die von einem Profil-Modell abhängen, die MSAs zu umgehen.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung