Detailseite
Projekt Druckansicht

Kontextbasierte Entdeckung funktioneller Motive in Regionen mit geringer Komplexität von Proteinsequenzen

Fachliche Zuordnung Bioinformatik und Theoretische Biologie
Förderung Förderung von 2017 bis 2021
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 387883086
 
Regionen mit geringer Komplexität bilden mehr als ein Drittel aller Proteinsequenzen. Diese Proteinregionen wurden als bloße Linker zwischen globulär strukturierten Domänen betrachtet, da sie nicht konserviert sind, sich schnell verändern und bei homologen Proteinen eng verwandter Spezies sehr variabel sind. Unsere Forschung und auch die von anderen weist jedoch zunehmend darauf hin, dass Sequenzen mit geringer Komplexität in Proteinen Funktionen haben, beispielsweise Stellen für posttranslationale Modifikationen mit regulatorischen Effekten sind oder an der Modulation von Interaktionen von Proteinen mit anderen Proteinen oder mit DNA oder RNA beteiligt sind. Diese funktionellen Stellen werden gewöhnlich als kurze lineare Motive (LMs) von zwei bis zehn Aminosäuren identifiziert.Während die Proteinsequenzanalyse für die Identifizierung funktioneller Domänen in Proteinen gut funktioniert, ist der Nachweis von funktionellen LMs in Sequenzen mit geringer Komplexität schwieriger. Die Erkennung von Mustern von Aminosäuren kann verwendet werden, aber die Funktion von LMs wird oft durch ihren Kontext bestimmt, nicht nur durch ihre Sequenz. Dies führt zu einer hohen Rate an falsch Positiven, wenn funktionelle LMs in Regionen mit geringer Komplexität erkannt werden.Um dieses Problem zu lösen, schlagen wir vor, die Mustererkennung von LMs mit der Analyse ihres Kontextes zu kombinieren, (i) innerhalb von Sequenzen (z.B. Co-Auftreten mit funktionellen Domänen), (ii) in der Zelle / im Organismus (subzelluläres Vorkommen, interagierende Proteine, Gewebe) und (iii) auf der taxonomischen Ebene (Artenverteilung).Nicht zuletzt werden wir auch das Nicht-Vorhandensein von LMs in vorgegebenen Proteinkontexten testen, ein Ansatz, der erfolgreich bei genomischen Sequenzen war: vermiedene Motive zeigen funktionelle Motive, die im falschen molekularen Kontext schädlich wären.Die Ergebnisse unseres Projekts sollten die Identifizierung von Tausenden von neuen mutmaßlichen funktionellen LMs auf Proteinen (sogar mit der Länge eins) ermöglichen, angesichts der großen Menge an unerforschten Regionen mit geringer Komplexität in den Proteinen, die in den Datenbanken hinterlegt sind. Diese LMs werden in einer dedizierten Datenbank zur Verfügung gestellt, und die Ergebnisse werden in die EML-Ressource (das bedeutendste Repository für Motivannotationen in Proteinsequenzen mit Sitz im EMBL-Heidelberg) integriert.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung