Detailseite
Projekt Druckansicht

Automatische Reduzierung von Falsch-Positiv-Raten für Homologiesuchen nach RNAs in riesigen Datensätzen

Antragsteller Zasha Weinberg, Ph.D.
Fachliche Zuordnung Bioinformatik und Theoretische Biologie
Biochemie
Förderung Förderung seit 2018
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 393106201
 
Strukturierte RNAs besitzen eine konservierte Sekundärstruktur, die für ihre biologische Funktion wichtig ist..Sie kommen in allen drei Domänen von Lebewesen vor und umfassen z.B. katalytische RNAs, Metabolit bindende Riboswitches und andere regulatorische RNAs. Eine grundlegende Aufgabe, um RNA-Forschung weiter voranzutreiben, besteht darin, Sequenzdatenbanken nach strukturierten RNAs eines bestimmten Typs zu durchsuchen. Diese Aufgabe heißt Homologsuche oder Ähnlichkeitssuche. Wenn viele Homologe einer bestimmten RNA bekannt sind, eignen sich Covariance Models (CMs) gut für diese Aufgabe. Weil Sequenzdatenbanken immer größer werden, werden Falsch-Positiv-Raten in diesen Suchen jedoch in vielen Fällen problematisch. Darüber hinaus will man manchmal Suchen durchführen, um RNAs zu finden, die selten sind oder hypothetische Varianten anderer bekannter strukturierter RNAs sind. In diesen Fällen sind auf Mustern basierende Suchverfahren geeigneter, weil sie biochemisches Wissen über die RNAs ausnutzen können. Leider haben diese Ansätze oft noch höhere Falsch-Positiv-Raten. Um falsche Treffer zu reduzieren, müssen Wissenschaftler außerdem ihre Muster manuell strenger gestalten – ein zeitaufwändiger Prozess, der nur schwer gut durchzuführen ist. In diesem Antrag führe ich Algorithmen ein, die, basierend auf vorläufigen Daten, die Falsch-Positiv-Raten immens reduzieren – z.B. um das 10.000-fache oder mehr. Diese Algorithmen sind vollständig automatisch und belasten die Wissenschaftler daher nicht mit zusätzlicher Arbeit. Sie nutzen Informationen aus, die derzeit nicht von CMs verwendet werden, sodass von den Methoden auch erwartet wird, dass sie die False-Positive-Raten von CMs verbessern. Das vorgeschlagene Projekt wird diese Algorithmen weiterentwickeln und ihre Leistungsfähigkeit verbessern und quantifizieren. Dann werden die verbesserten Suchmethoden verwendet, um neue Formen von katalytischen und Metabolit-bindenden RNAs zu entdecken.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung