Detailseite
Ein umfassendes Verzeichnis regulatorischer Elemente und ihrer Rolle in menschlichen Krankheiten
Antragsteller
Professor Dr. Ulf Leser; Professor Dr. Dominik Seelow
Fachliche Zuordnung
Humangenetik
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Bioinformatik und Theoretische Biologie
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Bioinformatik und Theoretische Biologie
Förderung
Förderung seit 2019
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 400728090
Die Untersuchung regulatorischer DNA-Elemente hat in der biomedizinischen Forschung eine lange Tradition. Es existiert eine Flut von Ergebnissen, die von isolierten Messungen einzelner Genaktivitäten über funktionelle Studien bis hin zu international koordinierten genomweiten Untersuchungen reichen. Ein umfassender und qualitativ hochwertiger Überblick über den aktuellen Stand des Wissens hinsichtlich der Genregulation beim Menschen ist eine wichtige Voraussetzung für die Planung zukünftiger Experimente. Die Ergebnisse gezielter, qualitativ hochwertiger Experimente werden jedoch nur in wissenschaftlichen Artikeln veröffentlicht. Die durch Hochdurchsatz-Experimente erhobenen Daten über regulatorische Merkmale wiederum sind über eine Vielzahl von Datenbanken verstreut. Wir wollen nun einen umfangreichen Katalog regulatorischer genomischer Merkmale und Variation in diesen Regionen bei menschlichen Krankheiten entwickeln und der internationalen Gemeinschaft zur Verfügung stellen. Unser Projekt gliedert sich in einen Datenintegrations- (DI) und einen Informationsextraktionsteil (IE). In der letzten Förderperiode haben wir den ersten mit regulatorischen Informationen annotierten Textkorpus entwickelt. Damit wurden Text-Mining Algorithmen trainiert, die regulatorische Sequenzelemente in neuen Texten aufzuspüren können. Dadurch entstand die erste durch Text-Mining gewonnenen Sammlung dieser Elemente und ihrer mutmaßlichen Assoziationen zu Genen und Krankheiten. Darüber hinaus haben wir eine auf Deep Neural Networks und großen Sprach-Modellen basierende Methode zur Normalisierung von Entitäten entwickelt. In der zweiten Antragsphase werden wir uns für die DI auf die Aktualisierung und Erweiterung der Anzahl der integrierten Datenbanken sowie auf die Automatisierung des Integrationsprozesses konzentrieren. Im Bereich IE werden wir unseren Schwerpunkt von der Entitätserkennung und -normalisierung auf die Extraktion von Beziehungen zwischen Entitäten verlagern. Zum Training der Modelle ist eine Erweiterung der Annotation des Korpus notwendig, um Beziehungen zwischen regulatorischen Merkmalen und Genen, Varianten und Krankheiten darzustellen. Wir werden Methoden auf dem aktuellen Stand der Technik zur Relationsextraktion auf diesem erweiterten Korpus trainieren und die trainierten Modelle auf krankheitsspezifische Textsammlungen anwenden. Für die Kuratierung der Ergebnisse werden wir eine innovative Methode zur schnellen Annotation entwickeln, die den Fokus auf Benutzerzufriedenheit und -freundlichkeit legt, ein Aspekt, der bei aktuell zur Verfügung stehenden Softwarewerkzeugen noch zu wenig beachtet wird. Für den schnellen und einfachen Zugriff auf alle im Projekt integrierten, extrahierten und kuratierten Daten zu regulatorischen Merkmalen werden wir eine benutzerfreundliche Web-Schnittstelle mit intuitiven Visualisierungen entwickeln, die in die RegulationSpotter Webseite integriert wird.
DFG-Verfahren
Forschungsgruppen