Detailseite
CADD-SV – Bewertung funktioneller Effekte und der Schädlichkeit von Strukturvarianten mittels maschinellen Lernens
Antragsteller
Professor Dr. Martin Kircher
Fachliche Zuordnung
Bioinformatik und Theoretische Biologie
Allgemeine Genetik und funktionelle Genomforschung
Humangenetik
Allgemeine Genetik und funktionelle Genomforschung
Humangenetik
Förderung
Förderung seit 2023
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 528500855
Angesichts der jüngsten Fortschritte bei der Erkennung struktureller Varianten (SVs) und der Untersuchung regulatorischer Genomarchitekturen schlagen wir einen rechnergestützten Ansatz vor, um die Auswirkungen von SVs im gesamten menschlichen Genom abzuschätzen. Aufgrund ihrer Größe können SVs verschiedene Arten von genomischen Sequenzen umfassen, d.h. kodierende Proteine und funktionelle RNAs, Sequenzen regulatorischer Natur, oder Sequenzen ohne erwartete Funktion. Insbesondere können SVs in die regulatorische Architektur des Genoms eingreifen und sind daher in den Fokus der Forschung gerückt, wodurch bisher unbekannte Krankheitsätiologien aufgeklärt werden. In unserer Vorarbeit haben wir einen unverfälschten Trainingsdatensatz entwickelt, um funktionelle SVs von neutralen Varianten zu unterscheiden. Dies liefert uns einen unverfälschten und ausreichend großen Datensatz, um maschinelle Lernmodelle für Einfügungen, Löschungen und Duplizierungen zu trainieren. Bisherige Arbeiten sind ebenfalls Grundlage für eine schnelle SV-Annotation und Zusammenfassung von Daten und ermöglichen es uns, eine große Sammlung von Informationen in einem maschinellen Lernmodell zu kombinieren, um funktionelle und krankheitsrelevante SVs zu identifizieren. Hier werden wir diese Idee weiterentwickeln und insbesondere die folgenden Ziele verfolgen: (1) Verbesserung des Scorings von SVs durch Integration sequenzbasierter Modelle, z.B. zur Vorhersage des potenziellen funktionellen Inhalts eingefügter Sequenzen, (2) Aufnahme neuer Modellmerkmale (z.B. regulatorische Elemente der SCREEN-Datenbank und Genfusionen) und Anwendung von CNNs zur Verallgemeinerung funktioneller Daten (z.B. über viele Zelltypen) oder zur Vorhersage molekularer Assaydaten für neue Sequenzen (z.B. Hi-C-Kontakte mit deepC) und (3) Entwicklung eines robusten und überlegenen Scores für SVs im gesamten Genom – bestätigt durch ein unvoreingenommenes Benchmarking, sowie Modellinterpretation für die relevantesten prädiktiven Merkmale und Bewertung des Beitrags mechanistischer Effekte in pathogenen SVs (z.B. 3D-Architektur vs. kodierende Sequenzeffekte). Das Ergebnis wird ein verbessertes allgemeines Framework (Combined Annotation Dependent Depletion for Structural Variants, CADD-SV) für die computergestützte Bewertung von Strukturvarianten sein, basierend auf der Integration verschiedener Informationen von der regulatorischen Genomarchitektur bis hin zu kodierenden Sequenzeffekten. Wir werden ein innovatives Computerprogramm und eine Scoring-Website entwickeln, um die Priorisierung von SV-Varianten leicht zugänglich zu machen. Die Interpretation unserer Modelle soll mechanistische Einblicke in die Genomregulation liefern sowie eine Ressource für die Entdeckung neuer Genotyp-Phänotyp-Effekte sein.
DFG-Verfahren
Sachbeihilfen