Detailseite
Funktionale Annotation von genomischen Innovationen in einer phylogenetisch dicht besetzen Klasse mit Hilfe von Deep Learning
Antragstellerinnen / Antragsteller
Professor Dr. Erich Bornberg-Bauer; Professor Dr. Gregor Bucher; Privatdozentin Dr. Katharina Hoff
Fachliche Zuordnung
Evolution, Anthropologie
Allgemeine Genetik und funktionelle Genomforschung
Bioinformatik und Theoretische Biologie
Allgemeine Genetik und funktionelle Genomforschung
Bioinformatik und Theoretische Biologie
Förderung
Förderung seit 2022
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 503348080
Die vergleichende Evolutionsgenomik nutzt reichhaltige genomischen Daten, um (i) Grundsätze der molekularen Evolution, (ii) die Modalitäten der Genomevolution, (iii) die zugrundeliegende Evolutionsgeschichte der Organismen und (iv) die wahrscheinlichen funktionellen Eigenschaften eines Gens zu verstehen, was wiederum gezielte Experimente ermöglicht. Dies erlaubt einen Blick in die Vergangenheit und damit ein Verständnis dafür, wie genomische Innovationen wie neue Gene oder TEs entstehen und neue Merkmale formen. Dieses Projekt widmet sich einer zentralen Herausforderung der vergleichenden Genomik: das zuverlässige Auffinden und Annotieren von schnell evolvierenden, rezenten Genen, die von klassischen Methoden übersehen werden und die schwer zu annotieren sind, da sie keine eindeutige Homologie aufweisen. Aufbauend auf dem reichhaltigen und qualitativ hochwertigen Datensatz aus der ersten Förderperiode von GEvol (viele Insektengenome, Transkriptome, Ribo-Seq Daten) und bestehenden Pipelines werden wir diese Ressourcen mit Deep-Learning-Methoden kombinieren, um ein automatisiertes Annotationssystem für Genome von Artengruppen zu schaffen. Wir werden den Deep-Learning-Gensucher Tiberius für Insekten trainieren um die grösstmögliche Genauigkeit für die wichtigsten Insektenordnungen zu erreichen. Eine angepasste Loss-Funktion, Klassenausgleich und ein ClaMSA-Track, der fehlende evolutionäre Einschränkungen markiert, lehren das Modell, neue Gene zu erkennen, während RNA-seq, Iso-Seq und Ribo-seq die Exon-Intron-Grenzen verfeinern, präzise UTRs hinzufügen und die Fixationswahrscheinlichkeit eines Gens schätzen. Ein containerisierter Workflow leitet Proteinsequenzen durch ein externes Analysesystem für GO-Terme und verwendet Llama 3, um sie in kanonische Produktnamen umzuwandeln, die GenBank-Filter passieren und automatisiert standardisierte Dateien erzeugen. Primäre Annotationen werden in EMOBase gezielt abrufbar, einem Cluster von gen-zentrierten phänotypischen Datenbanken, die von der etablierten iBeetle-Base für neue Modelle geklont werden. Orthologie wird mit Qualitätsmassen und Mikrosyntenie-Metriken Einträge über Arten und FlyBase hinweg verknüpfen, während AI Literaturzusammenfassungen destilliert. Das Design von EMOBase wird einfaches Hochladen von maßgeschneiderten neuen Tracks, um FAIR-Daten ohne Vollzeitkuratoren zu gewährleisten, ermöglichen. Das GEvol-Team wird auch fortschrittliche (Re-)Annotationsdienste und Workshops anbieten. Einmal trainiert, annotieren die Modelle neue Genome mit minimalem Rechenaufwand, was den Ansatz wirtschaftlich und umweltfreundlich macht. Durch die Analyse des am schwersten zugänglichen Segments des Insektengenraums und die Standardisierung funktioneller Metadaten wird das Projekt robuste Tests darüber ermöglichen, wie genomische Innovationen phänotypische Innovationen vorantreiben, und die Expertise im Bereich des maschinellen Lernens in der Genomik in Deutschland festigen.
DFG-Verfahren
Schwerpunktprogramme
