Detailseite
Ein reguläre Grammatiken berücksichtigendes tiefes Seq2seq-Grundlagenmodell für Genome und Genomannotation
Antragsteller
Professor Dr. Mario Stanke
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Bioinformatik und Theoretische Biologie
Bioinformatik und Theoretische Biologie
Förderung
Förderung seit 2024
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 546839540
Die Genvorhersage ist eine fundamentale Herausforderung in der Genomik, die durch dezidierte Grundlagenmodelle, welche die jüngsten Fortschritte im selbstüberwachten Lernen und der Modellierung von langen Sequenzen nutzen, radikal verbessert werden kann. Gene, welche die Proteine in eukaryotischen Genomen kodieren, folgen einer bestimmten Grammatik von 3-periodischen kodierenden Regionen, die durch potenziell sehr lange nicht-kodierenden Regionen unterbrochen werden. Derzeit erreichen Vorhersagetools, die die Grammatik solcher Genstrukturen mit einem Hidden-Markow-Model (HMM) erzwingen, die besten Resultate. Diese Methoden lernen die Parameter des HMMs jedoch nicht gemeinsam mit neuronalen Repräsentationen der Eingabedaten. Ganzheitliche Deep Learning-Ansätze von Sequenz-zu-Sequenz (seq2seq)-Modellen wie Transformern haben stark an Bedeutung gewonnen und versprechen, den Stand der Technik weiter zu verbessern, falls bestimmte Herausforderungen überwunden werden können. Erstens sind Standard-Transformer nicht in der Lage, lange Kontextinformationen effektiv zu verarbeiten. Zweitens, sind sie nicht geeignet für die Darstellung von Grammatiken. Wir schlagen die Entwicklung eines regelgrammatikbewussten, tiefen seq2seq-Modells (REGRADS) vor, das die Darstellungskapazität von Transformer-ähnlichen seq2seq-Schichten mit der induktiven Verzerrung der Modellfamilien von Conditional Random Fields und Hidden Markov Modellen, die für die Genomik zugeschnitten sind, konsolidiert. Als Komponente werden wir ausgewählte seq2seq-Schichten untersuchen, die - im Gegensatz zu Standard-Transformern - subquadratisch mit der Eingabelänge skalieren. Dazu gehört eine von uns neu vorgeschlagene Alternative, die linear mit der Eingabelänge skaliert. REGRADS wird unüberwacht und halbüberwacht auf einem großen Korpus von Genomen von Arten vortrainiert, die den Baum des Lebens abdecken. Es wird als vielseitiges Grundlagenmodell für die Genvorhersage und andere biologisch relevante Aufgaben dienen. Als solches wird es der breiteren Genomik-Gemeinschaft eine Ressource zur Verfügung stellen. Zu erwartende konkrete Ergebnisse sind: 1) Die REGRADS-Modellarchitektur, welche seq2seq-Schichten mit langer Kontextlänge effektiv mit grammatikbasierten Strukturen integriert; 2) Ein Genom-Grundlagenmodell durch Multi-Genom-Traing von REGRADS, 3) Verbesserungen bei Genvorhersagebenchmarks mit dem Grundlagenmodell.
DFG-Verfahren
Sachbeihilfen
Mitverantwortlich
Professor Dr. Joscha Diehl