Detailseite
Bioinformatische Workflows zur skalierbaren Analyse von pflanzlichen “Omics”-Daten in Cloud-Computing-Umgebungen
Antragsteller
Professor Dr. Alexander Goesmann
Fachliche Zuordnung
Zell- und Entwicklungsbiologie der Pflanzen
Bioinformatik und Theoretische Biologie
Evolution und Systematik der Pflanzen und Pilze
Bioinformatik und Theoretische Biologie
Evolution und Systematik der Pflanzen und Pilze
Förderung
Förderung seit 2021
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 431732981
Landpflanzen haben sich im Laufe der Evolution aus Wasserpflanzen entwickelt und mussten sich dabei an ganz neue Umweltbedingungen anpassen. Eine der wichtigen Anpassungen erfolgte in der sexuellen Reproduktion. Durch jüngste Fortschritte in der DNA- und RNA-Hochdurchsatzsequenzierung ist es heute möglich, die Evolution der sexuellen Reproduktion in Pflanzen auf Genom- und Transkriptomebene kostengünstig im Detail zu erforschen. So lassen sich mit Hilfe moderner Sequenziermethoden auch Referenzgenome von Pflanzen mit sehr großen Genomen erstellen, wie das von Picea abies mit einer Größe von ~20 Gb. Zudem erlaubt die RNA-Sequenzierung eine Analyse der Genexpression, um beispielsweise Pflanzenproben zu vergleichen, die unter unterschiedlichsten Wachstumsbedingungen generiert wurden. Die Evolution der sexuellen Reproduktion von Pflanzen kann so durch den Vergleich von Genom- und Transkriptomdaten unterschiedlicher evolutionärer Entwicklungsstadien nachvollzogen werden. Für dieses Vorhaben werden im Rahmen der Forschergruppe FOR 5098 umfangreiche Datenmengen erzeugt. In diesem Teilprojekt werden wir daher bereits vorhandene automatisierte und standardisierte Analysepipelines zur bioinformatischen Verarbeitung dieser Daten verbessern und neue Workflows entwickeln, die auf die Analyse der Projektdaten zugeschnitten sind. Aufgrund der großen Datenmengen werden wir einen besonderen Fokus auf die Skalierbarkeit der Pipelines legen und diese für eine Ausführung in Cloud-Umgebungen anpassen. Die geplanten standardisierten Experimente in unterschiedlichen Pflanzen schaffen ferner eine Datenbasis, die es uns ermöglicht neue Methoden zum Vergleich von Genexpressions- und Interaktionsnetzwerken zwischen unterschiedlichen Pflanzenspezies zu entwickeln. Unsere IT-Infrastruktur wird für alle Mitglieder der Forschergruppe zur systematischen Speicherung und Analyse der generierten Daten zur Verfügung stehen. Alle Rohdaten, Analysepipelines und Analyseergebnisse, sowie die zugehörigen Metadaten aus der Forschergruppe werden wir entsprechend der FAIR-Prinzipien (Findable, Accessible, Interoperable, Reusable) speichern und zugänglich machen. Besonders rechenintensive Analysen können in unserer Cloud-Computing-Umgebung berechnet werden. Zur Visualisierung von Daten und Analyseergebnissen werden wir eine Web-basierte Nutzerschnittstelle entwickeln. Hier soll es den Nutzern ermöglicht werden, die Daten interaktiv und dynamisch zu visualisieren. Zusätzlich wird es die Möglichkeit geben, die Daten nebeneinander in parallelen Panels in unterschiedlichen Kontexten zu betrachten. Die Panels sollen so miteinander verknüpft sein, dass Anpassungen in einem Panel zu einer Aktualisierung aller anderen Panels führen. Des Weiteren werden wir verschiedene Trainingskurse für die Mitglieder der Forschergruppe anbieten, zum Beispiel zur Verwendung der IT-Infrastruktur oder der Analysepipelines.
DFG-Verfahren
Forschungsgruppen