Computecluster Bioinformatik
Zusammenfassung der Projektergebnisse
Die Arbeitsgruppe "Crop Bioinformatics" des Instituts für Nutzpflanzenwissenschaften und Ressourcenschutz an der Rheinischen Friedrich-Wilhelms-Universität Bonn entwickelt Methoden zur Vorhersage von Proteinfunktionen und zur Genomanalyse und wendet diese im Rahmen der Interpretation großer Datenmengen aus hochparallelen DNA-Sequenzierungen ("next generation sequencing") an. Zur routinemäßigen Durchführung umfangreicher wissenschaftlicher Rechenaufgaben wurde als Großgerät ein Computecluster mit leistungsfähiger Storage beantragt. Proteinfunktionsvorhersage: Die experimentelle Aufklärung von Proteinfunktionen ist sehr aufwändig. Daher ist für die überwiegende Mehrheit der bekannten Proteinsequenzen, die in großem Maßstab durch Genomsequenzierung bestimmt werden, nur eine bioinformatische Funktionsvorhersage verfügbar. Durch Sequenzvergleich werden Funktionen von ähnlichen und vermutlich verwandten Sequenzen übertragen. AHRD ist eine Methode, die Informationen von vielen ähnlichen Proteinen zusammenträgt und damit genauere Funktionsbeschreibungen übertragen kann. Dafür sind Sequenzvergleiche mit allen bekannten Proteinsequenzen notwendig. Um an einem internationalen Wettbewerb in der Proteinfunktionsvorhersage, Critical Assessment of protein Function Annotation algorithms 2017 (CAFA3, http://biofunctionprediction.org/cafa/), teilzunehmen, mußten Vorhersagen für zigtausende Proteine in wenigen Tagen erstellt werden. Dies war durch den Einsatz des Computeclusters möglich. Annotation und vergleichende Genomanalyse von Grünalgen: Mehrere Chlorella-Stämme zeigen bei sehr hoher Lichtintensität optimales Wachstum. In Zusammenarbeit mit dem Forschungszentrum Jülich und der Universität Aachen wurden durch Sequenzierung von Genom und Transkriptom Proteinsequenzen bestimmt. Deren Funktionen wurden vorhergesagt und Proteinfamilien untersucht, die in allen Stämmen vorkommen beziehungsweise nur in Stämmen, die resistent gegenüber hoher Lichtintensität sind. So konnten Proteinfunktionen bestimmt werden, die möglicherweise mit der Lichttoleranz zusammenhängen. Allel-spezifische Expression in Maishybriden: In der Maisproduktion werden meist Hybride verwendet, weil diese deutlich leistungsfähiger als ihre homozygoten Eltern sind. Dieses Phänomen wird Heterosis genannt. In Zusammenarbeit mit der Professur Crop Functional Genomics von Prof. Dr. Frank Hochholdinger untersuchen wir die Expression von Genen in homozygoten Eltern und Hybriden. Eine wichtige Genklasse nennen wir single parent expression (SPE). SPE-Gene sind nur in einer der beiden elterlichen Inzuchtlinien, jedoch immer in daraus erzeugten Hybriden exprimiert. Eine wichtige Frage ist, ob in den Hybriden auch das Allel exprimiert ist, welches von dem Elternteil stammt, in dem das Gen nicht exprimiert ist. Hierzu muss die allelspezifische Expression nachgewiesen werden. Wir verwenden RNA Sequenzierungsdaten und identifizieren Sequenzunterschiede zwischen den Eltern (Single Nucleotide Polymorphisms, SNP). Diese quantifizieren wir in den RNA Sequenzierungsdaten der Hybriden und können so zuordnen, welches Allel exprimiert wird. Zur Untersuchung von Maissorten, deren Genom nicht sequenziert ist, ist die Assemblierung der RNA Sequenzierungsdaten, also das Zusammenfügen aller Sequenzen eines Gens, notwendig. Mit Hilfe des Computeclusters konnten dieses Aufgaben, welche dutzende Datensätze mit jeweils Millionen von Sequenzen verarbeiten, durchgeführt werden und die Vorgehensweise optimiert werden.
Projektbezogene Publikationen (Auswahl)
-
Stability of Single-Parent Gene Expression Complementation in Maize Hybrids upon Water Deficit Stress. Plant Physiology 173: 1247–1257 (2017)
Marcon C, Paschold A, Malik WA, Lithio A, Baldauf JA, Altrogge L, Opitz N, Lanz C, Schoof H, Nettleton D, Piepho HP, Hochholdiner F