Project Details
Projekt Print View

High-Performance Computing (HPC) Cluster

Subject Area Computer Science
Term Funded in 2010
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 184631690
 
Final Report Year 2016

Final Report Abstract

Mit Hilfe des Computing-Cluster konnten wir viele berechnungsintensive Projekte durchführen, die wir mit unseren bestehenden Resources nicht bewätligt hätten. So konnten wir zum Beispiel hunderten von Tausend nicht-kodierenden RNAs nach sequenz- und strukturähnlichkeit clustern. In den letzten Jahren wurde festgestellt, dass ein Großteil des Genoms nicht für Protein kodiert sondern sogenannte nicht-kodierende RNA (60-80%, im Vergleich zu 1,2% Protein-kodierende Bereiche). Für ein Großteil ist die Funktion nicht bekannt. Clustering ist eine der wenigen Möglichkeiten, hier durch Erkennen von Gemeinsamkeiten eine funktionale Annotation zu erhalten. Die Vergleich hinsichtlich Sequenz und Struktur ist aber sehr aufwendig (O(n^4)) und muss für quadratisch viele Paare berechnet werden. Wir haben dann ähnlich komplexe Verfahren verwendet, um moderne Hochdurchsatz-Experimente wie zum Bsp. CLIP-seq für die Detektion von RNA-Protein-Interaktionen. Hier muss ein komplexes Modell auf Basis einen Graph-Kernels ebenso auf zehn bis hundert von tausenden bekannten Bindestellen gelernt werden. Ein Graph-Kernel kodiert jede Bindestelle mit ihrer Struktur als ein Feature-Vektor von allen möglichen Sub-Graphen der Sequenz/Struktur. Ein weiterer wichtiger Einsatzgebiet, das ohne den Compute-Cluster nicht möglich gewesen wäre, ist der Freiburger Galaxy-Server. Er wurde im Rahmen des Sonderforschungsbereich Medizinische Epigenetik als zentrale Bioinformatik-Analyse eingeführt und hat bereits mehr als 200 Benutzer. Er ist hiermit einer der grösten Server in Deutschland, wir sind einer der führenden Gruppe in der Entwicklung von Galaxy, 500 der weltweit Galaxy ist ein Workflow-Management-System und erlaubt es, viele Aufgaben einfach als Standard-Workflows zu etablieren. Wir konnten sogar viele experimentelle Gruppen darin trainieren, dass sie einfache Standard-Aufgabe in der Analyse von Hochdurchsatz-Sequenzier-Daten selbst durchführen können. Ein sehr wichtiges Merkmal ist die Reproduzierbarkeit der Analysen, da das System die Versionen und Parameter der aufgerufenen Programmen und Datenbanken speichert.

Publications

 
 

Additional Information

Textvergrößerung und Kontrastanpassung